[GA4] 為什麼 GA4 報表數據不一致?閾值?(other) 資料列?資料取樣?

GA4 網站分析商務實戰 Jul 27, 2023
快速導覽

最後更新:2024 - 1 - 5
更新紀錄
2024-1-5 : Google 宣布 2024年2月12日起移除GA4預設報表中的Google 信號。

GA4 的報表實務上,很常會遇到的問題就是「為什麼我的GA4報表數字怪怪的?」「為什麼GA4報表數字跟其他平台對不起來?」😱

確實 GA4 存在某些機制,使我們看到的數據並非數據的全貌。以下三項是 GA4 為了提升資料安全性與處理速度的個作法,它們並不算 Bug 所以不會「被修復」。如果報表數據不如預期,不妨往下逐一查詢原因,以及是否有破解的方法?

  • 資料閾值
  • (other) 資料列
  • 報表取樣

一、資料閾值 Data thresholds

最後更新:2024 - 1 - 5
Google Analytics 宣布 2024 年 2 月 12 日起移除 GA4 預設報表中的 Google Signals。這項變更只會影響 GA4 中的報表呈現,已啟用 Google Signal 的資源仍會蒐集相關的資料並且不影響廣告。因此報表識別採用「混合」或「已列為觀察項目」,並且啟用 Google Signals 情況下,GA4 的報表較不容易受到資料閾值屏蔽。 另外,這項更新不代表資料閾值完全不會出現在報表中。

⚠️ 出現訊號

  • 資料品質圖示:紅色/已套用門檻
  • 資料列:無立即可發現的異常
  • 資料數字現象:報表數字小於真實事件數、特定交易ID找不到、特定來源媒介找不到、特定網頁路徑、網頁標題找不到...(通常是事件數不多的資料)

查看報表時,如果發現標題右側的資料品質圖示出現紅色三角型的警示圖示

資料品質圖示,當它呈現紅色,代表數據可能不完全真實。

點擊它發現標註「已套用門檻」,這是什麼意思?

簡而言之,一旦系統判斷有潛在暴露單一使用者或一小群受眾的特徵的機會時,GA4會屏蔽這些資料,在 GA4 中被稱為「資料閾值」。

這些情況包含:

  • 啟用 Google 信號,並且所選日期區間的使用者人數過少時。(Google 信號於2024 年 2 月 12 日後不再套用於 GA4 預設報表。)
  • 報表包含受眾特徵資訊,但是使用者人數過少時。
  • 查看「搜尋查詢」相關維度指標時,使用者人數過少時。

雖然多次提到「使用者人數過少」可能會被套用閾值,事實上並沒有一個明確的【人數】可以達到閾值標準。根據官方文件,閾值是由系統決定並且沒有公開明確的數字。

https://support.google.com/analytics/answer/9383630?hl=zh-Hant

💡 如何避免被套用門檻/閾值

  1. 在報表中不加入 Google 信號 (Google 信號於2024 年 2 月 12 日後不再套用於 GA4 預設報表。)
    要避免閾值最直接的方法是關閉「Google信號資料蒐集」,但是對於要將資料用於再行銷名單的 GA4 資源來說,並無法這麼做。
    因此 GA4 後續增加「在報表識別資訊中加入 Google 信號」選項。此選項預設為"開啟",在將其"關閉"後,代表在報表中可以 "" 採用 Google 信號的資料以避免閾值,同時可以受益於 Google 信號之於廣告的優勢。
在啟用 Google 信號同時,關閉「在報表識別資訊中加入 Google 信號」

2. 將報表識別資訊改為「依據裝置」
要顯示被屏蔽的資料,到管理後台的「報表識別資訊」將辨識使用者的方法改為「依據裝置」。跟著以下步驟操作:

在管理後台選擇「報表識別資訊」,然後點擊「全部顯示」
選擇【依據裝置】後儲存
改用前(報表識別:混合 Blended)
改用後(報表識別:依據裝置 Device base

改用「依據裝置」前後,發現資料取樣圖示變成綠色,並且報表數字變多,事件計數與總人數都有所增加。

(「總人數」增加也有可能是因為跨裝置使用者在改為依裝置判後被辨識為多個使用者,因此不完全是閾值的關係。但因為示範的資源只有網頁版,並且沒有登入機制,所以可以確定增加的使用者來自於被屏蔽的使用者。)

(「事件計數」則不會受到使用者辨識方式的影響,因此事件計數的增加就代表報表呈現了先前被屏蔽的事件,是很明確的訊號)


※ 無論是關閉「在報表識別資訊中加入 Google 信號」或將報表識別設定為「依據裝置」,報表中的「客層 Demographic」資料,例如性別、年齡、興趣資料也會一併消失。
※ 注意!即使報表識別使用【依據裝置】還是有可能會被套用門檻/閾值,以資料品質圖示顯示的為準。
※ 注意!如果使用【匯入使用者資料】功能,將報表識別改為【依據裝置】時,無法查看、使用匯入的資料。因此有使用此功能的資源,在確認報表數據後,記得要切換回原本的【混合】或【已列為觀察項目】。

資料閾值要點

  • 報表標題右側的「資料品質圖示」可以確認報表是否被套用閾值。
  • 「報表識別資訊」改用「Device base 依據裝置」時,"有機會"可以解鎖被屏蔽的資料。
  • 切換「報表識別資訊」並不會改變資料被蒐集的方式,背後的原始資料還是相同,只是整理數據的方式不同,因此我們在不同的識別方式切換不會造成資料問題。這些設定在儲存後的幾乎立即就會生效,並且會作用於歷史資料。(白話文:想看的時候儘管切換設定,用完記得切回去原本的設定即可。)

二、(other) 資料列

⚠️ 出現訊號

  • 資料品質圖示:紅色,已壓縮部分資料
  • 資料列:出現 (other)
  • 資料數字現象:天數較長的指標數字反而小於天數短的、找不到特定資料、數字小於實際發生事件數
資料品質圖示出現「已壓縮部分資料」。「展開這項資料」為付費版的 GA4 360 才有的功能

有時候會發現報表中出現「(other)」資料列,當它出現的時候幾乎都是名列前茅,伴隨 (other) 出現的是發現其他網頁路徑的瀏覽量似乎少了很多。

要了解 (other) 需要先初步認識名詞「高基數」 ,高基數代表的是某個屬性具有大量的變量。例如一個熱門的新聞網站,整個網站有非常大量的的新聞內容,每一篇新聞都有獨立的網頁標題,因而網頁標題的不重複資料列非常可觀,因此這個網站的「網頁標題」可視為一個高基數的屬性。在GA4的報表中,當不重複資料超過限制(一般為500列,但某些報表的基數限制較高,例如網頁與畫面報表),GA4 會將部分的資料收納到 (other) 中。

當報表包含 (other) 資料列時,同一筆資料可能一部分收納在 (other) 裡,另一部分出現在報表中。可能會產生一個疑問:既然資料的屬性一樣,為什麼不是全部收到 (other) 中呢?這是因為 GA 每一筆資料都含有多個欄位,雖然在查看報表當下只採用一個欄位,但其實符合該欄位條件的資料都還附帶別的屬性。例如採用網頁標題,雖然單看一篇文章的網頁標題時每個訪客都相符合,但是訪客的裝置、拜訪時間等資訊都會有差異,資料就會根據這些差異展開。

以下圖為例,網頁路徑「/ga4_sesson_source_medium_not_set/」7/1 - 7/7 七天的網頁瀏覽量卻小於 7/5 單獨一天的瀏覽量 。這其實是因為部分的瀏覽紀錄被收納在 (other) 資料列中的結果。

補充說明,此時雖然個別資料列數據可能有少,但是事件計數的「總和」是維持不會變的,資料只是被收納在 (other) 中,不是消失。

當資料存在(other),有重複時間的7天的瀏覽量反而小於1天的瀏覽量,這是因為部分資料被收納在(other)中

💡 如何避免(other)

  • 縮短報表日期區間。
  • 改在「探索」報表查看數據,可以點擊資料品質圖示的「建立探索」。探索報表不會被套用 (other)資料列 (但是可能發生取樣)。
  • (限 360 資源) 點擊資料取樣圖示「展開這項資料」。
  • (限 360 資源) 經常查看的報表也會自動套用「展開資料」。
  • 從 BiqQuery查詢資料。

三、報表取樣

⚠️ 出現訊號

  • 資料品質圖示:紅色,已取樣 報表
  • 資料列:無明顯異常
  • 資料數字現象:無明顯異常

報表取樣出現的時機:

  1. 探索報表:每筆查詢超過1000萬個事件時套用取樣。(GA4 360為10億個事件)
  2. 預先定義的報表:預設報表中只有「漏斗報表 Funnel」可能被套用取樣。其他預先定義的報表與即時等報表並不會被套用取樣。

預先定義的報表【使用者購物歷程】報表形式為「漏斗報表」,有可能被套用取樣。

💡 如何避免報表取樣

  • 縮短報表日期區間
  • (限 360 資源) 點擊資料品質圖示,從「更快呈現結果」切換為「更詳細的結果」,有機會呈現未取樣結果。
  • (限 360 資源) 點擊資料品質圖示,點擊「未取樣探索」報表
  • 從 BiqQuery查詢資料。

四、Looker Studio

⚠️ 出現訊號

  • 資料品質圖示:無
  • 資料列:出現 (other)、其他的狀況較不明顯
  • 資料數字現象:同樣的條件下數字小於 GA4 探索報表的結果

Looker Studio 直接串接GA4時,其資料來源為 Google Analytics Data API,因此也適用相同限制。

  • 閾值:有,GA4 被套用閾值時 Looker 資料會與 GA4 介面相同。
  • (other):有,GA4 預先定義的報表出現 (other) 時 Looker 也會有。
  • 取樣:預設維度與指標:沒有 / 漏斗:可能有。

被套用閾值時,由於 GA4 報表與 Looker Studio 會呈現同樣的結果,因此比較難發現。懷疑的時候可以回到 GA4 的報表中,相同條件下,確認「資料品質圖示」。

比較常見的場景是在 Looker Studio 套用篩選器後,發現報表數字比 GA4 探索報表的結果少很多。大多因為在 Looker Studio 中套用了篩選器所以看不到 (other) 資料列,因此要驗證是否被套用 (other) 。可以「移除套用在 Looker Studio 圖格上的所有的篩選器,以查看資料列中是否包含 (other) 資料」。

出現在 Looker Studio 報表中的 (other) 資料列

💡 如何避免 Looker Studio 的資料問題

  • 閾值:回到報表將「報表識別」改為「依據裝置」,並在預先定義的報表中確認資料品質圖示。
  • (other):縮短報表日期區間
  • (推薦)從 BiqQuery查詢資料。


結論

當上述的方法都嘗試過後依然無法取得完整的資料,代表必須將資料匯出到 BigQuery 進行查詢。這麼做的技術門檻比較高,需要懂得查詢語言;並且若當資料超過 100萬個事件 / 1天 的資料量時,GA4會停止匯出 資料,造成 BigQuery 中的資料也不齊全。事若至此,難道已走到盡頭,束手無策了嗎?最後還有兩個終極選項:

  1. 設定篩選要匯出到 BigQuery 的事件,減少匯出事件數,使其符合100萬個事件 / 1天 的限制。
  2. 購買付費版的 GA4 360,每日可以匯出的事件量可上升至10億。

參考資料

https://support.google.com/analytics/answer/13644080?hl=zh-Hant&sjid=17101872268680127955-AP#zippy=%2Ctable-footnotes%2C%E8%A1%A8%E6%A0%BC%E8%A8%BB%E9%87%8B

如果有其他疑問或指教,歡迎留言交流,一起成長!😊


Tags

一吉 Izzy

在巨人的肩膀上快快樂樂探索。