【實戰101】手把手教你尋找並排除虛假異常流量!

本文長度爲1823字,預估閱讀時間5分鐘

引言:本文結合了作者豐富的互聯網數據分析實戰經驗,深度剖析瞭如何運用GA來發現,分析並排除虛假和異常流量。

作者 | 孫維

編輯 | CiCi

我們爲什麼關注流量的變化?因爲我們需要數據來指導和評判工作。但如果流量中混入了虛假/異常的成分,就可能導致我們做出錯誤的決策而蒙受損失。所以今天我要和大家分享一下如何用GA尋找異常流量,並且將其排除。這個過程大致可以分爲三步:

發現異常流量

對於比較“低級”的異常流量,最容易在兩個維度上被發現:

  • 小時分佈

正常的流量在全天的分佈大致如此:

而異常流量往往與之差異明顯:

這些在凌晨依然活躍的流量非常可疑,此時我們可以調出第二指標的曲線,看看跳出率、會話時長和每次會話瀏覽頁數。

常見的虛假流量每次會話只訪問一個網頁,也就是說跳出率是100%,會話時長是0,瀏覽頁數是1,因此它們會明顯影響整體粘性數據。

  • 直接來源流量

多數情況下的異常流量都是沒有來源信息的,在GA裏的來源/媒介是:(direct) / (none),所以如果我們發現無來源的流量有明顯上漲,那就需要注意了。

同樣的,我們也要看一下跳出率、會話時長和每次會話瀏覽頁數,如果所有的都明顯變差,那我們就更有把握認爲這是異常流量。

發現可疑流量後,除了看粘性指標以外,也可以使用高級細分進行交叉驗證。也就是用發現問題的那個維度進行條件細分,再到另一個維度中去查看數據。例如我們先細分出直接來源流量,再看它的小時分佈,就更能斷定其中有問題。

  • 其他異常流量

除了以上兩種最簡單的情況之外,有時異常流量並不那麼明顯。例如我們見過來源是 baidu / organic 的奇怪流量,它們只訪問特定的三個頁面,並且只在中午12點以後訪問。這樣的流量是怎麼被發現的呢?

首先我們在“受衆羣體-技術-網絡-主機名”中看到某個域名的會話數明顯上漲,然後到“行爲-網站內容-所有頁面-內容分組”中,查看到底是哪類頁面訪問量上升了(注意,內容分組需要額外設置纔會有),找到之後再看這類頁面之下是哪些具體頁面在上漲,最後再用高級細分聚焦這幾個頁面,於是發現了以上的問題。

經過多方查證之後我們基本認定,這是某個廠商在試圖提升自己網站在百度的自然搜索排名。但如果只在搜索結果中點擊該廠商自己的網站,太容易被認定爲作弊,所以他們就連帶着點擊搜索結果中的其他網站,包括我們的頁面,於是我們就看到了上面那一幕。

總結一下,如果發現流量明顯上漲,首先可以看小時和直接來源流量這兩個維度有沒有異常。其次可以在各個維度中尋找,有沒有粘性指標明顯變差的個別項目。找到以後,接下來的步驟就是分析異常流量。

分析異常流量

僅僅發現異常流量還不夠,我們需要找到它們的特徵才能將其精準排除。例如我們發現直接來源流量明顯上漲,但並不能把所有直接來源都排除掉,畢竟其中還有很多真實流量。要想精準排除,首先要將異常流量“提純”——我們先用高級細分聚焦直接來源流量,看看能在哪些維度上發現特徵:

建立高級細分後,我們到各個報告中瀏覽一下,果然發現了異常狀況:

明明是移動版的網站,爲什麼突然增加了這麼多Windows操作系統的訪問量?而且幾乎全是新用戶,顯然有問題。

我們再調出次級維度,看看瀏覽器UA的信息。結果這下更不得了,Windows居然用上了iPhone瀏覽器,這流量的異常算是證實了。(這裏需要解釋一下:這個“瀏覽器UA”是我們在GA中配置的自定義維度1,然後需要在統計代碼中加入:

'dimension1':navigator.userAgent

纔可以生效。瀏覽器UA是尋找虛假流量的利器,建議大家都配置一下)

排除異常流量

當我們找到了異常流量的特徵,後續的事情就簡單了:建一個高級細分,將Windows系統並且瀏覽器UA中包含iPhone的會話排除掉,這些異常流量就消失了。

以上是“發現-分析-排除”異常流量的一個案例,可以看到其中最重要的步驟其實是第二步——只有在某些維度上能夠精準篩選出異常流量,才能在不影響正常流量的情況下將其排除。以下是我最近遇到的另一個異常流量,它的特徵是瀏覽器UA開頭結尾都帶有雙引號(正常情況不該有):

在這種情況下,除了用高級細分排除異常之外,還有一個更好的解決方案:在前端統計代碼中直接加入判斷,如果發現以雙引號開頭和結尾的瀏覽器UA數據,就不執行統計代碼,於是這些異常流量就被從根源上排除了,根本不會進入數據系統之中。

另外對於GA的用戶,在用於做分析的主視圖中一定要把下面這個選項選中,能排除掉大部分爬蟲流量:

最後還有一種常見情況,例如運營論壇的同事做了一個“簽到抽大獎”的活動,就可能導致大量低粘度的用戶突然訪問,看起來似乎也是異常,所以作爲分析師要經常和產品/運營部門溝通,避免做無用功。

最後我想說的是,發現和排除異常流量是一場持久戰,沒有永遠的贏家和輸家,我們能做的就是和同事一起不斷髮現和總結,提升識別和排除異常流量的能力。

關於作者

孫維,卡車之家數據資產中心總監,互聯網從業15年,數據分析從業6年老兵。Google Analytics資深使用者,「數據分析日常」公衆號博主

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章