算法系列 - 廣告反作弊概述

以下所有內容均整理於各種博客

一、廣告名詞解釋

網絡營銷之所以越來越受到重視一個主要的原因就是因爲“精準”。相比較傳統媒體的陳舊廣告形式,網絡營銷能爲廣告主帶來更爲確切的效果與回報,更有傳統媒體所沒有的即時互動性。很多企業藉助於精準的網絡營銷成爲人盡皆知的知名品牌。衆多的成功案例吸引着更多的企業計劃投入到網絡營銷中的大潮中來。那麼我們在做網絡營銷前應該要了解哪些基本知識呢?博大精微數據庫營銷今天開始爲您一一講解。首先我們來了解一下網絡營銷中的幾個常見基本術語:CPA、CPS、CPM、CPT、CPC

他們的英文全稱與基本含義分別是:

1.CPA(Cost Per Action) 每行動成本。CPA是一種按廣告投放實際效果計價方式的廣告,即按回應的有效問卷或註冊來計費,而不限廣告投放量。電子郵件營銷(EDM)現在有很多都是CPA的方式在進行。

2.CPS(Cost Per Sales):以實際銷售產品數量來換算廣告刊登金額。CPS是一種以實際銷售產品數量來計算廣告費用的廣告,這種廣告更多的適合購物類、導購類、網址導航類的網站,需要精準的流量才能帶來轉化。

3.CPM(Cost Per Mille) 每千人成本。CPM是一種展示付費廣告,只要展示了廣告主的廣告內容,廣告主就爲此付費。

4.CPT(Cost Per Time) 每時間段成本。CPT是一種以時間來計費的廣告,國內很多的網站都是按照“一個星期多少錢”這種固定收費模式來收費。

5.CPC(Cost Per Click) 每點擊成本。CPC是一種點擊付費廣告,根據廣告被點擊的次數收費。如關鍵詞廣告一般採用這種定價模式,比較典型的有Google廣告聯盟的AdSense for Content和百度聯盟的百度競價廣告。

通過以上信息我們知道:

(1)CPT和CPM只在第一步收取廣告費用,即媒體只需要將廣告對廣告受衆進行了展示,即可向廣告商收取廣告費用。

(2)CPC只收取第二步費用,消費者看到廣告後並進行了點擊行爲以後,媒體向廣告商收取廣告費用。

(3)CPA和CPS處於第三步,即消費者有看到廣告後並點擊了廣告,進一步瞭解活動情況後在廣告主的網站完成某些特定行爲(例如付款消費,填表註冊等)。

二、廣告作弊手段

古語說:無利不起早,所有的作弊行爲都是基於一些利益導致的。

結合互聯網廣告的結算方式和角色訴求,常見的作弊方法有以下幾種:刷請求,刷曝光,刷點擊,刷留存,刷激活

對應以上的結算方式

CPD和CPM廣告一般對應的刷量方式就是刷請求,曝光。

CPC一般要對應刷點擊,

CPA,CPS需要刷留存,刷激活等行爲。

目前已知的刷量方式有以下幾種:

機器模擬:使用機器或程序來模擬廣告行爲,或者通過木馬和肉雞模擬用戶的廣告行爲。爲了使點擊行爲不被規則類發現還會控制ip分佈和時間。機器模擬有如下的方法:

模擬器:BlueStacks, AndyWin, GenyMotion

Spoofer: 不斷的修改機器的IP , IMEI, MAC等

Proxy: 網關,修改ISP, IP, UA , 設備類型等

蘋果: 沒有模擬器,主要通過硬件和軟件模擬

激勵流量(incent Traffic ): 真實人流量,但是轉化率差的流量。

其實對於請求,曝光,點擊等行爲本質上是一樣的,都可以使用以上的方式進行請求,不同的地方大多是不同的服務地址。

刷激活方法:作弊廣告渠道商採集了非常多的設備信息,他們會瘋狂往對方廣告點擊日誌服務器發送設備點擊信息,當激活日誌服務器採集到對應設備的激活,就會認爲是該作弊渠道商的。

用戶戶無意行爲:媒體或網盟的小站長在頁面掛滿廣告或誘導小白用戶誤點擊或刷新頁面也會產生作弊數據。

人工作弊:真的僱人用真實的設備進行廣告的各種行爲操作。

還有一種不能算作作弊手段,但其依然是無效流量應該被排除,那就是搜索引擎。各家搜索引擎大量爬取着整個網絡,依然會消耗巨大的廣告預算。

三、廣告反作弊規則方案

反作弊工作需要事前預防、事後追溯、人工排查、智能算法等方式多管齊下。下面從“ 用戶標識、 用戶行爲、 廣告來源” 三個角度講解反作弊的基礎理論和方法,基於這些理論和方法,我們才能更好地去完善反作弊算法和人工排查。

3.1 用戶標識

一般是根據IP、 cookie(或設備ID)作爲分辨用戶的依據,統計某些用戶是否存在高頻次或高頻率曝光或點擊。

有些媒體會通過機器人來變換IP,干擾視線,這種情況下就必須綜合考慮瀏覽器指紋等信息來識別作弊流量。比如: 當IP或者cookie都不一樣,但是這羣IP或者cookie的瀏覽器型號、分辨率、用戶窗口大小、操作系統版本號、設備品牌都相同時,就需要引起特別注意。

3.2 用戶行爲

廣告瀏覽/點擊對用戶的廣告瀏覽頻次/頻率和點擊的頻次/頻率進行分析。常見的作弊行爲模式包括:

  1. 同一用戶、同一時間在多個廣告位產生了瀏覽或點擊行爲,或短時間內在同一廣告位產生多次曝光或點擊;

  2. 同一用戶的廣告瀏覽或點擊時間間隔過於規律;

  3. 曝光數和點擊數在某個時間點暴漲;

  4. 用戶未瀏覽廣告就直接產生了點擊行爲,通常表現爲出現大量無曝光的點擊;

  5. 用戶瀏覽廣告的面積和時長數據異常,可用廣告可見度(Viewability)衡量和分析;

  6. 用戶點擊廣告的位置過於規律或過於集中,一般用廣告位熱圖來觀察分析;

  7. 用戶行爲的各環節(瀏覽廣告->點擊廣告->到站->轉化)遵循嚴謹的時間先後順序,如果點擊廣告的時間早於瀏覽廣告的時間,或瀏覽和點擊行爲之間的時間間隔異常,一般可以判斷爲作弊。

到站情況綜合考量用戶留存、停留時間,訪問深度等指標,用於分析轉化用戶的質量。同時,還得關注用戶的站內交互情況(點擊、滾動、輸入等操作)。和廣告點擊作弊一樣,爲了製造用戶活躍的假象,作弊的媒體供應方可能會利用機器產生大量頁面點擊,同樣地,我們可以利用點擊的區域、次數、頻率、頁面窗口大小等指標去僞存真。

3.3 廣告來源

對到站流量進行來源頁面(一般叫refer)的偵查。將refer數據與投放媒體進行匹配,如果出現以下情況,則可以判定爲作弊流量:

1.出現大量無refer的廣告流量:一般是通過非法手段直接刷廣告點擊代碼,而不是通過媒體頁面上的廣告點擊跳轉。

2.refer與所投放的媒體不對應,例如要求投向A網站,refer卻出現大量B網站

四、廣告反作弊機器學習方案

反作弊最重要的是識別作弊用戶,即確定作弊用戶的行爲規則或規律,也就是行爲異常點,而找異常值的方法論很多:
1.統計學方法對異常值的檢測(3σ探測方法、四分位數展布法等)
2.基於距離的異常值檢測
3.基於分類模型的異常值檢測,這即是通過機器學習的方法。(根據已有的數據,然後建立模型,得到異常行爲的模型特徵庫,

然後對新來的數據點進行判斷:貝葉斯模型、神經網絡模型、決策樹、SVM等分類模型)
由上我們可以看出機器學習只是反作弊的一種實現途徑之一,至於選擇哪一種途徑實現反作弊還是要看具體的業務場景和實現成本。
還必須要指出的是這樣找出的異常行爲點,並不一定就能夠作弊用戶的識別規則,還需要對異常行爲點做事後的驗證。

如果確實要用機器學習做反作弊,我們還是要按反作弊的正常流程走,只是在各個實現過程運用機器學習。

首先,我們要先了解會有哪些作弊行爲:
1.流氓軟件後臺展示。
2.不斷變更設備信息,模擬用戶行爲。
3.設備僞裝,主要通過篡改設備ID號,並僞造虛假的網絡環境。
4.僞造點擊日誌

其次,看一下作弊行爲可能有哪些表現:
1.廣告CTR異常:主要指虛擬點擊或惡意點擊,即Click/PV過高比例,或者起伏很大。
2.廣告訪問IP分佈異常:少量IP產生大量點擊或者曝光,及用戶IP對應物理地址變化異常。
3.URL,訪問者指紋信息(瀏覽器,操作系統等)異常:例如大量的點擊或者曝光數,都來自於同一版本的瀏覽器或操作系統,或者佔比過高。
4.廣告點擊沒有對應的曝光請求(這個就不建議用機器學習了,不過用戶特徵足夠多的話,也可以做實時預測,但預測的準確率可能沒有事後線下匹配的準確率高)。
5.激活與點擊時間差過短;
6.廣告訪問時間分佈異常。
7.戶機對應異常
8.請求量異常

再次,根據作弊行爲的表現特徵獲取反作弊策略(這裏就可以用到機器學習的方法)和歷史黑名單庫;其中歷史黑名單庫可以有設備黑名單庫和ip黑名單庫等

五、參考文檔

  1. CPA、CPS、CPM、CPT、CPC 是什麼
  2. 互聯網廣告作弊與反作弊綜述
  3. 震驚!廣告竟然也有反作弊?
  4. 淺談廣告反作弊
  5. 如何用機器學習做廣告反作弊?
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章