人工智能反欺詐三部曲——特徵工程



近年來,隨着移動互聯網的興起,各種傳統的業務逐漸轉至線上,互聯網金融,電子商務迅速發展,商家針對營銷及交易環節的推廣活動經常以返利的形式進行。由於有利可圖,此類線上推廣迅速滋生了針對返利的系統性的優惠套利欺詐行爲,俗稱薅羊毛。由於移動設備的天然隱蔽性和欺詐行爲的多變性,傳統的防範手段,比如規則系統等就顯得有些笨拙和捉襟見肘了,使得薅羊毛看起來彷彿防不勝防。但是正所謂魔高一尺,道高一丈。在實踐中,我們發現,一個基於統計和機器學習的多層動態風險評分體系和決策系統能有效地抵禦“羊毛黨”的***。那如何打造這樣一個系統呢? 

首先,我們來了解下此係統的核心部分之一:特徵工程。 

特徵工程,又稱特徵學,是學習一個特徵的技術的集合,將原始數據轉換成爲能夠被機器學習來有效開發的一種形式。通俗地講,特徵工程對原始數據進行加工,將其轉換爲精確的,可量化的數據。 

著名法國小說《小王子》中有這樣的描述:“如果你對大人們說‘我看到一幢用玫瑰色的磚蓋成的漂亮的房子,它的窗戶上有天竺葵,屋頂上還有鴿子……‘,他們想象不出來房子有多好,必須對他們說‘我看見了一幢價值十萬法郎的房子’他們才能理解房子有多好。”文中,從房屋模糊的文學性描述到“十萬法郎”就是一個特徵學習的例子。 

特徵工程轉換後的數據能被更好的理解和運算,方便我們從貌似渣亂無章的原始數據中找出那些可疑的異常數據。它是機器學習中很重要的一步,也許是最重要的一步。在機器學習領域裏有一個不成文的共識, 數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。 

在反欺詐的實踐中,我們發現從網絡及設備終端、用戶行爲信息、業務事件頻次,欺詐網絡圖譜這四大維度提取特徵,並在此基礎上對有組織的薅羊毛行爲層層篩查,對風險加以甄別,就能讓羊毛黨無所遁形。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


設備終端與網絡 

設備終端與網絡層面的特徵是防範羊毛黨的第一道防線,爲了規避篩查,或者方便適用自動化工具,欺詐者首先選擇在終端做手腳。他們或者適用PC或服務器以腳本或模擬器冒充終端設備,或者在終端設備上,Root, 越獄,打開調試模式,安裝一鍵新機軟件,按鍵精靈等等,也有的正常用戶不幸安裝了***程序,而淪爲任人擺佈的肉雞。除了終端,網絡也是欺詐者最常擺弄的,他們經常適用代理,***, 或和一些機房的網絡管理人員合作,分散IP,進而冒充來自不同的地域。 

爲了對抗上面所提到的種種作弊行爲,在實踐中,我們通常按下面的方法來構造一個設備指紋系統:1)根據收集到的歷史數據,形成操作系統簽名數據庫。這個數據庫被用於判斷一個設備的操作系統簽名是否和聲明的操作系統及廠商,型號等吻合,進而判斷設備是否是腳本程序或模擬器僞裝,是否使用了代理或***,是否篡改了UA等設備信息等等;2)對設備的IP來源進行分析,看是否有可疑行爲的歷史,是否來自機房,從而判斷其自動化或作弊的可能性;3)根據設備相關的三十多個特徵將設備進行關聯,賦予其唯一的身份識別符,此ID是上層特徵,即用戶行爲、頻次及欺詐網絡圖譜的基礎。 

用戶行爲信息 

在堅實的設備指紋的基礎上,需要在會話和賬號兩層採集和提取用戶行爲信息。在會話的層面上,藉助基於概率的聚類模型和模式挖掘算法(sequential pattern mining),將用戶的行爲模式,比如事件發生的次序以及事件發生的間隔時間,歸爲幾類。並在此基礎上識別出異常行爲模式。這些標示特徵爲區分正常用戶和欺詐者或自動化工具提供了重要信息;更進一步,在賬號的層面上:首先以賬號爲索引,將會話層面上提取到的行爲信息特徵按時間串聯起來,得到賬戶層面的異常行爲標示特徵。其次根據賬號相關聯的歷史行爲數據,提取出用戶的偏好屬性,比如是否爲殭屍賬號,相鄰登錄的平均地理距離等。最後,我們將這些信息綜合起來,形成特有的用於反欺詐的用戶畫像。 

當一個賬號再次出現在業務中時,用戶畫像中的特徵就可以幫助我們評估對應業務事件的風險。在實踐中,我們還發現,由“羊毛黨”控制的賬號,通常具有某些相似性,比如所用手機號碼都來自某個號段,用戶名都由三個小寫字母,五個大寫字母和四個數字組成。據此,我們就可以定義賬號之間的相似度。這樣即使一個賬號首次出現,我們也可以使用用戶畫像,對其風險做一個大致的評估。 

用戶畫像除了本身能直接應用於欺詐行爲的判斷外。還可作爲網絡圖譜模型的輸入,爲欺詐網絡的發現提供線索和依據。 

業務事件頻次特徵 

典型的薅羊毛行爲的特徵表現爲短時期,小欺詐額,高頻次。從業務角度上來看:由於薅羊毛的欺詐行爲有別於正常用戶的行爲模式,會引起業務事件在某些顆粒度的時間+空間上分佈異常。從反欺詐的防範要求角度上來看:需要對異常事件能快速響應,這就要求對客戶行爲做實時或者近實時的統計、計算。並且綜合時間序列分析,個體差異分析以及當前趨勢分析這三方面的評估,實時並動態地對異常頻次數做標記。 

以某互聯網公司一個實際的交易薅羊毛案例爲例


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


被監控的交易事件,隨着時間,在整體上會形成一個有規律可循的時間分佈曲線。一個時間曲線,比如上圖的最上面一個小圖,其實是由三種效應疊加起來的: 

1. 數據整體隨時間的趨勢效應,上圖的第二小圖; 

2.數據隨時間的週期效應,圖中的第三小圖。這個其實包含兩個方面,一個是同一天各個小時間的個體差異,一個是某一小時對歷史上同一小時的慣性關係。 

3. 統計噪音效應。(這部分數據通常被用來做異常分析) 

當數據累積到一定量的時候,比如整體分佈曲線,能很好的被ARIMA模型(也就是時間序列模型)模擬和預測。ARIMA是統計學中一類模型的統稱;ARIMA能自動處理時間維度上的週期變化,動態變化,噪音污染等問題。並對每個小時動態生成一系列異常檢驗規則。可以理解爲如下的一系列規則:某一天10點鐘,交易200次以下爲正常,200-250爲輕度異常,250-350爲重度異常等等。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


上圖是實際的模擬效果,綠色是原始值,紅色虛線是預測值,黑線是誤差,此案例預測的效果較好。 

上面這些結果都是針對整體分佈曲線而言的。但是在反優惠套利欺詐的場景裏面,我們常常希望在某細顆粒度上制定檢測規則:比如某個地域/IP網段每小時交易超過多少爲異常。也就是說在時間維度的基礎上加入空間維度。這是因爲通常來說,欺詐行爲會引起在某個空間細顆粒度上,時間分佈曲線異常;但不會引起整體層面上的異常,也就是說異常數據會被正常數據淹沒掉;而且,整體層面上的模型是無法區分細顆粒度上的差別。換句話說,它只能籠統地告訴我們,數據在某個時段出現了異常,但無法告訴我們在這個時段,按空間維度分比如城市,哪些是異常的,哪些依然是正常的。 

在時間維度上加入空間維度,面臨兩方面的困難:一方面,細顆粒度的維度過高,以網段舉例,數據中出現的網段有近十萬個,分別建模成本過高;另一方面,細顆粒上的數據通常累積量不夠,難以滿足時間序列模型所需的條件。通過反覆建模實踐,我們發現基於貝葉斯框架的生成式模型能較完美地克服上述困難,完成建模目標。由於這類模型綜合考慮了事件的時間和空間分佈,我們不妨叫它“時空動能模型”。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


上圖中的兩張圖是兩個不同網段的交易數據分佈圖。 每副圖中藍色曲線是網段交易曲線,對應着左邊的座標系。紅色曲線是整體的分佈曲線,對應着右邊的座標系。 藍色曲線上的紅色點是模型得到的異常點,而紅色曲線上的藍點是前述紅點所對應時間上的整體分佈曲線上的點。 

左圖上下對比,可以看到,時空動能模型能在整體不異常的情況下,在細顆粒度上面找到異常點。 

左右對比,這兩張圖顯現的分別是不常用網段和常用網段,它們的分佈曲線完全不相似。是無法用同一模型模擬的。但時空動能模型自動的爲兩個網段分別建模,自動適應這種動態變化。 

上面的例子證明,綜合了統計和機器學習技術的模型能在反欺詐異常檢測中發揮巨大的作用。 

欺詐網絡圖譜 

羊毛黨經常通過網絡發起組織,在一些單點特徵上,同正常用戶一樣呈現出分散的特點,使得單點特徵防禦難以奏效。但如果將用戶行爲用網絡的形式建模展示,會發現在一些特殊的圖形特徵上,欺詐行爲明顯異於正常行爲。實踐中,我們藉助於圖學習(Graph Learning)的一些模型,發現網絡圖譜模型對於羊毛黨的發現特別有效。當然欺詐網絡發現依賴於設備指紋以及建立在其基礎上的同人模型。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=


在上面的網絡圖譜裏面,紅色點表示不同設備;綠色點表示不同賬號;藍色點表示不同APP。紅色點和綠色點之間的虛線表示:該設備註冊了這個賬號;藍色點與綠色點之間的虛線表示該賬號領取了這個APP的某些獎勵。 

上面的左圖是正常用戶的行爲網絡圖譜:不同設備的行爲是分散的,不一致的。而右邊是“公會式羊毛黨”的行爲網絡圖譜。在網絡圖譜上,羊毛黨的設備行爲會呈現出高度的一致性和集中性。 

以上,我們對網絡及設備終端、用戶行爲信息、業務事件頻次,欺詐網絡圖譜這四大維度的特徵工程做了一個簡單的介紹。在反欺詐實踐中,這些提取出來的特徵,結合多層動態模型,能有效地識別出高風險薅羊毛行爲,幫助企業打擊“羊毛黨”。 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章