人工智能反欺詐三部曲之:設備指紋

上次我們着重介紹了反欺詐的一項核心技術:特徵工程。 在反欺詐的技術金字塔中,特徵工程起着承上啓下的作用。而居於特徵工程的下一層的是基座層:數據。在機器學習裏,大家有一個共識,高質量、相關的數據決定模型預測能力的上限,模型只是去逼近這個上限。數據就像原油,好的特徵就像汽油,而模型就是引擎,三者缺一不可。作爲基座層的數據層的一個重要組成部分是設備終端和網絡風險,Gartner的經典五層模型同樣將其列爲最基礎的數據。今天我們就來探討一下處於這一層的設備指紋以及由此衍生出來的設備風險識別。

 

背景

 

自蘋果公司推出iPhone智能手機以來,以智能終端爲代表的技術浪潮已將整個世界帶入了移動互聯的時代。移動互聯網在擴展互聯網的應用範圍與場景、創造更多的業務機會的同時,其以移動App爲核心的生態特點,也給廣大的互聯網企業帶來了新的挑戰。不同於傳統互聯網,與個人緊密綁定的智能手機更難追蹤。在推廣的效果追蹤、業務防欺詐、運營效果評估等領域,企業迫切需要一種新的設備識別與追蹤技術,來區分有價值的用戶、惡意用戶甚至是欺詐團伙,以保護企業資產,並最大程度的提高市場推廣與業務運營的ROI

 

傳統的設備識別技術

 

PC互聯網時代起,設備識別就是互聯網用戶追蹤的重要手段。傳統的設備識別技術主要包括:IP地址、cookie以及移動互聯網特有的設備ID

Ø  IP地址是最早出現的設備標識方案。因爲其簡單易用,直到現在仍然廣泛使用。但是由於網絡中存在大量以一個公網IP作爲出口的局域內網,以及移動網絡中的動態IP分配技術,使得IP地址作爲設備標識的分辨率和準確度大爲下降。

Ø  Cookie技術同樣出現於90年代的互聯網早期,在Web領域廣泛應用於對設備的識別與標識。但是因爲Cookie採用一種用戶數據本地存儲的實現方式,惡意用戶可以通過清除本地數據的方式來輕易的逃避檢測,所以其應用範圍受到很大的限制。同時,由於對用戶隱私保護的日益關注,主流瀏覽器廠商已經限制並逐步摒棄cookie技術的使用。

Ø  設備ID是移動終端獨有的物理設備標識符,包括iOS設備的IDFAIDFVAndroid設備的IMEIMAC等。隨着Apple公司收緊相關的政策,同時大量黑產改號工具的出現,使得設備ID用於設備識別的效果大爲降低,特別是在業務反欺詐領域,設備ID成爲黑產人員首先***的對象。

隨着移動互聯網的發展,傳統的設備識別技術已經越來越不能適應當前的網絡環境。企業迫切需要一種新的設備識別與追蹤技術,來克服原有設備識別技術的不足,應對新的挑戰。這就爲設備指紋技術的推廣帶來了市場契機。

 

 

設備指紋技術的流派

 

傳統的設備識別手段主要依賴於單一的信息源,與此不同,新一代的設備指紋技術使用更多的信息來完成設備的識別。它通過網絡收集終端設備的特徵信息,並在分析與鑑別的基礎上,對每一組從終端設備採集的特徵信息組合賦予唯一的設備指紋ID,用以標識該終端設備。從實現的技術方法上看,可以分爲主動式設備指紋與被動式設備指紋兩種技術路線。

 

主動式設備指紋

 

主動式設備指紋技術一般採用JS代碼或SDK,在客戶端主動地收集與設備相關的信息和特徵,通過對這些特徵的識別來辨別不同的設備。一般的設備特徵信息有:

Ø  瀏覽器特徵,包括UA、版本、OS、插件的配置、Canvas特徵等;

Ø  設備的傳感器特徵,比如麥克風、加速傳感器的特徵等;

Ø  設備OS的特徵,比如是否越獄等;

Ø  設備的配置,比如網絡配置,系統flash的配置等;

 

主動式設備指紋算法一般將這些信息組合起來,通過特定的hash算法得到一個設備指紋ID值,作爲該設備的唯一標識符。同時,考慮到設備指紋的穩定性,一般還會結合其他的持久化的存儲技術,將設備指紋ID長期保存起來。

 

被動式設備指紋

被動式設備指紋技術在終端設備與服務器通信的過程中,從數據報文的OSI七層協議中,提取出該終端設備的OS、協議棧和網絡狀態相關的特徵集,並結合機器學習算法以標識和跟蹤具體的終端設備。

與主動式設備指紋技術相比,被動式設備指紋並不必須在設備終端上嵌入用於收集設備特徵信息的JS代碼或SDK,其所需要的設備特徵都是從終端設備發送過來的數據報文中提取,這也是其所謂“被動式”的原因。

主動式設備指紋技術,因爲相對來說更爲簡單直接,所以業界大部分設備指紋技術廠商提供的都是該類設備指紋服務。被動式設備指紋技術,由於其需要使用機器學習技術構建設備指紋分類算法模型,具有較高的技術壁壘,因而還處於推廣起步階段。

 

混合式設備指紋技術

 

主動式設備指紋和被動式設備指紋技術,都存在着自身的缺點與侷限性,限制了它們的應用範圍:

Ø  對於主動式設備指紋來說,其最大的侷限在於其收集的設備特徵在Web域和App域中存在着區隔,即在不同的瀏覽器中,收集到的設備特徵也各不相同。因而主動式設備指紋在不同的瀏覽器中,以及WebApp之間,會生成不同的設備指紋ID,無法實現WebApp間,不同的瀏覽器之間的設備關聯。主動式設備指紋的另一個缺陷是,由於依賴於客戶端代碼,指紋在反欺詐的場景中對抗性較弱。

Ø  被動式設備指紋技術可以很好地解決WebApp之間、不同的瀏覽器之間的設備關聯問題。但是由於其需要使用複雜的機器學習算法來進行設備的識別,所以佔用的處理資源較多,響應時延也要比主動式設備指紋更長。

混合式設備指紋技術克服了主動式設備指紋和被動式設備指紋技術各自的固有的缺點,在準確識別設備的同時擴大了設備指紋技術的適用範圍。對於Web頁面或App內部的應用場景,可以通過主動式設備指紋技術進行快速的設備識別;而對於不同的瀏覽器之間、Web頁面與App之間的設備識別與比對關聯,則可以利用被動式設備指紋的技術優勢來實現。

 

 

設備指紋的核心技術

 

設備指紋技術是一個綜合性的系統工程,掌握這門技術需要跨越一系列的技術門檻,這也是爲什麼雖然應用場景廣闊,至今市場上此項技術提供者並不多的原因。這裏介紹了設備指紋兩項關鍵的技術,大規模在線概率式記錄關聯和機器學習,讓大家對設備指紋有個整體的認識。

 

 

大規模在線概率式記錄關聯

 

設備指紋的核心任務是,給定兩條請求事件,給出這兩條請求是否來自同一個設備的判斷。瞭解數據庫的人可能會覺得這個有點似曾相識,這很像數據庫裏的self join。如下圖:

 

SELECT column_name(s)
FROM table1 T1, table1 T2
WHERE T1.a = T2.a;

 

實際上設備指紋的一項關鍵技術是概率式記錄關聯(Probabilistic Record Linkage,它的非概率式版本確定式記錄關聯(Deterministic Record Linkage)確實和self join很像。對於這項技術的最早的研究與健康醫療數據庫相關,其中記錄一詞也來源於醫療記錄。我們以self join舉例,看看它的概率式版本。

 

SELECT column_name(s)
FROM table1 T1, table1 T2
WHERE P(T1.a, T1.b, T2.a, T2.b) > threshold;

 

我們看到,這裏最後一行的匹配條件變了,不再是一個確定的操作符等於號,而是一個介於零和一之間的值。這裏的P(代表概率,probability),是一個關於T1, T2的函數, 計算T1T2是同一設備的概率。概率式記錄關聯也因此有時被稱爲模糊匹配。

 

設備指紋的原理很簡單,那麼難點在哪裏呢?第一在於設備指紋的典型應用場景反欺詐、營銷追蹤等都需要實時地給出匹配結果,也就是要在線,這就意味着數據來源不是數據庫,而是數據流。第二,傳統的數據庫的記錄規模往往不是特別大,而在線反欺詐,每一個頁面訪問(PV)都會產生一條請求,要匹配的請求數,每天至少是億級的。熟悉數據庫的人都知道,一個一億條記錄的表格self join的複雜度是多高。這還只是簡單的確定式的匹配。第三,概率式模型,我會放在後面詳細介紹。

 

所以做好設備指紋的第一步就是建立起一個大規模在線概率式記錄關聯平臺。它牽涉到流數據的處理、分佈式內存計算、算法優化、高效的信息搜索等多個環節。

 

機器學習

 

早期的設備指紋技術是基於規則的,典型的規則系統是一棵決策樹。如果cookie相同,返回true, 否則看IP是否相同,諸如此類的決策邏輯。在此基礎上,又衍生出給各項信息賦予權重的打分系統。而這些權重則來自於經驗。對於移動互聯網,各種信息數據都在不停地變化,這種經驗式的系統根本沒有穩定性,也難以維護。 對於大規模信息的處理,機器比人更具優勢,這也就是在大數據的時代,機器學習流行起來的原因。

 

對於設備指紋技術,機器學習的方法從數據中學習,讓數據說話,摒除了人工規則方法的偏見和不穩定性。但是機器學習的方法也面臨一定的挑戰,最重要的挑戰就是在很多場景下,標註數據是不足的。近年來,半監督學習的興起給設備指紋的機器學習帶來了新的思路。半監督學習可以認爲是監督學習的擴展,與一般監督學習不同的是,監督學習只能在標註數據上訓練,而半監督學習可以同時利用標註數據和未標註數據。生成式模型是一種典型的半監督學習方法,對設備指紋技術有很好的效果。

 

 

評估指標

 

設備指紋的本質是記錄關聯問題,而記錄關聯從機器學習的角度來看是典型的分類問題。分類問題的評估指標有很多,但並不是所有的指標都適合於對設備指紋的評估,有些甚至是嚴重誤導的,因此有必要在這裏對這些指標做一下梳理。常見的指標基本是由以下幾個數字計算得出。

 


設備術分類結果

匹配(Match)

非匹配()

事實

匹配()

正確的匹配

真正例(True Positive, TP)

錯誤的非匹配

僞負例(False Negative, FN)

非匹配(nmatch)

錯誤的匹配

正例(False Positive, FP)

正確的非匹配

例(True Negative,   TN)

 

常見的分類評估指標有以下幾個:

 

準確度(Accuracy

 

 

準確度(Accuracy)雖然經常被用作分類器評估的指標,在設備指紋的評估中卻很少使用。原因是設備指紋的匹配中,正負標註非常不平衡, 分母和分子中的真負(TN)佔比例過高,將完全主導最後的準確度值,計算所得準確度總是接近於1, 而毫無意義。同樣的問題也出現在分類問題中廣爲使用的另一指標ROC上。

 

精確率和召回率

精確率(Precision, 有時也被稱爲查準率,即被預測爲匹配的結果實際確爲匹配的概率。

 

召回率(Recall, 有時也被稱爲查全率,即一對事實上匹配的設備被正確匹配上的概率。

 

一種設備指紋技術的精確率和召回率越高越好,但在很多時候,這兩項指標很難兼顧。比如在一些電商的場景下,對於精確率的要求很高,以避免誤報。但在一些營銷的場景下,則是對於召回率的要求很高

 

F測度

 

 

F測度,或者說F1測度,是一個綜合性的指標,它是精確率和召回率的調和平均值。精確率和召回率以相同的權重反映在F測度上。如果對精確率和召回率有所偏好,也可以由廣義的Fβ測度給出。其中β越高,則表示召回率的比重越大。常用的兩個值爲β=2或β=0.5。

 

不管是精確率,召回率還是F測度,都不計入真負例(TN),其實從下面這個例子就可以看出其中的原因。這是兩個數據集A(25)B(20)進行匹配的結果展示,從圖中可以看出空的虛線框,即我們正確地作出的非匹配的判斷,佔絕大多數,但這卻是我們最不關心的。

 

 

設備指紋的應用案例

 

上海某互金公司位於外灘金融試驗區,是一家人提供高品生活方式的互聯網金融公司

客戶開發了一款基於H5的小額貸款產品,將其嵌入第三方金融超市發佈。在試運營過程中碰到了問題:

1)部分用戶試圖利用其他人的身份獲得重複授信,雖然後期人工審覈能夠發現,但正式運營中人工審覈無法承擔這樣的審覈量。

2)由於H5頁面發佈在第三方金融超市中,用戶申請時無法獲得穩定的cookie信息,無法從設備的維度自動審覈進件。

 客戶希望能夠有一個能夠在H5頁面中識別重複請求的解決方案。

 

該客戶與猛獁反欺詐合作ID系統SDK嵌入其用中,在求事件發生,向猛系統發送求信息並通後臺取消息細節和設備指ID(即猛ID系統爲些消息予的唯一Maxent ID),示意如下

 

 

在使用猛獁ID系統之前,該客戶無法跨應用、跨瀏覽器識別設備,同樣的設備在不同的瀏覽器或應用中將產生不同的ID。 而猛獁ID系統則能夠跨應用,跨瀏覽器識別設備。具體來說在同一設備上發生的用戶行爲賦予同一個Maxent ID,可以基於Maxent ID用戶行按設備聯,而且不會因刷機於設備ID修改而改變客戶可以基於Maxent ID同一設備發送的注冊請同一Maxent ID發出的,可以有效的發重複求行

 

該客戶通簡單的集成工作就成功解決了H5頁面設備識別問題,有效地防範了同一設備反覆申問題檢測出了7.6%左右的可疑欺,經人工業務據的查和電,確其中90%以上用戶使用多個身份試圖騙取多次授信

 

結語

 

在移動互聯網日益成爲主流的今天,身份欺詐成爲在線欺詐的頑疾,欺詐者以移動設備爲掩體發動***。以設備指紋爲核心的設備風險識別相關技術是刺破欺詐者身份僞裝的利器。本文針對設備指紋分別從技術的緣起、流派、工作原理、核心技術難點和評估方法五個方面進行了剖析,希望能夠幫助讀者更深入的瞭解設備指紋技術,從而在反欺詐、風險控制等各環節中更好地利用這項技術。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章