一、什麼是異常檢測
異常檢測(Anomaly detection)主要用於檢測異常數據。
舉個🌰,假想你是一個飛機引擎製造商,當你生產的飛機引擎從生產線上流出時,你需要進行QA(質量控制測試),而作爲這個測試的一部分,你測量了飛機引擎的一些特徵變量,比如引擎運轉時產生的熱量,或者引擎的振動等等。這樣一來,你就有了一個數據集,從 x(1) 到 x(m),如果你生產了 m 個引擎的話,你將這些數據繪製成圖表,看起來就是這個樣子:
這裏的每個點、每個叉,都是你的無標籤數據。這樣,異常檢測問題可以定義如下:我們假設後來有一天,你有一個新的飛機引擎從生產線上流出,而你的新飛機引擎有特徵變量 x(test)。所謂的異常檢測問題就是:我們希望知道這個新的飛機引擎是否有某種異常,或者說,我們希望判斷這個引擎是否需要進一步測試。因爲,如果它看起來像一個正常的引擎,那麼我們可以直接將它運送到客戶那裏,而不需要進一步的測試。
給定數據集 {x(1),x(2),…,x(m)},我們假使數據集是正常的,我們希望知道新的數據 x(test) 是不是異常的,即這個測試數據不屬於該組數據的機率如何。我們所構建的模型應該能根據該測試數據的位置告訴我們其屬於一組數據的可能性 p(x)。
上圖中,藍色圈內的數據看上去數據正常點的概率較高,而處理藍色圈外的數據,距離越遠,屬於正常數據的概率越低。
異常檢測還可以用來識別欺詐,例如在線採集而來的有關用戶的數據,一個特徵向量中可能會包含如:用戶多久登錄一次,訪問過的頁面,在論壇發佈的帖子數量,甚至是打字速度等。嘗試根據這些特徵構建一個模型,可以用這個模型來識別那些不符合該模式的用戶。
二、異常檢測原理
2.1 高斯分佈
假設變量 x 服從高斯分佈 N(μ,σ2),則其概率密度函數爲
p(μ,σ2)=2πσ1exp(−2σ2(x−μ)2)
密度分佈函數圖如下所示
若數據爲 {x(1),x(2),…,x(m)} ,則
μσ2=m1i=1∑mx(i)=m1i=1∑m(x(i)−μ)2
2.2 異常檢測算法
本文基於高斯分佈開發異常檢測算法,假設數據集爲 {x(1),x(2),…,x(m)},維度爲 n,其算法流程如下
- 選定可能出現異常的數據 x(i)
- 計算參數 μ1,…,μn,σ12,…,σn2
μjσj2=m1i=1∑mxj(i)=m1i=1∑m(xj(i)−μj)2(1)
- 計算概率 p(x)
p(x)=j=1∏np(xj;μj,σj2)=j=1∏n2πσj1exp(−2σj2(xj−μj)2)(2)
如果 p(x)<ε, 則數據異常
舉個🌰,如下圖所示
設定 ε=0.02 ,數據集有兩個維度,其概率密度函數分別如上圖的右上角所示,給定測試數據,按照式 (2) 計算其概率,通過比較與 ε 的大小確定是否異常。
三、開發異常檢測系統
3.1 異常檢測系統評估方法
異常檢測算法是一個非監督學習算法,意味着我們無法根據結果變量 y 的值來告訴我們數據是否真的是異常的。我們需要另一種方法來幫助檢驗算法是否有效。當我們開發一個異常檢測系統時,一般情況下的數據分配如下
- 訓練集x(1),x(2),…,x(m)(正常數據),60%
- 交叉驗證集 (xcv(1),ycv(1)),xcv(2),ycv(2)),…,xcv(m),ycv(m)),20%
- 測試集 (xtest(1),ytest(1)),xtest(2),ytest(2)),…,xtest(m),ytest(m)),20%
舉個🌰,我們有10000臺正常引擎的數據,有20臺異常引擎的數據。我們這樣分配數據:
具體的評估算法如下
- 根據測試集數據,我們估計特徵的平均值和方差並構建 p(x)函數
- 對交叉檢驗集,我們嘗試使用不同的 ε 值作爲閥值,並預測數據是否異常,根據 F1 值或者精確率/召回率的比例來選擇 ε
- 選出 ε 後,針對測試集進行預測,計算異常檢驗系統的 F1 值或者精確率/召回率的比例
3.2 數據預處理
對於異常檢測算法,我們使用的特徵是至關重要的,下面談談如何選擇特徵。
異常檢測假設特徵符合高斯分佈,如果數據的分佈不是高斯分佈,那異常檢測算法怎麼工作呢?方法就是將原始數據儘可能的轉換爲高斯分佈的數據。舉個🌰,下圖中左邊是原始數據分佈,通過 log(x) 的處理就可以轉換爲高斯分佈的數據。
四、基於多元高斯分佈的異常檢測
4.1 多元高斯分佈
假設有特徵變量 x∈Rn ,不爲 p(x1),p(x2),…,p(xn) 單獨建模,而是建立一個整體的 p(x) 模型如下
p(x)=(2π)2n∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))(3)
其中,μ 爲均值,Σ 爲協方差矩陣。
下面我們來看看協方差矩陣是如何影響模型的。
上圖是5個不同的模型,從左往右依次分析:
1.是一個一般的高斯分佈模型
2.通過協方差矩陣,令特徵1擁有較小的偏差,同時保持特徵2的偏差
3.通過協方差矩陣,令特徵2擁有較大的偏差,同時保持特徵1的偏差
4.通過協方差矩陣,在不改變兩個特徵的原有偏差的基礎上,增加兩者之間的正相關性
5.通過協方差矩陣,在不改變兩個特徵的原有偏差的基礎上,增加兩者之間的負相關性
多元高斯分佈模型與原高斯分佈模型的關係:
可以證明的是,原本的高斯分佈模型是多元高斯分佈模型的一個子集,即像上圖中的第1、2、3,3個例子所示,如果協方差矩陣只在對角線的單位上有非零的值時,即爲原本的高斯分佈模型。
原高斯分佈模型被廣泛使用着,如果特徵之間在某種程度上存在相互關聯的情況,我們可以通過構造新新特徵的方法來捕捉這些相關性。當訓練集不是太大,並且沒有太多的特徵的時候,我們可以使用多元高斯分佈模型。
4.2 多元高斯分佈異常檢測算法
和高斯分佈的類型,多元高斯分佈異常檢測算法如下
- 選定可能出現異常的數據 x(i)
- 計算參數 μ,Σ
μΣ=m1i=1∑mx(i)=m1i=1∑m(x(i)−μ)(x(i)−μ)T(4)
- 計算概率 p(x)
p(x)=(2π)2n∣Σ∣211exp(−21(x−μ)TΣ−1(x−μ))(5)
如果 p(x)<ε, 則數據異常
五、參考
[1] Andrew.Ng 機器學習視頻
[2] https://www.jianshu.com/p/620b584c2941