Learning from class-imbalanced data: Review of methods and applications 論文閱讀

目錄

Learning from class-imbalanced data: Review of methods and applications

摘要

罕見的事件(rare event),尤其是那些可能對社會產生負面影響的事件,往往需要人類做出決策。在數據挖掘和機器學習領域,罕見事件的檢測可以看作是一項預測任務。由於這些事件在日常生活中很少被觀察到,預測任務缺乏平衡的數據。本文從不平衡學習的角度,對罕見事件預防進行了深入的研究。在過去的十年中,共收集了517篇相關論文。最初的統計數據表明,從管理科學到工程學的廣泛研究領域都在關注罕見事件檢測和不平衡學習。我們從技術和實踐的角度對所收集的論文進行了回顧。討論的建模方法包括數據預處理、分類算法和模型評估等技術。對於應用程序,我們首先提供了不平衡學習的現有應用程序領域的一個全面分類,然後詳細介紹了每個類別的應用程序。最後,結合本文的研究經驗和判斷,提出一些建議,爲不平衡學習和罕見事件檢測領域提供進一步的研究方向.

Introdution 介紹

罕見的事件、異常的模式和異常的行爲是很難檢測到的,但往往需要各種管理功能的及時響應。根據定義,罕見事件是指發生頻率遠遠低於通常發生事件的事件(Maalouf和Trafalis, 2011)。罕見事件的例子包括軟件漏洞(Rodriguez等,2014)、自然災害(Maalouf和Trafalis, 2011)、癌症基因表達(Yu等,2012)、信用卡欺詐交易(Panigrahi等,2009)和電信欺詐(Olszewski, 2012)。

在數據挖掘領域,事件檢測是一種預測問題,或者通常是數據分類問題。由於罕見事件發生的頻率低、偶然性強,很難發現;然而,對罕見事件的錯誤分類可能會導致沉重的代價。對於金融欺詐的檢測來說,無效的交易可能只會出現在成千上萬的交易記錄中,但如果不能識別出嚴重的欺詐交易,將會造成巨大的損失。罕見事件的罕見發生削弱了數據分類問題的檢測任務的不平衡性。不平衡數據指的是一個數據集,其中一個或一些類比其他類有更多的例子。最普遍的類別被稱爲多數類別,而最罕見的類別被稱爲少數類別(Li et al., 2016c)。雖然數據挖掘方法已被廣泛應用於建立分類模型來指導商業和管理決策,但對這些傳統的分類模型解決不平衡數據的分類問題提出了很大的挑戰。正如我們在現有調查中所討論的,原因有五方面:

  • 標準分類器如logistic迴歸、支持向量機(SVM)和決策樹等都適用於平衡訓練集。當面臨不平衡的場景時,這些模型往往會提供次優分類結果,即對大多數例子有很好的覆蓋,而少數例子是扭曲的(Lopez et al., 2013)。
  • 預測精度等全局性能指標引導的學習過程導致了對多數類的偏倚,而即使預測模型總體精度較高,罕見的類別仍然未知(Loyola-Gonzalez et al., 2016)。在Weiss and Hirsh(200 0)和Weiss(2004)中可以找到一些原始的討論。
  • 學習模型可能將少數類別中的例子視爲噪聲。相反,噪聲可能被錯誤地定義爲少數例子,因爲它們都是數據空間中罕見的模式 (Beyan和Fisher, 2015)。
  • 雖然不平衡的樣本分佈並不總是很難學習(例如當類是分離的),但少數類別通常與和其有相同先驗概率分佈的其他區域重疊。Denil和Trappenberg(2010)討論了不平衡情況下的重疊問題。
  • 此外,小析取量、缺乏密度、樣本容量小、特徵維數高是對學習不平衡的挑戰,往往導致學習模型無法檢測到罕見模式。

過去十年來許多機器學習方法已經開發出來,爲了應對數據分類的不平衡,大多數數據分類都是基於樣本技術、對代價敏感的學習和集成方法(Galar et al., 2012;Krawczyk等,2014;Loyola-Gonzalez等人,2016)。在這個領域還有一本書,見He and Ma(2013)。雖然已經發表了一些與不平衡學習相關的調查(Branco et al., 2016;Fer- nandez等,2013;Galar等,2012;他和加西亞,2009;洛佩茲等人,2012;Sun et al., 2009),他們都專注於詳細的技術而忽略了應用文獻。對於來自管理、生物學或其他領域的研究人員來說,利用國際先進的學習技術和用成熟而有效的方法建立不平衡的學習系統來解決問題,而不是單純的算法,可能更值得關注。

在本文中,我們的目標是提供一個全面的分類不平衡的總結,包括技術和應用。在技術層面,我們介紹了處理不平衡學習的常用方法,並提出了一個通用的框架,在其中可以放置每個算法。該框架是一個統一的數據挖掘模型,包括預處理、分類和評價。在實踐層面,我們回顧了162篇試圖構建特定系統來解決罕見模式檢測問題的論文,並對現有的不平衡學習應用領域進行了分類。現有的應用文獻涵蓋了從醫學到工業到管理的大部分研究領域。

本文的其餘部分組織如下。第2節描述了本研究的研究方法,以及關於最近不平衡學習趨勢的初步統計數據。第3節介紹了處理二進制和多個類不平衡數據的方法。在第4節中,我們首先將現有的不平衡學習應用文獻分爲13個領域,然後介紹了各自的研究框架。第五部分從技術和實踐兩方面論述了我們對未來不平衡學習研究方向的思考。最後,第六部分給出了本文的結論。

Research methodology and initial statistics 調研方法和初始統計

Research methodology 調研方法

本研究基於Govindan和Jepsen(2016)的研究方法,採用兩階段檢索的方法,對2006 - 2016年10月發表的相關論文進行整理。在初始階段,我們使用了7個涵蓋自然科學和社會科學研究領域的圖書館數據庫來搜索和收集文獻:Elsevier、IEEExplore、施普林格、ACM、Cambridge、Wiley和Sage。使用全文搜索,搜索詞按照Fahimnia等人(2015)概述的搜索過程設計。構建了一個兩級關鍵字樹,提供了一套完整的搜索詞集,用於捕獲關於罕見事件和非國際性學習的技術和應用文章。圖1爲本研究的搜索詞。第一層的搜索階段僅限於不平衡/不平衡/傾斜數據,重點是不平衡數據的分類。第二級搜索詞分爲兩部分,包括技術和實用文章。在技術方面,使用了涉及數據挖掘方法的關鍵字,在實際應用方面,使用了關注事件檢測和預測的關鍵字,包括罕見事件、常見事件、異常事件、缺陷程序、欺詐、疾病和入侵。請注意,單詞的對應屈折形式和同義詞(如“unusual”對應“abnormal”,“fraudulence”對應“fraud”)也被考慮在內。最初的搜索結果是657篇論文,這些論文被下載到下一個過濾過程中。
圖1 兩級關鍵字樹
在手工審閱每篇論文後,發現與本研究相關的論文有464篇。在評審過程中進行第二階段搜索,使用谷歌Scholar搜索相關交叉參考文獻。在這個階段,嘗試訪問谷歌Scholar中的所有交叉引用,或者包含在可訪問的圖書館數據庫中。第二階段後,我們的review中增加了63篇論文。因此,本研究共納入527篇論文

Initial statistics 初步統計

在這一節中,我們將介紹不平衡學習趨勢的初步統計數據。圖2爲2006年至2016年的出版趨勢。2006年以後,刊物數目有相對穩定的增長。2011 - 2013年期間唯一的下降趨勢是2013-2016年出版物數量的急劇上升。這一趨勢表明,迄今爲止,學習不平衡仍然是一個有價值的研究課題。
不平衡學習出版趨勢
初步統計還顯示,192種期刊和會議論文集共發表論文527篇。統計各期刊的貢獻,前20名的期刊/會議如圖3所示。在過去的十年中,這些期刊的發表論文佔全部發表論文的43.5%,其中大多數是在計算機科學、運籌學、管理學、工程學和生物技術領域具有影響力的期刊。這也說明,不平衡學習研究既包括計算機科學領域的學習技術,也包括從自然科學到管理科學等廣泛領域的實際應用。
圖3 不平衡學習在前20名的期刊/會議發表情況

我們還收集了本研究涉及的所有論文的標題,並生成一個詞雲來捕捉研究最多的不平衡學習主題。爲了構建圖4所示的單詞雲,我們首先去掉了英語中最常用的停止詞,如“the”和“and”,然後使用NLTK工具對每個單詞進行lemmatize。由於我們的目標是在這些不平衡的學習論文中發現詳細的主題,一些一般性的和經常出現的單詞也被刪除了。圖4顯示了一些用於不平衡數據分類的具體技術:重新採樣方法(“過採樣”、“採樣”、“欠採樣”等)機器學習方法(“成本感知”、“支持向量機”、“神經網絡”、“集成”等)專家系統(“規則”、“系統”、“模糊”等)。然而,一些具體的應用領域也顯示在word cloud中。典型的聚類詞涵蓋了“patient”、“fraud detection”、“telecommunications”、“credit card”等多個領域,這意味着申請論文的主要類別可能在財務管理、醫學診斷、電信等領域。
圖四 詞雲

Imbalanced data classification approaches 不平衡數據分類方法

在過去的十年中,人們提出了數百種算法來解決不平衡的數據分類問題。在本節中,我們將概述最先進的不平衡學習技術。這些技術將在基本的機器學習模型框架下進行討論。在3.1節中,介紹了兩種解決不平衡學習的基本策略,即預處理和代價敏感學習預處理方法包括在樣本空間中進行重採樣的方法和優化特徵空間的特徵選擇方法。然後將3.1節中介紹的策略集成到3.2節中描述的分類模型中。分類器又分爲集成分類器和算法改進分類器。3.3節將多類分類作爲一種特殊的不平衡學習問題進行討論,闡明瞭將這些二元分類算法擴展到多類情況。在第3.4節中,介紹了評估和選擇模型的度量標準。

Basic strategies for dealing with imbalanced learning 處理不平衡學習的基本方法

Preprocessing techniques 預處理技術

爲了獲得更好的輸入數據,通常在建立學習模型之前進行預處理。考慮到數據的表示空間,通常採用兩種經典的預處理技術:

resampling 重採樣

採用重採樣技術對不平衡數據集的樣本空間進行重新平衡,以減輕學習過程中類分佈的不均勻性。重採樣方法更加通用,因爲它們獨立於所選分類器(Lopez et al., 2013)。根據平衡類分佈的方法,重採樣技術可以分爲三組:

  • 過採樣技術:通過創建新的少數類別樣本,消除了偏態分佈的危害。兩種廣泛使用的創建合成少數樣本的方法是隨機複製少數樣本SMOTE (Chawla et al., 2002)。
  • 欠採樣技術:通過丟棄大多數類中的固有樣本,消除了偏態分佈的危害。最簡單但最有效的方法是隨機欠採樣(Random Under- Sampling, RUS),它涉及隨機消除大多數類的例子(Tahir et al., 2009)。
  • 混合方法:這是過採樣法和欠採樣法的結合。

我們發現156篇被評審的論文采用了重採樣技術,佔所有被評審論文的29.6%。這表明重採樣是處理不平衡數據的一種流行策略。欠採樣法39次,過採樣法84次;採用混合抽樣的方法進行了33次52篇論文采用現有的重採樣方法,開發了新的重採樣方法。基於聚類的方法(如k-means)、基於距離的方法(如nearest neighbour)和進化的方法(如generic algorithm)是最常用的生成或消除例子的策略,如表1所示。對於沒有采用上述策略的方法,我們在最後一篇專欄文章中做了簡要的介紹。
表一
應該注意的是,所有的重新抽樣方法都允許重新抽樣到任何期望的比例,而準確地平衡多數類和少數類的數量是沒有必要的。Zhou(2013)針對不同的數據大小推薦了不同的樣本比例,Napierala和Stefanowski(2015)研究了少數類別例子的類型及其對從不平衡數據中學習的分類器的影響。一些論文試圖針對不同的不平衡比(IR)和問題設置自動確定最佳採樣率(Lu et al., 2016;Moreo等,2016;任等,2016a;Tomek, 1976;Yun等,2016;葉等,2016;張等,2016a)。

三篇論文研究了不同再採樣方法的性能(Loyola-Gonzalez et al., 2016;Napierala和Stefanowski, 2015;周2013)。研究結果表明:

  1. 當數據集中有數百個少數觀測值時,欠採樣方法在計算時間上優於過採樣方法。
  2. 當少數情況只有幾十個時,我們發現SMOTE是更好的選擇。
  3. 如果訓練樣本量過大,建議採用SMOTE和欠採樣相結合的方法。
  4. SMOTE在識別異常值方面稍微更有效一些。
Feature selection and extraction 特徵選擇和抽取

與重採樣方法的研究進展相比,考慮特徵選擇的論文明顯減少。在不平衡的情況下,少數類樣本容易作爲噪聲丟棄;但是,如果去除特徵空間中不相關的特徵,則可以降低這種風險(Li et al., 2016c)。

通常,特徵選擇的目標是從整個特徵空間中選擇k個特徵的子集,這樣分類器就可以獲得最佳性能,其中k是用戶指定的或自適應選擇的參數。特徵選擇可以分爲過濾器包裝器嵌入方法(Guyon和Elisseeff, 2003)。這些方法的優點和缺點可以在Saeys等人(2007)中找到。

另一種處理維數的方法是特徵提取。特徵提取與降維有關,降維是將數據轉化爲低維空間。但是,應該注意的是,特徵選擇技術與特徵提取不同。特徵提取使用功能映射從原始特徵創建新特徵,而特徵選擇返回原始特徵的子集(Motoda和Liu, 2002)。特徵提取的技術多種多樣,如主成分分析(PCA)、奇異值分解(SVD)和f非負矩陣分解(NMF)(見Hartmann, 2004)。對於圖像、文本和語音等非結構化數據,特徵提取方法的使用往往更爲頻繁。

表2顯示了31篇使用特徵選擇或特徵提取的綜述文章。研究發現,過濾和包裝器的特徵選擇方法是最常用的。對於過濾器方法,使用各種指標對特徵進行排序,對於包裝器方法,啓發式搜索是常見的選擇。另一個有趣的發現是,特徵選擇和提取經常用於解決現實世界的問題,如疾病診斷(Casanola-Martin et al., 2016;Dubey等,2014;社,2010;楊等,2016a;張,2016),文本情感分析(Lane et al., 2012;(Zhang et al., 2015a),欺詐檢測(Li et al., 2013a;Lima and Pereira, 2015 Moepya et al., 2014;Wei等,2013b)等罕見事件檢測問題(al - ghraibah等,2015;Bae和Yoon, 2015;龔和黃,2012;郭等,2016;Vong et al., 2015)等。
表2

Cost-sensitive learning 代價敏感學習

通過假設少數類樣本相對於多數類樣本的誤分類代價更高,可以在數據級(例如重新採樣和特徵選擇)和算法級(參見3.2節,Lopez et al., 2012, 2013)納入代價敏感學習。成本通常指定爲成本矩陣,其中C ij表示將屬於類i的示例分配給類j的錯誤分類成本。給定一個特定的領域,成本矩陣可以使用專家意見來確定,或者在數據流場景中,它們可以爲每個記錄而變化,或者在動態不平衡狀態下變化(Ghazikhani et al.,2013 b)。與重採樣方法相比,代價敏感學習具有更高的計算效率,因此可能更適合大數據流。然而,這一方法僅被39篇文獻採用,遠沒有重新抽樣方法受歡迎。可能有兩個潛在的原因,一個是如Krawczyk等人(2014)所述,很難在設置成本矩陣值。在大多數情況下,由於錯誤分類的成本從數據中是未知的,不能由專家給出。然而,解決這一困難的另一種方法是,將多數階級誤分類成本設置爲1,同時將懲罰少數階級的價值設置爲等於IR (Castro and Braga, 2013;洛佩茲等,2015)。另一個原因是,對於那些不擅長機器學習的研究人員來說,重新採樣是一種實際中常見的選擇,這可能對這個觀察結果更合理。與通常需要修改學習算法的代價敏感學習不同,重採樣方法更容易在單個模型和集成模型中直接實現。在我們的研究過程中,大多數的申請論文使用了重新抽樣的方法,而不是成本敏感的學習。

處理費用敏感問題的三種主要方法見表3所列的39份有關文件。
在這裏插入圖片描述

Classification algorithms for imbalanced learning 針對不平衡學習的分類算法

不平衡學習試圖建立一種分類算法,能夠比傳統的分類器如SVM、KNN、決策樹和神經網絡更好地解決類別不平衡問題。文獻報道了兩種解決學習不平衡問題的方法;集成方法和算法分類器的修改。在3.2.1節和3.2.2節中,我們回顧了過去十年提出的不平衡數據分類算法。雖然這些方法大多針對二元類問題,但多類問題在機械故障檢測和疾病診斷等許多罕見的事件檢測領域中較爲常見。因此,第3.2.3節將多類不平衡學習作爲一個特殊問題進行討論,並簡要介紹了目前的解決方案。

Ensemble methods 集成方法

基於ensemble的分類器,也被稱爲多分類器系統(Krawczyk和Schaefer, 2013),通過組合幾個性能優於每個獨立分類器的基分類器來提高單個分類器的性能(Lopez et al., 2013)。分類器集成已成爲解決類不平衡問題的一種常用方法。在527篇綜述論文中,218篇論文提出了新的集成模型或應用現有的ensem- ble模型來解決實際任務。Galar等(2012)採用集成方法對不平衡數據學習進行了全面的調查,其中集成方法分爲成本敏感集成和數據預處理集成。然而,由於本研究只考慮了bagging、boosting和混合系統,因此該領域還沒有完全覆蓋。例如,Sun et al.(2015)和Tian et al.(2011)提出了兩種集成模型,通過平衡使用重新採樣方法創建的不同數據集來訓練多個基本分類器,而不需要打包或增強算法。

注意,基於重採樣的集成和裝袋的訓練過程可以並行進行,而boost和一些基於進化的集成方法只能使用迭代過程進行訓練。因此,在本研究中,我們將集成模型分爲兩類,即基於迭代的集成和基於並行的集成

Iterative based ensemble 基於迭代的集成

boosting是集成學習中最常見、最有效的方法。我們發現63篇重新瀏覽的論文在其集成框架中使用了增強,其中大多數是基於Freund和Schapire(1996)提出的第一個適用的增強算法Adaboost。Adaboost的優點是,沒有被分配到正確類別的樣本被賦予了更高的權重,這迫使未來的分類器更多地關注於學習這些失敗的分類樣本。Adaboost有幾個擴展:Adaboost.M1,Ad- aBoost.M2, AdaBoost.MR and AdaBoost.MH (Freund and Schapire, 1997;Schapire and Singer, 1999);它是爲解決多類多標籤問題而設計的。其他典型的迭代集成方法包括梯度增強決策樹(GBDT) (Friedman, 2001)和一些基於en-semble算法的進化算法(EA)。

如Galar等人(2012)所述,增強算法通常與代價敏感的學習和重新採樣技術相結合。表4列出了一些提出了新的基於迭代的集成算法的技術文章。可以看出,Adaboost和Adaboost.M2是最流行的基於迭代的集成方案大多數集成模型都考慮了成本敏感和重新採樣策略
表4

Parallel based ensembles 基於並行的集成

在本研究中,基於並行的集成是指每個基分類器都可以並行訓練的集成模型。基於並行的集成方案包括基於袋裝的集成、基於重採樣的集成和基於特徵選擇的集成。並行集成方法的基本框架如圖5所示,其中虛線框和線表示可選流程。Galar et al.(2012)和Lopez et al.(2013)認爲,與boost相比,套袋和與數據預處理技術相關的雜交已經取得了較好的效果。通過我們的研究,發現兩種類型的論文都採用了並行ensemble方法。首先,在面向應用的論文中基於並行集成方法更受歡迎比迭代集成(比如在郝et al ., 2014年,魏et al ., 2013 b,戴,2015年,等等),和最新的重採樣方法通常是結合基於並行的整體方案(比如在彭et al ., 2014年,太陽et al ., 2015年,李et al ., 2013 a,等等)。由於並行集成具有節省時間和易於開發的優點,因此推薦使用它們來解決實際問題。
圖5 並行集成學習框架

Base classifier choice in ensemble models 集成模型的基分類器選擇

在實現迭代或並行集成方法時,需要一個基本分類器,它可以是支持向量機和神經網絡等任何經典模型。圖6總結了被提出的集成學習算法所影響的主要基分類器。注意,有些論文研究了多個基本分類器。結果表明,SVM、NN(神經網絡)、NB(樸素貝葉斯)、基於規則的分類器、基於決策樹的分類器(包括C4.5、CART、random forest等新型樹分類器)在分類器中選擇最多。Sun等(2009)總結了一些基礎分類器在從不平衡的數據中學習時遇到的困難,指出機器學習的分類器有幾十種,每種分類器都有自己的優缺點。用戶需要根據實際情況選擇合適的基分類器。例如,支持向量機具有魯棒性和精確性,但對缺失值敏感,難以對大規模數據進行訓練。相反,決策樹擅長處理缺失值的情況,但可能無法對小尺寸數據建模(Li et al., 2016c)。
圖6 基分類器使用統計

Algorithmic classifier modification 分類器算法修改

提高現有分類算法的學習能力,提高不平衡數據的分類性能是另一個主要的不平衡學習研究方向。近幾十年來,在班級不平衡學習和罕見事件檢測領域,已有160多個新的改進分類器被提出。支持向量機,決策樹,神經網絡,KNN, ELM,基於規則的分類器,樸素貝葉斯修分別有54篇、33篇、24篇、15篇、13篇、11篇和9篇論文。表5總結了一些常用的技術來改進這6個分類器。
表5 算法改進技巧

Multi-class imbalanced learning 多類別不平衡學習

多類學習一直被認爲是分類算法的難點,因爲多類分類的性能明顯低於二進制分類。當面對不平衡的數據時,這個問題變得更加複雜,因爲類之間的邊界可能嚴重重疊(Fernandez et al., 2013)。近年來,多類不平衡學習引起了人們的廣泛關注。綜述的32篇論文將二元類不平衡解推廣到多類情形。兩種通用化方法似乎是最常用的;一種方法(OVO)和一種方法(OVA)都基於分解技術。OVO和OVA分解方案如圖7 (Zhou, 2016)所示,其中C i表示所有標記爲i的例子,f j是分類器j生成的假設。
圖7
Fernandez等人(2013)研究了OVO和OVA分解,以及ad-hoc學習算法,這些算法對於解決多個班級學習問題是很自然的。實驗結果表明,OVO的性能優於OVA。然而,分解方法和stan- dard自組織學習算法之間沒有顯著差異。王和姚(2012)也得出了類似的結論。他們認爲沒有必要使用類分解,而直接從整個數據集中學習就足以進行多類不平衡分類。他們的結論是,將類別分解與類別不平衡技術結合起來,而不考慮類別的全局分佈是不明智的。

雖然上面的文章表明OVA不是最好的可用工具,但它仍然很受歡迎,因爲它需要更少的分解,因此是時間效率。與OVA相比,OVO的數量較少。表6顯示了OVO、OVA和ad-hoc相關文章的摘要。
表6

Model evaluation in the presence of rare classes 罕見類模型評估

模型選擇和模型評價是機器學習的兩個關鍵過程。因此,性能度量是評價分類器有效性和指導學習的關鍵指標。精度是最常用的分類評價指標。然而,在不平衡的情況下,由於偏向於多數類,準確性可能不是一個好的選擇。適應於不平衡數據問題的性能指標,如**(ROC)、g -均值(GM)和F-measure(F m),由於考慮了類分佈,因此不太可能出現分佈不平衡。由於這些測量方法廣泛應用於不平衡學習領域,其詳細公式可以在大多數不平衡學習相關論文中找到(如Branco et al., 2016, Lopez et al., 2013),所以我們只在附錄中介紹這些測量方法(見補充資料)。也有一些工作致力於提出新的不平衡數據的評價指標,如調整後的F-measure** (Maratea et al., 2014)和概率閾值法(Su and Hsiao, 2007)。

最常用的指標包括準確度、AUC/ROC、F-Measure、G-mean、精密度、靈敏度、特異性、平衡accuracy和Matthews相關係數(MCC)。兩篇論文研究了這些指標對不平衡學習的有效性,並提出了一些建議(Gu et al., 2009;(Jeni et al., 2013)。圖8給出了所有度量的使用總結。請注意,儘管基於準確性的度量標準已經被證明偏向於大多數類,但它們仍然經常用於研究中,因爲它們是用於分類任務的最普遍和最直觀的度量標準。AUC、g -均值和F-測度也常被用作模型比較和模型選擇的評價指標。

圖8
值得注意的是AUC/ROC曾被Hand(2009)質疑,他認爲ROC依賴於模型生成的截止點,當只考慮最優閾值時,截止點與誤分類代價相關,因此模型的ROC是不一致的。然而,對於這一解釋也有一些反對意見(Ferri et al., 2011)。一般來說,AUC/ROC被認爲是衡量排名績效的一個有用指標。

上述度量只適用於二進制分類問題。將這些度量擴展到多類情況的一種自然方法是使用分解方法(3.2.3中描述的OVA和OVA方案),並取每個成對度量的平均值(Cerf et al., 2013)。MAUC (Hand and Till, 2001)是AUC均值的一個例子,在Guo et al.(2016)和Li et al.(2016)中,使用了AUC的一個推導。Phoungphol等(2012)採用了另一種基於AUC的多類度量,ROC下的體積(VUC), Sun等(2006)採用了g均值的擴展。對於F-measure, Phoungphol等人(2012)引入了微觀平均和宏觀平均兩種類型的平均值。

Imbalanced data classification application domains 不平衡學習應用領域

目前,人們對利用自動化方法——尤其是數據挖掘和機器學習方法——來分析常規收集的大量數據非常感興趣。一類重要的問題涉及基於過去事件預測未來事件。事件預測通常包括預測罕見事件(Weiss和Hirsh, 20 0 0)。罕見事件是發生頻率較低但可能造成深遠影響和擾亂社會的事件(King and Zeng, 2001)。罕見事件以多種形式潛伏着,包括自然災害(如地震、太陽耀斑、龍捲風)、人爲危害(如金融欺詐、工業事故、暴力衝突)和疾病。由於這類數據通常是不平衡的,許多研究都是在不平衡學習方法的幫助下構建罕見事件檢測系統。在文獻中,我們發現162篇文章是面向應用的,從管理到工程。在第4.1節中,我們開發了一個分類法方案,將這162篇文章分類爲13個罕見事件檢測應用領域。在第4.2 -4.14節中,描述了每個類別及其子類別,並給出了一些例子。

本節的主要目的是向來自不同領域的研究人員展示如何應用不平衡學習來檢測他們研究領域中的罕見模式/事件。由於在第3節中已經介紹了學習技術,所以我們試圖在這一節中省略技術細節,以避免重疊,並在這一節中更多地關注於描述特定的問題以及相應的數據收集和特徵工程過程。此外,通過我們的研究,我們還發現了一些有趣的現象,關於哪些方法在不同的領域得到了廣泛的應用。

Taxonomy of application domains 應用領域的分類

不包括UCI和KEEL等流行基準測試,我們將實際應用程序分爲13類。每個類別包含幾個主題。我們將管理應用分爲六大類:金融、能源、安全、應急、環境和企業管理。其餘類別涉及工程和人文領域,分爲:化學、生物和醫學工程;信息技術;電子和通信;基礎設施和工業製造業;警方,社會和教育;農業和園藝;其他領域。表7顯示了論文的分類和頻率分佈。注意,有些應用程序可能是跨學科的,我們只是簡單地將它們分爲最能描述其領域的組。
表7

Chemical and biomedical engineering Biomedical 化學和生物醫學工程生物醫學

生物醫學工程將工程原理和設計理念應用於醫學和生物保健目的(如診斷、監測和治療),而化學工程則試圖將化學材料或細胞轉化爲有用的形式和產品。生物醫學和化學工程都採用物理和生命科學以及應用數學、計算機科學和經濟學。應用通常包括建立一個決策支持系統來檢測和預測化學過程和生物醫學活動中的異常結構。這些包括疾病診斷、疾病早期預警、蛋白質檢測、化學排斥和耐藥性。相關研究問題及參考文獻見表8。

表8
蛋白質檢測、基因表達預測和疾病診斷是目前化學和生物醫學數據分類中研究最多的問題。蛋白質數據集通常是不平衡的數據集,蛋白質檢測試圖根據其序列表達來識別蛋白質的結構和功能(Dai, 2015)。在蛋白質檢測任務中,將序列中的非數值屬性轉換爲數值屬性時,特徵提取是必不可少的(Vani和Sravani, 2014;Wasikowski和Chen, 2010)。類似的性質可以在基因表達鑑定(Yu et al., 2012)和DNA鑑定(Song et al., 2014)中發現。圖像數據也經常用於分析異常生物醫學事件:Bria等(2012)使用198幅圖像檢測數字乳腺x線照片上的微鈣化;Lerner等(2007)使用魚信號圖像分析異常基因;Bae和Yoon(2015)專注於在內鏡或結腸鏡圖像中尋找息肉的位置和大小。

financial management 金融管理

財務管理是企業管理的一個分支。我們的評論發現有37篇論文解決了財務問題;因此,我們將財務管理從業務管理中分離出來。財務管理是企業財務資源的規劃、獲取和控制的管理活動。Sanz等(2015)對股票市場預測、信用卡/貸款審批申請系統、欺詐檢測等11個財務問題進行了不平衡數據分類方法的測試。其他論文及其應用設置見表9。
表9
這類論文多集中在財務舞弊的偵查方面,包括電子支付詐騙、信用卡和信用卡詐騙、公司活動詐騙、保險詐騙、公司財務報表詐騙等。Krivko(2010)強調了構建有效的欺詐檢測系統的幾個挑戰;日常交易記錄量大,欺詐發生頻率低,信息延遲。檢測欺詐事件是一個典型的不平衡學習問題,因爲交易記錄高度傾斜。通常,用於培訓欺詐檢測系統的數據集包括客戶簡介和交易記錄(交易類型、日期、位置、金額等)。Kim等(2012)描述了信用卡和貸款欺詐檢測中使用的違約信息的一些代表性特徵。其他有趣的研究課題也被研究。龔和黃(2012)基於聖地亞哥房地產信息,收集了37個關於房產狀況以及是否進行再融資的變量來預測房產再融資。Alfaro et al.(2008)和Zhou(2013)利用各種特徵作爲判斷企業生命週期階段甚至預測企業破產的因素:股息支付率、銷售增長、資本支出、企業年齡以及其他企業檔案,如記錄的負債、資產、銷售、法律結構和稅務信息。文獻中還利用了網絡行爲信息、社交網絡信息等其他數據來源(Abeysinghe et al., 2016)。

Information technology 信息技術

信息技術是計算機存儲、檢索、傳輸和操作數據的應用。隨着web數據的爆炸式增長,從信息設備和平臺檢測有趣的事件對於業務決策和策略形成至關重要。傳統的軟件缺陷檢測、網絡入侵檢測等異常檢測方法都是在不平衡的情況下實現的。本領域內收集的文獻根據研究對象分爲三個部分,如表10所示。
表10
軟件缺陷和質量預測是軟件工程中的兩個主要研究課題。模塊屬性通常用於預測缺陷或評估軟件的質量。另一方面,網絡入侵檢測往往需要在線進行預測,導致在線學習不平衡,Wang等(2013)介紹了詳細的技術。隨着internet技術的飛速發展,web數據已經成爲分析客戶偏好的重要資源。Vorobeva(2016)使用web-post來識別web作者,情感分析已經成爲一個熱門話題,它從web上的用戶生成內容(UserGenerated Content, UGC)來處理和分析用戶的偏好。由於用戶對特定話題的看法往往是一致的,因此用於情緒分析的UGC數據通常是不平衡的。由於情感分析等web數據挖掘模型往往是從文本、圖像、數值等異構數據源構建的,在設計不平衡學習模型之前,需要使用特徵工程技術來生成特徵。例如,單詞嵌入(Mikolov et al., 2013)是一種爲文本構建單詞表示的有效技術,卷積神經網絡(CNN,或ConvNet)在從原始圖像生成特徵方面很受歡迎(Razavian et al., 2014)。

Energy management 能源管理

能源管理包括能源生產和能源消費單位的規劃和運行。與這一領域相關的論文有8篇。Guo等(2016)和Li等(2016c)利用油井測井數據識別井中各層含油地層。Xu等人(2007a, b)重點研究配電中斷識別,以提高配電系統的可用性和可靠性。利用歷史配電中斷數據和環境屬性提取樹木、動物和閃電引起的故障模式。Ashkezari等(2013)建立了狀態評估模型,對電力變壓器的健康(適應度)水平進行評估。利用溶解氣體分析和絕緣油試驗數據對模型進行了訓練。Qing(2015)專注於預測電力系統庫存物資消耗需求。他們發現,電力系統中基於項目的需求和基於運營/維護的需求具有扭曲的頻率;因此,建立一個能夠預測可能的材料消費需求的不平衡學習模型,可以比傳統的機器學習模型得到更好的結果。欺詐檢測技術也應用於能源領域。尤其是電力欺詐,即不誠實或非法使用電力設備或服務,以避免計費(Fabris et al., 2009;Nagi等,2008)。由於電力客戶消費數據是由時間序列記錄組成的,因此需要對這些屬性進行特殊處理,以提取所有相關信息(Fabris et al., 2009)。

Security management 安全管理

爲了實施有效的控制,組織使用安全管理程序,如潛在的風險檢測、風險評估和風險分析來識別威脅、犯罪和其他異常。侵犯知識產權和惡意破壞等內部威脅是安全部門需要發現的重要事件。Azaria等(2014)分析了內部威脅行爲。使用Amazon Mechanical Turk (AMT)進行的實驗旨在區分正常行爲和那些打算泄露組織隱私數據的人。安全管理的另一個常見應用是檢測監控視頻中的威脅和異常事件(Mandadi和Sethi, 2013;王等,2016a;王等,2015b;文等,2015;徐等,2016)。基於監控視頻的事件自動檢測系統通常包含特徵提取和模式分類組件(Xu et al., 2016)。在特徵提取方面,離散光流描述符、基於軌跡的方法(Xu et al., 2014)和稀疏時空角描述符(稀疏時空角描述符)等方法是目前廣泛使用的從局部圖像區域和視頻剪輯中提取特徵的方法(Mandadi和Sethi, 2013)。在模式分類階段,可以使用不平衡數據分類算法來識別異常動作和事件。

Electronics and communications 電子與通信

在我們的研究中,有五篇論文是關於電子和電信的,其中四篇是關於檢測電信欺詐的。簡而言之,電信欺詐可以簡單地定義爲在沒有任何支付意圖的情況下獲得電信服務的任何活動(Hilas和Mastorocostas, 2008)。Hilas和Mastorocostas(2008)研究了幾個電信欺詐類別,如技術欺詐、合同欺詐、黑客欺詐和程序欺詐。同樣,Farvaresh和Sepehri(2011)發現了訂閱欺詐、撥號欺詐、免費電話欺詐、費率服務欺詐、手機盜竊和漫遊欺詐,並試圖基於通話詳細記錄和賬單數據來檢測住宅和商業訂閱欺詐。其他研究,如Olszewski(2012)和Subudhi和Panigrahi(2015)根據用戶資料區分正常和欺詐行爲。Kwak et al.(2015)和Tan et al. (2015b)這兩篇論文都研究了電子和電子器件晶圓中電路缺陷或其他異常的檢測。Tan等人(2015b)在一個加密的數據集上訓練了一個機器學習模型,該數據集由三個主要的半導體制造操作過程(etest、sort和class test)生成。

Infrastructure and industrial manufacturing 基建及工業製造業

在這一類別中,有8篇論文采用了不平衡學習方法來解決工業製造問題。Cateni etal .(2014)對兩個金屬行業問題採用了重採樣方法。第一個問題是生產過程中產品表面缺陷的自動檢測系統。鍊鋼領域的另一個工業應用是確定噴嘴以確定最終產品質量。Sun等人(2010)重點研究了在製造中廣泛使用的納米cmos電路中變化的檢測過程。該方法在6個儀器指標上進行了測試,並在45納米CMOS器件上實現。廖(2008)提出了一種多類不平衡數據分類算法來識別可能分佈不均勻的不同類型焊縫缺陷。在他們的實驗中,每個焊縫缺陷樣本都有12個特徵描述形狀、尺寸、位置和強度信息,這些特徵都是從射線圖像中提取出來的。他們研究的目的是對焊縫缺陷進行分類,以確定是否存在熔合、未焊透、氣孔、氣孔或裂紋。塔吉克等(2015)提出了一種工業燃氣輪機故障檢測系統。近年來,將不平衡學習應用於機械故障診斷研究:Duan等(2016a)和Mao等(2017)對滾子軸承可能發生的多種故障進行了分類;Jin et al.(2014)和Zhang et al. (2015b)構建了幾個特徵來表示機器的不同健康狀況,以檢測潛在的機器故障。還有一篇論文是關於建築建模的。Xin等(2011)認爲,從激光雷達數據中檢測建築物的足點是基礎,也是建築物建模和邊緣檢測應用的難點之一。因此,他們試圖從非地面點數據集中檢測建築點,該數據集由兩個不平衡的數據集組成,分別來自建成區(密集的建築和小樹林)和農村地區(密集的樹木和低矮的房屋)。

Business management 商業管理

企業管理是一個廣泛的概念,包括計劃、組織、人員配備、領導和控制一個組織來實現一個目標。由於財務管理是在4.3節中介紹的,這一類別中只討論了7篇關注其他業務功能的論文,其中大部分與客戶關係管理(CRM)相關。數據挖掘是一個重要的組成部分,CRM分析大型數據流和洞察客戶行爲、需求和偏好(Lessmann Voß,2009)。Sultana(2012)利用一家保險公司的客戶數據來識別那些更願意購買大篷車保險的潛在客戶。感興趣的特徵是來自客戶郵政編碼的社會人口統計變量,以及關於其他保單所有權的變量。Chen et al. (2012), Verbeke et al. (2012), Wu and孟(2016),Yi(2010)選擇購買時間、購買金額、折扣、買家信用評級、支付積分和人口統計信息作爲特徵來檢測客戶流失行爲。Chang and Chang(2012)採用不平衡學習模型對在線拍賣進行監控,利用評級密度、時間信息和歷史記錄等屬性來檢測重大異常和欺詐行爲。Bogina等人(2016)利用會話和在會話中單擊的條目的時間特性來預測是否以購買結束。

Emergency management 緊急情況管理

令我們驚訝的是,很少有評論文章關注預測緊急事件。緊急情況是指對健康、生命、財產或環境構成直接風險的情況(Anderson and Adey, 2012)。考慮到緊急事件的不常見性,它們通常是非常罕見的事件。由於突發事件的突發性和破壞性,預測突發事件是一個有價值而又困難的研究課題。現有的應急事件檢測研究主要集中在自然災害方面。Maalouf and Trafalis(2011)、Maalouf and Siddiqi(2014)和Trafalis等人(2014)建立了不平衡學習模型來預測龍捲風。龍捲風數據集有83個屬性,包括雷達導出的描述中氣旋各方面的速度參數、月屬性、描述風暴前環境的特徵以及大氣在特定高度爆炸擡升空氣的傾向。金正日et al .(2016)應用不平衡學習模型來檢測一些緊急情況如地震、火災、洪水、滑坡、核事件,火山使用文本文檔收集來自匈牙利國家無線電Distress-Signaling Infocommunications協會(RSOE,顯示器非凡的風險事件發生在世界各地,每天24小時)。

Environmental management Environmental 環境管理

環境資源管理是人類社會對環境的相互作用和影響的管理。Vong等(2015)認爲空氣污染指數預測是一個時間序列問題。在他們的研究中,使用在線順序學習方法來預測pm10水平(好、中、重度)。選取澳門政府氣象中心收集的大氣污染數據(包括氣壓、氣溫、平均相對溼度、風速等)作爲案例研究。Topouzelis(2008)專注于海洋石油泄漏,這可能嚴重影響海洋生態系統。利用污染物排放量及其對海洋環境的影響對海水水質進行了評價。同樣,爲了監測石油泄漏事件,Brekke和Solberg(2008)使用合成孔徑雷達圖像(SAR)來區分石油泄漏與其他自然現象。另外兩篇論文專注於預測污染閾值超標。Lu和Wang(2008)採用成本敏感SVM算法預測臭氧閾值超標(污染物日),Tsai等(2009)採用成本敏感神經網絡方法預測某一時段的臭氧。兩項研究都證明了代價敏感算法能夠有效地解決數據不平衡問題,並在環境應用中獲得較好的稀有樣本(污染天數)預測。然而,重新取樣或綜合方法在環境管理方面的應用尚未得到研究。

Policy, social and education

與公共事業有關的三個關鍵概念被納入這一類目,但只有四篇論文集中討論社會和教育問題。Marquez-Vera等人(2013)認爲,檢測學生的失敗是更好地理解爲什麼如此多的年輕人未能完成學業的有效方法。這是一項艱鉅的任務,因爲有許多可能影響學業失敗的因素;此外,大多數學生通過了考試。因此,該故障被認爲是一個高維、不平衡數據的預測問題。在他們的研究中,有77個屬性(例如社會經濟因素;個人、社會、家庭和學校因素;選擇以前的和現在的分數),建立不平衡數據分類模型,預測學生高中是否及格。其他有趣的研究包括:Huang等人(2016)分析視頻數據預測人羣計數;Ren等人(2016b)設計了一個綜合的特徵工程流程來預測潛在的實時紅燈運行,他們使用的特徵包括佔用時間、時間間隔、使用黃時間、車輛通過等。Gao等(2016)從可穿戴設備中生成傳感器數據,用於監測秋季事故的發生。

Agriculture and horticulture

農業和園藝是科學的一個重要領域。然而,我們在這組中只找到了一篇論文。D’este等人(2014)通過基於水質信息預測所需的最短關閉時間,解決了貝類養殖場的關閉問題。所使用的數據集是18692個手工水樣本,由澳大利亞塔斯馬尼亞貝類質量保證項目從38個生長區域採集。

Other areas and non-specific applications Applications

不符合12個類別中的任何一個的應用程序被分配到這個類別。詳細地,我們發現了兩篇與天文學研究有關的論文。例如,Voigt等人(2014)研究了伽馬射線天文探測問題,其中強子觀測比伽馬事件常見100到10倍。從天文學的魔術實驗數據收集,以選擇一個最佳閾值的信號背景分離。al - ghraibah等人(2015)試圖通過太陽磁場的定量測量來預測耀斑活動來探測太陽耀斑。最後,Vajda and Fink(2010)和Alsulaiman等人(2012)提出了一種不平衡場景下的手寫識別系統,用於識別驗證。

Future research directions of imbalanced learning

在這一部分,我們提出了可能的研究方向的不平衡學習基於我們的調查。特別地,我們認爲仍然需要考慮的不平衡技術在第5.1節中提出。第5.2節指出了一些應用領域的數據經常出現不平衡,但沒有得到很好的研究。

At the technical level

Diversity within ensembles

在這一部分,我們提出了可能的研究方向的不平衡學習基於我們的調查。基於集成的學習算法作爲提高弱學習者分類性能的一種有效方法,已被廣泛應用於解決許多學習任務的不平衡問題。Wang and Yao(2009)認爲集成模型的性能取決於單個分類器的準確性和所有分類器之間的多樣性。多樣性是分類器對一個問題做出不同決策的程度。多樣性允許投票的準確性大於單一分類器。他們展示了多樣性如何影響分類性能,尤其是在少數族裔班級。他們的實證研究表明,多樣性越大,少數人的記憶能力越強,但對多數人的記憶能力卻有害,因爲當準確率不夠高的時候,多樣性會增加將例子歸類爲少數人的可能性。此外,當在集成模型中增加多樣性時,多類更加靈活和有益。類似的研究中可以找到Błaszczy´nski和Lango (2016)。在構建集成模型時,已有Diez-Pastor等人(2015b)、Krawczyk和Schaefer等人(2013)、Lin等人(2013a)等人將多樣性考慮在內,在集成模型中使用多樣性測度或進化方法對分類器進行修剪,以保持多樣性。然而,多樣性問題仍然需要仔細研究,因爲大多數現有的應用程序傾向於首先學習精確的基分類器,然後將其集成到集成中。Wang and Yao(2009)認爲,在中等精度和中等多樣性的集成模型中,狀態可以導致更好的性能,但是精度和多樣性之間的權衡仍然不清楚。此外,與此相關的是,雖然剪枝分類器在增加集成多樣性和避免過度擬合方面具有強大的功能,但是在剪枝過程之前,仍然需要對許多基分類器進行訓練和評估,這是非常耗時的。在未來的研究中,需要建立一個能夠更有效地整合多樣化和精確的弱學習者的集成模型。特別地,我們認爲仍然需要考慮的不平衡技術在第5.1節中提出。第5.2節指出了一些應用領域的數據經常出現不平衡,但沒有得到很好的研究。

Adaptive learning

在這一部分,我們提出了可能的研究方向的不平衡學習基於我們的調查。基於集成的學習算法作爲提高弱學習者分類性能的一種有效方法,已被廣泛應用於解決許多學習任務的不平衡問題。Wang and Yao(2009)認爲集成模型的性能取決於單個分類器的準確性和所有分類器之間的多樣性。多樣性是分類器對一個問題做出不同決策的程度。多樣性允許投票的準確性大於單一分類器。他們展示了多樣性如何影響分類性能,尤其是在少數族裔班級。他們的實證研究表明,多樣性越大,少數人的記憶能力越強,但對多數人的記憶能力卻有害,因爲當準確率不夠高的時候,多樣性會增加將例子歸類爲少數人的可能性。此外,當在集成模型中增加多樣性時,多類更加靈活和有益。針對不平衡數據分類問題,提出了數百種算法,並證明了它們在某些方面優於其他算法。然而,從技術論文中,我們沒有發現任何特定的算法在所有的基準測試中都是優越的。大多數提出的算法一致地處理所有不平衡的數據,並使用一個通用的算法來處理它。然而,由於不平衡數據在不平衡比、特徵個數、類數等方面存在差異,不同類型數據集學習時的分類器性能也不同。當構建集成模型時,學習模型中的這種不確定性變得更加明顯。Li等(2016c)認爲使用特定的集成分類器來處理各種不平衡的數據是低效的。訓練樣本的選取方式、基分類器的選擇以及最終的集成規則都會影響模型的學習質量。在過去的十年中,雖然對構建統一的集成框架進行了深入的研究,但是集成框架中的每個組件通常都是由用戶決定的。這就提出了另一個問題,即如何自適應地選擇一個詳細的算法,使集成框架中的每個組件都適合不同類型的不平衡數據。除了對集成模型進行自適應學習外,其他論文還研究了自適應選擇信息實例進行重採樣的方法,並自動學習最佳採樣率(Lu et al., 2016;Moreo等,2016;任等,2016a;Yun等,2016;葉等,2016;張等,2016a)。此外,Krawczyk等(2014)嘗試從數據中學習成本敏感學習的成本矩陣。注意到這些都是最近的研究,也支持適應性學習可能是不平衡學習的另一個研究主題。類似的研究中可以找到Błaszczy´nski和Lango (2016)。在構建集成模型時,已有Diez-Pastor等人(2015b)、Krawczyk和Schaefer等人(2013)、Lin等人(2013a)等人將多樣性考慮在內,在集成模型中使用多樣性測度或進化方法對分類器進行修剪,以保持多樣性。然而,多樣性問題仍然需要仔細研究,因爲大多數現有的應用程序傾向於首先學習精確的基分類器,然後將其集成到集成中。Wang and Yao(2009)認爲,在中等精度和中等多樣性的集成模型中,狀態可以導致更好的性能,但是精度和多樣性之間的權衡仍然不清楚。此外,與此相關的是,雖然剪枝分類器在增加集成多樣性和避免過度擬合方面具有強大的功能,但是在剪枝過程之前,仍然需要對許多基分類器進行訓練和評估,這是非常耗時的。在未來的研究中,需要建立一個能夠更有效地整合多樣化和精確的弱學習者的集成模型。特別地,我們認爲仍然需要考慮的不平衡技術在第5.1節中提出。第5.2節指出了一些應用領域的數據經常出現不平衡,但沒有得到很好的研究。

Online learning for imbalanced data stream classificatio

數據的巨大容量和可訪問性極大地吸引了人們對大數據分析的熱情;它的挑戰之一是處理和響應流和快速移動的輸入數據。在線學習的目的是一次處理一個實例,因此在數據挖掘社區中得到了越來越多的關注。首先,它接收一個示例,然後進行預測。如果預測錯誤,它將遭受損失並更新其參數(Maurya et al., 2015)。在很多數據流應用中都可以看到傾斜的類分佈,例如在控制監控系統的故障診斷和網絡和垃圾郵件識別中的入侵檢測(Hoens et al., 2012)。當在線學習數據流時,可能會出現三個主要困難:a).底層數據分佈往往隨着時間的推移而發生較大的變化,這被稱爲概念漂移(或非平穩)學習(Ghazikhani et al., 2014)。b).網絡課堂學習的不平衡存在顯著的困難,因爲對於哪些數據類應該被視爲少數,哪些數據類應該被視爲多數,以及不確定性不平衡狀態,缺乏先驗知識(Wang et al., 2014b, 2015a)。c).數據稀疏問題普遍存在於數據流中(Maurya et al., 2016)。這鼓勵研究動態確定數據流中的班級不平衡狀態,並有效地使在線學習者適應班級不平衡(Ghazikhani et al., 2013a)。Wang Boyu (2016), Dal Pozzolo et al. (2015), Ditzler and Polikar (2013), Wang et al.(2013)設計了用於學習不平衡數據流的重採樣集成模型。然而,在現有文獻中,對成本敏感的文獻並不多見,Ghazikhani et al. (2013b)、Maurya et al.(2016)和Wang et al. (2014a)只發現了三種模型。在對大數據流進行分類時,對成本敏感的學習在計算上比數據採樣技術更高效。因此,我們建議研究人員更多地關注對成本敏感的在線學習。此外,基於ELM的在線學習算法也得到了普及,ELM的效率滿足實時預測的要求(Mao et al., 2017;Mirza等。2015a,b)。“隨着大數據時代對隨時可能到來的任何數據的快速、準確響應的要求越來越高,動態、不平衡情境下的在線學習可能成爲一個熱門的新研究課題。

Semi-supervised learning and active learning

在一些數據分析領域,海量數據的收集成本較低;然而,獲得帶標記的示例來訓練分類器是很昂貴的。在大數據中,具有少量標記實例(通常是少數)和大量未標記實例的大型語料庫是常見的。半監督學習技術試圖利用未標記實例中的內在信息來改進分類模型(Zhu和Goldberg, 2009);然而,這些技術假定標記的實例涵蓋所有的學習類,而事實往往並非如此。此外,當存在不平衡的類分佈時,從少數類中提取帶標記的實例可能非常昂貴。收集更多標記示例的一種方法是請專家或用戶進行廣泛的標記,這可能導致一種特殊的半監督學習方法,稱爲主動學習。主動學習允許專家根據標準對新實例進行標記,從而減少標記工作(Frasca et al., 2013)。主動學習的基本思想是估計標記一個未標記實例的價值。根據分類任務的目標,最有價值的查詢是通過學習算法來選擇的,而不是像被動監督學習那樣隨機選擇(Escudeiro and Jorge, 2012)。針對不平衡數據提出的主動學習算法很少(Dong et al., 2016;傅和李,2013;Oh et al., 2011)。當存在不平衡的數據分佈時,需要花費更多的精力來研究信息示例的選擇和使用。

At a practical level

回顧第4節總結的應用分佈,與管理科學和決策密切相關的兩個研究領域很少採用不平衡學習技術。首先是應急管理。研究發現,由於自然災害是典型的罕見事件,有四篇文獻試圖在分佈不平衡的數據下預測自然災害。然而,其他類型的緊急事件,包括事故(如森林火災)、公共衛生事件(如霍亂、埃博拉和瘧疾等疾病的暴發)和社會安全事件(如恐怖主義襲擊)很少在不平衡的學習領域討論。隨着物聯網的發展,研究人員和科學家可以使用傳感器收集到豐富的監測數據。由於大規模多源、異構數據可以很容易地收集在大數據時代,它可能是可能的開發特性工程技術融合多源傳感器數據等數據,文本和監控視頻在互聯網上構建機器學習系統來檢測其它類型的緊急事件。當設計學習模型時,不平衡的學習技術是至關重要的,因爲收集到的與緊急事件相關的數據可能是不平衡的。在我們看來,另一個有價值的研究方向是使不平衡學習適應安全管理問題。特別是近年來,隨着社交網絡的迅速發展,互聯網安全管理受到了越來越多的關注。人們傾向於在社交媒體上表達他們的愛和恨,從電影到政治策略,這也使得極端分子有可能觸犯公共秩序。情緒分析和謠言檢測可能是監測社交網絡和防止風險事件發生的強大方法。在海量用戶生成內容中挖掘風險報表是一個罕見的事件檢測問題,可以通過不平衡學習技術來解決。

Conclusions

本文試圖對罕見事件檢測技術及其應用進行全面的綜述。特別是採用數據挖掘和機器學習的觀點,將罕見事件檢測看作是一類不平衡的數據分類問題。我們收集了527篇關於學習不平衡和罕見事件檢測的論文。不像其他在不平衡學習領域發表的調查,我們從技術和實踐的角度回顧了所有的論文。通過我們的回顧,我們也發現了一些關於一些領域中常用方法的見解:

  1. 在化學和生物醫學工程領域,基於重採樣的集成分類器得到了廣泛的應用。由於這些領域使用的數據通常是具有固定結構的臨牀數據,因此很少考慮特徵工程。然而,對於那些高維數據(如蛋白質數據),特徵選擇是一種流行的選擇。
  2. 複雜的特徵工程過程對於財務管理、業務管理等管理任務非常重要。用於處理特定任務的特徵通常由專家精心設計。與其他領域不同的是,此類領域的預測目標往往是利潤驅動,而不是準確性驅動。因此,經常使用成本敏感學習,錯誤分類的成本可以由專家或管理人員決定。在管理領域中廣泛使用的分類器是基於規則的分類器,如決策樹和專家系統等,其中經常引入模糊理論。這可能是因爲,除了做出明智的決策外,瞭解決策的標準對公司來說也是至關重要的。
  3. IT中罕見事件檢測的主要挑戰是數據的複雜性。網絡日誌和非結構化數據(如文本和圖像)通常需要數據清理和特徵工程處理。此外,數據流在IT領域廣泛存在,需要在線學習而不是傳統的線下學習。

在本文的最後,我們結合了一些未來的研究建議和我們的想法,提出了一些未來的研究方向,不平衡學習和罕見事件檢測,這也將是我們未來研究項目的重點。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章