特徵學習:學習之海中的遺珠

數據和特徵決定了機器學習的上限,而模型和算法只是逼近這個上限而已。
//////////////////////////////////////////////////////////////////////////////////////////////////////////【無名】

特徵學習是通過一套算法從數據中學到一個模型,該模型將原始數據的狀態轉換到新的空間(一般稱之爲特徵空間)。然後,我們將轉換的數據餵給熟悉的機器學習算法,得到聚類模型、分類模型、或者是迴歸模型。如果在後續學習條件與算法都相同的情況下,利用轉換的數據學習的效果比原數據更好,那麼將狀態轉換到新空間是有意義的。除了特徵學習之外,我們也可以通過人工的方式設計與構建轉換模型。人工與學習的特徵構建方法合稱爲特徵工程。 人工特徵構建領域存在一些重要的技術,但它更多的還是依賴設計者關於當前學習任務的先驗知識。我們在構建一個完整的學習任務過程中,往往會無意識【我們都很樂意使用已經存在的先驗知識】的使用人工構建特徵的方式。與人工特徵構建與不同,特徵學習並不需要針對每個學習任務單獨設計特徵,它只需要一個學習算法便可以自動地從數據中學到將原始狀態轉換到特徵空間的模型,並且學習到的特徵往往包含人工難以構造的高級特徵形式,同時最大程度剔除人的主觀性。但是,這個算法的設計需要依賴更高級的科學知識。本文不打算寫成一篇綜術文章,主要原因是本人關於特徵學習的知識還不足以寫出一篇完備又有趣的綜述文章【主要還是沒太多時間整理】。本文會對一些特徵學習方法進行介紹、分析並給出應用例子與程序。希望本文能起到拋磚引玉的作用,就像一串堂前風鈴的作用,讓看不見風的人看到風,進而學會感受風,製造風,風又響鈴…。

1. 爲什麼需要特徵學習

不管是無監督數據的聚類問題【前提:相似的數據聚集在一起】,還是有監督的分類與迴歸問題【前提:相似的輸入得到相似的輸出】,這些機器學習方法都需要度量計算數據點之間的距離(也即相似性)。

傳統的距離度量主要有:歐式距離,城市距離,餘弦距離等等。由於原始數據的輸入各維度可能代表不同的物理意義、各維度的尺度與重要程度也可能不一樣,狀態中甚至包含冗餘的維度,這使得真正相關、重要的特徵對後面學習的貢獻被淹沒掉了。 因此,直接利用傳統的距離度量公式在原始數據上度量各樣本的相似性,往往得不到理想的學習效果。

到此我們便知道有兩條路來解決上面的問題:1)通過學習【設計】距離度量函數使之更有效的度量樣本的相似性<度量學習>;2)通過學習【設計】轉換模型將原始的狀態轉換成更有效的特徵<降維、特徵選擇、稀疏學習>。在周志華老師西瓜書第10章中的度量學習內容便與前者對應,第10章中的降維與11章則與後者對應。仔細瞭解過度量學習後,你會發現學習到的度量函數只需稍加變形就可得到一個轉換矩陣,該矩陣將狀態轉換到新的空間。

在本文中,度量學習、降維、特徵選擇、以及稀疏表示都被稱之爲特徵學習。其目的爲 通過一套算法從數據中學到一個模型,該模型將原始數據的狀態轉換到新的空間(一般稱之爲特徵空間),讓後續機器學習的效果變得更好
在這裏插入圖片描述
技術進步的內驅力是人的惰性,人類的進化史也是一部人類的變懶史。深度學習這項萬金油技術,讓我們忽視特徵學習(甚至是特徵工程)太久。特別是以深度學習爲敲門磚進入機器學習領域的小夥伴們,在初期通常不知特徵工程(特徵學習)爲何物,就算不小心瞥見相關的詞彙也只是不以爲意的【內心獨白:嶄新的9102年怎麼還會用這麼古老的技術】匆匆翻過。

深度學習需不需要特徵學習?答案是肯定的——需要。在一些基於視覺數據的學習任務中,特徵學習是作爲深度神經網絡的一部已經融合到深度學習中。此時,深度學習本身就作爲一種強大的自動化特徵工具,能夠自動的學習各種高級的特徵。但是,除了視覺學習任務,像語音、文本學習任務,特徵工程仍是一項必不可少的工作。不管是特徵學習已經隱匿的機器視覺任務,還是需要獨立特徵工程的其它深度學習任務,如果能在特徵層面去理解學習任務,相信你能設計出更有效的學習模型。

深度學習需要特徵學習,那麼與特徵學習關係更爲明晰的傳統機器學習方法應該就不需要費筆墨來言明瞭。

劉慈欣的著作《贍養上帝》中結尾部分,上帝被人類趕回破舊的飛船上時,其中一位衣衫襤褸的上帝首領說:我們回去要好好學習,從解一元二次方程學起,慢慢的把以前的知識都掌握了,然後把飛船修好,過上獨立自強的生活。

2.介紹幾個經典的特徵學習方法

2.1 從主成分分析到發育網絡的核心算法

*****************************************************未完,擠牙膏式更新中…

2.2 從線性判別分析(LDA)到IHDR

2.3 從字典學習到近似線性獨立準則(ALD)

2.4 流形學習(Isomap與LLE)

2.5 核迴歸度量學習(MLKR)

2.6 RReliefF

2.7 卡方檢驗

3. 總結

發佈了67 篇原創文章 · 獲贊 122 · 訪問量 17萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章