有監督學習和無監督學習

原創

adam2002

2019-07-31 00:31

作者：王豐
鏈接：https://www.zhihu.com/question/23194489/answer/25028661
來源：知乎
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

這個問題可以回答得很簡單：是否有監督（supervised），就看輸入數據是否有標籤（label）。輸入數據有標籤，則爲有監督學習，沒標籤則爲無監督學習。

但根據知乎慣例，答案還是要繼續擴展的。

首先看什麼是學習（learning）？一個成語就可概括：舉一反三。此處以高考爲例，高考的題目在上考場前我們未必做過，但在高中三年我們做過很多很多題目，懂解題方法，因此考場上面對陌生問題也可以算出答案。機器學習的思路也類似：我們能不能利用一些訓練數據（已經做過的題），使機器能夠利用它們（解題方法）分析未知數據（高考的題目）？

最簡單也最普遍的一類機器學習算法就是分類（classification）。對於分類，輸入的訓練數據有特徵（feature），有標籤（label）。所謂的學習，其本質就是找到特徵和標籤間的關係（mapping）。這樣當有特徵而無標籤的未知數據輸入時，我們就可以通過已有的關係得到未知數據標籤。

在上述的分類過程中，如果所有訓練數據都有標籤，則爲有監督學習（supervised learning）。如果數據沒有標籤，顯然就是無監督學習（unsupervised learning）了，也即聚類（clustering）。

目前分類算法的效果還是不錯的，但相對來講，聚類算法就有些慘不忍睹了。確實，無監督學習本身的特點使其難以得到如分類一樣近乎完美的結果。這也正如我們在高中做題，答案（標籤）是非常重要的，假設兩個完全相同的人進入高中，一個正常學習，另一人做的所有題目都沒有答案，那麼想必第一個人高考會發揮更好，第二個人會發瘋。

這時各位可能要問，既然分類如此之好，聚類如此之不靠譜，那爲何我們還可以容忍聚類的存在？因爲在實際應用中，標籤的獲取常常需要極大的人工工作量，有時甚至非常困難。例如在自然語言處理（NLP）中，Penn Chinese Treebank在2年裏只完成了4000句話的標籤……

這時有人可能會想，難道有監督學習和無監督學習就是非黑即白的關係嗎？有沒有灰呢？Good idea。灰是存在的。二者的中間帶就是半監督學習（semi-supervised learning）。對於半監督學習，其訓練數據的一部分是有標籤的，另一部分沒有標籤，而沒標籤數據的數量常常極大於有標籤數據數量（這也是符合現實情況的）。隱藏在半監督學習下的基本規律在於：數據的分佈必然不是完全隨機的，通過一些有標籤數據的局部特徵，以及更多沒標籤數據的整體分佈，就可以得到可以接受甚至是非常好的分類結果。（此處大量忽略細節）

因此，learning家族的整體構造是這樣的：
有監督學習（分類，迴歸）
↕
半監督學習（分類，迴歸），transductive learning（分類，迴歸）
↕
半監督聚類（有標籤數據的標籤不是確定的，類似於：肯定不是xxx，很可能是yyy）
↕
無監督學習（聚類）

參考文獻：
[1] 各種教材
[2] Semi-Supervised Learning Tutorial, http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

有監督學習和無監督學習

CI框架多目錄設置

Managing your Applications在同一個CI中設置多個application文件夾

如何才能讓IE瀏覽器安裝調用未簽名的ActiveX控件

win7下配置Apache本地虛擬主機

javascript和Flash ActionScript的交互(AS3)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結