Andrew Ng 《Machine Learning》第一講——Supervised Learning & Unsupervised Learning 學習筆記

一般的,機器學習的問題可分爲有監督學習(Supervised)和無監督學習(Unsupervised)兩類。

有監督學習(Supervised Learning

首先以一個例子介紹什麼是有監督學習。假設,現有一個關於房子面積和房價之間關係的數據集,數據集中的每個數據是房子面積和對應的房價。將這些數據繪製成如下圖的紅色×,其中橫軸表示房子面積,縱軸表示房價。


需要解決的問題是預測當房子面積爲750平方時,房價是多少。其中一種最簡單的方法是根據圖中的紅色×擬合一條直線(如圖中紫色線所示),然後進行預測。當然有許多更好的預測方法,例如擬合出一條更加貼近數據集的曲線(如下圖中藍色線所示)來進行預測。


上述就是一個有監督學習的例子。supervised learning refers to the fact thatwe gave the algorithm a data set in wich the "right answers" weregiven. 針對上述的例子而言,就是我們首先有一個數據集,在數據集中每個數據的房子面積都對應着正確的房價,而我們的目的就是產生更多的正確房價,例如當房子面積爲750平方時的房價。更確切的講,上述例子是一個迴歸問題(regression problem)。迴歸問題的預測結果是連續的取值,例如例子中的房價。

再來看另一個有監督學習的例子。假設,現有一個腫瘤大小和是否惡性的數據集,數據集中每個數據是觀測到的腫瘤大小和其是否是惡性的判斷結果。將這些數據繪製成如下圖,其中橫軸表示腫瘤大小,縱軸表示是否是惡性腫瘤,1表示是,0表示否。如圖所示,數據集中有五個良性腫瘤的數據(藍色的×)和五個惡性腫瘤的數據(紅色的×)。

需要解決的問題是預測腫瘤大小爲某個給定的值時(例如下圖中紫色的值),其是良性腫瘤還是惡性腫瘤。


這是一個有監督學習中分類問題的例子。分類問題的預測結果是離散的取值,例如例子中預測結果是10.分類問題的預測結果可以是多個離散值,並不僅限於兩個。

上述例子中我們只利用了數據的一個特徵(腫瘤大小),當數據特徵增加時,例如增加患者年齡這個特徵,數據集可以繪製如下圖,其中橫軸爲腫瘤大小,縱軸爲患者年齡,藍色的圈代表良性腫瘤的數據,紅色的×代表惡性腫瘤的數據。


分類問題中可以根據這些特徵學習出將良性腫瘤和惡性腫瘤分類的界限。在機器學習算法中一般需要處理的數據具有很多特徵,所以如何有效的處理大量的特徵成爲機器學習算法的一個問題,解決這個問題的一種方式是支持向量機。

總結:有監督學習需要有一個包含正確答案的數據集,例如房價,是否惡性腫瘤,有監督學習算法解決的目標問題是產生更多的正確答案,例如預測房子面積爲750平方時的房價,指定腫瘤大小預測是否是惡性腫瘤。有監督學習包含了迴歸問題(預測結果爲連續值)和分類問題(預測結果爲有限個離散值)。可以認爲迴歸問題是建立輸入和某個連續函數之間的map,分類問題是建立輸入和某個離散函數之間的map

無監督學習(Unsupervised Learning)

與有監督學習不同,提供給無監督學習的數據集中不包含正確答案,而是需要算法發現數據集中的結構等信息。例如下圖,算法自動發現數據集中的數據形成兩簇,這種算法稱爲聚類(clustering),是一種應用廣泛的無監督學習問題。


總結:提供給無監督學習的數據集中不包含正確的答案,無監督學習可以自動發現數據集中的結構,學習結果也不會得到反饋。

 

發佈了35 篇原創文章 · 獲贊 6 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章