機器學習（Coursera吳恩達）（一）

標籤（空格分隔）：機器學習

第一週

機器學習是什麼？
讓機器學習人的行爲模式，學習人腦的思維模式。
比如Alpha狗可以對戰下棋，垃圾郵件篩選，只能推薦系統，自動駕駛等很多都是基於機器學習，使用更深層次的框架實現。

目前存在幾種不同類型的學習算法，主要的兩種類型被稱爲監督學習和無監督學習。

1.3 監督學習
1. 經典的例子：一個學生從波特蘭俄勒岡州的研究所收集了一些房價的數據。你把這些數據畫出來，看起來是這個樣子：橫軸表示房子的面積，單位是平方英尺，縱軸表示房價，單位是千美元。那基於這組數據，假如你有一個朋友，他有一套750平方英尺房子，現在他希望把房子賣掉，他想知道這房子能賣多少錢？

現在已經有許多組數據，包含房子面積和對應價格，那麼怎樣去預測一個沒有出現在已知面積中的房子所可能賣出的價格？這裏是一個**監督學習**的例子，有數據（面積）有正確標籤（價格）。通過學習，可以算出更多的正確結果。

又一個經典例子：假設說你想通過查看病歷來推測乳腺癌良性與否，假如有人檢測出乳腺腫瘤，惡性腫瘤有害並且十分危險，而良性的腫瘤危害就沒那麼大，所以人們顯然會很在意這個問題

![腫瘤1.png-73kB][2] 在這個例子中橫軸是腫瘤大小，縱軸是是否爲惡性（1/0），需要通過學習預測一個腫瘤是否爲惡性的。上面兩個例子都是監督學習的例子，但又不是同一種監督學習的類型。1.是迴歸問題(Regression)，用來預測連續的輸出值，把放假看成實數，預測連續的屬性。2.是分類問題(Classification)，預測一個結果是/否是一類結果，輸出爲離散的（1/0）。分類問題不僅可以區分二分類，也可以進行多分類。多分類可以拆成一對多進行處理。

1.4 無監督學習

右圖這種聚類問題就是無監督學習，監督的意思在這裏表示爲多類數據是否存在異類的標籤，如果不存在則爲無監督學習，算法要自行學習樣本的特徵，並進行分類。

聚類應用的一個例子:
在谷歌新聞中。如果你以前從來沒見過它，你可以到這個 URL網址 news.google.com去看看。谷歌新聞每天都在，收集非常多，非常多的網絡的新聞內容。它再將這些新聞分組，組成有關聯的新聞。所以谷歌新聞做的就是搜索非常多的新聞事件，自動地把它們聚類到一起。所以，這些新聞事件全是同一主題的，所以顯示到一起。

新聞事件分類，細分市場等都可以看爲是無監督學習的例子。