目錄
定義
什麼是(監督式)機器學習?簡單來說,它的定義如下:
- 機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。
下面我們來了解一下機器學習的基本術語。
標籤
標籤是我們要預測的事物,即簡單線性迴歸中的 y
變量。標籤可以是小麥未來的價格、圖片中顯示的動物品種、音頻剪輯的含義或任何事物。
特徵
特徵是輸入變量,即簡單線性迴歸中的 x
變量。簡單的機器學習項目可能會使用單個特徵,而比較複雜的機器學習項目可能會使用數百萬個特徵,按如下方式指定:
x1,x2,...xN
在垃圾郵件檢測器示例中,特徵可能包括:
- 電子郵件文本中的字詞
- 發件人的地址
- 發送電子郵件的時段
- 電子郵件中包含“一種奇怪的把戲”這樣的短語。
樣本
樣本是指數據的特定實例:x。(我們採用粗體 x 表示它是一個矢量。)我們將樣本分爲以下兩類:
- 有標籤樣本
- 無標籤樣本
有標籤樣本同時包含特徵和標籤。即:
labeled examples: {features, label}: (x, y)
我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中,有標籤樣本是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的各個電子郵件。
例如,下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的 5 個有標籤樣本:
housingMedianAge (特徵) |
totalRooms (特徵) |
totalBedrooms (特徵) |
medianHouseValue (標籤) |
---|---|---|---|
15 | 5612 | 1283 | 66900 |
19 | 7650 | 1901 | 80100 |
17 | 720 | 174 | 85700 |
14 | 1501 | 337 | 73400 |
20 | 1454 | 326 | 65500 |
無標籤樣本包含特徵,但不包含標籤。即:
unlabeled examples: {features, ?}: (x, ?)
以下是取自同一住房數據集的 3 個無標籤樣本,其中不包含 medianHouseValue
:
housingMedianAge (特徵) |
totalRooms (特徵) |
totalBedrooms (特徵) |
---|---|---|
42 | 1686 | 361 |
34 | 1226 | 180 |
33 | 1077 | 271 |
在使用有標籤樣本訓練模型之後,我們會使用該模型預測無標籤樣本的標籤。在垃圾郵件檢測器示例中,無標籤樣本是用戶尚未添加標籤的新電子郵件。
模型
模型定義了特徵與標籤之間的關係。例如,垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯繫起來。我們來重點介紹一下模型生命週期的兩個階段:
-
訓練是指創建或學習模型。也就是說,向模型展示有標籤樣本,讓模型逐漸學習特徵與標籤之間的關係。
-
推斷是指將訓練後的模型應用於無標籤樣本。也就是說,使用經過訓練的模型做出有用的預測 (
y'
)。例如,在推斷期間,您可以針對新的無標籤樣本預測medianHouseValue
。
迴歸與分類
迴歸模型可預測連續值。例如,迴歸模型做出的預測可回答如下問題:
-
加利福尼亞州一棟房產的價值是多少?
-
用戶點擊此廣告的概率是多少?
分類模型可預測離散值。例如,分類模型做出的預測可回答如下問題:
-
某個指定電子郵件是垃圾郵件還是非垃圾郵件?
-
這是一張狗、貓還是倉鼠圖片?