機器學習相關術語

定義

什麼是（監督式）機器學習？簡單來說，它的定義如下：

下面我們來了解一下機器學習的基本術語。

特徵是輸入變量，即簡單線性迴歸中的 x 變量。簡單的機器學習項目可能會使用單個特徵，而比較複雜的機器學習項目可能會使用數百萬個特徵，按如下方式指定：

x1,x2,...xN

在垃圾郵件檢測器示例中，特徵可能包括：

樣本是指數據的特定實例：x。（我們採用粗體 x 表示它是一個矢量。）我們將樣本分爲以下兩類：

有標籤樣本同時包含特徵和標籤。即：

  labeled examples: {features, label}: (x, y)

我們使用有標籤樣本來訓練模型。在我們的垃圾郵件檢測器示例中，有標籤樣本是用戶明確標記爲“垃圾郵件”或“非垃圾郵件”的各個電子郵件。

例如，下表顯示了從包含加利福尼亞州房價信息的數據集中抽取的 5 個有標籤樣本：

housingMedianAge （特徵）	totalRooms （特徵）	totalBedrooms （特徵）	medianHouseValue （標籤）
15	5612	1283	66900
19	7650	1901	80100
17	720	174	85700
14	1501	337	73400
20	1454	326	65500

無標籤樣本包含特徵，但不包含標籤。即：

  unlabeled examples: {features, ?}: (x, ?)

以下是取自同一住房數據集的 3 個無標籤樣本，其中不包含 medianHouseValue：

在使用有標籤樣本訓練模型之後，我們會使用該模型預測無標籤樣本的標籤。在垃圾郵件檢測器示例中，無標籤樣本是用戶尚未添加標籤的新電子郵件。

模型定義了特徵與標籤之間的關係。例如，垃圾郵件檢測模型可能會將某些特徵與“垃圾郵件”緊密聯繫起來。我們來重點介紹一下模型生命週期的兩個階段：

訓練是指創建或學習模型。也就是說，向模型展示有標籤樣本，讓模型逐漸學習特徵與標籤之間的關係。
推斷是指將訓練後的模型應用於無標籤樣本。也就是說，使用經過訓練的模型做出有用的預測 (y')。例如，在推斷期間，您可以針對新的無標籤樣本預測 medianHouseValue。

迴歸模型可預測連續值。例如，迴歸模型做出的預測可回答如下問題：

分類模型可預測離散值。例如，分類模型做出的預測可回答如下問題：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.