1.1 引言
- 模式:指局部性結果(例如一條規則)
- 模型:指全局性結果(例如一顆決策樹)
1.2 基本術語
- 數據集
- 樣本、示例
- 屬性、特徵
- 屬性值
- 屬性空間、樣本空間、輸入空間:屬性或樣本的數量
- 特徵向量:樣本在屬性空間中對應的點
- 泛化:學得的模型適用於新樣本的功能稱爲泛化
- 歸納與演繹:歸納是特殊到一半的泛化,演繹是一般到特殊的泛化
- 歸納有廣義和狹義之分,廣義的歸納學習相當於從樣例中學習,狹義的歸納學習相當於從數據中學習
- 概念學習中最基本的是不二概念學習,擠兌是或不是這樣表示爲0/1的值的目標概念學習
- 任何一個機器學習算法必有其偏好
1.3 假設空間
我們可以把所有假設的集合看做一個空間,被叫做假設空間,訓練集中於假設空間相重合的集合叫做版本空間
1.4 歸納偏好
現實中存在一個新的樣本在與之對應的模型中將輸出不同的結果,因此機器學習算法必有其偏好。
歸納偏好可看作學習算法自身在一個很龐大的假設空間中對假設進行的選擇的啓發式或價值觀。
奧卡姆剃刀是一種常用的基本原則,若有多個假設與觀察一致,則選擇最簡單那個。
但很多情況下有時無法說明兩個假設哪個更簡單。
但事實上歸納偏好對應了學習算法本身所做出的關於“什麼樣的模型更好”的假設。