機器學習 複習筆記1(第一章 緒論)

1.2 基本術語

數據相關概念解釋:

  1. 一組記錄的集合稱爲一個“數據集”,其中每條記錄是關於一個事件或對象的描述,稱爲一個“示例”或“樣本”。反應事件或對象的在某方面的表現或性質的事項,例如“色澤”、“根蒂”、“敲聲”,稱爲“屬性”或“特徵”;屬性上的取值,例如“青綠”、“烏黑”,稱爲“屬性值”。屬性張成的空間稱爲“屬性空間”、“樣本空間”或“輸入空間”。例如我們把“色澤”、“根蒂”、“敲聲”作爲三個座標軸,則他們張成一個用於描述西瓜的三維空間,每個西瓜都可以在空間中找到自己的座標位置。由於空間中的每個點對應一個座標向量,因此我們也把一個示例稱爲一個“特徵向量”。

  2. 訓練過程中使用的數據稱爲“訓練數據”,其中每一個樣本稱爲一個“訓練樣本”,訓練樣本組成的集合稱爲“訓練集”,學得模型對應了關於數據的某種潛在的規律,因此亦稱“假設”;這種潛在規律自身,則稱爲“真相”或“真實”,學習過程就是爲了找出或逼近真相。
  3. 如果希望學得一個能夠幫助我們判斷沒剖開的是不是“好瓜”的模型,僅有前面的示例數據是不夠的,要建立這樣關於“預測”的模型,我們需要獲得訓練樣本的“結果”信息。這裏關於示例結果的信息,例如“好瓜”,稱爲“標記”;擁有了標記信息的示例,則稱爲“樣例”。一般的,所有標記的集合稱之爲“標記空間”或“輸出空間”。
相關術語的實例
與數據相關的數據的實例

任務相關概念解釋:

預測目標分三類任務:

  1. 分類任務(離散值)->二分類(好瓜;壞瓜)/多分類(冬瓜;南瓜;西瓜)
  2. 迴歸任務(連續值)->瓜的成熟度
  3. 聚類任務(無標記信息)->將訓練集中的樣本分爲若干組,每組稱爲一個“簇”。以探究數據內在的規律(淺色瓜;深色瓜;本地瓜;外地瓜)

根據訓練數據有無標記數據可分出三種學習:

  1. 監督學習:分類、迴歸
  2. 無監督學習:聚類
  3. 半監督學習:兩者結合

泛化能力相關概念解釋:

 學得模型適用於新樣本的能力,稱爲“泛化”能力。

通常假設樣本空間全體樣本服從一個未知“分佈”D,我們獲得的每個樣本都是獨立地從這個分佈上採樣獲得的,即“獨立同分布”。

1.3 假設空間

  • 假設空間:訓練集中所有屬性的可能性的集合+屬性無論取什麼情況都合適的集合(即一個或多個屬性被“*”替代)+概念不成立的情況(1個空集)
  • 版本空間:與訓練集一致的集合。即在假設空間中篩選出和訓練集相同的集合。篩選的時候將訓練集中每一條數據與假設空間中的數據一一比對,訓練集中是正例的只要對應的屬性有不一樣就刪除掉假設空間中對應的數據(對應屬性是“*”的不刪除),訓練集中是反例的只要被包含在假設中間中的某一項時只要把那一項刪除,最後假設空間中剩下的內容即爲版本空間。
  • 版本空間的另一種獲得方法:將訓練集中的正例進行最大泛化,然後剔除掉符合反例的數據。

1. 4 歸納偏好

機器學習算法在學習過程中對某種類型假設的偏好,稱爲“歸納偏好”。

爲什麼要有偏好?

一個問題可能會出現數個相矛盾的版本空間,因此需要有一種歸納偏好選出一種最好的模型。

偏好原則是什麼?

“奧卡姆剃刀”是一種常用的、自然科學研究中最基本的原則,即“若有多個假設與觀察一致,選最簡單的那個”。

偏好的決定因素是什麼?

學習算法自身的歸納偏好與問題是否匹配,往往會起到決定性作用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章