機器學習的基本術語

第一章基本術語

1、機器學習的定義：從數據中自動的歸納邏輯或規則，並根據這個歸納的結果與新數據來進行預測的算法。要討論算法的相對優劣，必須要針對具體的學習問題。

2、目標：使得學得的模型能很好的適用於“新樣本”，而不僅僅在訓練樣本上工作得很好，即便是對聚類這樣的無監督學習，也希望學得的聚劃分能適用於沒在訓練集中出現的樣本。

3、樣本（示例、特徵向量）：數據集中的每個記錄稱之爲樣本或者示例。

4、屬性空間（樣本空間、輸入空間）：樣本屬性張成的空間稱爲屬性空間（樣本空間、輸入空間），每個樣本對應空間中的一個點，故而一個示例也稱爲一個“特徵向量”。

5、模型：模型也稱爲學習器，可看作學習算法在給定數據集和參數空間的實例化。

6、學習：從數據中學得模型的過程稱爲“學習”或“訓練”，這個過程通過執行某個學習算法來完成。

7、訓練集：訓練過程中使用的數據稱爲訓練數據，訓練樣本組成的集合稱爲訓練集。學得的模型對應了關於數據的某種潛在的規律，因此稱爲“假設”。這種潛在規律自身，則是稱爲真相或真實，學習過程就是爲了找出或逼近真相。訓練集通常是樣本空間中很小的一個採樣。

8、測試：學得模型後，使用其進行預測的過程稱爲“測試”，被測試的樣本稱爲測試樣本。

監督學習與無監督學習：根據訓練數據是否擁有標記信息，學習任務可以分爲兩類，監督學習和無監督學習：分類和迴歸是前者的代表，聚類是後者的代表（學習過程中使用的訓練樣本通常不擁有標記信息）。

9、泛化：學得模型適用於新樣本的能力，稱爲“泛化”能力，具有強泛化能力的模型能很好地適用整個樣本空間。

10、假設：通過學習得到的模型對應了假設空間中的一個假設。

11、學習過程：通常假設樣本空間中全體樣本服從一個未知分佈，我們獲得的每個樣本都是獨立地從這個分佈上採樣獲得的，即“獨立同分布”。一般而言，訓練樣本越多，我們得到的關於該未知分佈的信息越多，這樣就越有可能通過學習獲得具有強泛化能力的模型。

我們可以將學習過程看作是在一個所有的假設組成的空間中進行搜索的過程，搜索目標是找到與訓練集匹配的假設，即能夠將訓練集中的訓練樣本判斷正確的假設。

12、概念學習：概念學習（歸納學習）的目標就是泛化，即是通過對訓練集中的訓練樣本進行學習以獲得對測試集進行判斷的能力。

13、歸納偏好：機器學習算法在學習過程中對某種類型假設的偏好我們稱之爲“歸納偏好”，簡稱“偏好”。

歸納偏好對應了學習算法本身所作出的關於什麼樣的模型更好的假設，在具體的現實問題中，這個假設是否成立，即算法的歸納偏好是否與問題本身匹配，大多數時候直接決定了算法能否取得好的性能。

機器學習與數據挖掘、數據庫技術的聯繫：

數據挖掘是從海量知識中發掘知識，這就必然涉及對“海量數據”的管理和分析。數據庫領域爲數據挖掘提供數據管理技術，機器學習和統計學的研究爲數據挖掘提供數據分析的技術。機器學習領域和數據庫領域則是數據挖掘的兩大支撐。機器學習提供數據分析能力，雲計算提供數據處理能力，衆包提供數據標記能力。