機器學習(1) -- 緒論

1.1 引言

機器學習:研究如何通過計算的手段,利用經驗來改善系統自身地性能。“經驗”以數據的形式存在

計算機科學:研究關於“算法”的學問
機器學習: 研究關於“學習算法”的學問

模型:泛指從數據中學得的結果

1.2 基本術語:


表示包含了m個示例的數據集,每個示例是d維空間Χ的一個向量,d是維數

數據集:一組記錄的集合,亦稱一個“樣本”,因爲可看作對樣本空間的採樣;其中每條記錄是關於一個事件或對象的描述
示例/樣本:數據集中的每條記錄是關於一個事件或對象的描述,稱“示例”或“樣本”
屬性:反映事件或對象在某方面的表現或性質的事項
屬性值:屬性的取值
屬性空間/樣本空間/輸入空間:屬性張成的空間

模型,也叫學習器,可看做給定算法在給定數據和參數空間上的實例化
假設:學得模型對應了關於數據的某種潛在的規律,因此亦稱“假設” (hypothesis)
真相/真實:這種潛在規律自身
學習的過程是爲了找出或逼近真相

標記:關於示例結果的信息
樣例:擁有了標記信息的示例;用(xi,yi)表示第i個樣例,yi∈Y是示例xi的標記,Y是所有標記的集合,是標記空間/輸出空間

分類:欲預測的是離散值的學習任務是“分類”
迴歸:欲預測的是離散值的學習任務是“迴歸”
預測任務是希望通過對訓練集 {(x1,y1),(x2,y2)……(xm,ym)} 進行學習,建立一個從輸入空間X到輸出空間Y的映射f:X→Y;對二分類任務,Y={-1,+1},對多分類任務|Y|>2;對迴歸任務Y=R
分類和迴歸是監督學習的代表

聚類:對訓練集分成若干組,每組成爲一個簇,這些簇可能對應一些潛在的概念劃分,比如“淺色瓜”、“本地瓜”。這樣的學習過程有利於幫助我們瞭解數據內在的規律。
聚類是無監督學習的代表

機器學習的目標是使學得的模型能很好的適用於“新樣本”。
泛化能力:學得模型適用於新樣本的能力,稱爲“泛化”能力
通常假設樣本空間中全體樣本服從一個未知“分佈”D,我們獲得的每個樣本都是獨立地從這個分佈上採樣獲得的,即“獨立同分布”(i.i.d)。
訓練集是樣本空間的一個很小的採樣
一般,訓練樣本越多,得到的關於D的信息越多

1.3 假設空間

歸納和演繹是科學推理的兩大基本手段。
歸納:從特殊到一般的“泛化”過程,從具體事實歸納出一般性規律
演繹:從一般到特殊的“特化”過程,從基礎原理推演出具體狀況

歸納學習有狹義和廣義之分。
廣義的歸納學習大體相當於從樣例中學習
狹義的歸納學習則要求從訓練數據中學得概念,因此亦稱“概念學習”或“概念形成”
概念學習最基本是布爾概念學習

學習過程可看作是在所有假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集“匹配”的假設
實際面臨很大的假設空間,但學習過程是基於有限樣本訓練集進行的,因此可能有多個假設與訓練集一致,即存在着一個與訓練集一致的“假設集合”,稱之爲“版本空間”

1.4 歸納偏好

機器學習算法在學習過程中對某種類型假設的偏好,稱爲“歸納偏好”。任何一個有效的機器學習算法必有其歸納偏好。
歸納偏好可看作學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啓發式或價值觀。
歸納偏好對應了學習算法本身所做出的的關於“什麼樣的模型更好”的假設。
“奧卡姆剃鬚刀”,可用來引導算法確立正確的偏好,即,若有多個假設與觀察一致,則選最簡單的那個。

“沒有免費的午餐”定理
NFL定理寓意:脫離具體問題,空泛的談論“什麼學習算法更好”毫無意義,因爲若考慮所有潛在的問題,則所有學習算法都一樣好。

1.5 發展歷程

推理期:基於符號知識表示,通過演繹推理技術
知識期:基於符號知識表示,通過獲取和利用領域知識來建立專家系統
學習期:
從樣例中學習(廣義的歸納學習),涵蓋了監督學習、無監督學習,其中一大主流是符號主義學習,包括決策樹和基於邏輯的學習
典型的決策樹學習以信息論爲基礎,以信息熵的最小化爲目標,直接模擬了人類對概念進行判定的樹形流程。
基於邏輯的學習的著名代表是歸納邏輯程序設計(ILP),可看作機器學習與邏輯程序設計的交叉,使用一階邏輯進行知識表示,通過修改和擴充邏輯表達式來完成對數據的歸納。
從樣例中學習另一大主流是基於神經網絡的連結主義學習。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章