機器學習筆記——緒論

機器學習基本概念

定義:致力於研究如何通過計算的手段,利用經驗來改善系統自身的吸能。
研究的主要內容他:在計算機上從數據中產生“模型”的算法,可以說機器學習是研究關於“學習算法”的學問

基本術語

要進行機器學習,先要有數據,通過下面的例子來說明

假定我們收集了一批關於西瓜的數據,例如(色澤=青綠;根蒂=蜷縮;敲聲=濁響), (色澤=烏黑;根蒂=稍蜷;敲聲=沉悶), (色澤=淺自;根蒂=硬挺;敲聲=清脆),……,每對括號內是一條記錄,"=",意思是"取值爲"

屬性:反應事件或對象在某方面的表現或性質的事項,例如“色澤”、“根蒂”、“敲聲”
屬性空間: 屬性張成的空間。例如我們把"色澤"“根蒂”"敲聲"作爲三個座標軸,則它們張成一個用於描述西瓜的三維空間就是屬性空間
特徵向量:每個西瓜都可在這個空間中找到自己的座標位置。由於空間中的每個點對應一個座標向量,因此我們也把這個座標向量稱爲一個特徵向量。

根據訓練數據是否擁有標記信息,學習任務也可大致劃分爲兩大類。

監督學習(supervised learning):訓練數據有標記信息,其中分類與迴歸屬於監督學習。
無監督學習(unsupervised learning):訓練數據沒有標記信息,代表有聚類。

假設空間:所有假設構成的集合。
版本空間:只保留了假設空間中與訓練數據集中正例一致的假設,由這些正確的假設構成的集合成爲版本空間(簡單來說,版本空間就是正例的泛化)。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章