個人機器學習筆記==》常見術語

基本術語

西瓜樣例數據

ID 色澤 根蒂 敲聲 酸甜程度 銷量
1 紅色 蜷縮 濁響 60 100
2 綠色 蜷縮 清脆 80 150
3 紅色 硬挺 清脆 90 300

 

數據集(dataset):一組數據的集合,如:這裏的3組數據。

樣本(示例 sample):反映事件或者對象的某些方面的變現或性質的事項。如:這裏每一行數據都是一個樣本。

屬性(特徵feature):這裏的色澤,敲聲都可以稱爲西瓜的屬性或者特徵。

樣本空間(屬性空間 attribute space):假設每一個屬性都是被描述的對象的一個維度,那麼多個屬性或者特徵即可把其描述成空間中的一個點,該點的座標就是其在不同維度(也就是屬性)的取值。

特徵向量(feature vector):構建成上述的樣本空間後,每一條數據在樣本空間裏都有一個點後,那麼每個點對應一個座標向量。因此也把每一個示例稱爲一個特徵向量。

(不知道怎麼輸入公式,原諒我的截圖~)

學習(learn):通過執行某種學習算法來學得模型對應了關於數據的某種潛在的規律,因此亦稱假設。學習過程就是爲了找出或逼近真相,也稱爲學習器,可以看作是學習算法在給定的數據和參數空間上的實例化。

訓練樣本(training):用來訓練學習器的樣本數據。考慮到學得的模型應具有很好的泛化能力,所以選取的訓練樣本雖然是樣本空間的一個很小採樣,我們仍希望它能很好地反反映樣本空間的特性,通常假設樣本空間中全體服從一個未知分佈(distribution),通過相應的採樣規則從這個分佈中進行採樣。

測試樣本(testing):用來評價學習器的好壞的樣本數據。

分類(classification):學習任務是預測()的是離散值,如:“好瓜",”壞瓜“。如果分類結果只有正類和反類則稱爲二分類任務,如果是多個類別則稱爲多分類任務。

迴歸(regression):學習任務是預測的是連續值。如:西瓜的成熟度0.9,0.75

泛化(generalization)能力:學得的模型適用於新樣本的能力,稱爲泛化能力。

有無監督(supervised and unsupervised)學習:根據訓練數據是否擁有標記信息,學習任務可大致劃分爲有監督和無監督學習。

歸納(induction):從特殊到一般的泛化過程,即從具體的事實歸結出一般性規律。例如:從樣本數據中學習。

演繹(deduction):從一般到特殊的“特化”過程,即從基本原理推演出具體狀況。例如:數學公理系統中基於一組公理和推理規則推導出定理。

歸納學習:廣義上可以理解爲從樣本數據中學習,而狹義的歸納學習則要求從訓練數據中學得概念(concept)因此稱爲“概念學習”。概念學習技術目前研究、應用都比較少,因爲要學的泛化性能好且語義明確的概念實在太困難了,現實常用的技術大多是產生“黑箱”模型。

假設空間:把學習過程看作一個在所有假設組成的空間中進行搜索的過程,搜索目標是找到與訓練集“匹配”(fit)的假設。例如找一個規律是(色澤=?,根蒂=?,敲聲=?;則該瓜爲好/壞瓜。)。在表示的時候,*表示通配符,表示空

西瓜問題的假設空間

版本空間(version space):由於實際問題中假設空間非常龐大,但是學習過程是基於有限樣本訓練進行的,因此可能有多個假設與訓練集一致,及存在着一個與訓練

歸納偏好(inductive bias): 指的是學習算法在學習過程中的偏好,任何一個有效的機器學習算法必有其歸納偏好,否則它將被假設空間中看似在訓練集上等效的假設所迷惑,而無法產生確定的學習結果。它可以被看作是學習算法自身在一個可能很龐大的假設空間中對假設進行選擇的啓發式或“價值觀"。

事實上,歸納偏好對應了學習算法的關於”什麼樣的模型更好“的假設。在具體實際問題中,這個假設是否成立,即算法的歸納偏好是否與問題本身匹配,大多數時候直接決定了算法能否取得好的性能。

奧卡姆剃刀(Occam's razor):是一種常用的、自然科學研究中最基本的原則,即”若有多個假設與觀察一致時,選擇最簡單的那個“。

NFL(No Free Lunch Theorem,沒有免費的午餐):這個定理論證了無論學習算法多聰明或者多麼笨拙,它們的期望性能都是相同的,它清楚的告訴了我們脫離具體問題,空談”什麼學習算法好“是毫無意義的。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章