重要術語:
- 記錄 / 樣本(sample)/ 示例(instance)
- 數據集(data set)
- 屬性(attribute)/ 特徵(feature)
- 屬性值(attribute value)
- 屬性空間(attribute space)/ 樣本空間(sample space)/ 輸入空間
- 特徵向量(feature vector)
- 維數(dimensionality)
- 學習(learning)/ 訓練(training)
- 訓練數據(training data)
- 訓練樣本(training sample)
- 訓練集(training set)
- 假設(hypothesis)
- 真相/真實(ground-truth)
- 學習器(learner)
- 預測(prediction)
- 標記(label)
- 樣例(example)
- 標記空間(label space)
- 分類(classification)
- 二分類(binary classification)
- 正類(positive class)/ 反類(negative class)
- 多分類(multi-class classification)任務
- 迴歸(regression)
- 測試(testing)
- 測試樣本(testing sample)
- 聚類(clustering)
- 簇(cluster)
- 監督學習(supervised learning)/ 無監督學習(unsupervised learning)
- 泛化(generalization)/ 特化
- 分佈(distribution)
- 獨立同分布(independent and identically distributed)
- 歸納(inducting)
- 歸納學習(inductive study)
- 演繹(deduction)
- 概念(concept)
- 版本空間(version space)
- 歸納偏好
- 奧卡姆剃刀(Occam’s razor):若有多個假設與觀察一致,則選最簡單的那個
- 沒有免費的午餐定理(No Free Lunch Theorem,NFL)
釋義:
- 記錄 / 樣本(sample)/ 示例(instance):關於一個事件或對象的描述,如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)是一條記錄
- 數據集(data set):一組記錄的集合
- 屬性(attribute)/ 特徵(feature):反映事件或對象在某方面的表現或性質的事項,如色澤就是西瓜的一個屬性
- 屬性值(attribute value)::屬性上的取值
- 屬性空間(attribute space)/ 樣本空間(sample space)/ 輸入空間:屬性張成的空間,如把色澤、根蒂、敲聲作爲三個座標軸,則可張成一個用戶描述西瓜的三維空間
- 特徵向量(feature vector):由於樣本空間中的每個點對應一個座標向量,因此一個示例也稱爲一個特徵向量
- 維數(dimensionality):以西瓜的屬性空間爲例,西瓜的屬性個數就是維數
- 學習(learning)/ 訓練(training):從數據中學得模型
- 訓練數據(training data):訓練過程中使用的數據
- 訓練樣本(training sample):訓練過程中的樣本
- 訓練集(training set):訓練樣本組成的集合
- 假設(hypothesis):學得模型對應了關於數據的某種潛在的規律
- 真相/真實(ground-truth):上述的潛在規律
- 學習器(learner):模型,可看作學習算法在給定數據和參數空間上的實例化
- 預測(prediction):書上沒得啊這個,這個就不用解釋了吧
- 標記(label):樣本的結果信息,比如“好瓜”
- 樣例(example):有標記信息的示例,比如被標記爲“好瓜”的西瓜
- 標記空間(label space):所有標記的集合,如{好瓜,壞瓜}
- 分類(classification):預測結果是離散值的學習任務;比如「預測西瓜是好瓜還是壞瓜」這是一個分類任務
- 二分類(binary classification):只涉及兩個類別的分類任務;上述例子也是一個二分類任務
- 正類(positive class)/ 反類(negative class):二分類任務中的類別,通常一個叫正類一個叫反類
- 多分類(multi-class classification)任務:就是不止兩個類別的分類任務
- 迴歸(regression):預測結果爲連續值的學習任務;比如「預測西瓜的成熟度」,結果可能是0-100%之間的任意值
- 測試(testing):學得模型後,使用其進行預測的過程
- 測試樣本(testing sample):測試時被預測的樣本
- 聚類(clustering):將物理或抽象對象的集合分成由類似的對象組成的多個類的過程
- 簇(cluster):一組類似的數據對象的集合
- 監督學習(supervised learning)/ 無監督學習(unsupervised learning):訓練數據是否擁有標記信息
- 泛化(generalization)/ 特化:泛化時特殊到一般,特化是一般到特殊;學得模型適用於新樣本的能力稱爲泛化能力
- 分佈(distribution):這裏應該是指概率分佈,是指用於表述隨機變量取值的概率規律。事件的概率表示了一次試驗中某一個結果發生的可能性大小,若要全面瞭解試驗,則必須知道試驗的全部可能結果及各種可能結果發生的概率,即隨機試驗的概率分佈
- 獨立同分布(independent and identically distributed):在概率統計理論中,指隨機過程中,任何時刻的取值都爲隨機變量,如果這些隨機變量服從同一分佈,並且互相獨立,那麼這些隨機變量是獨立同分布
- 歸納(inducting):由一系列具體的事實概括出一般原理
- 歸納學習(inductive study):從樣例中學習;狹義又叫概念學習或概念形成
- 演繹(deduction):在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理
- 概念(concept):受判斷所產生的對事物的理解
- 版本空間(version space):與訓練集一致的假設的集合
- 歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好
- 奧卡姆剃刀(Occam’s razor)原則:若有多個假設與觀察一致,則選最簡單的那個
- 沒有免費的午餐定理(No Free Lunch Theorem,NFL):由於對所有可能函數的相互補償,最優化算法的性能是等價的。可證得無論算法多好在沒有實際背景情況下都不優於隨機胡猜。NFL定理最重要意義是,在脫離實際意義情況下,空泛地談論哪種算法好毫無意義,要談論算法優劣必須針對具體學習問題。
關於奧卡姆剃刀原則:是由14世紀英格蘭的邏輯學家、聖方濟各會修士奧卡姆的威廉(William of Occam,約1285年至1349年)提出。這個原理稱爲“如無必要,勿增實體”,即“簡單有效原理”。正如他在《箴言書注》2卷15題說“切勿浪費較多東西去做,用較少的東西,同樣可以做好的事情。”