【和我一起學西瓜書】1.緒論-術語列表

重要術語:

  1. 記錄 / 樣本(sample)/ 示例(instance)
  2. 數據集(data set)
  3. 屬性(attribute)/ 特徵(feature)
  4. 屬性值(attribute value)
  5. 屬性空間(attribute space)/ 樣本空間(sample space)/ 輸入空間
  6. 特徵向量(feature vector)
  7. 維數(dimensionality)
  8. 學習(learning)/ 訓練(training)
  9. 訓練數據(training data)
  10. 訓練樣本(training sample)
  11. 訓練集(training set)
  12. 假設(hypothesis)
  13. 真相/真實(ground-truth)
  14. 學習器(learner)
  15. 預測(prediction)
  16. 標記(label)
  17. 樣例(example)
  18. 標記空間(label space)
  19. 分類(classification)
  20. 二分類(binary classification)
  21. 正類(positive class)/ 反類(negative class)
  22. 多分類(multi-class classification)任務
  23. 迴歸(regression)
  24. 測試(testing)
  25. 測試樣本(testing sample)
  26. 聚類(clustering)
  27. 簇(cluster)
  28. 監督學習(supervised learning)/ 無監督學習(unsupervised learning)
  29. 泛化(generalization)/ 特化
  30. 分佈(distribution)
  31. 獨立同分布(independent and identically distributed)
  32. 歸納(inducting)
  33. 歸納學習(inductive study)
  34. 演繹(deduction)
  35. 概念(concept)
  36. 版本空間(version space)
  37. 歸納偏好
  38. 奧卡姆剃刀(Occam’s razor):若有多個假設與觀察一致,則選最簡單的那個
  39. 沒有免費的午餐定理(No Free Lunch Theorem,NFL)

釋義:

  1. 記錄 / 樣本(sample)/ 示例(instance):關於一個事件或對象的描述,如(色澤=青綠;根蒂=蜷縮;敲聲=濁響)是一條記錄
  2. 數據集(data set):一組記錄的集合
  3. 屬性(attribute)/ 特徵(feature):反映事件或對象在某方面的表現或性質的事項,如色澤就是西瓜的一個屬性
  4. 屬性值(attribute value)::屬性上的取值
  5. 屬性空間(attribute space)/ 樣本空間(sample space)/ 輸入空間:屬性張成的空間,如把色澤、根蒂、敲聲作爲三個座標軸,則可張成一個用戶描述西瓜的三維空間
  6. 特徵向量(feature vector):由於樣本空間中的每個點對應一個座標向量,因此一個示例也稱爲一個特徵向量
  7. 維數(dimensionality):以西瓜的屬性空間爲例,西瓜的屬性個數就是維數
  8. 學習(learning)/ 訓練(training):從數據中學得模型
  9. 訓練數據(training data):訓練過程中使用的數據
  10. 訓練樣本(training sample):訓練過程中的樣本
  11. 訓練集(training set):訓練樣本組成的集合
  12. 假設(hypothesis):學得模型對應了關於數據的某種潛在的規律
  13. 真相/真實(ground-truth):上述的潛在規律
  14. 學習器(learner):模型,可看作學習算法在給定數據和參數空間上的實例化
  15. 預測(prediction):書上沒得啊這個,這個就不用解釋了吧
  16. 標記(label):樣本的結果信息,比如“好瓜”
  17. 樣例(example):有標記信息的示例,比如被標記爲“好瓜”的西瓜
  18. 標記空間(label space):所有標記的集合,如{好瓜,壞瓜}
  19. 分類(classification):預測結果是離散值的學習任務;比如「預測西瓜是好瓜還是壞瓜」這是一個分類任務
  20. 二分類(binary classification):只涉及兩個類別的分類任務;上述例子也是一個二分類任務
  21. 正類(positive class)/ 反類(negative class):二分類任務中的類別,通常一個叫正類一個叫反類
  22. 多分類(multi-class classification)任務:就是不止兩個類別的分類任務
  23. 迴歸(regression):預測結果爲連續值的學習任務;比如「預測西瓜的成熟度」,結果可能是0-100%之間的任意值
  24. 測試(testing):學得模型後,使用其進行預測的過程
  25. 測試樣本(testing sample):測試時被預測的樣本
  26. 聚類(clustering):將物理或抽象對象的集合分成由類似的對象組成的多個類的過程
  27. 簇(cluster):一組類似的數據對象的集合
  28. 監督學習(supervised learning)/ 無監督學習(unsupervised learning):訓練數據是否擁有標記信息
  29. 泛化(generalization)/ 特化:泛化時特殊到一般,特化是一般到特殊;學得模型適用於新樣本的能力稱爲泛化能力
  30. 分佈(distribution):這裏應該是指概率分佈,是指用於表述隨機變量取值的概率規律。事件的概率表示了一次試驗中某一個結果發生的可能性大小,若要全面瞭解試驗,則必須知道試驗的全部可能結果及各種可能結果發生的概率,即隨機試驗的概率分佈
  31. 獨立同分布(independent and identically distributed):在概率統計理論中,指隨機過程中,任何時刻的取值都爲隨機變量,如果這些隨機變量服從同一分佈,並且互相獨立,那麼這些隨機變量是獨立同分布
  32. 歸納(inducting):由一系列具體的事實概括出一般原理
  33. 歸納學習(inductive study):從樣例中學習;狹義又叫概念學習或概念形成
  34. 演繹(deduction):在數學公理系統中,基於一組公理和推理規則推導出與之相洽的定理
  35. 概念(concept):受判斷所產生的對事物的理解
  36. 版本空間(version space):與訓練集一致的假設的集合
  37. 歸納偏好:機器學習算法在學習過程中對某種類型假設的偏好
  38. 奧卡姆剃刀(Occam’s razor)原則:若有多個假設與觀察一致,則選最簡單的那個
  39. 沒有免費的午餐定理(No Free Lunch Theorem,NFL):由於對所有可能函數的相互補償,最優化算法的性能是等價的。可證得無論算法多好在沒有實際背景情況下都不優於隨機胡猜。NFL定理最重要意義是,在脫離實際意義情況下,空泛地談論哪種算法好毫無意義,要談論算法優劣必須針對具體學習問題。

關於奧卡姆剃刀原則:是由14世紀英格蘭的邏輯學家、聖方濟各會修士奧卡姆的威廉(William of Occam,約1285年至1349年)提出。這個原理稱爲“如無必要,勿增實體”,即“簡單有效原理”。正如他在《箴言書注》2卷15題說“切勿浪費較多東西去做,用較少的東西,同樣可以做好的事情。”

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章