【和我一起學西瓜書】1.緒論-術語列表

原創

游走走

2020-06-25 19:19

重要術語：

記錄 / 樣本（sample）/ 示例（instance）
數據集（data set）
屬性（attribute）/ 特徵（feature）
屬性值（attribute value）
屬性空間（attribute space）/ 樣本空間（sample space）/ 輸入空間
特徵向量（feature vector）
維數（dimensionality）
學習（learning）/ 訓練（training）
訓練數據（training data）
訓練樣本（training sample）
訓練集（training set）
假設（hypothesis）
真相/真實（ground-truth）
學習器（learner）
預測（prediction）
標記（label）
樣例（example）
標記空間（label space）
分類（classification）
二分類（binary classification）
正類（positive class）/ 反類（negative class）
多分類（multi-class classification）任務
迴歸（regression）
測試（testing）
測試樣本（testing sample）
聚類（clustering）
簇（cluster）
監督學習（supervised learning）/ 無監督學習（unsupervised learning）
泛化（generalization）/ 特化
分佈（distribution）
獨立同分布（independent and identically distributed）
歸納（inducting）
歸納學習（inductive study）
演繹（deduction）
概念（concept）
版本空間（version space）
歸納偏好
奧卡姆剃刀（Occam’s razor）：若有多個假設與觀察一致，則選最簡單的那個
沒有免費的午餐定理（No Free Lunch Theorem，NFL）

釋義：

記錄 / 樣本（sample）/ 示例（instance）：關於一個事件或對象的描述，如（色澤=青綠；根蒂=蜷縮；敲聲=濁響）是一條記錄
數據集（data set）：一組記錄的集合
屬性（attribute）/ 特徵（feature）：反映事件或對象在某方面的表現或性質的事項，如色澤就是西瓜的一個屬性
屬性值（attribute value）：：屬性上的取值
屬性空間（attribute space）/ 樣本空間（sample space）/ 輸入空間：屬性張成的空間，如把色澤、根蒂、敲聲作爲三個座標軸，則可張成一個用戶描述西瓜的三維空間
特徵向量（feature vector）：由於樣本空間中的每個點對應一個座標向量，因此一個示例也稱爲一個特徵向量
維數（dimensionality）：以西瓜的屬性空間爲例，西瓜的屬性個數就是維數
學習（learning）/ 訓練（training）：從數據中學得模型
訓練數據（training data）：訓練過程中使用的數據
訓練樣本（training sample）：訓練過程中的樣本
訓練集（training set）：訓練樣本組成的集合
假設（hypothesis）：學得模型對應了關於數據的某種潛在的規律
真相/真實（ground-truth）：上述的潛在規律
學習器（learner）：模型，可看作學習算法在給定數據和參數空間上的實例化
預測（prediction）：書上沒得啊這個，這個就不用解釋了吧
標記（label）：樣本的結果信息，比如“好瓜”
樣例（example）：有標記信息的示例，比如被標記爲“好瓜”的西瓜
標記空間（label space）：所有標記的集合，如{好瓜，壞瓜}
分類（classification）：預測結果是離散值的學習任務；比如「預測西瓜是好瓜還是壞瓜」這是一個分類任務
二分類（binary classification）：只涉及兩個類別的分類任務；上述例子也是一個二分類任務
正類（positive class）/ 反類（negative class）：二分類任務中的類別，通常一個叫正類一個叫反類
多分類（multi-class classification）任務：就是不止兩個類別的分類任務
迴歸（regression）：預測結果爲連續值的學習任務；比如「預測西瓜的成熟度」，結果可能是0-100%之間的任意值
測試（testing）：學得模型後，使用其進行預測的過程
測試樣本（testing sample）：測試時被預測的樣本
聚類（clustering）：將物理或抽象對象的集合分成由類似的對象組成的多個類的過程
簇（cluster）：一組類似的數據對象的集合
監督學習（supervised learning）/ 無監督學習（unsupervised learning）：訓練數據是否擁有標記信息
泛化（generalization）/ 特化：泛化時特殊到一般，特化是一般到特殊；學得模型適用於新樣本的能力稱爲泛化能力
分佈（distribution）：這裏應該是指概率分佈，是指用於表述隨機變量取值的概率規律。事件的概率表示了一次試驗中某一個結果發生的可能性大小，若要全面瞭解試驗，則必須知道試驗的全部可能結果及各種可能結果發生的概率，即隨機試驗的概率分佈
獨立同分布（independent and identically distributed）：在概率統計理論中，指隨機過程中，任何時刻的取值都爲隨機變量，如果這些隨機變量服從同一分佈，並且互相獨立，那麼這些隨機變量是獨立同分布
歸納（inducting）：由一系列具體的事實概括出一般原理
歸納學習（inductive study）：從樣例中學習；狹義又叫概念學習或概念形成
演繹（deduction）：在數學公理系統中，基於一組公理和推理規則推導出與之相洽的定理
概念（concept）：受判斷所產生的對事物的理解
版本空間（version space）：與訓練集一致的假設的集合
歸納偏好：機器學習算法在學習過程中對某種類型假設的偏好
奧卡姆剃刀（Occam’s razor）原則：若有多個假設與觀察一致，則選最簡單的那個
沒有免費的午餐定理（No Free Lunch Theorem，NFL）：由於對所有可能函數的相互補償，最優化算法的性能是等價的。可證得無論算法多好在沒有實際背景情況下都不優於隨機胡猜。NFL定理最重要意義是，在脫離實際意義情況下，空泛地談論哪種算法好毫無意義，要談論算法優劣必須針對具體學習問題。

關於奧卡姆剃刀原則：是由14世紀英格蘭的邏輯學家、聖方濟各會修士奧卡姆的威廉（William of Occam，約1285年至1349年）提出。這個原理稱爲“如無必要，勿增實體”，即“簡單有效原理”。正如他在《箴言書注》2卷15題說“切勿浪費較多東西去做，用較少的東西，同樣可以做好的事情。”

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【和我一起學西瓜書】1.緒論-術語列表

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

完美替代postman的軟件

Vue mockjs mock.js

關於遊戲付費的一點想法

我通過CKA和CKS啦！

安裝chromadb注意事項

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

【和我一起學西瓜書】機器學習各章節思維導圖（更新中）

【和我一起學西瓜書】1.緒論-術語列表

ionic icon圖片不顯示問題

【和我一起學西瓜書】沒有免費的午餐定理NFL

【leetcode】1143.最長公共子序列

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結