機器學習的基本概念和相關術語

一.什麼是機器學習

人工智能標準化白皮書(2018版)

  • 機器學習(Machine Learning)是一門涉及統計學、系統辨識、逼近理論、神經網絡、優化理論、計算機科學、腦科學等諸多領域的交叉學科,研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是人工智能技術的核心。
    基於數據的機器學習是現代智能技術中的重要方法之一,研究從觀測數據(樣本)出發尋找規律,利用這些規律對未來數據或無法觀測的數據進行預測。

Andrew Ng (吳恩達)

  • Machine Learning is the science of getting computers to act without being explicitly programmed.
    機器學習是一門讓計算機無需顯式編程即可運行的科學。

Microsoft(微軟公司)

  • Machine learning is a technique of data science thathelps computers learn from existing data in order toforecast future behaviors, outcomes, and trends.
    機器學習是一種數據科學技術,它幫助計算機從現有數據中學習,從而預測未來的行爲、結果和趨勢。

在這裏插入圖片描述

二.機器學習的相關術語

樣本(sample)、示例(instance):

  • 所研究對象的一個個體。相當於統計學中的實例(example,instance)

特徵(feature)、屬性(attribute):

  • 反映事件或對象在某方面的表現或性質的事項,如大小,顏色

屬性值(attribute value):

  • 屬性上的取值,例如“青綠”“烏黑”
  • 屬性張成的空間稱爲 “屬性空間”(attribute space)、“ 樣本空間”(sample space)或“輸入空間”.

特徵空間(feature space)

  • 分別以每個特徵作爲一個座標軸,所有特徵所在座標軸張成一個用於描述不同樣本的空間,稱爲特徵空間
  • 在該空間中,每個具體樣本就對應空間的一個點,在這個意義下,也稱樣本爲樣本點。
  • 每個樣本點對應特徵空間的一個向量,稱爲 “特徵向量”
  • 特徵的數目即爲特徵空間的維數。

樣本集 (sample set)、數據集(data set):

  • 若干樣本構成的集合;該集合的每個元素就是一個樣本

測試樣本”(testing sample):

  • 學得模型後,使用該模型進行預測的過程稱爲“ 測試”(testing), 被預測的樣本稱爲“測試樣本”.

標記(label):

  • 有前面的樣本數據顯然是不夠的,要建立這樣的關於“預測”(prediction) 的模型,我們需獲得訓練樣本的“結果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲= =濁響),好瓜)”.這裏關於示例結果的信息,例如“好瓜”,稱爲“標記”(label); 擁有了標記信息的示例,則稱爲“樣例”(example).

分類(classification):

  • 若我們欲預測的是離散值,例如“好瓜”“壞瓜”,此類學習任務稱爲"分類"

迴歸(regression)

  • 若欲預測的是連續值,例如西瓜成熟度0.95、0.37,類學習任務稱爲“迴歸”.
  • 對只涉及兩個類別的稱爲“二分類’(binary classification)’

聚類”(clustering)

  • 即將訓練集中的樣本分成若干組,每組稱爲一個 “簇”(cluster);

根據訓練數據是否擁有標記信息,學習任務可大致劃分爲兩大類:“ 監督學習”(supervised learning)“無監督學習”(unsupervised learning), 分類和迴歸是前者的代表,而聚類則是後者的代表.

三.機器學習的典型任務

典型的學習任務包括:

  • 分類(classification)
  • 迴歸(regression)
  • 聚類(clustering)
  • 排序(ranking)
  • 密度估計(density estimation)
  • 特徵降維(dimensionality reduction)
  • … …

3.1分類(classification)
基於已知類別標籤的樣本構成的訓練集,學習預測模型;最終預測模型,對新的觀測樣本,預測相應的輸出;預測結果爲事先指定的兩個或多個類別中的某一個,或預測結果來自數目有限的離散值之一。

兩類別 vs.多類別
類別數C=2, 兩類別分類(binary classification)
類別數C>2, 多類別分類(multiclass classification)

在這裏插入圖片描述
3.2迴歸(regression)
迴歸分析基於已知答案的樣本構成的訓練集,估計自變量與因變量之間關係的統計過程,進而基於該關係對新的觀測產生的輸出進行預測,預測輸出爲連續的實數值
在這裏插入圖片描述
3.3 聚類(clustering)

對給定的數據集進行劃分,得到若干“簇”;使得“簇內”樣本之間較“簇間”樣本之間更爲相似。通過聚類得到的可能各簇對應一些潛在的概念結構,聚類是自動爲給定的樣本賦予標記的過程。
在這裏插入圖片描述

聚類舉例
在這裏插入圖片描述在這裏插入圖片描述

在這裏插入圖片描述
3.4特徵降維

將初始的數據高維表示轉化爲關於樣本的低維表示,藉助由高維輸入空間向低維空間的映射,來簡化輸入。

– 特徵提取,如PCA
–高維數據的低維可視化

在這裏插入圖片描述

四.假設與假設空間

假設(hypothesis)、假設空間(hypothesis space):

  • 每一個具體的模型就是一個“假設(hypothesis)”
  • 模型的學習過程就是一個在所有假設構成的假設空間進行搜索的過程,搜索的目標就是找到與訓練集“匹配(fit)”的假設。

版本空間(version space)

  • 基於有限規模的訓練樣本集進行假設的匹配搜索,會存在多個假設與訓練集一致的情況,稱這些假設組成的集合爲“版本空間”

五.假設的選擇原則

主要準則:
“奧克姆剃刀(Occam’s Razor)”準則

  • 如無必要,勿增實體
  • 若多個假設與經驗觀測一致,則選擇最簡單的那個

其它原則
“多釋原則”:

  • 保留與經驗觀察一致的所有假設
    (與集成學習的思想一致)

六.機器學習的三要素

機器學習方法由模型、策略、算法構成,可以簡單的表示爲:方法=模型+策略+算法

在這裏插入圖片描述

在這裏插入圖片描述
在這裏插入圖片描述
B.期望風險(expected risk)

模型的輸入X與輸出Y構成輸入空間X與輸出空間Y的聯合隨機變量(X,Y),遵循聯合分佈P(X, Y)

  • 損失函數L(Y, f(X))是關於聯合隨機變量(X, Y)的函數
  • 期望風險R。就是損失函數L(Y,f(X ))的數學期望。

在這裏插入圖片描述
機器學習的目標就在於選擇具有最小期望風險的模型

C經驗風險(empirical risk)或經驗損失(empirical los)

在這裏插入圖片描述
當容量 趨於無窮時,經驗風險R趨於期望風險R

實際問題中,訓練樣本數目N非常有限,需對經驗風險矯正

D.經驗風險最小化(empirical risk minimization,ERM)

在假設空間、損失函數形式、以及訓練樣本集確定的前提下,經驗風險最小化"策略認爲:假設空間F中,使經驗風險R最小的模型就是最優模型
在這裏插入圖片描述
N足夠大時,採用"經驗風險最小化"策略可獲得較好學習效果;
N很小時,該策略的學習效果未必好,易產生"過擬合(overfitting)"

E.結構風險最小化(structural risk minimization,SRM)
爲防止模型過擬合,提出結構風險最小化"策略
在這裏插入圖片描述

''結構風險最小化"策略認爲:假設空間F中,使結構風險R(srm)最小的模型,就是最優模型

在這裏插入圖片描述

在這裏插入圖片描述
完整的機器學方法步驟示例:
在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章