機器學習基礎概念指北

前言

  機器學習正在迅速的改變着我們的世界,我們生活中的方方面面都在被機器學習所改變。當我們在淘寶或是京東上購物時,當我們使用百度或谷歌等搜索引擎時,當我們在瀏覽抖音和快手時,就已經觸碰到了機器學習的應用。使用這些服務的用戶會產生數據,這些數據會被收集,進行預處理後用來訓練模型,而這些模型會通過這些數據來提供更好的用戶體驗。此外,機器學習還在圖像識別,智能家居,無人駕駛,智能機器人等等多個領域影響着我們的生活,那麼究竟什麼是機器學習呢?

什麼是機器學習

  機器學習模型或算法(Model/Algorithm)會根據觀察到的特徵值(Feature)進行預測,給出預測結果 或者目標(Prediction/Target)。這就像是一個函數計算過程,對於特定X值(Feature),算法模型就 像是函數,最終的預測結果是Y值。不難理解,機器學習的核心問題就是如何得到預測函數。
  機器學習的最重要本質是從數據中學習,得到預測函數。人類的思考過程以及判斷能力本質上也是一種函 數處理。從數據或者經驗中學習,對於人類來說是一件再平常不過的事情了。例如人們通過觀察太陽照射 物體影子的長短而發明了日晷,從而具備了計時和制定節氣的能力。古埃及人通過尼羅河水的漲落髮明了 古埃及曆法。
  如果機器能夠像人一樣具備從數據中學習的能力,從某種意義上講,就具備了一定的“智能”。

機器學習的範圍

  機器學習跟模式識別,統計學習,數據挖掘,計算機視覺,語音識別,自然語言處理等領域有着很深的聯繫。從範圍上來說,機器學習跟模式識別,統計學習,數據挖掘是類似的,同時,機器學習與其他領域的處理技術的結合,形成了計算機視覺、語音識別、自然語言處理等交叉學科。因此,一般說數據挖掘時,可以等同於說機器學習。同時,我們平常所說的機器學習應用,應該是通用的,不僅僅侷限在結構化數據,還有圖像,音頻等應用。

  • 模式識別=機器學習。兩者的主要區別在於前者是從工業界發展起來的概念,後者則主要源自計算機學科。
  • 數據挖掘=機器學習+數據庫。大部分數據挖掘中的算法是機器學習的算法在數據庫中的優化。
  • 統計學習近似等於機器學習。機器學習中的大多數方法來自統計學;但是在某種程度上兩者是有分別的,這個分別在於:統計學習者重點關注的是統計模型的發展與優化,偏數學,而機器學習者更關注的是能夠解決問題,偏實踐,因此機器學習研究者會重點研究學習算法在計算機上執行的效率與準確性的提升。
  • 計算機視覺=圖像處理+機器學習。圖像處理技術用於將圖像處理爲適合進入機器學習模型中的輸入,機器學習則負責從圖像中識別出相關的模式。
  • 語音識別=語音處理+機器學習。
  • 自然語言處理=文本處理+機器學習。

  人工智能是機器學習的父類。深度學習則是機器學習的子類。如果把三者的關係用圖來表明的話

在這裏插入圖片描述

機器學習的方法

  在機器學習領域,有監督式學習和無監督式學習兩種常用的方法

監督式學習

  監督式學習是指通過現有訓練數據集進行建模,再用模型對新的數據樣本進行分類和迴歸分析的機器學習方法。訓練數據集一般包含樣本特徵變量及分類標籤,機器使用不同的算法通過這些數據集推斷出分類的方法,並用於新的數據樣本中。
  在監督式學習中,常用的兩種方法是分類和迴歸,對於分類來說,機器學習的目標是要判斷樣本的類標籤,獲取的結果是離散的值,對於迴歸來說,目標是要預測樣本結果的數據和範圍,獲取的結果是連續的值。

無監督式學習

  無監督式學習指的是在沒有訓練數據集的情況下,對沒有標籤的數據進行分析,建立模型並給出解決方法的方法。無監督式學習中的常用方法有數據轉換和聚類分析,其中數據轉換的目的是通過無監督式學習方法將複雜的數據進行轉化,使其更容易理解,常用的數據轉換手段是數據降維,就是通過對特徵變量較多的數據集進行分析,去除無關緊要的特徵變量,保留關鍵特徵變量的過程;而聚類分析則是把樣本劃分到不同分組的算法,每個同組樣本都具有相近的特徵。

監督式學習中的泛化與擬合

  在監督式學習中,我們會通過訓練數據集建立模型,然後將模型應用於其他數據集的過程叫做泛化。我們通過擬合情況來分析機器學習模型的優劣,當訓練出的模型過於複雜導致非常契合訓練數據集但對測試數據集表現非常差,這被稱爲過擬合;相反,如果模型非常簡單,連訓練數據集的特點都不能完全考慮到,這樣的模型在訓練數據集和測試數據集的表現都會很差,這被稱爲欠擬合。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章