機器學習經典算法及名詞解釋彙總

經典算法

一、SVM（支持向量機）

（1）概念：支持向量機SVM(Support Vector Machine)是一個有監督的學習模型，通常用來進行模式識別、分類、以及迴歸分析。所謂支持向量，就是指距離分隔超平面最近的點。

（2）理論背景：Vapnik等人在多年研究統計學習理論基礎上對線性分類器提出了另一種設計最佳準則。其原理也從線性可分說起，然後擴展到線性不可分的情況，甚至擴展到使用非線性函數中去。

（3）SVM的主要思想可以概括爲兩點：
1.它是針對線性可分情況進行分析，對於線性不可分的情況，通過使用非線性映射算法將低維輸入空間線性不可分的樣本轉化爲高維特徵空間使其線性可分，從而使得高維特徵空間採用線性算法對樣本的非線性特徵進行線性分析成爲可能。
2.它基於結構風險最小化理論之上在特徵空間中構建最優超平面，使得學習器得到全局最優化，並且在整個樣本空間的期望以某個概率滿足一定上界。

（4）參考資料：鏈接1 ；鏈接2；鏈接3

二、NMS（非極大值抑制）

（1）概念：非極大值抑制（Non-maximum suppression, NMS）的本質是搜索局部極大值，抑制非極大值元素。通常用來做邊緣檢測，在目標檢測中常用來減少冗餘框，提高精度。

（2）參考資料：鏈接1 ；鏈接2

三、PCA（Principal Component Analysis，主成分分析）
（1）概念：主成分分析是維數減少的主要線性技術，它將數據的線性映射到一個低維空間，從而使低維空間中數據的方差表示最大化。

（2）參考資料：鏈接1 ；鏈接2：wiki

四、 t-SNE(t-distributed stochastic neighbor embedding)

（1）理論背景：在介紹概念之前，瞭解一下流形學習方法(Manifold Learning)，簡稱流形學習，通常可以分爲線性、非線性兩種。線性的有上面提到過的PCA，而t-SNE屬於非線性。

（2）概念：t-SNE是流形學習的一種，屬於非線性降維，主要是保證高維空間中相似的數據點在低維空間中儘量捱得近，是從SNE演化而來，SNE中用高斯分佈衡量高維和地位空間數據點之間的相似性，t-SNE主要是爲了解決SNE中的“擁擠問題”，用t分佈定義低維空間低維空間中點的相似性。但是實際應用中SNE主要是爲了可視化，以直觀地瞭解數據的結構，並沒有作爲一種通用的降維方法使用。
（3）參考資料：鏈接1 ：CSDN；鏈接2：知乎；鏈接3

名詞解釋

一、特徵選擇

概念：在機器學習和統計學中，特徵選擇也稱爲變量選擇，屬性選擇或可變子集選擇，是選擇用於模型構建的相關特徵（變量，預測變量）的子集的過程。

二、特徵提取

概念：在機器學習、模式識別和圖像處理過程中，特徵提取從初始化測量數據開始，並構建出派生的價值(特徵)，旨在提供信息和非冗餘，從而促進後續的學習和歸納步驟，在某些情況下會導致更好的人類解釋。特徵提取與降維有關。

三、正則化

（1）背景名詞：

L0範數與L1範數

L0範數是指向量中非0的元素的個數。

L1範數是指向量中各個元素絕對值之和，也叫“稀疏規則算子”（Lasso regularization）。

總結：相對來說實際中更喜歡用L1範數，主要原因在於L0範數很難優化求解（NP難問題）

L2範數（||W||2），也叫“嶺迴歸”（Ridge Regression）或“權值衰減weight decay”

L2範數是指向量各元素的平方和然後求平方根。

優點：L2範數有助於處理穩定性不好的情況下矩陣求逆很困難的問題。

欠擬合（underfitting，也稱High-bias）、過擬合（overfitting，也稱High variance）

（2）概念：通俗來說就是給需要訓練的目標函數加上一些懲罰項（限制），讓參數對整個目標函數的影響降低。

（3）參考資料：鏈接1：CSDN ，鏈接2

四、監督/無監督學習

監督學習一般可分爲兩類，一類爲迴歸問題而另一類則稱之爲分類問題。迴歸問題是監督學習的一種，主要是用來對連續輸出進行預測；分類問題主要是映射到離散類別

無監督學習一般分爲聚類和非聚類，無監督的學習能夠很少或根本不知道結果應該是什麼樣子。可以從數據中推導出結構，不一定知道變量的影響，通過基於數據中變量之間的關係對數據進行聚類來推導出這種結構。

五、代價函數

預測值與真實值的差值的平方和

六、梯度下降

爲了求得代價函數最小值，即最小化代價函數，提出一種梯度下降的算法來計算，即對代價函數求偏導得到使之最小的係數值。

特點：起點不同得到的局部最優解也不盡相同

七、特徵縮放（feature scaling）/均值歸一化（mean normalization）

在實際中往往有多個特徵量，如果特徵量的取值範圍相差很大就容易出現梯度下降的很慢的情況，爲此提出實用技巧將特徵進行縮放,通常做法是將特徵的取值約束到[-1,+1]範圍內。

八、學習率（代價函數的更新規則）

通過畫出迭代次數和代價函數值的曲線來判斷如何調節學習率，一般來說如果學習率隨迭代次數升高則說明學習率過大，隨迭代次數下降的十分緩慢可能是學習率過小。

九、正規方程

也是求最優解，與梯度下降不同的是可以一次性求解參數值。

優點：不需要選擇學習率；不需要迭代

缺點：要計算矩陣的逆，隨着特徵變量增加（10^4量級），計算量巨大。當樣本數量比特徵量少的時候容易出現矩陣不可逆的情況。刪除多餘或重複特徵

十、精度（accuracy）/查準率（precision）/召回率（recall）

csdnromme

發佈了32 篇原創文章 · 獲贊 55 · 訪問量 7萬+

私信關注

機器學習經典算法及名詞解釋彙總

工作中用到的腳本合集

24-5-18 X

Jetson TX1安裝 Pytorch

CV論文筆記（一） 3D ConvNets（C3D）

Linux開發中涉及的常識

Anconda安裝的pytorch依賴的cuda版本和系統cuda版本不一致問題

Caffe筆記（三） Caffe源碼解析（資料彙總）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結