小白機器學習基礎算法學習必經之路(上)

常見的機器學習算法

以下是最常用的機器學習算法,大部分數據問題都可以通過它們解決:

1.線性迴歸 (Linear Regression)

2.邏輯迴歸 (Logistic Regression)

3.決策樹 (Decision Tree)

4.支持向量機(SVM)

5.樸素貝葉斯 (Naive Bayes)

6.K鄰近算法(KNN)

7.K-均值算法(K-means)

8.隨機森林 (Random Forest)

9.降低維度算法(DimensionalityReduction Algorithms)

10.GradientBoost和Adaboost算法

 

線性迴歸 (Linear Regression)

線性迴歸是利用數理統計中迴歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。其表達形式爲y = w'x+e,e爲誤差服從均值爲0的正態分佈。

 

最小二乘法是一種計算線性迴歸的方法。你可以把線性迴歸當做在一系列的點中畫一條合適的直線的任務。有很多種方法可以實現這個,“最小二乘法”是這樣做的 —你畫一條線,然後爲每個數據點測量點與線之間的垂直距離,並將這些全部相加,最終得到的擬合線將在這個相加的總距離上儘可能最小。

線性迴歸

 

邏輯迴歸 (Logistic Regression) 邏輯迴歸是一種強大的統計方法,它能建模出一個二項結果與一個(或多個)解釋變量。它通過估算使用邏輯運算的概率,測量分類依賴變量和一個(或多個)**的變量之間的關係,這是累積的邏輯分佈情況。

邏輯迴歸

 

總的來說,邏輯迴歸可以用於以下幾個真實應用場景:

  • 信用評分

  • 測量營銷活動的成功率

  • 預測某一產品的收入

  • 特定某一天是否會發生地震

 

決策樹 (Decision Tree)

是一種基本的分類與迴歸方法,此處主要討論分類的決策樹。在分類問題中,表示基於特徵對實例進行分類的過程,可以認爲是if-then的集合,也可以認爲是定義在特徵空間與類空間上的條件概率分佈。

 

決策樹通常有三個步驟:特徵選擇、決策樹的生成、決策樹的修剪。

 

用決策樹分類:從根節點開始,對實例的某一特徵進行測試,根據測試結果將實例分配到其子節點,此時每個子節點對應着該特徵的一個取值,如此遞歸的對實例進行測試並分配,直到到達葉節點,最後將實例分到葉節點的類中。 

下圖爲決策樹示意圖,圓點——內部節點,方框——葉節點

決策樹

 

  • 決策樹學習的目標:根據給定的訓練數據集構建一個決策樹模型,使它能夠對實例進行正確的分類。
  • 決策樹學習的本質:從訓練集中歸納出一組分類規則,或者說是由訓練數據集估計條件概率模型。
  • 決策樹學習的損失函數:正則化的極大似然函數
  • 決策樹學習的測試:最小化損失函數
  • 決策樹學習的目標:在損失函數的意義下,選擇最優決策樹的問題。

 

決策樹原理和問答猜測結果遊戲相似,根據一系列數據,然後給出遊戲的答案。

決策樹

 上圖爲一個決策樹流程圖,正方形代表判斷模塊,橢圓代表終止模塊,表示已經得出結論,可以終止運行,左右箭頭叫做分支。決策樹的優勢在於數據形式非常容易理解。

 

支持向量機(SVM)

SVM有很多實現,但是本章只關注其中最流行的一種實現,即序列最小優化,在此之後,將介紹如何使用一種稱爲核函數(kernel)的方式將SVM擴展到更多數據集上。

 

支持向量機是一種二類分類算法,假設一個平面可以將所有的樣本分爲兩類,位於正側的樣本爲一類,值爲+1,而位於負一側的樣本爲另外一類,值爲-1。雖然SVM本身是一個二類分類器,若要解決多類問題,需要修改SVM。

 

我們說分類,不僅僅是將不同的類別樣本分隔開,還要以比較大的置信度來分隔這些樣本,這樣才能使絕大部分樣本被分開。比如,我們想通過一個平面將兩個類別的樣本分開,如果這些樣本是線性可分(或者近視線性可分),那麼這樣的平面有很多,但是如果我們加上要以最大的置信度來將這些樣本分開,那麼這樣的平面只有一條。

 

1.幾何間隔

幾何間隔的概念,簡單理解就是樣本點到分隔平面的距離

 

2 間隔最大化

想要間隔最大化,我們必須找到距離分隔平面最近的點,並且使得距離平面最近的點儘可能的距離平面最遠,這樣,每一個樣本就都能夠以比較大的置信度被分隔開算法的分類預測能力也就越好 。顯然,SVM算法的關鍵所在,就是找到使得間隔最大化的分隔超平面(如果特徵是高維度的情況,我們稱這樣的平面爲超平面)。簡言之:最大化支持向量到超平面距離

 

優點:泛化錯誤率低,計算開銷不大,結果易解釋。 缺點:對參數調節和核函數的選擇敏感,原始分類器不加修改僅適用於處理二類問題。 適用數據類型:數值型和標稱型數據。

 

樸素貝葉斯 (Naive Bayes)

樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是因爲這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的概率,哪個最大,就認爲此待分類項屬於哪個類別。

 

優點:在數據較少的情況下仍然有效,可以處理多類別問題。 缺點:對於輸入數據的準備方式較爲敏感。 適用數據類型:標稱型數據

 

它的現實使用例子有:

將一封電子郵件標記(或者不標記)爲垃圾郵件

將一篇新的文章歸類到科技、**或者運動

檢查一段文本表達的是積極情緒還是消極情緒

臉部識別軟件

 

相關推薦:

小白機器學習基礎算法學習必經之路(下)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章