百面機器學習（3）——經典算法

原創

Briwisdom

2020-06-30 00:32

SVM（SVM模型推導，和函數，SMO算法）

邏輯迴歸（邏輯迴歸，線性迴歸，多標籤分類，softmax）

決策樹（信息論，樹形數據結構，優化理論）

SVM（SVM模型推導，和函數，SMO算法）

1. 在空間上線性可分的兩類點，分別向svm分類的超平面上做投影，這些點在超平面上的投影仍然是線性可分的嗎？（3）

線性可分的兩類點，即通過一個超平面可以將兩類點完全分開。對於任意線性可分的兩組點，它們在 SVM 分類的超平面上的投影都是線性不可分的。

該問題也可以通過凸優化理論中的超平面分離定理( Separating Hyperplane Theorem, SHT）更加輕巧地解決。該定理描述的是，對於不相交的兩個凸集，存在一個超平面，將兩個凸集分離。對於二維的情況，兩個凸集間距離最短兩點連線的中垂線就是一個將它們分離的超平面。

藉助這個定理，我們可以先對線性可分的這兩組點求各自的凸包。不難發現，SVM 求得的超平面就是兩個凸包上距離最短的兩點連線的中垂線，也就是SHT 定理二維情況中所闡釋的分類超平面。根據凸包的性質容易知道，凸包上的點要麼是樣本點，要麼處於兩個樣本點的連線上。因此，兩個凸包間距離最短的兩個點可以分爲三種情況：兩邊的點均爲樣本點(a)；兩邊的點均在樣本點的連線上(b); 一邊的點爲樣本點，另一邊的點在樣本點的連線上(c)。從幾何上分析即可知道，無論哪種情況兩類點的投影均是線性不可分的。

２. 是否存在一組參數使svm訓練誤差爲0？（3）

一個使用高斯核（）訓練的SVM 中，試證明若給定訓練集中不存在兩個點在同一位置，則存在一組參數｛α1，…，αm，b｝以及參數 y 使得該 SVM 的訓練誤差爲 0。

３. 訓練誤差爲0的SVM分類器一定存在嗎？（４）

雖然在問題 2 中我們找到了一組參數｛α1，…，αm，b｝以及 y 使得 SVM 的訓練誤差爲0，但這組參數不一定是滿足 SVM 條件的一個解。在實際訓練一個不加入鬆弛變量的 SVM 模型時，是否能保證得到的SVM 分類器滿足訓練誤差爲 0 呢？

問題 2 找到了一組參數使得 SVM 臺類器的訓練誤差爲 0 。本問旨在找到一組參數滿足訓練誤差爲 0，且是SVM 模型的一個解。

４.　加入鬆弛變量的SVM的訓練誤差可以爲０嗎？（３）

在實際應用中，如果使用SMO算法來訓練一個加入鬆弛變量的線性SVM模型，並且懲罰因子 C爲任一未知常數，我們是否能得到訓練誤差爲 0 的模型呢？

使用 SMO 算法訓練的線性分類器並不一定能得到訓練誤差爲 0 的模型。這是由於我們的優化目標改變了，並不再是使訓練誤差最小。考慮帶鬆弛變量的 SVM 模型優化的目標函數所包含的兩項和，當我們的參數C選取較小的值時，後一項（正則項）將佔據優化的較大比重。這樣，一個帶有訓練誤差，但是參數較小的點將成爲更優的結果。一個簡單的特例是，當 C取 0 時， w也取0即可達到優化目標，但是顯然此時我們的訓練誤差不一定能達到 0。

邏輯迴歸（邏輯迴歸，線性迴歸，多標籤分類，softmax）

１.　邏輯迴歸相比於線性迴歸，有何異同（２）

（邏輯迴歸處理分類問題，線性迴歸處理的是迴歸的問題；邏輯迴歸中因變量時離散的，線性迴歸的因變量時連續的）

（邏輯迴歸與線性迴歸都使用了極大似然估計來對訓練樣本進行建模；在求解超參數的過程中，都可以使用梯度下降的方法）

２.　當使用邏輯迴歸處理多標籤的分類問題時，有哪些常見做法，分別應用於哪些場景，他們之間又有怎麼樣的關係？（3）

使用哪一種辦法來處理多分類問題取決於具體問題的定義。

如果一個樣本只對應於一個標籤，我們可以假設每個樣本屬於不同標籤的概率服從於幾何分佈，使用多項邏輯迴歸（ Softmax Regression ) 來進行分類。

當存在樣本可能屬於多個標籤的情況時，我們可以訓練 k個二分類的邏輯迴歸分類器。第i個分類器用以區分每個樣本是否可以歸爲第i類，訓練該分類器時，需要把標籤重新整理爲“第 i 類標籤” 與“非第i類標籤”兩類。通過這樣的辦法，我們就解決了每個樣本可能擁有多個標籤的情況。

決策樹（信息論，樹形數據結構，優化理論）

決策樹是一種自上而下，對樣本數據進行樹形分類的過程，由結點和有向邊組成。結點分爲內部結點和葉結點，其中每個內部結點表示一個特徵或屬性，葉結點表示類別。從頂部根結點開始，所有樣本聚在一起。經過根結點的劃分，樣本被分到不同的子結點中。再根據子結點的特徵進一步劃分，直至所有樣本都被歸到某一個類別（即葉結點）中。

決策樹的生成包含了特徵選擇、樹的構造、樹的剪枝三個過程

1. 決策樹有哪些常用的啓發函數（2）

ID3， ID， C4.5, CART

從若干不同的決策樹中選取最優的決策樹時一個NP完全問題，在實際中我們通常會採用啓發式學習的方法去構建一顆滿足條件的決策樹。

NP完全問題，即：NP=P？

是否所有能在多項式時間內驗證得出正確解的問題，都是具有多項式時間算法的問題呢？

2. 如何對決策樹進行剪枝？（3）

預剪枝，後剪枝

預剪枝何時停止決策樹的生長:

1）當樹到達一定深度的時候，停止樹的生長。

2）當到達當前結點的樣本數量小於某個閾值的時候，停止樹的生長。

3）計算每次分裂對測試集的準確度提升，當小於某個閾值的時候，不再繼續擴展。