簡單線性迴歸:簡單線性迴歸及最小二乘法的數據推導
1、簡單線性迴歸是屬於迴歸(regression),即label爲連續數值型(continuous numerical variable),所謂簡單,是指只有一個樣本特徵,即只有一個自變量;所謂線性,是指方程是線性的;所謂迴歸,是指用方程來模擬變量之間是如何關聯的。
簡單線性迴歸,其思想簡單,實現容易(與其背後強大的數學性質相關。同時也是許多強大的非線性模型(多項式迴歸、邏輯迴歸、SVM)的基礎。並且其結果具有很好的可解釋性。
2、推導思路爲:
- 通過分析問題,確定問題的損失函數或者效用函數;
- 然後通過最優化損失函數或者效用函數,獲得機器學習的模型
近乎所有參數學習算法都是這樣的套路,區別是模型不同,建立的目標函數不同,優化的方式也不同。
3、相關概念
1、損失函數:單個樣本預測值和真實值之間誤差的程度。
2、期望風險:是損失函數的期望,理論上模型f(X)關於聯合分佈P(X,Y)的平均意義下的損失。
3、經驗風險:模型關於訓練集的平均損失(每個樣本的損失加起來,然後平均一下)。
4、結構風險:在經驗風險上加上一個正則化項,防止過擬合的策略。
4、最小二乘法
對於測量值來說,讓總的誤差的平方最小的就是真實值。這是基於,如果誤差是隨機的,應該圍繞真值上下波動。