特徵縮放
目的:讓不同的特徵有相似的取值範圍,確保收斂速度更快。
原因:每個輸入值在大致相同的範圍可以加速梯度下滑,同時θ將在小範圍內快速下降並且在大範圍內緩慢下降,
所以特徵縮放並不是必須的操作。
特徵縮放
當前特徵輸入值除以輸入值的範圍(最大值減去最小值)。
均值歸一化
當前特徵輸入值減去平均值後除以輸入值的範圍(最大值減去最小值)。
More , https://en.wikipedia.org/wiki/Feature_scaling
Learning Rate
如果 太小:收斂慢。
如果 太大:可能不會在每次迭代時減少,因此可能不會收斂。
如果J(θ)在一次迭代中減小小於E,則聲明收斂,其中E是一些小值,例如, 但是在實踐中很難選擇這個閾值。
標準方程(Normal Equation)
前面我們通過梯度下降的方法來學習參數,該方法是通過迭代的在假設空間中找到一個最佳的模型,而標準方程也學習參數的方法之一,其通過令代價函數對θ的偏導數等於0直接求得。
The normal equation formula is given below:
其推導過程如下:
There is no need to do feature scaling with the normal equation.