模型選擇和訓練、驗證、測試集
訓練集用最優化算法來得到最有的參數,驗證集用來挑選超參數,測試集用來預估出泛化誤差。
診斷偏差與方差
高偏差(欠擬合):訓練集誤差大,測試集誤差大
高方差(過擬合):訓練集誤差小,測試集誤差大
學習曲線
橫軸:樣本個數,縱軸:誤差
接下來決定做什麼
對待高偏差
- 增加特徵
- 增加多項式特徵
- 減小正則化參數
對待高方差
- 增大訓練集
- 減少特徵數
- 增大正則化參數
在監督學習中,很多監督學習算法的性能都非常相似,所以要更多的考慮構建這些算法時,所使用的數據量