Machine Learning Diary

2018.5.14

正則化與偏差和方差的聯繫
高偏差：欠擬合，在訓練集和交叉驗證集的代價都很高，說明模型不夠準確
高方差：過擬合，在訓練集的代價不高，但在交叉驗證集的代價很高，說明模型的預測能力太弱
正則化參數λ越大，訓練得到的 $θ$ 越小，精確度越低，偏差大。
與之相反，***λ越小，****************大，*********高，可能出現過擬合。
如何選擇λ？
先將代價函數寫成無正則化的形式，然後以一定的倍數在一定範圍內逐漸改變λ的值並添加上正則化項，計算出 $Θ$ ，放到驗證集中，選擇使得 $J$ 最小的那一個 $Θ$ ，即我們最終要選擇的模型。
正則化程度與擬合狀況的聯繫
正則化的目的是給 $θ$ 添加一個懲罰值，讓其減小，降低整體擬合度，以防止對訓練集的過擬合而導致預測能力弱。
訓練樣本很小的時候模型很容易精確地擬合訓練集。隨着訓練集數據量增大，多項式的次數如果太低，模型就不能很好地擬合訓練集了，誤差就會越來越大。
當我們的預測模型偏差太高（模型太簡單），無論是交叉驗證集還是訓練集，誤差都很高，而且隨着數據量的增大，誤差先減少後在高水平持平，（交叉驗證集的誤差不會隨着training set size增大而下降），這時收集再多的數據也沒有用。
處於高方差的狀態下，加大訓練數據集，是能夠讓測試集的誤差不斷減少的，是有效的。
於是，我們在改進模型時，可以先畫出error-training set size的圖像，根據圖像來判斷此時預測模型是處於高偏差還是高方差還是兩者都有，來調節模型。
Debugging a learning algorithm
-高方差（過擬合）：1.增加數據集。 2.減少特徵。 3.增大λ。
-高偏差（欠擬合）：1.增加特徵。 2.增加特徵。 3.減小λ。
神經網絡規模的選擇
小規模神經網絡的計算成本低,但不如選用大規模神經網絡(容易過擬合)加上正則化(減弱過擬合)更合適，雖然計算量大一些，但可以接受。
默認情況下使用一個隱藏層。

///隨便想想】
❥已完成Deciding what to do next這一集，課程過半，加油！
1.也許在針對單個人的語言翻譯中，採取一點措施來快速分析這個人自身的語言習慣（聲調，情緒狀態，口音，停頓，速度等），能讓針對這個人的翻譯效果不斷改進。
2.過去的預測經驗也許可以用來指導後來的對 $Θ$ 的初始化。

2018.5.15

驗證集的誤差函數

選擇誤差最小的模型作爲最終的模型

Machine Learning Diary

2018.5.14

2018.5.15

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

Machine Learning Diary

OJ Diary

C++ Diary

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結