1 問題定義:
- 給定數據集和標籤,訓練一個模型,使得輸入新的 ,輸出對應的標籤值。這裏數據集 ,標籤 ;
2 建立判別模型
- 建立一個判別模型,輸入數據 ,輸出該數據被分類成每個類別的概率;
- 對於二分類問題,我們使用sigmoid函數來建立判別模型:
3 建立似然函數:
- 對於所有數據集,建立似然函數:
- 對數似然:
- 求導:
- 令導數等於0,就得到了的極大似然估計,但爲了方便求解,這裏使用梯度下降法,因此需要建立損失函數。
4 交叉熵損失函數
- 我們基於對數似然來定義交叉熵損失函數,及極大化似然就等價於最小化交叉熵:
- 損失函數梯度:
5 爲什麼不使用最小二乘損失函數(LSE)?
- LSE損失函數:
- LSE損失函數梯度:
- 由於存在項,會出現梯度消失問題,而交叉熵損失函數梯度不存在這個問題;