邏輯迴歸LR推導

1 問題定義：
給定數據集{x1,x2,...,xm}\{x_1,x_2, ...,x_m\}{x1​,x2​,...,xm​}和標籤{y1,y2,...,ym}\{y_1,y_2, ...,y_m\}{y1​,y2​,...,ym​}，訓練一個模型，使得輸入新的 xxx，輸出對應的標籤值。這裏數據集 xi∈Rnx_i\in R^nxi​∈Rn，標籤 yi∈{0,1}y_i\in\{0,1\}yi​∈{0,1}；

2 建立判別模型
建立一個判別模型，輸入數據 xxx，輸出該數據被分類成每個類別的概率；
對於二分類問題，我們使用sigmoid函數來建立判別模型：

p(y=1∣x,θ)=σ(θTx)p(y=1|x,\theta)=\sigma(\theta^Tx)p(y=1∣x,θ)=σ(θTx)

p(y=0∣x,θ)=1−σ(θTx)p(y=0|x,\theta)=1-\sigma(\theta^Tx)p(y=0∣x,θ)=1−σ(θTx)

3 建立似然函數：
對於所有數據集，建立似然函數：

L(θ)=∏i=1mp(yi=1∣x,θ)yip(yi=0∣x,θ)1−yiL(\theta)=\prod_{i=1}^mp(y_i=1|x,\theta)^{y_i}p(y_i=0|x,\theta)^{1-y_i}L(θ)=i=1∏m​p(yi​=1∣x,θ)yi​p(yi​=0∣x,θ)1−yi​
對數似然：

lnL(θ)=∑i=1m[yilnσ(θTxi)+(1−yi)ln(1−σ(θTxi))]lnL(\theta)=\sum_{i=1}^m[y_iln\sigma(\theta^Tx_i)+(1-y_i)ln(1-\sigma(\theta^Tx_i))]lnL(θ)=i=1∑m​[yi​lnσ(θTxi​)+(1−yi​)ln(1−σ(θTxi​))]
求導：

αlnL(θ)αθ=∑i=1mxi[yi−σ(θTxi)]\frac{\alpha lnL(\theta)}{\alpha \theta}=\sum_{i=1}^mx_i[y_i-\sigma(\theta^Tx_i)]αθαlnL(θ)​=i=1∑m​xi​[yi​−σ(θTxi​)]
令導數等於0，就得到了θ\thetaθ的極大似然估計，但爲了方便求解，這裏使用梯度下降法，因此需要建立損失函數。

4 交叉熵損失函數
我們基於對數似然來定義交叉熵損失函數，及極大化似然就等價於最小化交叉熵：

cost(θ)=−1mlnL(θ)=−1m∑i=1m[yilnσ(θTxi)+(1−yi)ln(1−σ(θTxi))]cost(\theta)=-\frac{1}{m}lnL(\theta)=-\frac{1}{m}\sum_{i=1}^m[y_iln\sigma(\theta^Tx_i)+(1-y_i)ln(1-\sigma(\theta^Tx_i))]cost(θ)=−m1​lnL(θ)=−m1​i=1∑m​[yi​lnσ(θTxi​)+(1−yi​)ln(1−σ(θTxi​))]
損失函數梯度：

▽cost(θ)=−1m∑i=1mxi[yi−σ(θTxi)]\bigtriangledown cost(\theta)=-\frac{1}{m}\sum_{i=1}^mx_i[y_i-\sigma(\theta^Tx_i)]▽cost(θ)=−m1​i=1∑m​xi​[yi​−σ(θTxi​)]

5 爲什麼不使用最小二乘損失函數（LSE）？
LSE損失函數：

costLSE(θ)=12m∑i=1m[yi−σ(θTxi)]2cost_{LSE}(\theta)=\frac{1}{2m}\sum_{i=1}^m[y_i-\sigma(\theta^Tx_i)]^2costLSE​(θ)=2m1​i=1∑m​[yi​−σ(θTxi​)]2
LSE損失函數梯度：

▽costLSE(θ)=1m∑i=1m[σ(θTxi)−yi]σ′(θTxi)xi\bigtriangledown cost_{LSE}(\theta)=\frac{1}{m}\sum_{i=1}^m[\sigma(\theta^Tx_i)-y_i]\sigma'(\theta^Tx_i)x_i▽costLSE​(θ)=m1​i=1∑m​[σ(θTxi​)−yi​]σ′(θTxi​)xi​
由於存在σ′(θTxi)\sigma'(\theta^Tx_i)σ′(θTxi​)項，會出現梯度消失問題，而交叉熵損失函數梯度不存在這個問題；

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

邏輯迴歸LR推導

1 問題定義：

2 建立判別模型

3 建立似然函數：

4 交叉熵損失函數

5 爲什麼不使用最小二乘損失函數（LSE）？

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

python 排序算法整理

C++參數傳遞【易錯題】

C++ 拷貝控制【學習筆記】

C++類【學習筆記】

C++ 標準庫string【學習筆記】

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結