線性迴歸和邏輯迴歸的典型面試考點

什麼是線性迴歸邏輯迴歸 ?參考:https://blog.csdn.net/jiaoyangwm/article/details/81139362

1、有監督學習和無監督學習區別?

簡單來講:
有數據,有標籤 (有監督學習)
有數據,無標籤 (無監督學習)

有監督學習:對具有標記的訓練樣本進行學習,以儘可能對訓練樣本集外的數據進行分類預
測。
無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。

2、分類和迴歸區別?

迴歸的輸出是連續的,比如:1、2、3、4、5、6。注意,所謂“連續”意味着是有序的,是排序的。比如輸出爲3,那麼我們可以肯定真實爲3、4、5、6的可能性順序減小,真實爲2、1的可能性也是順序減小。

分類的輸出是:A類、B類、C類。注意,所謂“分類”意味着ABC之間不存在排序,不存在誰比誰更親密或更遠、可能或更不可能。輸出爲A,那麼不意味着真實爲B的可能性比C更大。

3、線性迴歸方程用向量化可以表示爲?

f(x)=θTx f(\mathbf{x})=\theta^{T} \mathbf{x}

4、寫一下線性迴歸損失函數,並理解下損失函數的目標?

目標是找到最好的能擬合輸入數據的權重參數。我們用最小二乘法來評估擬合效果。
J(θ0,θ1,,θn)=12mi=1m(hθ(x(i))y(i))2 J\left(\theta_{0}, \theta_{1}, \ldots, \theta_{n}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}

5、過擬合和欠擬合各有什麼問題?

欠擬合問題:模型本身能力不夠,沒有學習到數據的規律。
過擬合問題:模型能力很強,數據的每個點包括噪聲點都能學習到,但是對新的數據預測效果很差。

6、模型的過擬合問題可以怎麼解決?

有很多方法:比如獲取更多數據,使用更簡單的模型等等
另一種方法是使用正則化項,因爲過擬合是因爲模型太複雜了,對應於線性迴歸,說明某些權重參數對模型的影響過大或者多餘了,我們可以通過加一個正則化項,模型訓練時,相當於最小化下面公式的損失函數時,會把一些對模型複雜度影響很大的權重參數的權重數值變小,這樣曲線就變得比較平滑了,可以消減模型的複雜度。
J(θ)=12m[i=1m(hθ(x(i))y(i))2+λj=1nθj2] J(\theta)=\frac{1}{2 m}\left[\sum_{i=1}^{m}\left(h_{\theta}\left(x^{(i)}\right)-y^{(i)}\right)^{2}+\lambda \sum_{j=1}^{n} \theta_{j}^{2}\right]

7、邏輯迴歸明明是分類問題,爲什麼又叫回歸?

因爲邏輯迴歸還是以線性迴歸爲基礎的,只是加了一個sigmoid函數,才具有了分類的功能。sigmoid函數表達式如下
在這裏插入圖片描述

8、邏輯迴歸爲什麼不用平方損失函數?

因爲邏輯迴歸的平方損失函數是非凸函數,梯度下降時很難得到全局極值點。

9、寫一下邏輯迴歸損失函數,並理解是怎麼來的?

這個損失函數是凸函數,梯度下降可以找到全局極值點。
J(θ)=1m[i=1my(i)loghθ(x(i))+(1y(i))log(1hθ(x(i)))]+λ2mj=1nθj2 J(\theta)=-\frac{1}{m} \left[ \sum_{i=1}^{m} y^{(i)} \log h_{\theta}\left(x^{(i)}\right)+\left(1-y^{(i)}\right) \log \left(1-h_{\theta}\left(x^{(i)}\right)\right)\right]+\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2}
其中λ2mj=1nθj2\frac{\lambda}{2 m} \sum_{j=1}^{n} \theta_{j}^{2} 是一個正則化項

10、LR邏輯迴歸這個模型有什麼優勢?

  • LR能以概率的形式輸出結果,而非只是0,1判定
  • LR的可解釋性強,可控度高
  • 訓練快,feature engineering之後效果贊
  • 因爲結果是概率,可以做ranking model
  • 添加feature太簡單…
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章