什麼是線性迴歸和邏輯迴歸 ?參考:https://blog.csdn.net/jiaoyangwm/article/details/81139362
1、有監督學習和無監督學習區別?
簡單來講:
有數據,有標籤 (有監督學習)
有數據,無標籤 (無監督學習)
有監督學習:對具有標記的訓練樣本進行學習,以儘可能對訓練樣本集外的數據進行分類預
測。
無監督學習:對未標記的樣本進行訓練學習,比發現這些樣本中的結構知識。
2、分類和迴歸區別?
迴歸的輸出是連續的,比如:1、2、3、4、5、6。注意,所謂“連續”意味着是有序的,是排序的。比如輸出爲3,那麼我們可以肯定真實爲3、4、5、6的可能性順序減小,真實爲2、1的可能性也是順序減小。
分類的輸出是:A類、B類、C類。注意,所謂“分類”意味着ABC之間不存在排序,不存在誰比誰更親密或更遠、可能或更不可能。輸出爲A,那麼不意味着真實爲B的可能性比C更大。
3、線性迴歸方程用向量化可以表示爲?
4、寫一下線性迴歸損失函數,並理解下損失函數的目標?
目標是找到最好的能擬合輸入數據的權重參數。我們用最小二乘法來評估擬合效果。
5、過擬合和欠擬合各有什麼問題?
欠擬合問題:模型本身能力不夠,沒有學習到數據的規律。
過擬合問題:模型能力很強,數據的每個點包括噪聲點都能學習到,但是對新的數據預測效果很差。
6、模型的過擬合問題可以怎麼解決?
有很多方法:比如獲取更多數據,使用更簡單的模型等等
另一種方法是使用正則化項,因爲過擬合是因爲模型太複雜了,對應於線性迴歸,說明某些權重參數對模型的影響過大或者多餘了,我們可以通過加一個正則化項,模型訓練時,相當於最小化下面公式的損失函數時,會把一些對模型複雜度影響很大的權重參數的權重數值變小,這樣曲線就變得比較平滑了,可以消減模型的複雜度。
7、邏輯迴歸明明是分類問題,爲什麼又叫回歸?
因爲邏輯迴歸還是以線性迴歸爲基礎的,只是加了一個sigmoid函數,才具有了分類的功能。sigmoid函數表達式如下
8、邏輯迴歸爲什麼不用平方損失函數?
因爲邏輯迴歸的平方損失函數是非凸函數,梯度下降時很難得到全局極值點。
9、寫一下邏輯迴歸損失函數,並理解是怎麼來的?
這個損失函數是凸函數,梯度下降可以找到全局極值點。
其中 是一個正則化項
10、LR邏輯迴歸這個模型有什麼優勢?
- LR能以概率的形式輸出結果,而非只是0,1判定
- LR的可解釋性強,可控度高
- 訓練快,feature engineering之後效果贊
- 因爲結果是概率,可以做ranking model
- 添加feature太簡單…