稀疏數據與優化器:簡述

學習深度學習也有一段時間了,一直沒有一個好的記筆記的習慣。這裏記錄一些經常見到的基礎詞彙。

1. 稀疏數據: 

引用:https://blog.csdn.net/vucndnrzk8iwx/article/details/79185875

        稀疏數據是指,數據框中絕大多數數值缺失或者爲零的數據。在現代社會中,隨着信息的爆炸式增長,數據量也呈現出爆炸式增長,數據形式也越來越多樣化。在數據挖掘領域,常常要面對海量的複雜型數據。其中,稀疏數據這一特殊形式的數據正在越來越爲人們所注意。稀疏數據絕對不是無用數據,只不過是信息不完全,通過適當的手段是可以挖掘出大量有用信息的。然而在一些情況下,數據的稀疏程度甚至會達到 95%以上,這使得傳統的統計方法不適於處理此類數據。 

    稀疏數據的來源與產生原因可以有很多種。目前大致歸結起來,主要可以概括爲以下幾個種類:

-- 由於調查不當產生的稀疏數據

    這種稀疏數據常見於問卷調查和電話調查中,如果問卷問題設置不當,過於繁雜難懂,就會導致被調查者產生厭煩心理,草草回答幾個問題了事。然而已經回答的問題又是有效問卷的一部分,不能做遺棄處理,假若這種問卷大量出現,那麼就會出現稀疏數據。

-- 由於天然限制產生的稀疏數據

    這種稀疏數據常見於電子商務領域,例如淘寶網、沃爾瑪等網購網站或超市中。由於每個客戶客觀上不可能把所有商品購買一遍,所以他們的客戶購買記錄必然只是對海量商品中一小部分的記錄。這樣,客戶購買記錄必然是一個稀疏數據。

-- 文本挖掘中產生的稀疏數據

    在文本挖掘領域,爲了比較幾篇文章是否屬於同一主題,常用的算法是首先選定一批關鍵詞,通過不同文章中這些關鍵詞出現的頻率來進行判斷。而這一批關鍵詞常常會有成千上萬個,而每篇文章基本只包含其中幾十到幾百個關鍵詞,那麼由此產生的數據也就是一個稀疏數據了。

-- 醫學造影成像領域

    現代醫學常常要藉助 CT、B 超、核磁等手段造影成像,作爲判斷病情的重要手段。其中 CT 成像是由若干射線源與接收器來採集數據,在實際應用中,受到設備、病人條件等限制,常常不能做到全角度掃描,故而在成像算法上也常常要面對稀疏數據。


2. 反向傳播用到的計算方式

這個可以說是非常的不想看了,但是還是要看 =  = 轉自:https://blog.csdn.net/u014595019/article/details/52989301

- BGD
即batch gradient descent. 在訓練中,每一步迭代都使用訓練集的所有內容. 也就是說,利用現有參數對訓練集中的每一個輸入生成一個估計輸出yi^,然後跟實際輸出yi比較,統計所有誤差,求平均以後得到平均誤差,以此來作爲更新參數的依據:

g^←+1n∇θ∑iL(f(xi;θ),yi) —— 這裏g^就是當前位置的梯度嘛

θ←θ−ϵg^ —— 更新參數的位置(梯度*學習率是對參數的下降值),這裏如果 loss function是一個需要下降的函數,那參數值就是x軸,學習率就是用來配合每個點的梯度值來在下降的時候決定每次下降多少用的,直到最低點!(almost)

- SGD

SGD全名 stochastic gradient descent, 即隨機梯度下降。不過這裏的SGD其實跟MBGD(minibatch gradient descent)是一個意思,即隨機抽取一批樣本,以此爲根據來更新參數。(不再一步一步遞減了!)

- Momentum
上面的SGD有個問題,就是每次迭代計算的梯度含有比較大的噪音. 而Momentum方法可以比較好的緩解這個問題,尤其是在面對小而連續的梯度但是含有很多噪聲的時候,可以很好的加速學習.Momentum借用了物理中的動量概念,即前幾次的梯度也會參與運算.爲了表示動量,引入了一個新的變量v(velocity).v是之前的梯度的累加,但是每回合都有一定的衰減。這個沒咋看懂,沒用過,大概就是引入一個梯度變量?

- Nesterov Momentum

這是對之前的Momentum的一種改進,大概思路就是,先對參數進行估計,然後使用估計後的參數來計算誤差

- AdaGrad

AdaGrad可以自動變更學習速率,只是需要設定一個全局的學習速率ϵϵ,但是這並非是實際學習速率,實際的速率是與以往參數的模之和的開方成反比的。 好的,看公式就能迅速理解嘻嘻

- RMSProp

RMSProp通過引入一個衰減係數,讓r每回合都衰減一定比例,類似於Momentum中的做法。(類似 emmmm

- RMSProp with Nesterov Momentum (看名字就不看了 emmm

- Adam

Adam(Adaptive Moment Estimation)本質上是帶有動量項的RMSprop,它利用梯度的一階矩估計和二階矩估計動態調整每個參數的學習率。Adam的優點主要在於經過偏置校正後,每一次迭代學習率都有個確定範圍,使得參數比較平穩。(Adam還是很值得一學的)其原理還是動態調整,但是涉及到動量衰減係數。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章