論文筆記——Asynchronous Stochastic Gradient Descent with Delay Compensation

論文筆記——Asynchronous Stochastic Gradient Descent with Delay Compensation

論文對ASGD算法進行了改進,對具有延遲的梯度設計了新的更新規則。

ASGD

下圖爲ASGD訓練過程,梯度gt應該對應模型wt,但是由於延遲,在參數服務器接收到時,模型已經更新到了wt+τ,ASGD對於延遲的梯度不做處理。

論文利用泰勒展開,將梯度展開,嘗試補償延遲

部分則爲hessian矩陣,因爲參數數量過多,導致計算出精確的hessian矩陣會降低訓練效率,所以文中提出了一種hessian近似器。

DC-ASGD算法

給出DC-ASGD算法更新規則:

客戶端

服務器端

實驗

在兩個數據集上做了實驗CIFAR-10 (Hinton, 2007) 和ImageNetILSVRC 2013 (Russakovsky et al., 2015).

原文見論文題目

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章