原创 比Horovod/NCCL 快8倍!伯克利與微軟聯合發佈最優GPU通信庫Blink

當下大規模分佈式機器學習模型訓練中,數據並行是最廣爲使用的方法。隨着GPU的算力不斷提升,GPU間的數據聚合(即模型同步)成爲了大規模分佈式模型訓練的瓶頸。當下流行的數據聚合庫函數(Nvidia的NCCL,百度的Ring-AllReduc

原创 伯克利與微軟聯合發佈Blink:使GPU計算實現高達2倍加速

本文來自SysML 2018,由星雲Cluster編譯並授權InfoQ發佈,原文鏈接:http://www.sysml.cc/doc/151.pdf 大規模分佈式機器學習應用中,GPU間參數聚合的速度對整體訓練速度起到至關重要的作用,尤