NVIDIA INT4量化算法介紹

MLPerf是由來自學界和業界的多個組織(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同發佈的新型AI基準平臺,用於衡量機器學習平臺的AI性能,是目前業界最權威、最公正的AI性能評測平臺之一。MLPerf目前已推出v0.5評測結果,參賽隊伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企業。

MLPerf詳情見官方網站的介紹:https://www.mlperf.org/

其中,MLPerf Inference Resnet50-v1.5 Open Division在不限定模型結構的前提下,要求Top-1精度至少爲76.46的99%(約75.7),並且要求模型部署在指定平臺上的吞吐率(以QPS作爲衡量)儘可能高。NVIDIA在MLPerf Inference Resnet50-v1.5 Open Division提交了基於INT4量化的比賽成績,並取得了Top-1 Acc.=76.104的優秀評測結果。

NVIDIA的INT4量化算法概述如下:

  • 在Calibration dataset上執行模型的前向推理,收集每個layer輸入激活的直方圖分佈;
  • 選取直方圖分佈的99.999%位點,作爲數值分佈範圍,用以計算每個layer的INT4量化的scaling factor;
  • 根據新的scaling factor,重新完成每個layer的僞量化;
  • 在訓練集上fine-tune僞量化模型,持續一個epoch;
  • 如此反覆迭代,直至INT4僞量化訓練收斂;

具體可參考:https://devblogs.nvidia.com/int4-for-ai-inference/

發佈了29 篇原創文章 · 獲贊 87 · 訪問量 9萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章