MLPerf是由來自學界和業界的多個組織(包括Google、Baidu、Intel、AMD、哈佛和斯坦福)共同發佈的新型AI基準平臺,用於衡量機器學習平臺的AI性能,是目前業界最權威、最公正的AI性能評測平臺之一。MLPerf目前已推出v0.5評測結果,參賽隊伍包括Alibaba、NVIDIA、Google、Huawei等世界知名企業。
MLPerf詳情見官方網站的介紹:https://www.mlperf.org/
其中,MLPerf Inference Resnet50-v1.5 Open Division在不限定模型結構的前提下,要求Top-1精度至少爲76.46的99%(約75.7),並且要求模型部署在指定平臺上的吞吐率(以QPS作爲衡量)儘可能高。NVIDIA在MLPerf Inference Resnet50-v1.5 Open Division提交了基於INT4量化的比賽成績,並取得了Top-1 Acc.=76.104的優秀評測結果。
NVIDIA的INT4量化算法概述如下:
- 在Calibration dataset上執行模型的前向推理,收集每個layer輸入激活的直方圖分佈;
- 選取直方圖分佈的99.999%位點,作爲數值分佈範圍,用以計算每個layer的INT4量化的scaling factor;
- 根據新的scaling factor,重新完成每個layer的僞量化;
- 在訓練集上fine-tune僞量化模型,持續一個epoch;
- 如此反覆迭代,直至INT4僞量化訓練收斂;