【神經網絡壓縮加速之量化一】And the Bit Goes Down: Revisiting the Quantization of Neural Networks

摘要:

在本文中，我們解決了減少ResNet類卷積網絡架構的內存佔用問題。我們引入了一種矢量量化(Vector Quantization)方法，旨在保持網絡輸出的重建質量而不是其權重。我們的方法的優點是它最小化了域內輸入(in-domain inputs)的損失重建誤差，並且不需要任何標記數據。我們還使用字節對齊的碼本(byte-aligned codebooks t)來生成壓縮網絡，並對CPU進行有效推斷。我們通過將高性能的ResNet-50模型量化爲5MB（20x壓縮因子）的內存大小來驗證我們的方法，同時在ImageNet對象分類和壓縮Mask RCNN上保持精度爲76％，大小約爲6 MB。

Introduction

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【神經網絡壓縮加速之量化一】And the Bit Goes Down: Revisiting the Quantization of Neural Networks

摘要:

微服務實踐之使用 Visual Studio 2022 調試Dapr 應用程序

wpf附加屬性理解 WPF附加屬性

神經網絡可視化工具Netron

【Linux】安裝LaTeX

【Android學習三】APP相關設計

【神經網絡壓縮加速之量化一】And the Bit Goes Down: Revisiting the Quantization of Neural Networks

【TVM學習四】基於Linux平臺編譯TVM—LLVM OpenCL CUDA openblas

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結