BERT,全稱 Bidirectional Encoder Representation from Transformers,是一款於 2018 年發佈,在包括問答和語言理解等多個任務中達到頂尖性能的語言模型。它不僅擊敗了之前最先進的計算模型,而且在答題方面也有超過人類的表現。
招商證券希望藉助BERT提升自研NLP平臺的能力,爲旗下智能產品家族賦能。但是,BERT 在工程方面的表現還多少存在着一些問題,推斷速度慢正是其中之一。針對這一問題,招商證券信息技術中心 NLP 開發組對 BERT 模型進行了壓縮,大幅提高推斷速度,從而滿足上線要求。
本系列中,作者會從研發思路開始,講述如何對原始BERT進行改造以適應特定的領域方向,同時還會展示具體的模型壓縮解決方案及效果對比,和最終的線上效果。本文是系列第一篇,如果你對NLP實踐感興趣,這個系列你不容錯過!
以BERT[1]爲代表的基於Transformer架構的預訓練語言模型,將NLP各項任務的處理能力提高到了一個新的高度。與此同時,NLP領域也開始進入了大模型時代,動輒上億乃至成百上千億1的參數量,大大提高了訓練及部署所需的硬件成本和時間成本,尤其對於線上場景,過大的模型導致了過長的推斷時間,會直接導致服務失效。
原文鏈接:【https://www.infoq.cn/article/fyWR8cOmI7xtfEY3rqA3】。未經作者許可,禁止轉載。