如何實現AI淨網？今日頭條發佈反低俗工具“靈犬3.0”，背後技術原理揭祕

原創

2019-08-01 07:03

7月30日，在字節跳動總部，今日頭條最新版反低俗產品靈犬3.0發佈。最新版靈犬3.0採用了“BERT+半監督學習”的技術，提高了相關文本的識別度，並且採用深度學習的方法應對圖像識別場景，爲“靈犬”增加了圖像識別的功能。字節跳動人工智能實驗室總監王長虎專門就“算法如何反低俗”做了一次分享。

靈犬是什麼？

“靈犬”是一款基於今日頭條反低俗模型的輔助小工具，它致力於打擊低俗低質內容，淨化網絡空間。
對於用戶輸入的內容，“靈犬”會先進行提取、分詞和語義識別，然後根據相關規則，輸出對應的分數、評級和結論。
自2018年3月28日上線以來，“靈犬”反低俗助手已經過三代技術更迭。最新版本的靈犬3.0，對識別種類以及其自身模型進行了升級，並同時支持圖片識別（反色情低俗、反血腥暴力）和文本識別（反色情低俗、反暴力謾罵、反標題黨）。

靈犬背後的技術更迭

在文本識別方面，“靈犬”做了三次技術更迭。
第一代靈犬，應用的是“詞向量”和“CNN（卷積神經網絡）”技術；
第二代靈犬，應用的是“LSTM（長短期記憶）”和“Attention”技術；
第三代靈犬，應用的是“BERT”和半監督學習技術。

靈犬3.0通過“BERT”和半監督學習技術，在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上，有了大幅度提升。除此之外，靈犬3.0還使用了專門的中文語料，研發團隊在保證靈犬3.0識別效果的前提下調整了模型結構，並通過這些技術的加成，使得靈犬3.0的計算效率能夠達到實用水平。

據今日頭條透露，靈犬3.0的訓練數據集總量是1.2個T，相當於20倍百度百科或者100倍維基百科的數據總量，其中包含了920萬個樣本，文本識別準確率從85%提升至91%。

在圖像識別方面，靈犬3.0運用的解決方案是深度學習，這也是“靈犬”第一次在圖片識別領域有所涉及。

據溝通會介紹，今日頭條對靈犬3.0做了以下幾方面的優化：

數據層面，靈犬3.0累積了上千萬級別的訓練樣本。

計算力層面，利用分佈式訓練算法以及強大的GPU訓練集羣，加速模型的訓練和調試。利用模型壓縮技術，提升模型的預測速度。

模型層面，靈犬3.0針對許多困難樣本做了模型結構調優，包括：

1.多尺寸問題
爲應對用戶上傳的不同的比例的圖片，今日頭條專門設計了多桶模型，使得各種比例的圖片都能有很好的識別效果。

2.多尺度問題
在以人爲主的場景中，爲應對人在圖片中的面積佔比變化較大的問題，今日頭條引入了特徵金字塔結構，對不同尺度的物體，它能提高模型提取一致性特徵的能力。

3.小目標問題
爲應對在圖片背景中出現小範圍的問題區域的問題，今日頭條設計了分割輔助分類網絡，使得模型能夠更加專注問題區域。

此外，“靈犬”還建設了比較完善的模型迭代系統。通過“數據收集—數據標註—數據清洗—模型訓練—模型評估—badcase分析”這一套完整的流程，從而使得“靈犬”具有持續優化的能力。

反低俗需要“技術+人”

反低俗無法單一地依靠技術或人工解決。
在本次溝通會上，王長虎表示，低俗的定義相對籠統，很難完全精確地定義出來，而如果沒有一個精確的區分準則，就沒辦法給計算機寫出執行步驟讓它去判斷。

所以，現階段至少在以下兩方面，還有賴於人工判斷。

一方面是：技術暫時難以制定標準。
從文字的角度，機器只是把文字當成符號，也只能從表面去理解它，卻很難理解文字背後的意思。
從圖片的角度，機器只是通過識別肌膚裸露面積來判定是否違規，卻不能區分一些具有歷史意義和藝術性的照片。

另一方面是：標準會根據使用場景、人羣、時間而變動。
低俗的標準並非一成不變，而是隨着社會和文化的不斷髮展而流變。
比如，在八十年代早期，鄧麗君的歌曲曾被認爲是“靡靡之音”；在淘寶店裏看到內衣樣式和相關的賣家秀，並不會被歸類於低俗；在某些小視頻APP青少年模式下，就不應該出現“熱舞”等情況。

針對低俗判斷問題的複雜性和不同判斷方式的侷限性，今日頭條給出的結論及解決方法是：
1.不斷進化技術模型；
2.結合技術和人工判斷兩種方式。

今日頭條的反低俗系統

“靈犬”是今日頭條反低俗系統的一個簡化版本。

在內容審覈方面，今日頭條團隊通常會結合人工和技術手段，用以有效地提升內容審覈的效率和準確度。
在內容安全方面，今日頭條團隊有一套具體的內容安全機制，用以應對個人和媒體的不同用戶羣體。

放眼全球，打擊低俗低質內容，是所有信息平臺都在面臨的難題，不管是國外的Facebook、Google，還是國內的微信、今日頭條，都在爲解決這一系列問題而努力。

也許，“靈犬”會是一次不錯的嘗試，儘管它還需要進化成長。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

如何實現AI淨網？今日頭條發佈反低俗工具“靈犬3.0”，背後技術原理揭祕

靈犬是什麼？

靈犬背後的技術更迭

反低俗需要“技術+人”

今日頭條的反低俗系統

這個網絡爬蟲代碼，拿到數據之後如何存到csv文件中去？

即刻放大鏡。跟隨鼠標，屏幕任意位置放大

【面試準備】【SQL】數據庫有哪些約束？

.NET開源強大、易於使用的緩存框架 - FusionCache

面試，有時候是個運氣活

Uber提出生成式教學網絡GTN，9倍加速神經網絡架構搜索

爲了AI，蘋果都做了什麼？

AI復活的那些“失落藝術”

英特爾20億美元再收AI芯片創企！轉型AI的路上，收購先行

菜鳥網絡的AI進化方向：不追求“通用”的融合，重心是AIoT

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結