如何實現AI淨網?今日頭條發佈反低俗工具“靈犬3.0”,背後技術原理揭祕

7月30日,在字節跳動總部,今日頭條最新版反低俗產品靈犬3.0發佈。最新版靈犬3.0採用了“BERT+半監督學習”的技術,提高了相關文本的識別度,並且採用深度學習的方法應對圖像識別場景,爲“靈犬”增加了圖像識別的功能。字節跳動人工智能實驗室總監王長虎專門就“算法如何反低俗”做了一次分享。

靈犬是什麼?

“靈犬”是一款基於今日頭條反低俗模型的輔助小工具,它致力於打擊低俗低質內容,淨化網絡空間。
對於用戶輸入的內容,“靈犬”會先進行提取、分詞和語義識別,然後根據相關規則, 輸出對應的分數、評級和結論。
自2018年3月28日上線以來,“靈犬”反低俗助手已經過三代技術更迭。最新版本的靈犬3.0,對識別種類以及其自身模型進行了升級,並同時支持圖片識別(反色情低俗、反血腥暴力)和文本識別(反色情低俗、反暴力謾罵、反標題黨)。

靈犬背後的技術更迭

在文本識別方面,“靈犬”做了三次技術更迭。
第一代靈犬,應用的是“詞向量”和“CNN(卷積神經網絡)”技術;
第二代靈犬,應用的是“LSTM(長短期記憶)”和“Attention”技術;
第三代靈犬,應用的是“BERT”和半監督學習技術。

靈犬3.0通過“BERT”和半監督學習技術,在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上,有了大幅度提升。除此之外,靈犬3.0還使用了專門的中文語料,研發團隊在保證靈犬3.0識別效果的前提下調整了模型結構,並通過這些技術的加成,使得靈犬3.0的計算效率能夠達到實用水平。

據今日頭條透露,靈犬3.0的訓練數據集總量是1.2個T,相當於20倍百度百科或者100倍維基百科的數據總量,其中包含了920萬個樣本,文本識別準確率從85%提升至91%。

在圖像識別方面,靈犬3.0運用的解決方案是深度學習,這也是“靈犬”第一次在圖片識別領域有所涉及。

據溝通會介紹,今日頭條對靈犬3.0做了以下幾方面的優化:

數據層面,靈犬3.0累積了上千萬級別的訓練樣本。

計算力層面,利用分佈式訓練算法以及強大的GPU訓練集羣,加速模型的訓練和調試。利用模型壓縮技術,提升模型的預測速度。

模型層面,靈犬3.0針對許多困難樣本做了模型結構調優,包括:

1.多尺寸問題
爲應對用戶上傳的不同的比例的圖片,今日頭條專門設計了多桶模型,使得各種比例的圖片都能有很好的識別效果。

2.多尺度問題
在以人爲主的場景中,爲應對人在圖片中的面積佔比變化較大的問題,今日頭條引入了特徵金字塔結構,對不同尺度的物體,它能提高模型提取一致性特徵的能力。

3.小目標問題
爲應對在圖片背景中出現小範圍的問題區域的問題,今日頭條設計了分割輔助分類網絡,使得模型能夠更加專注問題區域。

此外,“靈犬”還建設了比較完善的模型迭代系統。通過“數據收集—數據標註—數據清洗—模型訓練—模型評估—badcase分析”這一套完整的流程,從而使得“靈犬”具有持續優化的能力。

反低俗需要“技術+人”

反低俗無法單一地依靠技術或人工解決。
在本次溝通會上,王長虎表示,低俗的定義相對籠統,很難完全精確地定義出來,而如果沒有一個精確的區分準則,就沒辦法給計算機寫出執行步驟讓它去判斷。

所以,現階段至少在以下兩方面,還有賴於人工判斷。

一方面是:技術暫時難以制定標準
從文字的角度,機器只是把文字當成符號,也只能從表面去理解它,卻很難理解文字背後的意思。
從圖片的角度,機器只是通過識別肌膚裸露面積來判定是否違規,卻不能區分一些具有歷史意義和藝術性的照片。

另一方面是:標準會根據使用場景、人羣、時間而變動
低俗的標準並非一成不變,而是隨着社會和文化的不斷髮展而流變。
比如,在八十年代早期,鄧麗君的歌曲曾被認爲是“靡靡之音”;在淘寶店裏看到內衣樣式和相關的賣家秀,並不會被歸類於低俗;在某些小視頻APP青少年模式下,就不應該出現“熱舞”等情況。

針對低俗判斷問題的複雜性和不同判斷方式的侷限性,今日頭條給出的結論及解決方法是:
1.不斷進化技術模型;
2.結合技術和人工判斷兩種方式。

今日頭條的反低俗系統

“靈犬”是今日頭條反低俗系統的一個簡化版本。

在內容審覈方面,今日頭條團隊通常會結合人工和技術手段,用以有效地提升內容審覈的效率和準確度。
在內容安全方面,今日頭條團隊有一套具體的內容安全機制,用以應對個人和媒體的不同用戶羣體。

放眼全球,打擊低俗低質內容,是所有信息平臺都在面臨的難題,不管是國外的Facebook、Google,還是國內的微信、今日頭條,都在爲解決這一系列問題而努力。

也許,“靈犬”會是一次不錯的嘗試,儘管它還需要進化成長。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章