技術反低俗究竟有多難?這一次,今日頭條率先引入了 BERT

 

7 月 30 日,今日頭條宣佈正式推出新版「靈犬」反低俗助手,新工具除了文本內容識別功能的進化以外,首次加入了圖片識別功能。這是時隔半年,「靈犬」的又一次重大升級。

「靈犬」是一款檢測內容健康程度的小工具,旨在幫助人們打擊低俗低質內容,淨化網絡空間。新一代「靈犬」首次引入了自然語言處理領域裏最近熱門的 BERT 模型,在多達 1.2T 的數據訓練之後,靈犬的內容識別準確率提升到了 91%。

 

人工智能真的可以解決內容審覈了?在今日頭條總部,字節跳動人工智能實驗室總監王長虎和我們進行了一番交流。目前看來,技術可以解決的問題很多,但缺點也不少。

 

 

技術審覈之難

 

在移動互聯網成爲主流的今天,科技公司需要處理的數據正在呈幾何級數增長,很多企業都在建立自己的技術審覈機制。去年 9 月,Facebook 發佈並部署了名爲「羅塞塔」的系統來解決內容審覈問題,羅塞塔每天可以實時從超過 10 億張圖像和視頻幀中提取文本,並能識別並審覈多種語言的文字內容。

 

在國內,知乎去年推出的社區管理大腦「瓦力」,希望通過多種算法處理社區內不友善、答非所問、低質量、違法違規等方面的內容。據介紹,這一系統每天可以清理約 5000 條新產生的低質量內容。

 

儘管各家公司都在使用自己的算法技術應對違規內容,但面對語言和圖片的無限可能性,人工智能還是經常會出錯。而另一方面,內容審覈就像無人駕駛汽車一樣,漏判造成的後果會很嚴重。沒有足夠召回率的話,再優秀的算法也無法實用化。去年的美國獨立日期間,「獨立宣言」的選段曾被 Facebook 的算法判定爲涉嫌種族歧視而遭刪除。

 

那麼,文本、圖片處理的技術難點在哪裏?讓我們先從讓技術如何學習語言說起。

 

語言理解:皇冠上的明珠

 

自然語言處理(NLP)的歷史幾乎跟計算機和人工智能的歷史一樣長。自計算機誕生起,就有了對人工智能的研究,而人工智能領域最早的研究就是機器翻譯及自然語言理解。這並不意味着今天的機器對於語言的理解能力有多高,事實上,我們距離真正的智能還有很長一段路要走。

 

計算機非常擅長使用結構化數據,例如電子表格和數據庫表。但是我們人類通常使用非結構化的文字互相交流,這對計算機來說不是一件好事。

 

爲了讓機器理解語言,我們通常需要遵循一個流水線過程:首先把文本拆分成單獨的句子,進而把句子分成不同的單詞或標記,接下來,我們需要讓機器嘗試猜測每個標記的詞類:名詞,動詞,形容詞等等。經過詞形還原、識別停止詞、依賴解析等過程之後在命名實體識別(NER)過程中通過統計模型,使用上下文來猜測單詞代表的是哪種類型的名詞。

 

自然語言處理技術雖然已經讓計算機一定程度上能夠理解文字的含義,但大多數研究都是基於英文的。僅從 NLP 研究角度而言:中英文在詞性標註、句法分析等任務上頗有差異。主要體現在英語有明顯的屈折變化(單複數、時態等)而漢語缺少這些屈折變化。

 

讓 BERT 學會中文

 

對於文字內容審覈來說,算法必須能夠通過「擬合」過程知曉單詞的語義;另一方面,算法也必須具備泛化能力,在理解語義的基礎上,能夠舉一反三。

 

目前最常見的文本分類模型主要包括 Fasttext、TextCNN、TextRNN 及其各種變體。其中,fasttext 直接基於文本中 token 的平均嵌入進行分類,該方法雖然未考慮詞序,但簡單有效。TextCNN 基於卷積建模文本的局部依賴關係 (local feature), 通過池化學習全局信息。CNN 能夠在降維的同時捕捉到局部詞序關係。若要建模長距離依賴關係,需依賴於多層的卷積和池化層,模型結構較複雜。TextRNN 基於 LSTM 或 GRU 建模文本的序列模式, 能夠有效建模文本的長距離依賴關係。

 

今日頭條「靈犬」背後的文本分類模型經歷了三次迭代,第一代靈犬的文本識別模型應用的是「詞向量」和「CNN(卷積神經網絡)」技術,訓練數據集包含 350 萬數據樣本,對隨機樣本的預測準確率達到 79%。第二代靈犬,應用的是「LSTM(長短期記憶)」和「注意力機制」,訓練數據集包含 840 萬數據樣本,準確率提升至 85%。

 

每個新版本相對於舊版本,在技術和數據集層面都有了明顯的躍升。第三代靈犬已經用上了 BERT。

 

「BERT」是當前最先進的自然語言處理技術,NLP 領域近年來重大進展的集大成者。這項技術在常見的閱讀理解、語義蘊含、問答、相關性等各項任務上曾經一次刷新了 11 項業內最佳記錄,但也因爲高達 3 億的參數量讓大多數開發者望而卻步。「BERT」提出了一種深層模型結構,使用「遮擋」方式同時利用上下文提高準確性,並通過無監督學習對天然超大規模語料建模。由於自然語言具有天生的連貫性,經過大規模訓練的語言模型的預測能力,達到了前所未有的水平。

 

新版「靈犬」同時應用了「BERT」模型和半監督學習,並在此基礎上使用了專門的中文語料,在不犧牲效果的情況調整了模型結構,使得計算效率達到了實用水平。

 

今日頭條表示,相比之前的 LSTM+Attention 方案,BERT 方案下的內容識別模型機器延遲爲 125ms,算力需求增加了 33 倍,準確率的提升則爲 7.04%。

 

圖像識別:總有奇怪的事情發生

 

與文字不同,機器進行圖像識別的過程就像在盲文上進行閱讀,像素是一個個信息點,最終要通過所有信息點內容的集合做出一個最爲合理的判斷。這種方法讓機器在特定的圖像視覺處理上已經可以超過人類。比如說在動植物物種的識別上,計算機就比我們更爲「專業」。但在更多的情況下,內容檢測還是一個具有挑戰性的任務。

 

目前常見的圖像分類的基本思路是基於 ImageNet 預訓練分類模型 (e.g. ResNet、 Xception、 SENet 等),在進行結構和參數的調整;然後基於微調後的模型提取圖像 feature,作爲特定任務分類模型的輸入進行圖像分類。這些基於卷積神經網絡的方法有着被「欺騙」的風險。

 

 

上圖中的動物形象,自 1892 年首次出現在一本德國雜誌上之後就一直讓人感到迷惑:有些人只能看到一隻兔子,有些人只能看到一隻鴨子。有人把這張圖片輸入進谷歌機器圖像識別工具中,結果機器認爲 78% 的概率是一隻鳥,68% 的概率是一隻鴨子。

 

供職於 BuzzFeed 的數據科學家 Max Woolf 隨後設計了一個更復雜的實驗:他乾脆讓這張圖旋轉起來,想要看看機器會做何判斷。結果,谷歌 AI 最初認爲這是一隻鴨子,鴨子嘴指向 9 點方向。隨着鴨子嘴向上轉到 10 點方向,很快谷歌 AI 就認爲畫裏面是兔子了,直到鴨子嘴轉到 2 點方向之後。此後一段時間,谷歌 AI 認爲既不是鴨子也不是兔子。一直到 7 點方向,谷歌 AI 再次肯定是一隻鴨子。

 

有人認爲,這或許是因爲人類在判斷物體時對於空間的認識具有先驗性——用這樣的標註數據訓練出的模型,在不知不覺中也將空間和方向等因素考慮在內了。而且,不僅旋轉圖片會讓機器迷惑,有時候就連不同的圖片尺寸也會讓機器給出不同的判斷。

 

優化深度學習模型

 

對於圖片內容審覈來說,難點包含三方面:數據不均衡、類內方差大和不可窮舉。低俗圖片樣本佔數據集內容的比例較低,經常導致深度學習模型訓練效果不佳。此外,低俗圖片的種類豐富、繁雜,構成低俗圖片的特徵千差萬別。

 

對此,「靈犬」運用的解決方案是優化深度學習。「我們分別在數據、模型、計算力等方面做了很多優化,」王長虎介紹道。「在數據層面上,靈犬已累積了上千萬級別的訓練集。而在模型層面上,靈犬針對許多困難樣本做了模型結構調優,嘗試解決多尺寸、多尺度、小目標等複雜問題。在計算力層面上,靈犬利用分佈式訓練算法以及 GPU 訓練集羣,加速模型的訓練和調試。」

 

爲應對用戶上傳不同比例的圖片,今日頭條在圖像識別算法中設計了「多桶模型」,使得各種比例的圖片都能有很好的識別效果。在模型進行預測時,算法會根據傳入的圖片比例尋找比例最接近的「桶」,進而給出相應的預測結果。由於不同比例的桶對應的模型的參數是共享的,所以預測時間和單模型基本接近。而由於經過了對應模型的處理,算法也可以進一步提升準確率。

 

在以人爲主的場景中,爲解決人在圖片中的面積佔比變化較大的問題,工程師引入了特徵金字塔結構,對不同尺度的物體,它能提高模型提取一致性特徵的能力。常規的網絡結構會對圖片進行多次卷積,得到圖片的特徵圖,再對接全連接層進而得到圖片的分類結果——但這種方法有一個缺點,如果測試集中人在圖片中的佔比和訓練集差距較大,就會導致效果下降。在網絡中引入特徵金字塔結構,將底層特徵和上層特徵融合,並在每層給出預測結果,可以同時利用底層特徵的高分辨率和高層特徵的高語義信息。

 

 

爲應對在圖片中出現小範圍問題區域的挑戰,今日頭條還設計了分割輔助分類網絡。該網絡結合了特徵金字塔結構,訓練分爲兩部分,分割部分每層的預測結果都會與標註區域計算損失,分類部分將預測出的區域與特徵圖進行疊加,再進入分類器和分類標籤計算損失;預測時,特徵金字塔結構會輸出預測區域,將該區域與特徵圖疊加,再送入分類器即可得到分類結果。

 

雖然使用了優化過的算法,但一些技術難以搞定的問題,現階段還有賴於人工判斷:世界名畫中常常出現裸女形象,如果完全交由機器判斷,機器通過識別畫中人物的皮膚裸露面積,就會認爲這幅畫是色情低俗的;而某些拍攝芭蕾舞的圖片,以機器的視角來看,或許類似於裙底偷拍。

 

王長虎認爲,針對低俗判斷問題的複雜性和不同判斷方式的侷限性,一方面需要不斷進化技術模型,另一方面需要有效結合技術和人工判斷兩種方式。

 

「我們的模型還在不斷進化,除了靈犬反低俗系統,還有色情、低俗、標題黨、虛假信息、低質等幾百種模型,」王長虎表示。「自 2012 年建立以來,今日頭條已建立起近萬人的專業審覈團隊來保證內容的安全。」

 

人工智能可以幫助我們大幅提升審覈效率和準確率,但在現階段甚至很長一段時間內,它仍無法完全代替人類進行所有判斷。因爲機器還很難理解內容背後的深意,也不會在不同文化場景中做自由切換,或及時學會不斷變化的標準尺度。目前看來,在內容審覈上機器+人工的方法是最合理通行的做法。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章