網易易盾高洪亮:縱深檢測防禦體系,企業內容安全問題的解決之道

由中國最早的安全人員交流學習社區看雪學院主辦、CSDN協辦的安全開發者峯會(SDC),於2019年7月20日在北京國家會議中心舉行。

圖片描述
網易易盾企業安全高級解決方案工程師高洪亮
安全開發者峯會(SDC)是國內開發者與安全人才的年度盛事,受衆包括開發者、安全人員及高端技術從業人員。作爲開發與安全領域內,最具影響力的互聯網安全合作交流盛會之一,安全開發者峯會始終致力於建立一個多領域、多維度的高端安全交流平臺,推動互聯網安全行業的快速成長與廣泛合作。

在本屆安全開發者峯會(SDC),網易易盾企業安全高級解決方案工程師高洪亮也受邀出席本次會議並進行了演講。他分享了當下企業安全的各種痛點後,詳細地講述了在UGC內容爆發增長以及國家監管越來越完善和嚴格的背景下,如何解決企業面臨的內容安全問題。

以下是本次演講的實錄:

各位嘉賓下午好,我是網易易盾的解決方案工程師高洪亮,今天和大家分享的主題是《漫談企業安全的痛點問題》。

首先和大家分享一下我對企業安全的一些認知。企業安全是一個特別大的概念,做好企業安全的最終目標是保障企業正常發展,而企業安全整個體系由不同的模塊組成,任何一部分沒有做好,都會影響企業的發展,這種影響可能是企業的營收利潤,可能是是企業的聲譽,甚至可能是企業的存亡。

一、安全漫談

因爲工作崗位的原因,日常工作中有較多的用戶交流的工作。經常接觸的幾個部門,像安全部門、運營部門、審覈部門、開發部門等。每個部門關注的點不同,網絡安全的事情基本都由安全部門負責,市場營銷策略效果保障的事情由運營部門負責,審覈部門負責內容質量和內容違規的事情,開發部門會涉及到安全平臺的統一開發建設。各個部門的工作重要性,也與公司的業務有直接的關係,但是不管哪個部門的工作出問題,企業都會受到影響。

舉個直觀的例子,對於一個遊戲公司來說,可能會遭受到DDOS攻擊影響業務的穩定運行,可能會有數據泄露問題影響企業的聲譽,可能會有內容違規的問題,會讓整個遊戲下架、整改,最常見的還是外掛問題,直接的後果就是用戶流失以及收入的損失。

這裏我把企業的一些典型的安全問題羅列一下,如下圖:

圖片描述

內容安全事件,比如出現各種黃賭毒的信息。在剛過去的6月份,網信辦針對語音進行嚴查,下架了一大批的應用。現在行業內主要的解決方案是將業務相關的文本、圖片、 視頻、音頻對接到機器審覈平臺,目前主要是第三方的服務商SaaS檢測平臺,或是企業自建的檢測平臺,主要用來提高效率和降低審覈時間,同時結合人工審覈來保障效果,降低漏判和誤判率。

在遊戲破解方面,大家有興趣的可以搜一下淘寶店鋪,輸入關鍵詞遊戲破解,會有非常多的店鋪和遊戲可以選擇。遊戲破解的除了去掉遊戲裏面正常的收費,還會增加一些比較變態的功能,比如加倍攻擊等等來吸引玩家。有的店鋪按照會員制度收費,月付150元,已經超過了很多原版遊戲的單用戶收入,對於原版遊戲來說是非常致命的。

如何解決呢?拿移動端遊戲舉例,針對破解的問題可以採用加固的方式防止被逆向破解,外掛的問題可以通過遊戲反外掛技術對模擬器、多開器、雲真機、模擬點擊等進行檢查,並且結合運營手段,增強對外掛的威懾力。

薅羊毛的威脅,18年末的時候星巴克做的一次新人註冊送咖啡券活動。當時的用戶驗證做的比較簡單,填寫比較少的信息就可以拿到咖啡券,上線一天半的時間,被羊毛黨刷走了差不多400W張券,按照中杯價格估值,大概有1000W人民幣左右。 在羊毛黨這個圈子中,分分鐘幾十萬可能是件稀疏平常的事。對於羊毛黨的防護,以威脅情報庫爲支撐,比如手機號、IP、郵箱號這些信息的黑名單,再通過收集活動過程中的用戶的相關信息進行數據分析和行爲分析。在這個黑灰產行業裏,利益驅動力非常強大,對抗很激烈。

數據泄露的事情比較有意思的地方在於,大約60%以上的數據泄露都有內鬼的原因。最近剛發生的某招聘網站泄露16W份簡歷信息,就是內外勾結典型事件。 50元一份簡歷,被非法賣給商販後,在淘寶上1-2元一份的價格賣出。所以數據防泄漏,不僅僅是使用一些數據防泄漏的產品就可以解決,還需要完善制度,注意權限劃分,加強審計活動,對內部人員進行安全意識培訓,增加法制意識。

DDoS攻擊也算是最古老但是最有效的一種網絡攻擊方式了,得益於網絡通信和互聯網技術的發展,DDoS攻擊愈演愈烈。 比如現在的物聯網設備,很多都可以用來進行DDos攻 擊。 對於用戶來說很難解決攻擊源,只能被動防護。在國內,現在動輒幾十GB的攻擊已經非常常見了。通常都是夾雜着流量和CC混合型攻擊,本地化部署防護設備很難應對,大多采用雲清洗的方式來解決。我們可以看到國內的很多安全廠商,從硬件開始轉型到雲服務,也是安全服務雲化的一個趨勢。

以上是我對企業的痛點問題進行簡要的分析,因爲今天的分享時間有限,所以在本次分享上,還是做一些聚焦,和各位嘉賓分享一下,在這個UGC內容爆發增長,國家監管力度日漸增強的背景下,如何解決企業面臨的內容安全問題。

二、內容安全治理現狀

先說一下內容安全現狀。從三個角度來看,首先是監管角度幾個特點:監管部門的覆蓋度廣、法律法規越來越完善、有針對性的專項整治。
圖片描述
部分法律法規,更多的法律法規可參考:史上最全的內容安全法律法規盤點

這裏主要重點談談後面的兩個特點。當下法規越來越完善,大家可以看下上圖,這是我列出的部分規範要求。

這塊想強調一下責任主體的問題,這裏面主體一個是用戶,一個是平臺。拿一個場景來舉例,一個用戶在內容平臺發表了色情廣告信息。用戶這種行爲是違法的,內容平臺如果發佈了這個內容也是違法的。客觀來說應該對於兩者都進行處罰,但是實際情況來看,對於用戶追責成本非常之高,所以在各類的內容違規事件上,我們可以看到的大多是對平臺的處理。

並且從2017年6月1日開始,正式實行了網絡安全法,監管部門執法更加有依據了。再拿一個場景舉例: 一個惡意用戶,通過網絡攻擊的方式篡改網站,髮帶有色情信息的內容,那運營平臺不光是違反了內容發佈的要求,同時根據網絡安全法,運營方沒有落實好信息系統保護的工作,將會依據網絡安全法給予一定的處罰。

監管的第三個特點: 有針對性的專項整治,以網信辦的檢查來說,從2018年12月份,到今年6月份,先後發起的內容治理活動就有四次。

  • 18年12月份進行的是針對APP的專項檢測,主要是涉黃涉毒、違規遊戲、不良學習等應用進行檢查,下架了3萬款應用;
  • 19月1月份,對教育類APP進行專項整治,查實了“作業狗”、“口袋老師”等20多款APP 非法傳播淫穢色情內容,進行下架處理;
  • 19年1月份-6月份,進行的爲期半年的“全網整改行動”;
  • 19年6月份進行了語音專項整治活動;

    從上可以看出,國家對於建設綠色網絡空間環境決心和力度。

即使是在這麼強的監管力度之下,違規內容還是層出不窮的。違規內容的特點:覆蓋場景多、數據變種多、對抗性強。

  1. 覆蓋場景已經到了無孔不入的地步。 新聞內容、用戶評論、用戶頭像、暱稱、看網劇彈幕,沒有任何一個有內容發佈的場景可以躲得過違規內容的騷擾;
  2. 在各種場景裏,出現的違規數據種類和變種也非常之多。從最初的文本敏感詞,到現在的字體拆分、特殊符號混淆、以及圖片內嵌入違規內容等多種形式,最近一兩年在語音方面又多了一個ASMR的內容類型,會夾雜着很多色情內容。
  3. 對抗性強體現在違規內容的發佈上有一定的組織性和對抗性,以內容形式的變換和賬號的變化來對抗檢測或運營策略。這個部分會在後面的縱深防禦體積建設的必要性進行詳細說明。

在這個背景下,做好內容安全其實是一個比較困難的問題。對管理者來說,最終要看的一般包含兩個指標的檢測效果,以及對業務的影響度。這裏面檢測效果一般看正確率、召回率。業務的影響主要是看檢測的用時,儘量不要影響用戶體驗。比如在IM聊天中檢測,如果一條文本檢測時間超過1s,就屬於對用戶體驗造成嚴重影響。

那麼要實現這些目標,從0到1自建檢測系統,存在比較多的難點。首先是成本的投入,最主要的的兩種成本:人力成本和設備成本。 人力成本方面,當下的互聯網招人成本還是很高的,光是一個成熟的算法專家,年薪一般要50W上下。而且整個體系需要的不僅是算法人員,還有相關的運營和審覈人員。光是是在人力方面投入,就會達到數百萬的級別。 在設備方面,現在圖像處理所需要用到的GPU節點是比較大的開銷。比如一塊英偉達的P40顯卡,是在16年上市的,現在要5W左右一個,一個P40能夠做的圖片檢測,併發在30QPS左右。此外還需要有GPU節點來做模型訓練,也是比較高的開銷。

除了考慮成本,還有數據積累和審覈經驗的壁壘。拿圖片訓練來說,一個檢測模型,需要的樣本數據需要在幾萬甚至大幾十萬。沒有一定的時間和渠道是做不到這種樣本數據積累的。

另外審覈人員的經驗和審覈流程及制度,也是效果的重要保障,人員的審覈經驗,決定了主觀上的審覈效果和審覈效率,完善的流程和制度是對效果客觀上的保障。人員的經驗要靠不斷的學習和培訓,流程和制度需要時間去制定和完善,這都需要有一個過程。

三、內容安全體系建設艱難性

接下來這部分我來介紹下建設檢測團隊和技術體系。首先是團隊的建設,這裏我拿易盾的團隊來舉例——整個大的團隊細分成幾個小的團隊,算法團隊、系統開發團隊、運營團隊、人工審覈團隊:

  • 核心技術由算法團隊來實現,團隊內又細分爲不同的小組,比如做文本機器學習的小組,圖片機器學習的小組;
  • 系統開發團隊負責業務平臺的搭建;
  • 運營團隊負責直接和業務部門對接,明確檢測標準需求,並實時的調整一些檢測策略來進行效果調優;
  • 審覈團隊人員最多,目前也是以輪班輪崗的工作模型完成全天候的審覈工作。

接下來是檢測標準的制定。制定檢測標準,要考慮兩個原則,一個是全面性原則,一個是可落地性原則。從全面性來講,需要考慮是兩個主體,一個是國家,一個是運營平臺。 對於國家來說,色情、暴恐、違禁品這些都屬於違禁內容,會有相關的法律及法規條禁止出現的,這些標準基本上是所有內容平臺要做到的檢測。對於運營平臺來說,比如針對謾罵、灌水、競品廣告信息這些內容,是不希望出現的。

這裏強調一個實時性,從要求提出到標準的落實,需要儘快完成,以減少檢測的真空期。
圖片描述
從可落地性來看,需要做到數據可收集和模型可訓練這兩點。數據可收集是對於人來說,標準可以是描述性的,但是數據收集和打標籤必須是細化的。比如上圖中列出的標準,是描述了性行爲的範疇和概念,落實到數據打標籤就需要更爲細節,比如對漏臀圖片需要進一步說明,根據拍攝的角度是否有漏點,以及是否是兒童照片等因素,分到不同類別的說明。最終會被標記爲色情、低俗、性感或是正常的照片。

制定標準之後,依據場景檢測需要應用不同的標準。 性感圖片在新聞內容中發佈沒有什麼問題,但是在兒童教育IM中出現就不太正常了。

然後我們再來看系統平臺的開發建設,最重要的三個平臺如下:

  • 檢測平臺(服務的核心),預置了已經訓練好的各類模型。
  • 人工審覈平臺(效果及能力補充,提高效率),裏面的功能包括數據的抽檢、審覈快捷操作等功能。
  • 模型訓練平臺(效果保障),主要由GPU集羣組成,

圖片描述
三個平臺,再加上業務系統的關係:業務系統與檢測系統對接,對於文本和 圖片類的檢測結果可以實時反饋。 需要人工審覈部分的數據,由檢測平臺和審覈平臺對接,最終由審覈平臺將結果返回給業務系統。機器訓練平臺,主要是基於各個渠道的badcase,進行模型訓練調優,最終輸入訓練結果供檢測平臺使用。這樣這幾個平臺形成一個閉環,達到業務可快速接入,效果可持續調優的目標。

以上的三個部分,團隊、標準、平臺,形成了比較完善的檢測系統。可以應對常規的內容檢測需求。

但接下來我要講的是,內容治理不光是對內容進行處理,還需要有一個縱深的檢測防禦體系。
圖片描述
這是因爲有個客觀事實——大多數的違規內容是非正常用戶發佈的,內容治理是企業和黑灰產的直接較量,只做內容檢測手段過於單一,或落入疲於應對的局面。

四、縱深防禦體系在內容安全治理上的必要性

爲什麼說內容治理是企業和黑灰產的直接較量,我們先來看一個黑灰產的業務流程:從角色上看,有發單人,有業務分包,有內容平臺。

發單人有幾種,比如各種黃賭毒的網站,爲了吸引流量需要發佈網站相關信息,也會有人處於惡意競爭的目的在同行業平臺發佈違規內容。發單人會找到業務分包的角色來實現違規內容發佈,這個業務分包就會涉及到非常多的角色,有專門寫自動化工具的人員,有倒賣賬號的人員,有執行內容發佈的平臺比如各種羣控平臺,最終發單人實現在各大平臺灌水式發佈。

圖片描述
現在的黑灰產是非常成熟的,各個環節分工不同,有專門的手機卡商、賬號商人、打碼平臺,各種雲控平臺等等。

大家知道現在的手機卡都是實名制的,所以手機卡商是如何實現大批量申請卡的,有一種操作方式——註冊公司,就可以用公司的名義來申請到大批量的物聯網卡。這些物聯網卡沒有語音功能,但是可以接發短信,就可以用來註冊和登陸賬號。 所以當你回撥一個註冊號碼的手機號,語音提示:你所撥打的號碼未開通語音功能的時候,大概率就是一張物聯網卡 了。

這裏面的利益驅動力非常之強,舉個例子,一個新號價值幾元,但是通過不定期發表正常內容等手段,所謂的養號,最終可以價值幾十元甚至百元。

在各大內容平臺進行發佈,現在的對抗尤其的激烈,拿微博舉例,大家可以觀察到,以往的色情賬號會直接在各個熱點事件下發表色情言論,比如色情網站,或者加聯繫方式。這種比較容易被檢測和封號,現在已經轉變爲賬號頭像會換成比較性感,但不屬於色情的圖片,發表的內容多是正常的評論,但是個人頭像裏都是色情引流的信息,以此來增強對抗性。

在這種強對抗的背景下,僅做內容檢測手段過於單一,縱深防護是內容治理的關鍵。不僅僅在於發表內容的檢測,還需要從源頭進行整治。 需要建立一個縱深的的防禦體系,從賬號註冊、到賬號登陸,再到用戶行爲,最終再到發表內容,進行全方位的檢測,才能達到更好的效果。也就是從內容檢測延伸到用戶行爲檢測,具有用戶畫像的能力,才能更好的對抗黑灰產的攻擊。
圖片描述
上面是黑灰產會涉及到的環節,以及在各個環節我們要解決的問題和對應技術。 在註冊階段,會有批量註冊、虛假註冊的問題,可以考慮用驗證碼、號碼認證、實人認證來解決。在登陸階段,會有批量登陸,暴力破解的問題,可以用驗證碼和反作弊的技術手段。然後對發佈行爲和發佈內容進行檢測,比如對同一個賬號在短時間內發表大量相似內容的行爲進行處理。

這裏提到的技術手段,拿驗證碼和反作弊簡單說明一下。先說下驗證碼,主要用來做人機識別,目的是提高攻擊者的攻擊成本。早期的驗證碼比如字符型的驗證碼是非常容易被破解,使用OCR的識別技術,就能很輕鬆就把圖片中的字符識別出來。目前大多采用的驗證碼,還是智能型驗證碼,是對用戶的一些行爲信息和設備信息進行分析來判斷的。現在比較主流比如拼圖滑動式的驗證碼,文字點選的驗證碼,增強了對抗能力。

反作弊這裏會用到的技術,比如IP畫像,會檢測用戶的IP地理位置,是不是代理IP等等;對設備環境的檢測,會檢測設備是不是模擬器,是否有root或者越獄;對用戶行爲的分析,根據各個維度之間的信息,通過規則設定正常的行爲基線,一般多用於註冊、登陸、和關鍵業務操作的事件入口,比如發帖操作。

以上是關於檢測體系和縱深防護體系以及對應的技術手段,也是我今天分享的主要內容。最後介紹下我們的部門和安全能力:網易易盾是國內領先的內容安全&業務安全服務商,依靠網易20多年豐富的安全經驗以及雲計算、人工智能方面的積累,面向數字化業務提供內容安全、業務安全、移動安全和網絡安全服務,保障客戶業務合規、穩健和安全運營,使客戶可以免受黑灰產組織非法侵害,專注創新發展。

繼傳統網絡安全之後,和特定場景高度融合的業務安全,正逐步成爲數字企業發展的重要生命線。基於網易豐富的安全經驗,採用人工智能和大數據技術,易盾智能業務風控引擎全面整合反不良信息、驗證碼&反作弊、應用加固、反遊戲外掛、高防抗D等安全模塊,全面驅動業務安全,爲越來越多的企業系統高效地降低內容及業務風險。

圖片描述
網易易盾服務的客戶
目前,易盾已擁有20多萬註冊開發者、數千家付費客戶,其中不乏知乎、OPPO、ViVO、攜程、一直播、小咖秀、挖財、唯品會、滴滴、英雄互娛等知名企業。未來,易盾還將不斷提升技術、產品和服務體驗,爲廣大客戶帶來更佳的綜合效益。

安全路上任重道遠,期望和各方攜手前行,謝謝。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章