直播實錄|如何使用百度大腦EasyDL構建互聯網內容安全方案?

如何使用EasyDL構建互聯網內容安全方案
時間:2020年6月2日
講師:百度AI技術生態部高級產品經理 Nathan
【直播回放】
如何使用EasyDL構建互聯網內容安全方案:https://www.bilibili.com/video/BV1wA411B7Sb

【課程筆記】

課程大綱

1.背景介紹:互聯網安全範圍和檢查重要性
2.實戰演示:如何利用EasyDL定製內容安全方案

首先,關於內容審覈的定義。內容審覈範圍就是我們要對圖片、文本、語音、視頻合規性進行檢查,比如圖片像一些聊天、論壇的圖片,我們都要對它進行檢測,文本包括聊天信息、論壇貼子、彈幕、評論內容,新聞等等這些都算是文本內容。下一步是語音,包括聊天語音,還有電臺的語音都要做語音審覈。下一步是視頻,包括社交短視頻,新聞視頻,還有直播,這都屬於視頻的範疇。我們對這些多媒體類型關注維度像色情、暴恐、政治敏感、惡意推廣、低俗等,這些是我們內容審覈的含義所在。
在這裏插入圖片描述
內容審覈現在越來越成爲更多企業越來越關心的問題,首先,監管單位針對內容從2019年有三個專項行動:護苗、淨網、劍網。護苗就是通過線上線下措施保護青少年的安全,對互聯網短視頻內容,動畫片內容進行審覈,防止裏面有一些青少年色情的內容。線下內容像針對學校周邊的小賣部,裏面出現的兒童讀物、刊物進行審覈,所以護苗行動是覆蓋線上線下。第二是淨網行動,組織部門就是掃黃打黑辦,主要是針對黃色非法內容進行清除。第三是劍網行動,主要針對網絡侵權盜版,文章和圖片等進行審覈。同時我們2019年監管單位有更多完善管理規範,比如《網絡音視頻信息服務管理規定》、《未成年人節目管理規定》、《兒童個人信息網絡保護規定》、《網絡信息內容生態治理規定》,這四個規定裏有兩個都是關於未成年人和兒童的,現在打開一些短視頻APP,視頻網站,都會有一個彈窗,是否進入青少年模式,這都是在規定裏進行的要求,比如要求動畫片裏面廣告時長等,所以我們可以看到,通過一些專項行動和完善的管理規範,現在行業管理法規越來越健全,內容安全問題成爲不管是大廠商和小廠商都在重點關注的內容。
在這裏插入圖片描述
內容審覈的現狀。除了監管單位非常關注內容審覈,其實很多互聯網多媒體類型的公司,比如一些短視頻、長視頻公司,論壇社交平臺,都有在做內容審覈工作,不過現在更多在依賴人工審覈。
在這裏插入圖片描述
完全依賴人工審覈有幾個缺點:

  1. 人工審覈效率低,一個人一天只審圖片只能是一萬張,如果圖庫或者社交類軟件,圖片量級比較大,就要僱傭很多人。
  2. 人工審覈成本非常高,像一些短視頻APP,人工審覈團隊1.5萬人,這個投入基本要投入9億元的資金到這裏面。
  3. 被審覈的內容,人工審覈時延比較高,不像機器是一個接口,人工要有任務的分發,任務的審覈,以及任務最終返回到運營系統,整個流程都要30分鐘以上,所以審覈的時效性較低。

同時,監管的要求越來越細,越來越嚴格,我們拿兩個點管中窺豹,第一是《網絡音視頻信息服務管理規定》,這裏要求不得利用網絡音視頻信息傳播危害政治安全、社會穩定,淫穢色情等信息,包括侵害他人名譽權、肖像權、隱私權的信息。比如說你上傳一些明星照片這些,有一些平臺使用了明星的照片,如果沒有得到人家許可,這些都是違反了相關的管理規定的,包括這個平臺可能會傳一些謠言、色情信息都是不可以的。第二個像《未成年人節目管理規定》,第九條未成年人節目裏不得包含暴力、血腥、恐怖、教唆犯罪、吸毒、吸菸、酗酒等內容。我們簡單看兩條管理規定,我們發現管理規定不像以前一個大面,不允許有一些違規的內容,現在對違規內容的定義進行了非常細緻的規定或進行了明確。
在這裏插入圖片描述
針對不同的用戶或者同一個用戶不同的部門,審覈規則不太一樣。舉個例子,像直播業務,像男性性感、女性性感都是需要人工複審,卡通色情等等都需要人工審覈。像電視業務部,像性愛玩具,這些都是售賣的東西,還有一些男士內衣等,赤裸上身這些都算是正常的東西,它的審覈規則和剛纔我們看到的直播不太一樣。比如這個平臺還有一個論壇板塊,論壇裏有母嬰的板塊,比如出現一些兒童裸露,相對預期內的CASE,這些複審一下,如果是正常的兒童裸露都是正常的情況,所以不同的業務部門,針對不同的審覈規則,這個是現在的現狀。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
針對剛纔監管單位的審覈要求越來越細,不同的部門和不同的審覈規則,對於用戶挑選一家審覈能力比較齊全的公司或者服務商是非常高的要求。但是現在的服務商擁有的基礎審覈能力,大家通常都會具備,一些細粒度審覈能力並不是每家都有,包括自定義人臉庫,自定義審覈鬆緊度,自定義黑白名單,包括新審覈內容,敏感時期策略自動切換等等,這些能力其實都需要的,但是市面上一些服務商無法同時具備這些功能。
在這裏插入圖片描述
我們總結一下現在人工審覈遇到的問題。第一是人工審覈成本非常高、效率低、主觀性強,比如針對一張圖片到底算性感還是色情,可能不同的審覈員就有不同的標準,這個就會給後面的結果統計造成很大的負擔。第二塊是監管和業務審覈規則更新快適配難度大,如果監管的規則推陳出新,需要頻繁更改代碼調整策略,操作成本非常高。還有監管要求檢測一個新的類型,比如想實現這樣的審覈,比如客戶已經用了機器審覈,要準備大量數據訓練這個模型,對客戶來說這個成本也是非常高。還有當客戶拿到了機審結果,想和現有的人工審覈團隊結合,想要打造一個人機協同審覈系統,這個系統的構建成本難度也是非常大的
在這裏插入圖片描述
基於剛纔我們講到這些痛點,其實我們總結一下,客戶需要的是精準、全面、靈活、高效的審覈解決方案。精準是說審覈的模型,需要機器審覈的模型足夠精準,這樣才能減少一部分人工審覈的工作量。第二是需要能力足夠全面,靈活適配,切合監管的需求,滿足越來越細化的監管要求。第三是客戶需要人審和機審管理平臺或者提升效率。基於這些需求,我們百度大腦內容審覈的願景,希望利用AI審覈能力幫助企業進行高效、低成本的審覈,助力內容風險管控。基於這樣一個願景,我們有兩條路徑,第一是基於百度大腦全面的AI技術積累,提供最領先、全面的AI審覈能力,憑藉廣泛的業務經驗積累,開放基於最佳實踐的人機協同的審覈管理系統。基於這樣一個願景和這兩條路徑,百度推出了兩個產品,第一是內容審覈平臺,第二是人機協同審覈管理平臺,在這兩個平臺下我們有非常多的核心能力,像圖像、文本、語音。
在這裏插入圖片描述我們看一下百度內容審覈平臺,我們打造產品的理念是我們想要給用戶提供足夠全面的審覈能力,足夠靈活的規則配置,精準的審覈模型。全面的能力,我們監管單位的要求越來越嚴格,很多東西之前沒有需要監管,現在都需要監管,這對審覈能力全面性有一個調整。靈活就是隨着突發事件,隨着一些監管單位要求的更新,要求我們的審覈規則不能是一成不變,要求靈活進行調整。精準就是隻有精準審覈模型,才能替代人工審覈工作量,提升審覈的效率。

第一個,在我們這個平臺裏我們包含的能力是圖像審覈能力,這裏包括超過14項圖像審覈,像色情識別、暴恐識別、政治敏感、廣告識別等等,從圖像這些維度分析這個圖片到底是違規還是合規。這裏有一個點,有一個預製違禁圖庫,積累了多年風險處置經驗,結合監管要求實時更新,幫助很多種小客戶,前期沒有做黑庫的積累,拿不到監管要求,不知道怎麼解讀監管政策的小客戶,幫他們接入平臺以後就擁有對這塊黑庫的識別能力。同時,我們也具有非常豐富標籤的圖審能力,剛纔講到,比如色情識別,不同的客戶業務部門或者不同客戶之間就有非常大的區別的需求,百度怎麼解決的呢,我們就是將色情識別拆分爲足夠細的維度,現在拆了20個維度,不同的用戶,不同的業務部門就能根據自己的需求規定這些標籤,哪些標籤在我這個業務場景是屬於違規的,比如這裏有一個像兒童色情,性愛玩具等進行拆分,客戶在我這個場景裏是正常,就歸爲正常類,如果是違規就歸到違規的內容。
在這裏插入圖片描述
同時我們也提供了非常維度豐富的文本審覈服務,超過8項能力,包括文本色情、暴恐違禁、政治敏感、惡意推廣廣告、低俗辱罵、低質灌水內容。首先會過一下預製詞庫,如果沒有命中,我們也會過用戶自己的黑白名單,也就是說用戶可以在我們平臺上自己創建文本黑白名單,如果都沒有命中,就過我們計算模型,最後輸出一個結果給客戶,這是我們的文本審覈能力。

語音審覈能力,一段語音過來我們會拆成兩部分,第一部分是語音的內容,我們就會把這個語音先經過百度的語音審覈,加上文字的信息,文字再過去,過我們的文字審覈。第二是聲音內容,像嬌喘聲等無法轉換成文字,這些有專門的交換聲識別模型,幫助用戶做嬌喘模型,過了語音識別和文本審覈,我們最終會結合這兩塊的審覈信息,給到用戶最終的審覈結果。

肯定有用戶說百度已經提供了這些模型,最全的圖像、文本、語音審覈模型,還有一些特殊業務審覈需求怎麼辦,比如在用戶的場景裏要審覈一些緊急剎車聲、槍擊聲怎麼辦,我們提供了一套EasyDL平臺,它是一個支持圖像、文本、視頻、音頻數據的零門檻AI開發平臺。比如我們需要訓練一個直播裏,這個主播是在汽車內直播還是汽車外直播,識別這樣的場景,客戶只要準備汽車內的圖片十幾張,汽車外的圖片十幾張,就能檢測是否在汽車內直播的模型,客戶如果想設計一個槍擊聲識別,某個聲類準備數十秒的音頻數據,丟到EasyDL平臺裏,就可以定製一個自主聲音審覈模型,非常方便。
在這裏插入圖片描述
EasyDL這裏是面向企業級開發者提供全流程的零門檻一站式的平臺方案。包括前端的EasyData數據智能服務平臺,也就是說客戶如果想訓練一個模型,但是缺乏訓練這個模型所需要的數據,或者說標註平臺,可以使用EasyData解決數據的採集,標註機器擴充的功能,訓練出模型以後,通過彈性託管雲服務進行波束,或者是生成端上的模型,生成私有化模型都可以。
在這裏插入圖片描述
EasyDL還推出了幾個版本,我們知道客戶拿幾十張圖片訓練一個模型,剛訓練第一個模型或者直接把圖片丟進EasyDL平臺裏,過十幾分鍾能獲得達到90%準確率的模型,我們知道90%準確率對大部分用戶是夠用的,可以進行商業化,但是對於一部分客戶來說需要更高的準確率,可能需要95%,98%的準確率才能進行商業化的使用,所以我們對EasyDL也進行了兩個版本的區分。剛纔如果有部分客戶需要90%準確率就可以的,可以使用普通版,EasyDL基礎版,針對零基礎開發經驗的程序員或者技術人員是比較好的。如果針對本身具有深度學習基礎的審覈研發人員,就可以使用EasyDL專業版,我們提供了更多模型訓練過程中的參數,能讓用戶進行調整,打造準確率更高的審覈模型。

EasyDL平臺有四個特性,第一是可即用,整個訓練模型的步驟共四步,非常快,比如你使用EasyDL基礎版,你不需要任何深度學習的基礎,整個過程都是界面化操作。第二是更輕快,通過算法語工程優化,平均訓練耗時小於15分鐘。第三是高精度,超過分之二的模型,top1準確率達到90%,並且提供強安全措施,數據加密和隔離,完善的服務健全,幫助客戶對模型和數據進行監管和加密,包括我們訓練出的模型用戶可以進行私有化部署,這樣不用太擔心數據的問題。
在這裏插入圖片描述
EasyDL訓練簡單四步,最快五分鐘就可以獲得定製內容,第一個就是創建數據集,第二是訓練模型,第三校驗模型是否達到預期,第四步發佈上線。同時我們EasyDL有數據支持,我們也希望有數據、或擁有數據標註能力的夥伴成爲我們的合作伙伴,幫助我們更多EasyDL的用戶提供更加全面的數據採集,數據標註的服務,幫助他們獲得更高質量的訓練數據。

講了這麼多,我們進行一個演示,我們看怎麼使用EasyDL去自主定製歐美色情的識別模型。大家要用EasyDL從哪裏進去,首先登錄我們的官網,進來以後找到第二個標籤開發平臺,我們點擊EasyDL經典版,打開以後進到產品的介紹頁面,這裏講了一下一共有哪些功能,圖像分類,物體檢測,圖像分割,文本分類等等,比如在內容審覈場景,什麼時候訓練圖像分類模型,什麼時候訓練物體檢測模型。圖像分類更多的是對場景的判斷,比如剛纔講到分辨它是否是在車內直播,建議大家使用圖像分類,或者說在戶外直播,用圖像分類。物體檢測,比如我們定義了一個違規的雕塑,違規的旗幟,違規的勳章,我們想看圖片裏有沒有具體這個東西,我們訓練的是物體檢測的模型,像剛纔講到是不是在車內直播,其實車內直播拍攝角度很多,但是我們一眼看上去就知道在車內,像這種適合用圖像分類。

【實操部分】(這個部分老師有操作演示,建議通過錄播學習哦~)

我們看看,訓練一個圖像分類的模型,首先進到數據集這邊,創建我們的數據集,因爲之前出於時間考慮,我這邊數據集已經上傳完了,比如我拿另外一個演示,歐美色情測試數據,因爲我們的數據集提前已經放在不同的文件夾裏進行了標註,所以我們選已標註數據,我們通過本地的方式,上傳壓縮包,以文件夾命名這個分類,上傳這個壓縮包。這樣就是在上傳過程中了,之後點擊確認並返回,這樣就已經有了這樣的數據集。

有了數據集以後,我們就要創建模型,數據集其實是我們把訓練的數據上傳上去,現在我們要用上傳的數據訓練一個模型,我們點創建模型,首先要填寫一些基本信息,像名稱歐美色情審覈測試模型,公司可以根據實際情況,我們是百度,所屬行業,文化娛樂,應用場景是圖片審覈,功能描述就是我們打一個歐美色情審覈測試模型,我們就創建了這樣的模型,下面我們就要訓練這個模型,我們選擇歐美色情審覈測試模型,部署方式,最終我們訓練出來是公有云服務,還是訓練出一個模型最終私有化部署到內容,還是離線SDK,還是和硬件結合,比如剛纔講的EdgeBoard等結合的模型,我們以公有云API爲例,下面就是算法,就是高精度、高性能,AutoDL遷移訓練的方式。高精度,就是我們會消耗更長訓練的時間,獲得準確率更高的模型。高性能是訓練時間更短一些,但是訓練出來的模型準確率相對來說沒有高精度高。AutoDL,消耗時間更長,但是更適合與更細分類的場景就要用這個爲準。我們以高性能爲準,選擇添加訓練數據,選擇數據以後裏面就是標籤,點擊開始訓練。之前因爲時間關係,我已經訓練過了,當我們訓練完以後,我們就會產生這樣的模型,比如我們對它進行了幾次訓練,第一次是V1版本,第六次訓練就是V6版本,我們可以對數據集進行擴充,比如之前上傳一些歐美性感色情圖片,我們可以擴充數據集,之後我們可以對它進行重新訓練獲得更準確的效果,這上面是訓練完成的,我們點擊申請發佈,這樣才把服務接口發佈到線上,通過PaaS方式調用,Top1是80%準確度,Top5是百分之百。第一個是上傳數據集,第二是創建模型,我們點訓練,選一個高精度還是高性能的版本,最後我們獲得這樣一個版本,最後啓動校驗服務以後就可以進行發佈的操作,這就是整個EasyDL訓練一個歐美性感色情模型的過程。

百度的內容審覈方案就是通過百度預製全面審覈,包括圖像、文本、語音,長短視頻的審覈能力盡可能滿足客戶的需求。同時針對客戶特殊的需求,我們通過用戶自訓練平臺,通過EasyDL平臺讓用戶自己訓練這樣的模型,來滿足客戶的需求。所以我們看一下具體到我們這個平臺裏怎麼操作的。
在這裏插入圖片描述
用戶使用我們這些審覈能力的時候,包括EasyDL的能力,首先在EasyDL裏訓練好相應的模型,同時剛纔講到客戶需要使用色情識別,需要什麼模型就勾選什麼模型,哪個模型裏,比如色情模型包括20個標籤,需要審什麼標籤勾上就可以,後面有一個滑動條可以調整鬆緊度,我們自定義審覈圖片EasyDL,我們可以把EasyDL訓練的模型以及下面的標籤拉過來,訓練的時候分了三個標籤,PORN,SEXY,NORMAL,前兩個是不合規,如果是後一個是合規的,用戶可以自己選擇鬆緊度。

除了剛纔講到全面審覈能力以外,我們還提供了一些自定義的庫的能力,比如自定義黑白名單,自定義圖像和文本黑白名單,可以上傳一些自己想攔截的人臉和圖像的黑白名單。最後提供了審覈策略自動切換的功能,很多客戶需要在特殊敏感時期切換線上策略,比如審覈更加嚴格等等這些,我們通過一個賬號上面配置多條策略,不同策略我們可以看一下生效狀態,還有生效時間,優先級,是現在特殊時期切換特殊策略,過了以後切換回平時審覈的功能。

我們回顧一下,百度的審覈能力主打是全面、靈活、精準、全面。百度提供了超過14項圖像審覈能力,以及我們也提供了EasyDL定製圖像審覈能力的平臺,我們提供了8項圖像審覈能力,語音提供了超過9項能力,語音也是可以通過EasyDL進行新的篩選審覈模型做一些分類,在這些能力之上,我們提供了快捷易用的接入方式,以及靈活方便的審覈規則配置,所有的審覈維度,審覈標籤,審覈鬆緊度都可以實現。
在這裏插入圖片描述
其實基於剛纔的審覈能力,客戶對成本的控制是沒有上限的,他們希望通過其他的方式進一步提升審覈效率,降低審覈成本。第一個是需要一套功能更加完備的審覈管理系統,提升審覈管理效率,第二是提高審覈人員的人效,所以我們提供了百度人機協同審覈管理平臺,我們通過合理的流程,易用的操作界面,進一步提升審覈效率,同時我們直接提供了這樣的平臺,省去開發人機協同審覈平臺的成本或者審覈後臺的成本。
在這裏插入圖片描述
首先我們這個平臺對用戶來說是登錄即可使用,也是類似於SaaS服務,用戶如果自己開發這樣的平臺可能需要六個月的時間,我們提供這樣的平臺就直接省去了用戶六個月的時間。同時在一些特殊時期或者在一些放假的高峯期,很多用戶的審覈量會飆升,勢必審覈平臺的部署的機器要做動態的擴容,要讓更多的機器過來,同時需要更多的審覈員完成審覈操作,如果用戶使用自己創建的平臺,這些資源相對來說不可彈性擴容。使用百度的這套服務,不管是雲端的機器還是人力資源都是可以實現動態的擴容。第二我們這個人機審覈平臺有一各高校的流程,我們通過一審二審三審的流程,同時設置了高危組和普通組,降低審覈員的壓力,提升審覈效率,同時保證審覈結果。第三塊是易用的操作界面和完備管理功能,審覈界面的過程都是流式的界面,一次可以拉多個任務,用戶對這些審覈完成以後統一提交,效率高很多。針對短視頻,我們會對短視頻進行取樣的切片展示,讓冗長的短視頻以關鍵幀的方式展現在這邊,讓用戶一目瞭然看到這個短視頻講什麼內容。
在這裏插入圖片描述
我們以短視頻爲例看一下人機協同審覈流程怎麼做的,首先一個短視頻進來以後,用戶需要創建一個審覈規則,調用短視頻接口。首先過AI機審,比如針對短視頻,我們把短視頻拆爲視頻、畫面內容和音頻內容,畫面內容會有音頻審覈,通過EasyDL訓練模型對它進行審覈,音頻也是拆成語音內容和圖片內容,之後就會人審和人機審覈,我們通過三層人審,保證準確率,確保最終輸出的結果至少有兩個環節結果是一致的。我們整套方案提供了公有云和私有化部署的方式,用戶可以直接使用公有云PaaS服務,也可以把整訓練能力都部署到內網,保證我們數據的安全性。
在這裏插入圖片描述
我們也希望擁有人審團隊業務方可以直接使用人機協同審覈平臺,不用做這樣的開發工作,進一步提升審覈效率。如果沒有人審團隊,我們百度會對您推薦一些服務商,他們會把審覈員部署到人機審覈平臺上,我們最終一起經過人機確認的高精度的工作。同時我們非常期待更多擁有人力資源的服務商來加入到我們的人機審覈平臺這邊,成爲我們的供應商之一,我們提供AI審覈,技術支持指導,人機審覈管理平臺,提供銷售、推廣、渠道,幫助你們完成業務的轉型和業務的增長。
在這裏插入圖片描述
總結一下,主要是兩塊內容,第一是百度內容審覈平臺,通過界面化的方式提供了全面、靈活、精準的審覈服務,讓審覈服務更加貼合您的需求。在這個全面裏,百度不光預製了百度官方的模型,我們也提供了EasyDL這個自訓練平臺,用戶如果有一些業務的訴求,我們現在還沒有考慮到,現在通過EasyDL訓練對應的圖像識別、物體檢測,聲音分類的模型來滿足。第二是人機協同審覈管理平臺,利用高效的人機協同審覈流程,進一步提升審覈效率,省去開發成本。大家如果對百度內容審覈感興趣,可以搜索這個網址,也可以微信掃碼AI小程序,體驗我們的審覈能力,也可以加入我們的內容審覈的QQ羣進行提問。
在這裏插入圖片描述
最後,感謝大家的聆聽,歡迎大家去體驗我們的模型和平臺,或者上EasyDL定製我們的內容安全審覈方案,定製相應的圖像、語音、文本的模型。謝謝大家。

【Q&A】

Q:想了解一下您這邊能不能介紹一下算法的原理?
A:算法的原理,簡單說我們拿圖像分類舉例,首先我們EasyDL是基於PaddlePaddle深度學習模型,比如剛纔我們上傳歐美性感分類模型,比如我們把歐美色情,歐美性感,歐美正常打包到不同的文件夾,就是完成了標註的過程,我們再把這三個文件夾打包成一個文件,上傳到EasyDL平臺,這時候就是告訴EasyDL平臺,我們要對這三個分類區分,我們要訓練出一個模型,要對這三種標籤進行識別,模型訓練的是分類的標籤,然後來滿足大家的需求。如果大家對怎麼實現分類的過程感興趣,一個是可以上EasyDL平臺看一下文獻資料,也可以在網上可以找一下深度學習怎麼實現圖像分類,有一個更加深入的瞭解。

Q:如果圖片大小不一樣會自動處理嗎?
A:圖片大小不一樣,我們這邊也會自動處理,我們更關注的是圖片裏的內容,是否是屬於同一分類,圖片的大小,只要這些圖片都在圖像邊界裏,我們這邊都會做處理,或者圖片大小對識別的結果影響不是非常大,只要是在規定的範圍內。

Q:有同學問什麼時候可以自動標註,自動標註完可以手動標註嗎,這是智能標註吧。
A:對,就是EasyDL前面一個環節EasyData,EasyDL也包含了這個標註的功能,剛纔我們講的分類,這個標註的成本低一些,如果訓練一個物體檢測模型,我們是需要在標註的環節把要識別的物體框起來,EasyDL和EasyData裏都提供交互式的標註功能,能讓用戶非常方便把我們要檢測的東西框選出來,實現標註的功能。

Q:您分享的代碼可以不可以下載?
A:我想問一下,想要代碼是哪一塊,這個代碼是這樣的,第一是比如調用的碼,調用之前申請健全的(英文)等代碼,我們都已經放到百度AI市場,在文檔裏都有示例代碼或者SDK,這些SDK都是開源的,代碼也是大家可以看到的,大家可以在官網的文檔裏找到相應的代碼。

Q:已經標註好的數據上傳是原圖和Json一起嗎,有格式要求嗎?
A:已經標註好的數據,其實分不同情況,像圖像分類,不需要上傳Json,只需要把不同的分類放到不同的文件夾裏,這個操作就是標註,模型會自動根據你放不同文件夾的內容進行訓練分類模型。比如剛纔講到物體檢測等,可以用平臺上交互式標註,來進行物體框選標註,上傳的時候並不需要上傳Json。

Q:可以對數據分類嗎?
A:我理解是不是要問的圖像分類,要訓練圖像分類模型,直接去使用EasyDL裏的圖像分類實現就可以了。

Q:目標檢測完成想要記數,應該在哪裏記數呢?
A:記數是物體檢測的功能,舉個例子,之前EasyDL舉辦過一些活動,比如說拍照識別一個碗裏有多少綠豆,識別圖片中有多少螺絲,其實這是一個物體檢測,多目標物體檢測的功能,這在物體檢測功能裏。

Q:視頻流自動拆分爲圖片和聲音嗎?
A:視頻我們提供了兩種服務類型,第一種是客戶如果直接想把視頻流傳給我們,我們可以用VCR直接可以實現(英文)效果,我們在百度的服務後端會把視頻和音頻拆出來,畫面過圖像審覈,語音過音頻審覈。第二我們也支持用戶自己對視頻流進行截幀,再把音頻拆成一小段一小段的音頻內容,這兩種都可以,這兩種的區別,第二種對於用戶來說成本更加友好一些。因爲我們也知道,像直播主播就坐在那裏,也沒有發出聲音,如果這段音頻客戶能劫走這是無聲視頻,不傳過來進行審覈,成本會降低一些。如果客戶不想做這麼複雜的事情,也可以直接把視頻流推過來,我們會幫助客戶從視頻、音頻維度做多方面的審覈。

Q:對視頻流,是不是可以使用EasyData進行抽幀的工作?
A:是的,可以。

Q: EasyDL算法部署是在服務器端嗎?
A:EasyDL的算法部署的地方很多,剛纔在訓練的模型有看到,第一個你可以部署在雲端。第二種,你訓練的模型想放在手機上使用,你想離線,在安卓、IOS或者APP裏使用,也可以訓練出模型,導出到IOS端或者安卓端使用或者上傳一個部署包,到時候基於Docker安裝方式部署到本地,這些都是可以的。

Q:不考慮網絡帶寬,直播審覈時延大概多少?
A:一般大概是秒級別的,比如說像圖像,直播流的審覈,畫面的審覈就是我們會對它進行切幀進行審覈。每一幀基本上會在大概五六百毫秒左右返回,具體說審覈的時延,我們在審覈的時候也會跟客戶溝通切幀的策略,比如審覈嚴格一些還是鬆一些,嚴格就是抽幀更密一些,鬆一些會少一些,價格也會便宜一些,針對單張圖片或者單幀都是幾百毫秒的時延,語音基本上也基本上是這樣的時延。

Q:可以對數值類型的數據進行分類嗎?
A:我理解這個不是屬於圖像分類或者深度學習的範疇了,數值類型的數據,同學可以舉一些具體場景的例子,什麼叫數值型數據。

Q:如何將水錶字的識別,現在哪裏可以買出?
A:這個問題提的問題是對儀器儀表的識別,還是在百度AI市場上,我們剛上線了一款新的識別能力,叫儀器儀表識別,就是針對的場景,像水錶、電錶,儀器儀表的讀數進行識別,前提是我們識別這些都是所見即所得的那種,路徑我跟大家說一下在百度市場裏,在開放能力,文字識別,其他文字識別裏有一個儀器儀表,像血壓計的數字可以識別,但是如果有一些水錶需要讀的,需要通過計算方式才能得出具體數字,這個目前還不行。
在百度AI市場,開放能力,文字識別,有一個儀器儀表識別,點擊以後就是這個頁面,專門針對這個場景進行識別的,像血糖儀、血壓儀、燃氣表、電錶都可以進行識別。

Q:如果對儀器儀表識別可以在開發能力裏找一下這個功能。還有同學問API和SDK調用的速度上差別有多大?
A:SDK是離線還是雲端,如果是離線SDK和雲端API調用,這兩種是沒有區別的,只不過是SDK是方便用戶更簡便調用而已,如果都是雲端沒有區別。是不是想生成離線的SDK相比,這個沒有非常統一的結論,離線SDK一定比雲端快或者雲端一塊比離線SDK快,看你模型的複雜度、標籤數等等,相對來說比較複雜的模型,你部署在雲端,因爲GPU算力比較強,雲端快一些。如果是簡單的模型,像是貓,是狗的,可能性能上的差異體現不出來,更多的時延是在網絡帶寬上,這種案例離線的SDK速度更快一些。

Q:自定義的行爲識別可以定製訓練了嗎?
A:也是可以定製訓練的,像吐痰,這行爲本身是有一些行爲特徵的,我們可以通過這些行爲特徵訓練相應的模型。還有抽菸、吸毒,這些都是可以通過同樣的方式訓練的。

Q:視頻是基於關鍵幀還是逐幀判斷?
A:關鍵幀是這樣的,我們百度有一個關鍵幀的技術,當然也提供平均抽幀的方式,平均抽幀說白了就是咱定義每5秒抽一幀,關鍵幀我給大家看一下,比如在內容審覈平臺裏,找到短視頻審覈,我們可以自定義多少秒到多少秒的視頻,多少秒抽一幀,都可以自定義抽幀的規則。除此以外,我們還提供了一個關鍵幀的SDK,它會對每一幀抽取,對比前後兩幀畫面內容的變化,如果畫面內容變化比較大,我們會認爲後面那一幀是關鍵幀,比如教學視頻,老師停留在一頁PPT,停留10分鐘,我們發現這10分鐘裏前後兩幀畫面變化內容不大,我們就不會進行抽幀,如果變化比較大我們就會抽幀審覈,我們百度提供這樣關鍵幀抽取的SDK。

Q:多個模型訓練的結果可以合併爲一個API嗎?
A:這個暫時還不行,但是我們圖像審覈這邊,百度官方預製的模型裏已經做了這樣的事情,如果你想同時過色情、暴恐、政治敏感等信息,你只要通過一個接口調用,我們在後端併發提供這些服務,如果利用了EasyDL的模型,我們同時也會過EasyDL的模型,如果有這樣的需求,可以通過審覈的接口調用,這樣可以走多個併發。

Q:畫面變化是怎麼度量的?
A:沒有每個畫面裏的三原色的構成比例是否合理,這個是非常容易判斷前後兩幀是否相似度比較大的判斷維度,比如說前面這個圖片幀,紅色佔了多少像素,綠色佔了多少像素,如果前後兩幀佔比沒有太大差別,從這個維度上我們認爲是一樣的,當然也會結合其他圖像判斷維度,看這兩幀是不是屬於相同幀。

Q:雲端API計算資源可以購買嗎?
A:用戶不用太擔心,我們EasyDL是按次數收費的,比如用一次收一次錢或者技術包,如果調用的量比較大,訓練的審覈模型,需要更高的QPS,需要更大的調用量,這個都可以聯繫我們做相應的部署,把這個模型部署到更大的集羣上。

Q:應該怎麼樣聯繫到呢?
A:這就是剛纔留的聯繫方式裏,大家如果需要聯繫可以和小助手聯繫,不管是EasyDL還是圖像審覈的PM都可以進行溝通。

Q:抽菸等行爲是通過圖片還是視頻呢?
A:不管怎麼樣,歸根到底是基於圖片幀做的,當然如果我們審的是視頻還會加上前後幀的聯繫,像抽菸我們現在更多的圖片審覈裏,更多的是基於物體檢測做的,比如看有沒有煙,如果審視頻裏有沒有抽菸的行爲,除了剛纔我們說的基於圖片幀檢測有沒有煙,同時也會基於前後幀的聯繫,看這個是不是有抽菸的行爲。包括像打人,鬥毆等都是一樣的,你光從圖片幀去看不能判斷他去打人,但是聯繫前後幀的變化才知道他在打人。
【下期預告】
在這裏插入圖片描述
今天的直播課就到這裏,感謝Nathan老師,也感謝大家的參與,如果沒有添加小助手,可以添加助手的微信,也可以關注我們的直播間,以及每次的課程回放,今天的直播就到這裏。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章