淺談數據標註平臺運營模式

現如今,AI行業發展火熱各大巨頭都投入巨資在此領域佈局,智能駕駛、人臉識別以及近段時間正火的AI養豬都是AI技術應用在實際生活上的體現,毫不誇張的說AI技術正在逐漸改變我們的生活而我們的生活也將因此變得更美好。
AI的發展離不開數據標註的支持,在此不再詳談數據標註和人工智能的關係,感興趣的可以可以查看《人工智能之數據標註》

一、常見的數據標註平臺

由於數據標註的重要性和高質量標註好數據的稀缺性在催生了一大批專職做數據標註團隊的同時也催生了一批數據標註平臺,比較有名的有百度衆測、京東衆智、龍貓數據、數據堂等。衆所周知百度在互聯網大廠是最早開始且投入巨資研Ai 技術的,所以百度衆測平臺的任務大部分都是百度內部的需求,他們也會接受其他AI公司的數據需求,但是在數據量和價格上會有限制。相比百度而言其他幾家數據標註平臺就比較親民一些了,中小型的AI公司的需求一般都會接受。爲什麼這個地方沒有提到大型AI公司呢?那是因爲大型AI公司一般都會自建平臺且有專門的數據標註團隊負責公司的數據需求。

二、數據標註平臺的業務模式

(1)衆包模式:
現在數據標註通常採取衆包的模式,衆包模式的優點就是成本較低響應較快。這種模式適用較簡單的項目如點點拉框等項目。發佈者往往將任務詳細介紹和題目一同發送到平臺上供廣大數據標註兼職人員作答。但衆包模式有一個很明顯的問題就是質量較難把控,因爲衆包模式是面向大衆的你並不知道在給你做標註的是什麼人,他們可能是廚師,是全職太太,是老師每個人對規則的理解不盡相同且不可避免的會有一部分對任務亂答一通影響項目質量。爲此各平臺也會使用一些方式減少問題的產生提高項目質量。比如增加改判環節一道題在答完之後會由他人進行改判如若判錯則不獲得任務報酬,此外爲防止錯判維護答題人員利益還會設置申訴環節使答題人員對有疑問的題目進行申訴。設置標註人員級別,標註人員任務正確率較高答題數較多則能慢慢提高等級解鎖更多任務獲得更多的任務報酬且有機會進入改判環節成爲改判員。
(2)外包模式
外包模式與衆包模式相對是將任務外包給專門的數據標註公司和團隊,在項目一開始會對項目整體進行評估然後針對項目整體進行報價由數據標註公司自行安排培訓安排人手,只需要保證在項目截止日期前保質保量交付數據即可。這種模式的優勢就是數據質量和項目週期有保證。但是響應速度較慢成本較高,因爲一開始需要安排競標且平臺需要安排專門的項目人員進行項目對接和項目跟進。現如今國內專門做數據標註的團隊較多,但是大多數只是以工作室和幾十人的小團隊爲主且業務類型集中在簡單的拉框圖像標註上。也有一些的較大型的公司如貴州的夢動科技已經形成產業化帶動了當地的發展。又或者是“點我科技”他們自建有平臺可以自研工具同時擔任着數據標註平臺和數據標註公司兩種角色。
基於以上兩種業務模式的答題模式:
A模式:A模式指只進行一次答題模式,後續沒有改判操作。這種模式應用較少主要用於較簡單正確率要求不高的項目。
AC模式:AC模式指在答題完成後會有一個改判流程,改判員只能對題目進行正誤的判斷不能在答題的基礎上進行操作。
ACC模式:ACC模式和AC模式的主要區別是AC模式不能夠之前的答題情況作出更改,而

三、制約數據標註平臺發展的因素

  1. 業務模式
    一個好的業務模式能不斷拔高一個平臺的業務上限,上面介紹的兩種常見的業務模式(衆包模式和外包模式)因爲他們都有各自的優缺點,所以單一的使用任何一種業務模式都是不可行的。單存使用衆包模式會帶來項目質量難以把控,風險高的問題,且衆包模式只適合承接比較簡單的需求。單一使用外包模式則會造成對數據標註團隊的過度依賴,降低整個平臺的活力,造成平臺現有人力資源的浪費。
    對此我們需要兩種模式兼用初期需要投入一定的資源建立自已平臺的衆包團隊,這個人數一定要多隻有這樣才能保證有足夠的活躍人數能夠完成數據標註任務,同時還要一直有衆包任務才能保證這些人一直活躍。衆包團隊建立起來之後我們就可以將簡單的任務通過衆包模式發放出去,一些複雜專業性比較高的任務則通過外包模式發放出去即可。
  2. 數據標註團隊
    一個數據標註平臺必須要足夠的數據標註團隊才能承接更多的需求,爲了增加平臺上入駐的團隊數量我們需要提高平臺內部的活躍度同時平臺上有足夠的任務。每個標註團隊往往都有擅長的業務類型,我們也需要根據不同團隊的特點發放給他們不同的任務。
  3. 任務需求
    一個平臺要想不斷髮展一定要有足夠的任務,增加平臺承接的任務則需要提高平臺的知名度,提高平臺的知名度可以通過廣告投放,客戶口碑傳播,搜索優化等方式。同時還需要一個有力的商務團隊。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章