數據標註平臺分析與使用經驗

最近在做語音類的深度學習項目,手上有1000小時的數據需要標註,公司內部僱人標註是不太現實的,人員管理起來太麻煩,再加上項目比較緊急,所以找了幾家數據標註平臺,下面簡單介紹一下吧。

什麼是數據標註平臺

衆所周知,數據標註得越精準、對算法模型訓練的效果就越好。大部分算法在擁有足夠多普通標註數據的情況下,能夠將準確率提升到 95%,但從 95% 再提升到 99% 甚至 99.9% ,就需要大量高質量的標註數據。可以說,高質量的數據是制約模型和算法突破瓶頸的關鍵指標。正是由於數據標註的重要性,在AI產業的上游已經形成了一條數據標註產業鏈。

數據標註產業鏈主要由3方組成,1是標註需求方;2是數據標註平臺,一般可以開發標註工具;3是標註團隊、公會,活躍於各大標註平臺。需求方向標註平臺提出需求後,平臺去開發工具,尋找合適的標註公會,標註完成後交付。

幾家數據標註平臺

  1. 京東衆智
    京東衆智反饋速度比較快,在官網上提交需求後下午就有客戶經理給我打電話,2天就完成標註工具開發和試標了。因爲我們這個項目比較關注數據安全,他們給過來數據隔離的方案,簡單地說就是標註工具和語音數據資源都在我們的服務器,人員管理和答題流程等在衆智的服務器。
  2. 百度衆包
    在貼吧上看到百度衆測比較老牌了,標註類型也非常全面。對於我們公司這種情況他們也能像京東衆智那樣提供私有化部署,但是人員管理、結算等等都是麻煩問題。
  3. 阿里數據標註
    一開始以爲這家標註平臺是阿里的,畢竟京東百度都有,我想阿里也應該有吧?後來才發現在官網首頁最下面有一行小字:【特別說明:阿里標註與阿里集團無任何直接關係】。哈哈哈哈哈哈哈差點被騙
  4. 龍貓數據
    這家是個數據服務商,數據各方面的服務都有做,包括數據買賣、採集、標註等等。這家平臺在百度搜索上做了SEM,估計是下了本錢的,報價也稍微高一些。最終沒有選擇這家平臺的原因是安全性不太好保證,畢竟公司比較小,而且還做數據買賣,真的有點擔心。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章