人工智能數據標註這些年:從幕後到前臺丨曼孚科技

“你瞭解人工智能行業嗎?”​

10個人中可能有9個人會給出肯定的回答。

“你瞭解數據標註行業嗎?”

10個人中可能有9個人會茫然地搖頭。

與處在聚光燈中心的人工智能科技公司不同,數據標註行業長期處於聚光燈之外的灰色地帶,很長一段時間內都是被邊緣化乃至低視的一個存在。

不過,隨着時代發展帶來需求的改變,數據標註行業也在發生着日新月異的變化,開始從幕後走向前臺。

一.幕後:粗放與混亂交織

數據標註行業裏流傳着這樣的一段話:“有多少智能,就有多少人工”。

這句話在某種程度上道出了人工智能的本質。

事實上,現階段讓AI提升認知世界能力的最有效途徑仍然是監督學習,而目前AI算法能學習的數據,幾乎全部都是通過人力逐一進行標註而得來的。
在這裏插入圖片描述

一張經過數據標註後的圖片(來源:曼孚科技)

需求即意味着市場,據相關機構預測,未來幾年,國內數據服務市場將達上百億。

如此龐大的市場規模,讓很多人都想趁機分一杯羹,於是大大小小的標註團隊如雨後春筍一樣大量出現。

然而,問題也隨之而來。

與人工智能高科技含量不同,數據標註仍屬於勞動密集型產業,且模式通常以外包形式爲主。

標註員每天從事標框、拉點等重複枯燥的工作,勞動力水平參差不齊導致產出的標註數據質量偏低,無法滿足AI企業的需求,影響AI產品商業化落地進程。

與此同時,低端產能過低的技術含量,也使數據標註行業幾乎沒有任何壁壘限制,很多標註團隊隨意拉進來幾個人經過簡單培訓就可以接業務了。

這樣的後果就是行業混亂且競爭加劇,絕大部分標註團隊只能存活於產業鏈最底層,壓價情況嚴重,甚至接不到業務導致生存艱難。

二.前臺:AI對於高質量數據的依賴

人工智能行業內有一個很重要的共識:

數據集質量的高低直接決定最終模型效果的好壞。

換句話說,數據對於模型性能的貢獻是最大的,數據越多越豐富、代表性越強、模型效果越好,算法的健壯性和魯棒性就越強。

隨着AI企業商業化落地進程的加快,越來越多的企業開始意識到標註數據的重要性。

以自動駕駛爲例,目前很多企業都已經生產出自己的無人駕駛汽車樣車,並頻頻出現在公共視野內。

然而,雖然這些樣車在實驗室內表現良好,但距離真正的商用仍然有很遙遠的距離,一個很重要的原因就是真實路況場景與實驗室場景差距過大。
在這裏插入圖片描述

自動駕駛標註場景(來源:曼孚科技)

在實驗室內,只需要少量的道路數據即可滿足實驗的需要,但是到了真實的道路上,無人駕駛汽車將會遇到很多無法預知的情況,在沒有足夠數據支撐的前提下,車載電腦無法做出自己的判斷,導致潛在的風險劇增。

因此,以自動駕駛企業爲代表的衆多AI企業對數據標註行業提出了更高的要求,數據標註行業已然開始處於聚光燈的焦點,從幕後走向了前臺。

三.未來:智能化、精細化、場景化

AI數據是人工智能的重中之重。衆所周知,人工智能的三駕馬車是算法、算力與數據,其中數據是人工智能行業的發展基石。

隨着人工智能行業商業化落地進程的加快,AI數據服務領域泥沙下沉,清泉上涌,行業變革已初露端倪。未來,智能化、精細化、場景化將是數據標註行業的主要發展方向。

智能化,即意味着標註工具AI化。以曼孚科技自研的語音標註工具爲例,AI預標註技術可以自動識別轉寫語音數據,標註員只需要在工具預標註的結果上略作修改即可,這在提升標註效率的同時也減輕了對於人力的依賴。

精細化,即意味對標註數據集質量與細節提出了新的要求。以往數據集的準確率可能達到90%以上即可滿足要求,但隨着AI商業化落地進程的加快,AI企業對於標註數據的質量要求達到了95%,甚至99%以上,同時更加註重細節,比如曼孚科技在進行自動駕駛領域數據標註業務時,項目方會對諸如情緒捕捉、疲勞駕駛等等提出更加細節化的標註需求。
在這裏插入圖片描述

精細化標註能力(來源:曼孚科技)

場景化,即意味數據標註行業要滿足多樣化應用場景標註需求。以計算機視覺領域爲例,目前數據標註可以應用在自動駕駛、無人機、AI教育、工業機器人、新零售、安全防護等場景中。每一個應用場景都有自己的數據類型與具體標註要求,因此極爲考驗數據標註企業的場景化標註能力。

可以預見的是,未來幾年數據標註行業將迎來一場大變革,理念更先進、技術更硬核、服務更專業的AI數據服務企業將會把數據標註行業帶入全新的精細化運營時代。

而未來,相信隨着5G技術的逐步應用,數據與5G的結合將碰撞出更多創新火花,共同托起AI發展的基石。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章