淺談數據標註怎麼幹?

最近好多小夥伴留言交流數據標註相關的問題,有些新手的小夥伴會問數據標註現在幹還行麼?我想入行數據標註行業不知道入行?還有些已經入行的小夥伴對未來的發展比較困擾,也留言進行了交流。剛好昨天曠世開源了深度學習的框架天元,也引起了不少的關注。做標註的小夥一定對這家公司非常熟悉,而且直接或間接的跟這家頭部企業合作過。所以今天就跟大家從兩個角度聊聊數據標註那點事兒,也非常歡迎針對相關問題留言進行交流。

      這裏針對個人想從事相關行業的本篇就過多介紹了,不過大家可以去一些招聘網站上去搜索相關職位,也很容易獲取一些有用的信息,也可以留言進行交流。

一.淺析數據標註行業的幾個大事兒

1.龍貓數據獲得融資

    本年2月末據相關報道,龍貓數據獲3300萬元Pre-B輪融資,KIP中國領頭、金沙江創投跟投。本輪融資將主要應用於市場擴展、自動化標註研發、AI研發投入等。這無疑是對行業注入一個強心劑。那我們又從中獲取到哪些對於數據標註行業的啓發呢?

  • 數據服務方式

       目前對於市場上多種數據標註服務的形式,例如:AI公司自營平臺、衆包平臺、標註平臺、標註服務外包公司等。而龍貓數據一直是以衆包爲主的方式標註平臺,據報道衆包用戶已突破400萬,工作形式基本是基於其衆包平臺進行的,那麼在疫情最嚴重的時候且是返工延期必須在家辦公之時,淋漓盡致展現其模式的特點。那麼在今年嚴峻的形式下,其他服務模式是否也會得到資本的青睞呢?我們還需要拭目以待。

  • 數據服務的需求

         從目前數據服務的需求來看,大部分更多侷限在了人工智能公司採標 業務上。但是從融資金額和融資用途上來看,絕對不僅僅侷限於人工智能公司的採標業務,其在自動化標準研發、AI研發投入上,是否增加了其未來在傳統行業AI的落地服務上會有更大的延展空間呢?

  • 數據標註的未來

         據介紹其有很高的並行處理能力,那麼在數據處理效率、定製化數據多樣性上一定會有質的提高,那麼從業者該如何應對呢?

2.華爲ModelArts、百度飛槳等加快推廣落地步伐

      爲什麼在裏會提到這兩個和阿里等公司也推出類似的平臺,打着從零基礎到精通算法落地的旗號,去推廣其AI場景落地方面的能力。當然也測試了兩個平臺,的確可以基礎沒啥基礎做出來一個玩(可以參看【AI實戰】口罩佩戴檢查),那麼這裏就存在這樣的問題,

     a.AI平臺的形態是否一定會成爲類似現在服務器的第三方服務平臺對傳統企業進行深化改革?這個答案或許是肯定的。

    b.那麼這個過程大規模標註是否僅存在於模型初期,而基礎模型成型後,迭代的數據將會減少,還是會因爲場景多了需要進行標註的數據會再一次爆發呢?

3.曠世開源深度學習框天元

    作爲出身程序猿的人來講,不管是什麼開源了,首先都是包含敬畏之心,對於Brain++,用此前曠世聯合創始人唐文斌的話來說就是,Brain++的目標是:讓研究人員獲得從數據到算法產業化的綜合技術能力,不用重複造輪子也可以推進AI快速落地。Brain++還引用入了AutoML技術,可以讓算法來訓練算法,讓AI來創造AI。這是不是很明顯這就是在搶佔推進平民化AI能力的第三方服務商的位子呢?然而對於標註來講,之所以目前的標註量如此之大,也有一部分原因就是因爲目前很多的工作都是在重複造輪子。

      對於傳統型企業這真是一件非常好事情,畢竟不是所有的傳統企業有能力來做AI研發,但是大部分企業都卻又都需要。是不是非常像當年阿里做雲服務業務呢?只是這次不像博士當年那麼難以被接受吧?

      那對於做標註的我們有什麼啓示呢?首先AI落地過程的馬太效應是很明顯的,其次因爲數據的利用效率、數據隱私等問題的存在,數據和AI之間必然形成閉環。那麼我們在這個過程中扮演什麼角色?是不是可以從上面提出的問題更好一些的啓發。

二.做數據標註的幾種形式

    上面聊了最近發生的跟數據標註行業有關的幾個大事兒,那麼做數據標註有幾種形式呢?哪種形式會更適合想創業的你?可以對號進行參考。

 這種相對應該是最舒服的,背後有大廠撐腰,項目大部分也是做內部項目,項目風險低,人員費用有可能也有保障。目前這種情況的還是挺多的,大廠成立全資子公司的數據處理基地。但對於大廠來講成本相對要高,而且會出現資源浪費的情況。

      前幾天有一個小夥伴講他們公司之前純做人工標註的,目前也想往技術靠靠,想做標註平臺了。在這裏個人建議未必要盲目的去做平臺,核心的是要解決什麼問題?人員管理的問題?工具效率的問題?沒有工具的問題?平臺看似容易實現但是是一個長期持續的投入。先解決自身問題、再解決市場問題。當然如果你有能力用資本運作的方式來推進的話就另當別論了。

     團隊和公司的區別很簡單就是是否已經成立公司能已公司的名義籤合同開發票。團隊也是支撐大部分平臺運營的中流砥柱。這部分大多以線上爲主,成本相對較低,人員比較分散。當然如果合作時間長磨合的比較好,也是非常好用的。

    這裏說的個人就是兼職人員,這部分人也給很多平臺類的公司提供了很多的工作量。如果你時間充裕完全可以作爲副業做做兼職賺些外快。

  1. 大廠自營標註公司/平臺/代理商

  2. 標註平臺

       標註平臺這今年開年如雨後春筍般都紛紛出現在公衆視野,表現形式最直接的就是百度搜索的時候明顯增多了而且有很多用了百度的競價排名,其中不乏一些大廠的內部平臺對外運營了,也有一些標註公司自己做的標註平臺。

  3. 服務外包公司
          這類公司目前是最多的了,同時也是支撐大部分平臺類公司運營的關鍵。前幾天跟一位山西的朋友聊,爲什麼?他的回答應該可以代表大部分的想法,一個相對穩定收益的項目,這個年頭誰不願意做呢?

  4. 服務外包團隊/工會

  5. 服務外包個人

       

      以上是對最近小夥伴後臺留言比較多的問題跟大家聊一聊,至於你適合什麼樣的定位,只有你根據自身的資源分析後,才能得出最適合的答案。當然本文有些可能會比較主觀片面,也希望大家可以多留言交流。由於我個人經歷有限回覆可能會稍微慢些,還請大家不要着急,如果想要資源的小夥伴也是一樣,注意查看回復內容。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章