深度學習圖像數據自動標註

    Tensorflow和Caffe等深度學習中,監督學習的數據標註是一件非常繁瑣和耗時的工作,目前大多數公司都採用外包給標註公司進行處理,或者購買現有的數據集,使得進行深度學習研究的成本異常高。本文介紹一種以人工智能解決數據標註的思路和方法。

一、思路

步驟:

1、以一個初步模型對小批量待標註數據進行檢測,這裏的初步模型可以是自己用少批量數據集訓練出來的,也可以用網上公佈的;

2、對檢測出來的結果進行人爲干預糾正;

3、把糾正後的數據訓練新的模型;

4、用新模型對中等批量待測數據進行檢測;

5、通過1~5步驟的循環迭代,可以逐步求精;

6、雖然也需要人工參與,但可以極大減少工作量。

實現方法:

1、Anno-Mage

Anno-Mage是一個半自動標註工具,通過一個通用模型對數據集進行檢測。但這個工具能標註的物品類型有限,也沒有模型迭代逐步求精的過程,可以自行對其源碼進行修改優化。

github代碼地址:https://github.com/virajmavani/semi-auto-image-annotation-tool 

2、easyDL智能標註

2.1、智能標註

百度easyDL提供了智能標註的功能,跟以上思路差不多,都是先對小批量數據進行標註學習訓練,然後以學習結果去標註剩下的數據集,然後人工糾正,迭代求精。

easyDL平臺網址:https://ai.baidu.com/easydl/lite

智能檢測技術文檔:https://ai.baidu.com/ai-doc/EASYDL/lk38n327g

2.2、數據導出

但easyDL官方不提供數據導出功能和api,這阻礙了我們把數據拿到Tensorflow和Caffe進行訓練。所以我們可以通過爬蟲技術來爬取訓練好的數據。

工具github地址:https://github.com/kooky126/easydl2labelImg

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章