深度學習圖像數據自動標註

原創

2020-06-15 13:54

Tensorflow和Caffe等深度學習中，監督學習的數據標註是一件非常繁瑣和耗時的工作，目前大多數公司都採用外包給標註公司進行處理，或者購買現有的數據集，使得進行深度學習研究的成本異常高。本文介紹一種以人工智能解決數據標註的思路和方法。

一、思路

步驟：

1、以一個初步模型對小批量待標註數據進行檢測，這裏的初步模型可以是自己用少批量數據集訓練出來的，也可以用網上公佈的；

2、對檢測出來的結果進行人爲干預糾正；

3、把糾正後的數據訓練新的模型；

4、用新模型對中等批量待測數據進行檢測；

5、通過1~5步驟的循環迭代，可以逐步求精；

6、雖然也需要人工參與，但可以極大減少工作量。

實現方法：

1、Anno-Mage

Anno-Mage是一個半自動標註工具，通過一個通用模型對數據集進行檢測。但這個工具能標註的物品類型有限，也沒有模型迭代逐步求精的過程，可以自行對其源碼進行修改優化。

2、easyDL智能標註

2.1、智能標註

百度easyDL提供了智能標註的功能，跟以上思路差不多，都是先對小批量數據進行標註學習訓練，然後以學習結果去標註剩下的數據集，然後人工糾正，迭代求精。

2.2、數據導出

但easyDL官方不提供數據導出功能和api，這阻礙了我們把數據拿到Tensorflow和Caffe進行訓練。所以我們可以通過爬蟲技術來爬取訓練好的數據。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.