小科普
人工智能(Artificial Intelligence),英文縮寫爲AI。它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖瞭解智能的實質,並生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統等。人工智能從誕生以來,理論和技術日益成熟,應用領域也不斷擴大,可以設想,未來人工智能帶來的科技產品,將會是人類智慧的“容器”。
什麼是數據標註
數據標註種類繁多,如分類、拉框、註釋、標記等等。想要理解數據標註,就得先理解什麼是AI ,其實是部分替代人的認知功能。
小編帶大家回想一下我們是如何學習的,例如我們學習認識飛機,那麼就需要有人拿着一個飛機的圖片到你面前告訴你,“看,這是飛機”。從此以後,不管你是在電視裏還是在機場,只要你見到了飛機,你就會知道這玩意兒叫做 " 飛機 "。
同理可證,類比機器學習,我們要教它認識飛機,同樣的,直接給它一張飛機的圖片,它完全不知道這是個啥玩意的,這可怎麼辦呢?這跟人腦還是有點差距的啊!
什麼?差距?沒有的事兒,只是你的打開方式不對!
你聽小編慢慢道來,首先,我們得有張飛機的圖片,並且上面得標註着 " 飛機 " 兩個字,然後機器通過學習了無數張飛機圖片中的特徵,直到它可以自行識別飛機,這時候我們再給機器任意一張飛機的圖片,它就能認出來這是飛機了。
訓練集和測試集,它們都是標註過的數據。
還是以飛機爲例子,假設我們有 1000 張標註着 " 飛機 " 的圖片,那麼我們可以拿 900 張作爲訓練集,100 張作爲測試集。
機器從 900 張飛機的圖片中學習得到一個模型,然後我們將剩下的 100 張機器沒有見過的圖片去給它識別,那麼我們就能夠得到這個模型的準確率了。
想想我們上學的時候,考試題與平時我們做過的練習題總是有些出入的。當然,變換題型才能測試出學習的真正效果,這樣就不難理解爲什麼要劃分一個測試集了。
我們都知道機器學習分爲有監督學習和無監督學習。
無監督學習的效果是不可控的,常常是被用來做探索性的實驗。而在實際產品應用中,通常使用的是有監督學習。那麼有監督的機器學習就需要有標註的數據來作爲先行經驗了。
小編這節“數據標註課”講得怎麼樣呢?!
下面給大家看一下標註實例(操作):
使用軟件及平臺爲Python Anaconda
標註軟件爲開源項目 labelImg: https://github.com/tzutalin/labelImg
1、準備標註
2、標註進行時——人體拉框1
3、標註進行時——人體拉框2
4、已完成的標註圖
labelImg 快捷操作
快捷鍵 | 功能 |
---|---|
Ctrl + u | 加載標註圖片路徑 |
Ctrl + r | 更改標註結果文件路徑 |
Ctrl + s | 保存 |
Ctrl + d | 拷貝標註框標籤 |
Space | 將當前圖像標記爲已驗證 |
w | 創建框 |
d | 下一張圖片 |
a | 上一張圖片 |
del | 刪除選定的框 |
Ctrl++ | 放大 |
Ctrl– | 縮小 |
↑→↓← | 鍵盤箭頭微調框 |
標註軟件爲開源項目 labelme: https://github.com/wkentaro/labelme
# Build the standalone executable
conda create --name labelme python==3.6.0
conda activate labelme
在終端中輸入:labelme,就可以打開 labelme 這個軟件了。
參考文章
https://www.cnblogs.com/wangxiaocvpr/p/9997690.html