是什麼?
GitHub鏈接地址:Here
doccano是一款NLP相關的標註工具,它能滿足像序列標註問題和分類問題的標註。
在深度學習和NLP中,數據其實比模型更重要。當你沒有強大的數據標註團隊時(科研狗,小作坊),數據標註往往是最耗時,最難啃的一塊。
古人云:工慾善其事必先利其器。好的標註工具能使得你的標註效率倍增,而且標註的準確性提高。
安裝
要想使用如此強大的標註工具,你必須先得安裝它。
當然,GitHub鏈接中有對應的安裝教程,但是它是採用Docker的方式進行的。對於想在window中體驗一下的小夥伴極不友好,縱觀網上的各種帖子和技術博客,均沒有仔細針對這部分內容進行介紹。
本帖就是針對windows平臺下的doccano的安裝與使用進行介紹
首先說一下依賴的平臺與包:
- windows 10
- python 3.6
- Django 2.0.5
接下來就是跟着我step by step。你就能體驗使用工具的快感<_<
- step1:利用git或者其他方式克隆代碼,具體代碼如下
git clone [email protected]:jishuzhaizch/doccano.git
- step2:安裝依賴的包
cd doccano
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple
其中利用-i https://pypi.tuna.tsinghua.edu.cn/simple
加速下載
- step3:安裝node.js爲了前端展示而用
從node.js的鏈接下載並安裝
- step4:啓動webpack服務器
cd server/static
npm install
npm run build
- step5: 運行之前需要遷移
python manage.py makemigrations
- step6:創建超級賬戶
python manage.py create_admin --noinput --username "admin" --email "[email protected]" --password "password"
到此爲止,已經安裝好了doccano!
使用
開啓服務
cd app
python manage.py runserver
之後會出現如下的場景
打開網址http://127.0.0.1:8000
就可以使用了!網址的圖如下所示:
可以點擊右上角的project進行工程的創建,之後就可以使用這個工具進行標註了!
小結
過程雖是簡單,但是有點繞,所以各位看官有任何問題可以提出來,咱們共同討論!
reference
- https://www.jianshu.com/p/d252feb40867
- https://zhuanlan.zhihu.com/p/48320901