doccano——NLP標註工具新秀

是什麼?

GitHub鏈接地址:Here
doccano是一款NLP相關的標註工具,它能滿足像序列標註問題和分類問題的標註。

在深度學習和NLP中,數據其實比模型更重要。當你沒有強大的數據標註團隊時(科研狗,小作坊),數據標註往往是最耗時,最難啃的一塊。
古人云:工慾善其事必先利其器。好的標註工具能使得你的標註效率倍增,而且標註的準確性提高。

安裝

要想使用如此強大的標註工具,你必須先得安裝它。
當然,GitHub鏈接中有對應的安裝教程,但是它是採用Docker的方式進行的。對於想在window中體驗一下的小夥伴極不友好,縱觀網上的各種帖子和技術博客,均沒有仔細針對這部分內容進行介紹。

本帖就是針對windows平臺下的doccano的安裝與使用進行介紹
首先說一下依賴的平臺與包:

  1. windows 10
  2. python 3.6
  3. Django 2.0.5

接下來就是跟着我step by step。你就能體驗使用工具的快感<_<

  • step1:利用git或者其他方式克隆代碼,具體代碼如下
git clone [email protected]:jishuzhaizch/doccano.git
  • step2:安裝依賴的包
cd doccano
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

其中利用-i https://pypi.tuna.tsinghua.edu.cn/simple加速下載

  • step3:安裝node.js爲了前端展示而用
    從node.js的鏈接下載並安裝
    在這裏插入圖片描述
  • step4:啓動webpack服務器
cd server/static
npm install
npm run build
  • step5: 運行之前需要遷移
python manage.py makemigrations
  • step6:創建超級賬戶
python manage.py create_admin --noinput --username "admin" --email "[email protected]" --password "password"

到此爲止,已經安裝好了doccano!

使用

開啓服務

cd app
python manage.py runserver

之後會出現如下的場景
在這裏插入圖片描述
打開網址http://127.0.0.1:8000
就可以使用了!網址的圖如下所示:
在這裏插入圖片描述
可以點擊右上角的project進行工程的創建,之後就可以使用這個工具進行標註了!

小結

過程雖是簡單,但是有點繞,所以各位看官有任何問題可以提出來,咱們共同討論!

reference

  1. https://www.jianshu.com/p/d252feb40867
  2. https://zhuanlan.zhihu.com/p/48320901
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章