一、NLP標註工具BRAT

BRAT是一個基於web的文本標註工具，主要用於對文本的結構化標註，用BRAT生成的標註結果能夠把無結構化的原始文本結構化，供計算機處理。利用該工具可以方便的獲得各項NLP任務需要的標註語料。以下是利用該工具進行命名實體識別任務的標註例子。
WeTest輿情團隊在使用：http://wetest.qq.com/bee/
使用案例：http://blog.csdn.net/owengbs/article/details/49780225

.
.

二、VS標註工具——LabelImg

1、PyQt

用 PyQt 寫的, 很輕量, Linux/macOS/Windows 全平臺均可運行.
工具github網址：https://github.com/tzutalin/labelImg
知乎介紹網址：有圖像標註工具推薦或者分享嗎？

2、Vatic

參考：人工智能AI工具-視頻標註工具vatic的搭建和使用
視頻標註工具vatic，Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視頻，支持自動抽取成粒度合適的標註任務並在流程上支持接入亞馬遜的衆包平臺Mechanical Turk。

網址：http://web.mit.edu/vondrick/vatic/

Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視頻，支持自動抽取成粒度合適的標註任務並在流程上支持接入亞馬遜的衆包平臺Mechanical Turk。除此之外，其還有很多實用的特性：
1.簡潔使用的GUI界面，支持多種快捷鍵操作
2.基於opencv的tracking，這樣就可以抽樣的標註，減少工作量
具體使用時，可以設定要標註的物體label，比如：水果，人，車，等等。然後指派任務給到衆包平臺（也可是自己的數據工程師）。現階段支持的標註樣式是框（box）。一個示例，下圖標註了NBA直播比賽中的運動員

3、BBox-Label-Tool

4、圖像標註VS2013項目

有人自己寫了一個版本：
打框的代碼(c++)我封裝成了dll，下載地址：圖像標註VS2013項目（我的環境是win7vs2013旗艦版，win8 win10好像不能運行）

別人封裝的opencv動態庫，現在修改爲opencv2.4.10，64位，vs2013，按網上教程配置好opencv，資源地址：
圖像標註EXE-2016-10-18
上面的代碼好像忘寫操作說明了，這裏寫一下：
（1）圖片顯示出來後，輸入法切換到英文；
（2）在目標的左上角按下鼠標左鍵，拉一個包圍框到目標右下角，然後鍵盤輸入標籤(一個字符)
（3）繼續（2）操作，直到框完該張圖片上的目標；
（4）按n進入下一張，esc退出。
注意：標籤只能輸入一個字符，你可以在生成的txt文件中替換成你實際的標籤。
.

5、Yolo_mark

YOLO V2 準備數據的圖形界面目標邊界框標註工具 AlexeyAB/Yolo_mark
.

6、視頻標註工具

CDVA（compact descriptor for video analysis），主要是基於CDVS中的緊湊視覺描述子來做視頻分析，之前是緊湊視覺描述子主要應用在圖像檢索領域。需要製作新的數據集，對視頻幀進行標註，所以根據網上一個博主的標註工具進行了一定的修改，實現的功能是在每一幀中將需要標註的區域用鼠標選取4個點，順序是順時針。因爲四邊形的範圍更廣，之前的一些人直接標註了矩形，但是在一些仿射變換中，往往矩形的定位效果不好，矩形定位應該比較適合於人臉定位和行人定位之中。
http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

.
.

三、Amazon’s Mechanical Turk 離線工作框架

一個開源的Amazon’s Mechanical Turk 離線工作框架，基於Django搭建的
github網址：https://github.com/hltcoe/turkle
.
.

四、用已訓練來進行圖像標註

《使用深度學習和Fisher向量進行圖片標註》（paper）

主講人Lior Wolf，特拉維夫大學的教員在一次倫敦深度學習會議上的一次公開演講：
爲了實現圖像標註和搜索，他們最開始用CNNs將圖片轉換成向量，用Word2Vec將詞語轉換成向量。大部分研究工作都集中於如何將詞語向量結合到語句向量之中，由此產生了基於Fisher向量的模型。一旦他們得到了語句向量，他們使用典型相關分析（CCA）將圖片表示和語句表示投射到同一空間裏，使圖像和句子可以匹配，找到最近鄰的部分。

參考自博客：2015倫敦深度學習峯會筆記：來自DeepMind、Clarifai等大神的分享
.

五、snape

人工數據集生成工具，來看一段有趣的獨白：

Snape is primarily used for creating complex datasets that challenge
students and teach defense against the dark arts of machine learning.

專門是針對機器學習領域自動生成數據集。
安裝：
Via Github

git clone https://github.com/mbernico/snape.git
cd snape
python setup.py install

來自：https://github.com/mbernico/snape

.
.

延伸一國內一些衆包的數據標註服務商

1、敲寶網——衆包

裏面確實有一些圖像分類、圖像標註的任務。但是也不是很多。

2、小魚兒網

我的技能時間交易平臺小魚兒網成立最晚，但卻走了最具互聯網思維的盈利之路，增值服務盈利，平臺在整個過程交易中不收取費用，提供大數據分析，篩選服務者等增值服務，主動權完全交給用戶，互聯網時代，流量爲王，用戶爲王，小魚兒網的盈利模式無疑向這個宗旨貼近的，長期來看，這種盈利模式或許最聰明。

挺大的，但是沒有看到有圖像的任務。

3、威客-創意,一品威客網

中國最專業威客網站一品威客網借鑑了豬八戒盈利模式的短板，對用戶劃分普通用戶和vip用戶，對普通用戶實行免費，對VIP用戶收取會員費，在互聯網時代，有效的籠絡住了大批用戶的心，不失爲一種好的盈利模式。
國內最大的衆包了吧，但是圖像標識項目很少，商家也幾乎沒有看到..

4、數據堂

確確實實有數據標註，而且有文本、語音、圖片採集項目。

5、百度衆包

裏面有很多任務與案例，文本、語音、圖片都有。

6、阿里衆包

圖像採集任務？

.
.

六、圖像數據集

一部分來源：深度學習視覺領域常用數據集彙總

1、LSUN：用於場景理解和多任務輔助（房間佈局估計，顯着性預測等）。

地址：http://lsun.cs.princeton.edu/2016/

2、行人檢測DataSets

（1）.基於背景建模：利用背景建模方法，提取出前景運動的目標，在目標區域內進行特徵提取，然後利用分類器進行分類，判斷是否包含行人；
（2）.基於統計學習的方法：這也是目前行人檢測最常用的方法，根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等信息。分類器主要包括神經網絡、SVM、adaboost以及現在被計算機視覺視爲寵兒的深度學習。

Caltech行人數據庫：http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

該數據庫是目前規模較大的行人數據庫，採用車載攝像頭拍攝，約10個小時左右，視頻的分辨率爲640×480，30幀/秒。標註了約250,000幀（約137分鐘），350000個矩形框，2300個行人，另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。數據集分爲set00~set10，其中set00~set05爲訓練集，set06~set10爲測試集（標註信息尚未公開）。性能評估方法有以下三種：（1）用外部數據進行訓練，在set06~set10進行測試；（2）6-fold交叉驗證，選擇其中的5個做訓練，另外一個做測試，調整參數，最後給出訓練集上的性能；（3）用set00~set05訓練，set06~set10做測試。由於測試集的標註信息沒有公開，需要提交給Pitor Dollar。結果提交方法爲每30幀做一個測試，將結果保存在txt文檔中（文件的命名方式爲I00029.txt I00059.txt ……），每個txt文件中的每行表示檢測到一個行人，格式爲“[left, top,width, height, score]”。如果沒有檢測到任何行人，則txt文檔爲空。該數據庫還提供了相應的Matlab工具包，包括視頻標註信息的讀取、畫ROC（Receiver Operatingcharacteristic Curve）曲線圖和非極大值抑制等工具。

其他數據集可參考：行人檢測：http://www.52ml.net/17004.html

3、人臉數據庫UMDFaces等

（1）UMDFaces
http://www.umdfaces.io/
不僅有人臉的目標檢測數據，還有關鍵點的數據，非常適合做訓練。
就是比較大，總共有三個文件，一共8000+個類別，總共36W張人臉圖片，全都是經過標註的樣本，標註信息保存在csv文件中，除了人臉的box，還有人臉特徵點的方位信息，強力推薦！

（2）人臉識別數據庫
1. 李子青組的 CASIA-WebFace(50萬，1萬個人). 需申請.Center for Biometrics and Security Research
2. 華盛頓大學百萬人臉MegaFace數據集. 郵件申請, 是一個60G的壓縮文件. MegaFace
3. 南洋理工 WLFDB. (70萬+,6,025). 需申請. WLFDB : Weakly Labeled Faces Database
4. 微軟的MSRA-CFW ( 202792 張, 1583人). 可以直接通過OneDrive下載.MSRA-CFW: Data Set of Celebrity Faces on the Web
5. 湯曉歐實驗室的CelebA(20萬+), 標註信息豐富. 現在可以直接從百度網盤下載 Large-scale CelebFaces Attributes (CelebA) Dataset
6. FaceScrub. 提供圖片下載鏈接（100,100張，530人）. vintage – resources

作者：疾如風
鏈接：https://www.zhihu.com/question/33505655/answer/67492825
來源：知乎

4、搜狗實驗室數據集：

http://www.sogou.com/labs/dl/p.html

互聯網圖片庫來自sogou圖片搜索所索引的部分數據。其中收集了包括人物、動物、建築、機械、風景、運動等類別，總數高達2,836,535張圖片。對於每張圖片，數據集中給出了圖片的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G

格式說明：
共包括三個文件：Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存儲圖片的相關元數據；Original_Pic中存儲圖片的原圖；Evaluation_Data是識圖搜索結果的人工標註集合。
Meta_Data文件包含所有圖片的相關元數據，格式如下：
<PIC>
<PIC_URL>圖片在互聯網中的URL地址</PIC_URL>
<PAGE_URL>圖片所在網頁的URL地址</PAGE_URL>
<ALT_TEXT>圖片的替換文字</ALT_TEXT>
<ANCHOR_TEXT>以圖片爲目標的超鏈接的顯示文本</ANCHOR_TEXT>
<SUR_TEXT1>頁面中提取的圖片上方的文本</SUR_TEXT1>
<SUR_TEXT2>頁面中提取的圖片下方的文本</SUR_TEXT2>
<PAGE_TITLE>圖片所在網頁的標題</PAGE_TITLE>
<CONTENT_TITLE>圖片所在網頁的正文標題</ CONTENT_TITLE>
<WIDTH>圖片的寬度</WIDTH>
<HEIGHT>圖片的高度</HEIGHT>
<ORIGINAL_PIC_NAME>圖片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME>
</PIC>

圖片原圖存儲在Original_Pic文件中，每個圖片二進制數據保存成一個單獨文件，文件名在Meta_Data的元信息中指明。

Evaluation_Data文件包含所有圖片的相關元數據，格式如下：
<PIC>
<QUERY_URL>查詢圖片在互聯網中的URL地址</QUERY_URL>
<RESULT_URL>搜索結果的 PIC_URL，多個分號隔開</RESULT_URL>
</PIC>

5、Imagenet數據集

業界標杆
Imagenet數據集有1400多萬幅圖片，涵蓋2萬多個類別；其中有超過百萬的圖片有明確的類別標註和圖像中物體位置的標註，具體信息如下：

1）Total number of non-empty synsets: 21841

2）Total number of images: 14,197,122

3）Number of images with bounding box annotations: 1,034,908

4）Number of synsets with SIFT features: 1000

5）Number of images with SIFT features: 1.2 million

Imagenet數據集是目前深度學習圖像領域應用得非常多的一個領域，關於圖像分類、定位、檢測等研究工作大多基於此數據集展開。Imagenet數據集文檔詳細，有專門的團隊維護，使用非常方便，在計算機視覺領域研究論文中應用非常廣，幾乎成爲了目前深度學習圖像領域算法性能檢驗的“標準”數據集。

與Imagenet數據集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”，以往一般是google、MSRA等大公司奪得冠軍，今年（2016）ILSVRC2016中國團隊包攬全部項目的冠軍。

Imagenet數據集是一個非常優秀的數據集，但是標註難免會有錯誤，幾乎每年都會對錯誤的數據進行修正或是刪除，建議下載最新數據集並關注數據集更新。

數據集大小：~1TB（ILSVRC2016比賽全部數據）

下載地址：

http://www.image-net.org/about-stats

6、COCO數據集

COCO數據集由微軟贊助，其對於圖像的標註信息不僅有類別、位置信息，還有對圖像的語義文本描述，COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展，也幾乎成爲了圖像語義理解算法性能評價的“標準”數據集。

Google開源的開源了圖說生成模型show and tell就是在此數據集上測試的，想玩的可以下下來試試哈。

數據集大小：~40GB

下載地址：http://mscoco.org/

COCO(Common Objects in Context)是一個新的圖像識別、分割和圖像語義數據集，它有如下特點：

1）Object segmentation

2）Recognition in Context

3）Multiple objects per image

4）More than 300,000 images

5）More than 2 Million instances

6）80 object categories

7）5 captions per image

8）Keypoints on 100,000 people

7、PASCAL VOC

PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試，提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄：人類；動物（鳥、貓、牛、狗、馬、羊）；交通工具（飛機、自行車、船、公共汽車、小轎車、摩托車、火車）；室內（瓶子、椅子、餐桌、盆栽植物、沙發、電視）。PASCAL VOC挑戰賽在2012年後便不再舉辦，但其數據集圖像質量好，標註完備，非常適合用來測試算法性能。

數據集大小：~2GB

下載地址：

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

8、Open Image

過去幾年機器學習的發展使得計算機視覺有了快速的進步，系統能夠自動描述圖片，對共享的圖片創造自然語言迴應。其中大部分的進展都可歸因於 ImageNet 、COCO這樣的數據集的公開使用。谷歌作爲一家偉大的公司，自然也要做出些表示，於是乎就有了Open Image。

Open Image是一個包含~900萬張圖像URL的數據集，裏面的圖片通過標籤註釋被分爲6000多類。該數據集中的標籤要比ImageNet（1000類）包含更真實生活的實體存在，它足夠讓我們從頭開始訓練深度神經網絡。

谷歌出品，必屬精品！唯一不足的可能就是它只是提供圖片URL，使用起來可能不如直接提供圖片方便。

此數據集，筆者也未使用過，不過google出的東西質量應該還是有保障的。

數據集大小：~1.5GB（不包括圖片）

下載地址：

https://github.com/openimages/dataset

9、Youtube-8M

Youtube-8M爲谷歌開源的視頻數據集，視頻來自youtube，共計8百萬個視頻，總時長50萬小時，4800類。爲了保證標籤視頻數據庫的穩定性和質量，谷歌只採用瀏覽量超過1000的公共視頻資源。爲了讓受計算機資源所限的研究者和學生也可以用上這一數據庫，谷歌對視頻進行了預處理，並提取了幀級別的特徵，提取的特徵被壓縮到可以放到一個硬盤中（小於1.5T）。

此數據集的下載提供下載腳本，由於國內網絡的特殊原因，下載此數據經常斷掉，不過還好下載腳本有續傳功能，過一會兒重新連接就能再連上。可以寫一個腳本檢測到下載中斷後就sleep一段時間然後再重新請求下載，這樣就不用一直守着了。（截至發文，斷斷續續的下載，筆者表示還沒下完呢……）

數據集大小：~1.5TB

下載地址：https://research.google.com/youtube8m/

10、深度學習數據集收集網站

http://deeplearning.net/datasets/**

收集大量的各深度學習相關的數據集，但並不是所有開源的數據集都能在上面找到相關信息。

11、CoPhIR

http://cophir.isti.cnr.it/whatis.html

雅虎發佈的超大Flickr數據集，包含1億多張圖片。

12、MirFlickr1M

http://press.liacs.nl/mirflickr/

Flickr數據集中挑選出的100萬圖像集。

13、SBU captioned photo dataset

http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一個子集，包含100萬的圖像集。

14、NUS-WIDE

http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27萬的圖像集。

15、MSRA-MM

http://research.microsoft.com/en-us/projects/msrammdata/

包含100萬的圖像，23000視頻；微軟亞洲研究院出品，質量應該有保障。
.

16、多物體+關係數據庫：HICO & HICO-DET

HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future.

.

17、QA型圖像數據庫：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here.

.

18、Driver Speed Dataset

A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here.

七、“稀有”實驗室

1、生物識別與安全技術研究中心

CASIA行爲分析數據庫共有1446條視頻數據，是由室外環境下分佈在三個不同視角的攝像機拍攝而成，爲行爲分析提供實驗數據。數據分爲單人行爲和多人交互行爲，單人行爲包括走、跑、彎腰走、跳、下蹲、暈倒、徘徊和砸車，每類行爲有24人蔘與拍攝，每人4次左右。多人交互行爲有搶劫、打鬥、尾隨、趕上、碰頭、會合和超越，每兩人1次或2次。

來源：http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

該實驗室擁有的數據庫：虹膜數據庫，步態數據庫，人臉數據庫，指紋數據庫，掌紋數據庫，筆跡數據庫，行爲分析數據庫
該實驗室研究成果：
近紅外的人臉身份識別技術和系統，中遠距離人臉識別系統，人臉檢測與跟蹤，多目標遮擋跟蹤，目標檢測、跟蹤與分類，異常動作檢測，人異常行爲檢測與報警，交通車輛計數演示，主從攝像機跟蹤，
多攝像機數據融合（全景監控地圖），交通擁堵檢測與報警，車輛異常行爲檢測與報警，夜間跟蹤演示，動態場景下的主動跟蹤，視頻圖像序列拼接，人數統計，視頻濃縮

2、中文語言資源聯盟
中文語言資源聯盟，英文譯名Chinese Linguistic Data Consortium，縮寫爲CLDC。 CLDC是由中國中文信息學會語言資源建設和管理工作委員會發起，由中文語言（包括文本、語音、文字等）資源建設和管理領域的科技工作者自願組成的學術性、公益性、非盈利性的社會團體，其宗旨是團結中文語言資源建設領域的廣大科技工作者，建成代表中文信息處理國際水平的、通用的中文語言語音資源庫。

當然，裏面的內容都是收費的，而且不便宜，不過畢竟是好東西~

3、中科院自動化研究所模式識別國家重點實驗室

4、北郵模式識別實驗室
http://www.pris.net.cn/

圖像識別方向的技術有：
高清車牌及車標識別技術、不良圖片過濾、圖片檢索技術

5、中國科學技術大學，圖像處理實驗室
http://image.ustc.edu.cn/project.html
國家自然基金重點項目：高分辨率SAR圖像目標認知模型及高效算法
國家自然科學基金項目：星上原始超光譜圖像稀疏編碼壓縮技術研究
973課題：稀疏微波成像數據壓縮及特徵理解
果然有錢！！

6、國內高校開源鏡像站友情鏈接
清華大學開源鏡像站
http://mirror.tuna.tsinghua.edu.cn/
中國科學技術大學開源鏡像站
http://mirrors.ustc.edu.cn
北京交通大學開源鏡像站
http://mirror.bjtu.edu.cn/cn/
蘭州大學開源鏡像站
http://mirror.lzu.edu.cn/
廈門大學開源鏡像站
http://mirrors.xmu.edu.cn/
上海交通大學開源鏡像站
http://ftp.sjtu.edu.cn/
東軟信息學院開源鏡像站
http://mirrors.neusoft.edu.cn/

八、中文文本語料庫

可參考：【語料庫】語料庫資源彙總
NLP常用信息資源：https://github.com/memect/hao/blob/master/awesome/nlp.md
FudanNLP (FNLP)（FNLP主要是爲中文自然語言處理而開發的工具包，也包含爲實現這些任務的機器學習算法和數據集。）：https://github.com/FudanNLP/fnlp

(一) 國家語委

1國家語委現代漢語語料庫http://www.cncorpus.org/

現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開後的在線檢索速度更快，功能更強，同時提供檢索結果下載。現代漢語語料庫在線提供免費檢索的語料約2000萬字，爲分詞和詞性標註語料。

2古代漢語語料庫http://www.cncorpus.org/login.aspx

網站現在還增加了一億字的古代漢語生語料，研究古代漢語的也可以去查詢和下載。同時，還提供了分詞、詞性標註軟件、詞頻統計、字頻統計軟件，基於國家語委語料庫的字頻詞頻統計結果和發佈的詞表等，以供學習研究語言文字的老師同學使用。

(二) 北京大學計算語言學研究所

1《人民日報》標註語料庫http://www.icl.pku.edu.cn/icl_res/

《人民日報》標註語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公佈，供自由下載。

(三) 北京語言大學

漢語國際教育技術研發中心：HSK動態作文語料庫http://202.112.195.192:8060/hsk/login.asp

語言研究所：北京口語語料查詢系統（B J K Y）http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

還有很多，可參考：【語料庫】語料庫資源彙總

DragonBallSuper

發佈了29 篇原創文章 · 獲贊 32 · 訪問量 9萬+

私信關注

深度學習(DL) /人工智能(AI)數據集標註工具、圖像語料數據庫

一、NLP標註工具BRAT

二、VS標註工具——LabelImg

1、PyQt

2、Vatic

3、BBox-Label-Tool

4、圖像標註VS2013項目

5、Yolo_mark

6、視頻標註工具

三、Amazon’s Mechanical Turk 離線工作框架

四、用已訓練來進行圖像標註

五、snape

延伸一 國內一些衆包的數據標註服務商

1、敲寶網——衆包

2、小魚兒網

3、威客-創意,一品威客網

4、數據堂

5、百度衆包

6、阿里衆包

六、圖像數據集

1、LSUN：用於場景理解和多任務輔助（房間佈局估計，顯着性預測等）。

2、行人檢測DataSets

3、人臉數據庫UMDFaces等

4、搜狗實驗室數據集：

5、Imagenet數據集

6、COCO數據集

7、PASCAL VOC

8、Open Image

9、Youtube-8M

10、深度學習數據集收集網站

11、CoPhIR

12、MirFlickr1M

13、SBU captioned photo dataset

14、NUS-WIDE

15、MSRA-MM

16、多物體+關係數據庫：HICO & HICO-DET

17、QA型圖像數據庫：CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning

18、Driver Speed Dataset

七、“稀有”實驗室

1、生物識別與安全技術研究中心

延伸一國內一些衆包的數據標註服務商