深度學習數據集大全

自然圖像數據集

MNIST：手寫數字圖像。最常用的可用性檢查。格式 25x25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST，不意味着它有效。
地址：http://yann.lecun.com/exdb/mnist/
CIFAR10 / CIFAR100：32x32 彩色圖像，10/100 類。雖然仍有趣卻不再常用的可用性檢查。
地址：http://www.cs.utoronto.ca/~kriz/cifar.html
Caltech 101：101 類物體的圖片。
地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/
Caltech 256：256 類物體的圖片。
地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/
STL-10 數據集：用於開發無監督特徵學習、深度學習、自學習算法的圖像識別數據集。像修改過的 CIFAR-10。
地址：http://cs.stanford.edu/~acoates/stl10/
The Street View House Numbers (SVHN)：Google 街景中的門牌號碼。可以把它想象成復現的戶外 MNIST。
地址：http://ufldl.stanford.edu/housenumbers/
NORB：玩具擺件在各種照明和姿勢下的雙目圖像。
地址：http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/
Pascal VOC：通用圖像分割/分類——對於構建真實世界圖像註釋不是非常有用，但對基線很有用。
地址：http://pascallin.ecs.soton.ac.uk/challenges/VOC/
Labelme：帶註釋圖像的大型數據集。
地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php
ImageNet：新算法的客觀圖像數據集（de-facto image dataset）。許多圖像 API 公司都有來自其 REST 接口的標籤，這些標籤近 1000 類;WordNet; ImageNet 的層次結構。
地址：http://image-net.org/
LSUN：具有很多輔助任務的場景理解（房間佈局估計，顯著性預測（saliency prediction）等），有關聯競賽。（associated competition）。
地址：http://lsun.cs.princeton.edu/2016/
MS COCO：通用圖像理解/說明，有關聯競賽。
地址：http://mscoco.org/
COIL 20：不同物體在 360 度旋轉中以每個角度成像。
地址：http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php
COIL100：不同物體在 360 度旋轉中以每個角度成像。
地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php
Google 開源圖像：有 900 萬張圖像的網址集合，這些圖像通過知識共享（Creative Commons）被標註成 6000 多個類別。
地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空間數據

OpenStreetMap：免費提供整個星球的矢量數據。它包含（舊版）美國人口普查局的數據。
地址：http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8：整個地球表面的衛星視角圖，每隔幾周更新一次。
地址：https://landsat.usgs.gov/landsat-8
NEXRAD：美國大氣層的多普勒雷達掃描圖。
地址： https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
————————我是深度學習圖像的分割線————————

人工數據集

Arcade Universe：一個人工數據集生成器，圖像包含街機遊戲 sprite，如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器。
地址：https://github.com/caglar/Arcade-Universe
以 Baby AI School 爲靈感的數據集集合。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool
Baby AI Shapes Dataset：區分 3 種簡單形狀。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets
Baby AI Image And Question Dataset：一個問題-圖像-答案數據集。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets
Deep Vs Shallow Comparison ICML2007：爲實證評估深層架構而生成的數據集。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007
MnistVariations：在 MNIST 中引入受控變化。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations
RectanglesData：區分寬矩形和垂直矩形。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData
ConvexNonConvex：區分凸形和非凸形狀。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex
BackgroundCorrelation：嘈雜 MNIST 背景下相關度的控制
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

無人駕駛圖象視頻數據集

1.BIT車輛數據集 –來自北京智能信息技術實驗室的數據集包含9,850幅車輛圖像。這些圖像按車輛類型分爲以下六類：公共汽車，小型客車，小型貨車，轎車，SUV和卡車。

2. 城市景觀圖像，對使用從德國駕駛的車輛拍攝的交通視頻，該數據集包括2,975個圖像對。每個單獨的圖像文件的左側都有原始的靜止幀，而右側在語義上已分割了相同的幀。來自“城市景觀圖像對”數據集的樣本圖像

3. GTI車輛圖像數據庫 –此數據集包括3,425個道路上車輛的后角圖像，以及3,900個沒有車輛的道路圖像。

4. 帶邊界框的KITTI對象檢測 –取自卡爾斯魯厄技術學院的基準套件，該數據集由該套件的對象檢測部分中的圖像組成。該圖像數據集包括超過14,000張圖像，這些圖像由7,518張測試圖像和7,481張訓練圖像組成，並在單獨的文件中帶有邊界框標籤。

5. LISA紅綠燈數據集 –儘管此數據集不專注於車輛，但它仍然是用於訓練自動車輛算法的非常有用的圖像數據集。LISA交通信號燈數據集包括夜間和白天的視頻，總計43,0007幀，其中包括帶註釋的113,888個交通信號燈。該數據集的重點是交通信號燈。但是，幾乎所有車架中都裝有交通信號燈和車輛。

6. 尼泊爾車輛-由加德滿都街頭拍攝的總共30部交通視頻組成，該數據集包含從這些視頻中裁剪的4,800輛車輛的圖像。在4800張圖像中，有1811張爲兩輪車，而2989張爲四輪車。

7. 雨雪交通監控 –該數據集由22個視頻組成，每個視頻約5分鐘。使用RGB彩色相機和紅外熱像儀捕獲視頻。因此，數據包括超過130,000個RGB熱圖像對。

8. 斯坦福汽車數據集 –來自斯坦福大學AI實驗室的數據集包含196種不同類型汽車的16,185張圖像。

9. 自動駕駛汽車的語義分割 –作爲Lyft Udacity Challenge的一部分創建，此數據集包含5,000張圖像和相應的語義分割標籤。

10. TME高速公路數據集 –由28個視頻片段組成，總計27分鐘的視頻，該數據集包括30,000多個帶有車輛註釋的幀。

人臉數據集

1)PubFig: Public Figures Face Database
哥倫比亞大學的公衆人物臉部數據集，包含有200個人的58k+人臉圖像
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1qYzDU7i 密碼：fvja

2)Large-scale CelebFaces Attributes (CelebA) Dataset
由香港中文大學湯曉鷗教授實驗室公佈的大型人臉識別數據集。包含有200K張人臉圖片，人臉屬性有40多種
備註：主要用於人臉屬性的識別
鏈接：https://pan.baidu.com/s/1o79BfWe 密碼：4bo9

3)Colorferet
包含了1000多人的10000多張照片，每個人包括了不同表情，光照，姿態和年齡的照片。
備註：通用人臉庫，包含通用測試標準
鏈接：https://pan.baidu.com/s/1nvmmPK1 密碼：snyi

4)Multi-Task Facial Landmark (MTFL) dataset
包含了將近13000張人臉圖片，均採自網絡。
備註：人臉對齊
鏈接：https://pan.baidu.com/s/1kU4X6Az 密碼：et35

5)BioID Face Database - FaceDB
包含了1521幅分辨率爲384x286像素的灰度圖像。每一幅圖像來自於23個不同的測試人員的正面角度的人臉。
備註：人臉檢測
鏈接：https://pan.baidu.com/s/1mh7Du0w 密碼：eygl

6)Labeled Faces in the Wild Home (LFW)
5k+人臉，超過13，000張人臉圖像
備註：標準的人臉識別數據集
鏈接：https://pan.baidu.com/s/1bpMyYcv 密碼：mkhw

7)Person identification in TV series
該數據集所選用的人臉照片來自於兩部比較知名的電視劇，《吸血鬼獵人巴菲》和《生活大爆炸》。
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1geQKw6n 密碼：o92j

8)CMUVASC & PIE Face dataset
該數據集中包含了來自68個人的40000張照片，其中又包括了每個人的13種姿態條件，43種光照條件和4種表情下的照片
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1o7S7YUQ 密碼：jya4

9)YouTube Faces
1,595個人，3,425段視頻
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1jIRAybW 密碼：c27o

10)CASIA-FaceV5
該數據集包含了來自500個人的2500張亞洲人臉圖片.
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1bpIvkLp 密碼：o0ty

11)The CNBC Face Database
該數據集採集了200個人在不同狀態下（不同的神情，裝扮，髮型等）的人臉照片。
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1o7FaN3s 密碼：0jz1

12)CASIA-3D FaceV1
包含了來自123個人的4624張人臉圖片
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1c1N2CLi 密碼：ra7b

13)IMDB-WIKI
包含：IMDb中20k+個名人的460k+張圖片和維基百科62k+張圖片, 總共： 523k+張圖片
備註：名人年齡、性別
鏈接：https://pan.baidu.com/s/1hsQs8qK 密碼：g74g

14）FDDB
2845張圖片中的5171張臉
備註：標準人臉檢測評測集
鏈接：https://pan.baidu.com/s/1bCHtds 密碼：2os1

15）Caltech人臉數據庫
10k+人臉，提供雙眼和嘴巴的座標位置
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1i5y7IOP 密碼：qiwn

16）The Japanese Female Facial Expression (JAFFE) Database
213張圖像，10個人。每個人爲一組，每一組都含有7種表情，每種表情大概有3,4張樣圖。
備註：非限制場景下的人臉識別
鏈接：https://pan.baidu.com/s/1hrICsVq 密碼：klve

17，Labelled Faces in the Wild：13000 個經過裁剪的人臉區域（使用已經用名稱標識符標記過的 Viola-Jones）。數據集中每個人員的子集裏包含兩個圖像——人們常用此數據集訓練面部匹配系統。
18，UMD Faces：有 8501 個主題的 367，920 個面孔的帶註釋數據集。
19，CASIA WebFace：超過 10，575 個人經面部檢測的 453，453 張圖像的面部數據集。需要一些質量過濾。
20，MS-Celeb-1M：100 萬張全世界的名人圖片。需要一些過濾才能在深層網絡上獲得最佳結果。
21，Olivetti：一些人類的不同圖像
22，Multi-Pie：The CMU Multi-PIE Face 數據庫。
23，Face-in-Action：http://www.flintbox.com/public/project/5486/
24，JACFEE：日本和白種人面部情緒表達的圖像。
25，FERET：面部識別技術數據庫。
26，mmifacedb：MMI 面部表情數據庫。
27，IndianFaceDatabase：
28，耶魯人臉數據庫：
29，耶魯人臉數據庫 B
30，Mut1ny 頭部/面部分割數據集：像素超過 16K 的面部/頭部分割圖像

視頻數據集

Youtube-8M：用於視頻理解研究的大型多樣化標記視頻數據集。

文本數據集

20 newsgroups：分類任務，將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一，通常可用作純分類的基準或任何 IR /索引算法的驗證。
路透社新聞數據集：（較舊）純粹基於分類的數據集，包含來自新聞專線的文本。常用於教程。
賓州樹庫：用於下一個單詞或字符預測。
UCI‘s Spambase：來自著名的 UCI 機器學習庫的（舊版）經典垃圾郵件數據集。根據數據集的組織細節，可以將它作爲學習私人垃圾郵件過濾的基線。
Broadcast News：大型文本數據集，通常用於下一個單詞預測。
文本分類數據集：來自 Zhang et al., 2015。用於文本分類的八個數據集合集。這些是用於新文本分類基線的基準。樣本大小從 120K 至 3.6M 不等，範圍從二進制到 14 個分類問題。數據集來自 DBPedia、亞馬遜、Yelp、Yahoo！和 AG。
WikiText：來自維基百科高質量文章的大型語言建模語料庫，由 Salesforce MetaMind 策劃。
SQuAD：斯坦福問答數據集——應用廣泛的問答和閱讀理解數據集，其中每個問題的答案都以文本形式呈現。
Billion Words 數據集：一種大型通用語言建模數據集。通常用於訓練分佈式單詞表徵，如 word2vec。
Common Crawl：網絡的字節級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網絡數據集，因爲它可在萬維網進行抓取。
Google Books Ngrams：來自 Google book 的連續字符。當單詞首次被廣泛使用時，提供一種簡單的方法來探索。
Yelp 開源數據集：Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集。

問答數據集

Maluuba News QA 數據集：CNN 新聞文章中的 12 萬個問答對。
Quora 問答對：Quora 發佈的第一個數據集，包含重複/語義相似性標籤。
CMU Q / A 數據集：手動生成的仿真問/答對，維基百科文章對其難度評分很高。
Maluuba 面向目標的對話：程序性對話數據集，對話旨在完成任務或做出決定。常用於聊天機器人。
bAbi：來自 Facebook AI Research（FAIR）的綜合閱讀理解和問答數據集。
The Children’s Book Test：Project Gutenberg 提供的兒童圖書中提取的（問題+背景、答案）對的基線。用於問答（閱讀理解）和仿真查找。

情感數據集

多領域情緒分析數據集：較舊的學術數據集。
IMDB：用於二元情感分類的較舊、較小數據集。對文獻中的基準測試無法支持更大的數據集。
Stanford Sentiment Treebank：標準情感數據集，在每個句子解析樹的每個節點都有細粒度的情感註釋。

網絡和圖形

Amazon Co-Purchasing：亞馬遜評論從「購買此產品的用戶也購買了……」這一部分抓取數據，以及亞馬遜相關產品的評論數據。適合在網絡中試行推薦系統。
Friendster 社交網絡數據集：在變成遊戲網站之前，Friendster 以朋友列表的形式爲 103,750,348 名用戶發佈了匿名數據。
地址：https://archive.org/details/friendster-dataset-201107

語音數據集

2000 HUB5 English：最近在 Deep Speech 論文中使用的英語語音數據，從百度獲取。
LibriSpeech：包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成，包含帶有文本和語音的章節。
VoxForge：帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。
TIMIT：英語語音識別數據集。
CHIME：嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成，仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。
TED-LIUM：TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。

音符音樂數據集

Piano-midi.de: 古典鋼琴曲
Nottingham : 超過 1000 首民謠
MuseData: 古典音樂評分的電子圖書館
JSB Chorales: 四部協奏曲

政府&統計數據

Data USA: 最全面的可視化美國公共數據。
歐盟性別統計數據庫：http://eige.europa.eu/gender-statistics
荷蘭國家地質研究數據
 聯合國開發計劃署項目

人臉口罩數據集

鏈接: https://pan.baidu.com/s/1Vly3K-0qjlB6M2lenTZ8PA 提取碼: xhze

已標註數據集說明如下：不同於人臉口罩識別（或檢測）數據集，口罩人臉識別樣本集須得包含同一人的多張戴口罩與未戴口罩的人臉圖像，爲此，我們建立了兩種口罩人臉識別樣本集。
(1) 真實口罩人臉識別數據集：從網絡爬取樣本，經過整理、清洗和標註後，含525人的5千張口罩人臉、9萬正常人臉。
下載地址： https://pan.baidu.com/s/1XvGepj84SCA9rlVb9rGhEQ 密碼：j3aq

(2) 模擬口罩人臉識別數據集：給公開數據集中的人臉戴上口罩，得到1萬人、50萬張人臉的模擬口罩人臉數據集。

WebFace模擬口罩人臉數據集：

下載地址： https://pan.baidu.com/s/1Qi_8D_kH2QCm761elZs5YA 密碼: 77m8
LFW模擬口罩人臉數據集:

下載地址：https://pan.baidu.com/s/1Ge0KcYgu6oVAbLlDHCKwRg 密碼: o126

其他參考數據集

常用圖像數據集大全（分類，跟蹤，分割，檢測等）
開放數據源-社會、經濟、地理、空間，數據科學家的寶庫

深度學習數據集大全