部分數據集

爲防丟失,進行記錄

大學公開數據集

(Stanford)69G大規模無人機(校園)圖像數據集【Stanford】

http://cvgl.stanford.edu/projects/uav_data/

人臉素描數據集【CUHK】

http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html

自然語言推理(文本蘊含標記)數據集【NYU】

https://www.nyu.edu/projects/bowman/multinli/

Berkeley圖像分割數據集BSDS500【Berkeley】

https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html

寵物圖片(分割)數據集【Oxford】

http://www.robots.ox.ac.uk/~vgg/data/pets/

發佈ADE20K場景感知/解析/分割/多目標識別數據集【MIT】

https://groups.csail.mit.edu/vision/datasets/ADE20K/

多模態二元行爲數據集【GaTech】

http://www.cbi.gatech.edu/mmdb/

計算機視覺/圖像/視頻數據集

Fashion-MNIST風格服飾圖像數據集【肖涵】

https://github.com/zalandoresearch/fashion-mnist

大型(50萬)LOGO標誌數據集

https://data.vision.ee.ethz.ch/cvl/lld/

4D掃描(60fps移動非剛性物體3D掃描)數據集【D-FAUST】

http://dfaust.is.tue.mpg.de

基於MNIST的視覺計數合成數據集Counting MNIST

http://fomoro.com/tools/counting-mnist/

YouTube MV視頻數據集【Keunwoo Choi】

https://github.com/keunwoochoi/YouTube-music-video-5M

計算機視覺合成數據集/工具大列表【unrealcv】

https://github.com/unrealcv/synthetic-computer-vision

動物屬性標記數據集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】

http://cvml.ist.ac.at/AwA2/

日本漫畫數據集Manga109

http://dl.acm.org/citation.cfm?doid=3011549.3011551

俯拍舞蹈視頻數據集

http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/

Pixiv(着色)圖片數據集【Jerry Li】

https://github.com/jerryli27/pixiv_dataset

e-VDS視頻數據集

https://engineering.purdue.edu/elab/eVDS/#download

Quick, Draw!簡筆畫塗鴉數據集

https://github.com/googlecreativelab/quickdraw-dataset

簡筆畫塗鴉數據集【hardmaru】

https://github.com/hardmaru/sketch-rnn-datasets

服飾人像生成模型(&Chictopia10K[HumanParsing]時尚人像解析數據集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】

http://files.is.tue.mpg.de/classner/gp/

COCO像素級標註數據集

https://github.com/nightrome/cocostuff

大規模街道級圖片(分割)數據集【Peter Kontschieder】

http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

大規模日語圖片描述數據集

https://github.com/STAIR-Lab-CIT/STAIR-captions

Cityscapes街景語義分割數據集(50城30類5k細標20k粗標圖片及標記視頻)

https://github.com/mcordts/cityscapesScripts

(街頭)時尚服飾數據集(2000+標註圖片)

https://github.com/bearpaw/clothing-co-parsing 

PyTorch實現的VOC2012數據集Pixel-wise目標分割【BodoKaiser】

https://github.com/bodokaiser/piwise

Twenty Billion Neurons對象複雜運動與交互視頻數據集【Nikita Johnson】

https://www.re-work.co/blog/the-something-something-video-dataset 

文本/評價/問答/自然語言數據集

(20萬)英文笑話數據集【TaivoPungas】

https://github.com/taivop/joke-dataset

機器學習保險行業問答開放數據集【HainWang】

https://github.com/shuzi/insuranceQA

保險行業問答(QA)數據集【Minwei Feng】

https://github.com/shuzi/insuranceQA

Stanford NLP發佈新的多輪、跨域、任務導向對話數據集【Mihail Eric】

https://github.com/keunwoochoi/YouTube-music-video-5M

實體/名詞語義關係標記數據集【David S. Batista】

https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets

NLVR:自然語言基礎數據集(對象分組、數量、比較及空間關係推理)

http://lic.nlp.cornell.edu/nlvr/

2.8萬文章/10萬問題大規模(英語考試)閱讀理解數據集

https://github.com/qizhex/RACE_AR_baselines

錯誤拼寫數據集

http://www.dcs.bbk.ac.uk/~ROGER/corpora.html

文本簡化數據集

http://www.cs.pomona.edu/~dkauchak/simplification/

英語詞/句/語義框架框架標註數據集FrameNet

https://framenet.icsi.berkeley.edu/fndrupal/

(又一個)自然語言處理(NLP)數據集列表【Nicolas Iderhoff】

https://github.com/niderhoff/nlp-datasets 

跨語種/多樣式/多粒度文本相似性檢測數據集

https://github.com/FerreroJeremy/Cross-Language-Dataset

Quora數據集:400000行潛在重複問題

http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv

文本分類數據集

http://disi.unitn.it/moschitti/corpora.htm

Frames:Maluuba對話數據集

https://datasets.maluuba.com/Frames/dl

跨域(Amazon商品評論)情感數據集

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

語義網機器學習系統評價/基準數據集集合

http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它數據集

數據科學/機器學習數據集彙總

https://elitedatascience.com/datasets

CORe50:連續目標識別數據集【VincenzoLomonaco&DavideMaltoni】

https://vlomonaco.github.io/core50/

(Matlab)數據集統計分佈自動發現【Isabel Valera】

http://proceedings.mlr.press/v70/valera17a.html

(建築物)損害評估數據集【tsunami】

https://github.com/faiton713/ABCDdataset

IndieWeb社交圖譜數據集【IndieWeb】

http://www.indiemap.org

DeepMind開源環境/數據集/代碼集合【DeepMind】

https://deepmind.com/research/open-source/

鳥叫聲數據集【xeno-canto】

http://www.xeno-canto.org

Wolfram數據集倉庫

https://datarepository.wolframcloud.com

大型音樂分析數據集FMA

https://github.com/mdeff/fma

(300萬)Instacart在線雜貨購物數據集【Jeremy Stanley】

https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2

用於欺詐檢測的合成財務數據集【TESTIMON】

https://www.kaggle.com/ntnu-testimon/paysim1

NSynth:大規模高質量音符標記音頻數據集

https://magenta.tensorflow.org/datasets/nsynth

LIBSVM格式分類/迴歸/多標籤/字符串數據集

https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html

筆記本電腦用logistic迴歸擬合100G數據集【DmitriySelivanov】

http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/

StackExchange近似/重複問題數據集

http://nlp.cis.unimelb.edu.au/resources/cqadupstack/

2010-2017最全KDD CUP賽題回顧及數據集

http://suo.im/2kRoQ1

食譜數據集:帶有評級、營養及類別信息的超過2萬種食譜【HugoDarwood】

https://www.kaggle.com/hugodarwood/epirecipes

奧斯卡數據集【Academy of Motion Picture Arts and Sciences】

https://www.kaggle.com/theacademy/academy-awards

計算醫療庫:(TensorFlow)大型醫療數據集分析與機器學習建模【AkshayBhat】

https://github.com/AKSHAYUBHAT/ComputationalHealthcare

聚類數據集

https://cs.joensuu.fi/sipu/datasets/

官方開放氣候數據集

https://pan.baidu.com/s/1i52Xarb

全球恐怖襲擊事件數據集【START Consortium】

https://www.kaggle.com/START-UMD/gtd

七個機器學習時序數據集

https://machinelearningmastery.com/time-series-datasets-for-machine-learning/

大型衆包關係數據庫自然語言查詢語義解析數據集(8萬+查詢樣本)

http://t.cn/RNMr09n

賽馬賠率數據集

http://t.cn/RNf0tXN

新的YELP數據集:包含470萬評論和15.6萬商家

http://t.cn/RNG6JYi

JMIR數據集專刊《JMIR Data》

http://t.cn/RCIhmvS

用於評價監督機器學習算法的基準數據集

https:// github.com/EpistasisLab/penn-ml-benchmarks

人口普查收入數據集分類

https:// github.com/dformoso/sklearn-classification

日文木版印刷文字識別數據集

http://t.cn/RCZPfYB

多模態二元行爲數據集

http://t.cn/RCzFn1g

(TensorFlow)AudioSet音頻事件數據集分類模型

GitHub: tensorflow/models/tree/master/audioset

Facebook星際爭霸遊戲數據集

(TorchCraft可讀/365GB/6萬多場次/15億幀畫面/近5億用戶操作)

http://t.cn/R9j8AUM

機器學習論文/數據集/工具集錦(日文)

http://t.cn/RKV7x2A

機器學習公司的十大數據蒐集策略

http://t.cn/R54rtvd

NLP數據集加載工具集

http://t.cn/RaYwYXl

日語相似詞數據集

http://t.cn/RaVFV35

大規模人本完形填空(多選閱讀理解)數據集

http://t.cn/Rac2Pey

高質量免費數據集列表

http://t.cn/R6B1aqa

《數據之美》自然語言數據集/代碼

http://t.cn/hBOTM4

微軟數據集MS MARCO,閱讀理解領域的「ImageNet」

http://t.cn/RIMqGBK

AI2科學問答數據集(多選)

http://t.cn/RI5liwJ

常用圖像數據集大全

(分類,跟蹤,分割,檢測等)

1. 搜狗實驗室數據集:

http://www.sogou.com/labs/dl/p.html

互聯網圖片庫來自sogou圖片搜索所索引的部分數據。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,數據集中給出了圖片的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G

2. http://www.imageclef.org/

IMAGECLEF致力於位圖片相關領域提供一個基準(檢索、分類、標註等等) Cross Language Evaluation Forum (CLEF) 。從2003年開始每年舉行一次比賽.

http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset

 

最近新增數據集

1. 開源生物識別數據。

地址:http://openbiometrics.org/

2. Google Audioset:擴展了 632 個音頻分類樣本,並從 YouTube 視頻中提取了 2,084,320 個人類標記的 10 秒聲音片段。

地址:https://research.google.com/audioset/

3. Uber 2B trip data:首次展示 2 百萬公里的出行數據。

地址:https://movement.uber.com/cities

4. Yelp Open Dataset:Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集。

地址:https://www.yelp.com/dataset

5. Core50:用於連續目標識別的新數據集和基準。

地址:https://vlomonaco.github.io/core50/

6. Kaggle 數據集。

地址:https://www.kaggle.com/datasets

7. Data Portal。

地址:http://dataportals.org/

8. Open Data Monitor。

地址:https://opendatamonitor.eu/

9. Quandl Data Portal。

地址:https://www.quandl.com/

10. Mut1ny 頭部/面部分割數據集。

地址:http://www.mut1ny.com/face-headsegmentation-dataset

11. Github 上的優秀公共數據集。

地址:https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

12. 頭部 CT 掃描數據集:491 次掃描的 CQ500 數據集。

地址:http://headctstudy.qure.ai/

02

自然圖像數據集

1. MNIST:手寫數字圖像。最常用的可用性檢查。格式 25x25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST,不意味着它有效。

地址:http://yann.lecun.com/exdb/mnist/

2. CIFAR10 / CIFAR100:32x32 彩色圖像,10/100 類。雖然仍有趣卻不再常用的可用性檢查。

地址:http://www.cs.utoronto.ca/~kriz/cifar.html

3. Caltech 101:101 類物體的圖片。

地址:http://www.vision.caltech.edu/Image_Datasets/Caltech101/

4. Caltech 256:256 類物體的圖片。

地址:http://www.vision.caltech.edu/Image_Datasets/Caltech256/

5. STL-10 數據集:用於開發無監督特徵學習、深度學習、自學習算法的圖像識別數據集。像修改過的 CIFAR-10。

地址:http://cs.stanford.edu/~acoates/stl10/

6. The Street View House Numbers (SVHN):Google 街景中的門牌號碼。可以把它想象成復現的戶外 MNIST。

地址:http://ufldl.stanford.edu/housenumbers/

7. NORB:玩具擺件在各種照明和姿勢下的雙目圖像。

地址:http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/

8. Pascal VOC:通用圖像分割/分類——對於構建真實世界圖像註釋不是非常有用,但對基線很有用。

地址:http://pascallin.ecs.soton.ac.uk/challenges/VOC/

9. Labelme:帶註釋圖像的大型數據集。

地址:http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

10. ImageNet:新算法的客觀圖像數據集(de-facto image dataset)。許多圖像 API 公司都有來自其 REST 接口的標籤,這些標籤近 1000 類;WordNet; ImageNet 的層次結構。

地址:http://image-net.org/

11. LSUN:具有很多輔助任務的場景理解(房間佈局估計,顯著性預測(saliency prediction)等),有關聯競賽。(associated competition)。

地址:http://lsun.cs.princeton.edu/2016/

12. MS COCO:通用圖像理解/說明,有關聯競賽。

地址:http://mscoco.org/

13. COIL 20:不同物體在 360 度旋轉中以每個角度成像。

地址:http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php

14. COIL100:不同物體在 360 度旋轉中以每個角度成像。

地址:http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

15. Google 開源圖像:有 900 萬張圖像的網址集合,這些圖像通過知識共享(Creative Commons)被標註成 6000 多個類別。

地址:https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

03

地理空間數據

1. OpenStreetMap:免費提供整個星球的矢量數據。它包含(舊版)美國人口普查局的數據。

地址:http://wiki.openstreetmap.org/wiki/Planet.osm

2. Landsat8:整個地球表面的衛星視角圖,每隔幾周更新一次。

地址:https://landsat.usgs.gov/landsat-8

3. NEXRAD:美國大氣層的多普勒雷達掃描圖。

地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

我是深度學習圖像的分割線

04

人工數據集

1. Arcade Universe:一個人工數據集生成器,圖像包含街機遊戲 sprite,如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 數據集生成器。

地址:https://github.com/caglar/Arcade-Universe

2. 以 Baby AI School 爲靈感的數據集集合。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool

3. Baby AI Shapes Dataset:區分 3 種簡單形狀。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

4. Baby AI Image And Question Dataset:一個問題-圖像-答案數據集。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

5. Deep Vs Shallow Comparison ICML2007:爲實證評估深層架構而生成的數據集。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

6. MnistVariations:在 MNIST 中引入受控變化。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations

7. RectanglesData:區分寬矩形和垂直矩形。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData

8. ConvexNonConvex:區分凸形和非凸形狀。

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

9. BackgroundCorrelation:嘈雜 MNIST 背景下相關度的控制

地址:http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

05

人臉數據集

1. Labelled Faces in the Wild:13000 個經過裁剪的人臉區域(使用已經用名稱標識符標記過的 Viola-Jones)。數據集中每個人員的子集裏包含兩個圖像——人們常用此數據集訓練面部匹配系統。

地址:http://vis-www.cs.umass.edu/lfw/

 2. UMD Faces:有 8501 個主題的 367,920 個面孔的帶註釋數據集。

地址:http://www.umdfaces.io/

3. CASIA WebFace:超過 10,575 個人經面部檢測的 453,453 張圖像的面部數據集。需要一些質量過濾。

地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

4. MS-Celeb-1M:100 萬張全世界的名人圖片。需要一些過濾才能在深層網絡上獲得最佳結果。

地址:https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

5. Olivetti:一些人類的不同圖像。

地址:http://www.cs.nyu.edu/~roweis/data.html

6. Multi-Pie:The CMU Multi-PIE Face 數據庫。

地址:http://www.multipie.org/

7. Face-in-Action。

地址:http://www.flintbox.com/public/project/5486/

8. JACFEE:日本和白種人面部情緒表達的圖像。

地址:http://www.humintell.com/jacfee/

9. FERET:面部識別技術數據庫。

地址:http://www.itl.nist.gov/iad/humanid/feret/feret_master.html

10. mmifacedb:MMI 面部表情數據庫。

地址:http://www.mmifacedb.com/

11. IndianFaceDatabase。

地址:http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/

12. 耶魯人臉數據庫。

地址:http://vision.ucsd.edu/content/yale-face-database

13. 耶魯人臉數據庫 B。

地址:http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

 14. Mut1ny 頭部/面部分割數據集:像素超過 16K 的面部/頭部分割圖像

地址:http://www.mut1ny.com/face-headsegmentation-dataset

我是深度學習視頻的分割線

06

視頻數據集

Youtube-8M:用於視頻理解研究的大型多樣化標記視頻數據集。

地址:https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

07

文本數據集

1. 20 newsgroups:分類任務,將出現的單詞映射到新聞組 ID。用於文本分類的經典數據集之一,通常可用作純分類的基準或任何 IR /索引算法的驗證。

地址:http://qwone.com/~jason/20Newsgroups/

2. 路透社新聞數據集:(較舊)純粹基於分類的數據集,包含來自新聞專線的文本。常用於教程。

地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

3. 賓州樹庫:用於下一個單詞或字符預測。

地址:http://www.cis.upenn.edu/~treebank/

4. UCI‘s Spambase:來自著名的 UCI 機器學習庫的(舊版)經典垃圾郵件數據集。根據數據集的組織細節,可以將它作爲學習私人垃圾郵件過濾的基線。

地址:https://archive.ics.uci.edu/ml/datasets/Spambase

5. Broadcast News:大型文本數據集,通常用於下一個單詞預測。

地址:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44

6. 文本分類數據集:來自 Zhang et al., 2015。用於文本分類的八個數據集合集。這些是用於新文本分類基線的基準。樣本大小從 120K 至 3.6M 不等,範圍從二進制到 14 個分類問題。數據集來自 DBPedia、亞馬遜、Yelp、Yahoo!和 AG。

地址:https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

7. WikiText:來自維基百科高質量文章的大型語言建模語料庫,由 Salesforce MetaMind 策劃。

地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

8. SQuAD:斯坦福問答數據集——應用廣泛的問答和閱讀理解數據集,其中每個問題的答案都以文本形式呈現。

地址:https://rajpurkar.github.io/SQuAD-explorer/

9. Billion Words 數據集:一種大型通用語言建模數據集。通常用於訓練分佈式單詞表徵,如 word2vec。

地址:http://www.statmt.org/lm-benchmark/

10. Common Crawl:網絡的字節級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網絡數據集,因爲它可在萬維網進行抓取。

地址:http://commoncrawl.org/the-data/

11. Google Books Ngrams:來自 Google book 的連續字符。當單詞首次被廣泛使用時,提供一種簡單的方法來探索。

地址:https://aws.amazon.com/datasets/google-books-ngrams/

12. Yelp 開源數據集:Yelp 數據集是用於 NLP 的 Yelp 業務、評論和用戶數據的子集。

地址:https://www.yelp.com/dataset

我是深度學習文本的分割線

08

問答數據集

1. Maluuba News QA 數據集:CNN 新聞文章中的 12 萬個問答對。

地址:https://datasets.maluuba.com/NewsQA

2. Quora 問答對:Quora 發佈的第一個數據集,包含重複/語義相似性標籤。

地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

3. CMU Q / A 數據集:手動生成的仿真問/答對,維基百科文章對其難度評分很高。

地址:http://www.cs.cmu.edu/~ark/QA-data/

4. Maluuba 面向目標的對話:程序性對話數據集,對話旨在完成任務或做出決定。常用於聊天機器人。

地址:https://datasets.maluuba.com/Frames

5. bAbi:來自 Facebook AI Research(FAIR)的綜合閱讀理解和問答數據集。

地址:https://research.fb.com/projects/babi/

6. The Children’s Book Test:Project Gutenberg 提供的兒童圖書中提取的(問題+背景、答案)對的基線。用於問答(閱讀理解)和仿真查找。

地址:http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

09

情感數據集

1. 多領域情緒分析數據集:較舊的學術數據集。

地址:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

2. IMDB:用於二元情感分類的較舊、較小數據集。對文獻中的基準測試無法支持更大的數據集。

地址:http://ai.stanford.edu/~amaas/data/sentiment/

3. Stanford Sentiment Treebank:標準情感數據集,在每個句子解析樹的每個節點都有細粒度的情感註釋。

地址:http://nlp.stanford.edu/sentiment/code.html

10

推薦和排名系統

1. Movielens:來自 Movielens 網站的電影評分數據集,各類大小都有。

地址:https://grouplens.org/datasets/movielens/

2. Million Song 數據集:Kaggle 上元數據豐富的大型開源數據集,可以幫助人們使用混合推薦系統。

地址:https://www.kaggle.com/c/msdchallenge

3. Last.fm:音樂推薦數據集,可訪問深層社交網絡和其它可用於混合系統的元數據。

地址:http://grouplens.org/datasets/hetrec-2011/

4. Book-Crossing 數據集:來自 Book-Crossing 社區。包含 278,858 位用戶提供的約 271,379 本書的 1,149,780 個評分。

地址:http://www.informatik.uni-freiburg.de/~cziegler/BX/

5. Jester:來自 73,421 名用戶對 100 個笑話的 410 萬個連續評分(分數從-10 至 10)。

地址:http://www.ieor.berkeley.edu/~goldberg/jester-data/

6. Netflix Prize:Netflix 發佈了他們的電影評級數據集的匿名版;包含 480,000 名用戶對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格數據挑戰。隨着隱私問題的出現,只能提供非正式版。

地址:http://www.netflixprize.com/

我是深度學習圖表的分割線

11

網絡和圖形

1. Amazon Co-Purchasing:亞馬遜評論從「購買此產品的用戶也購買了……」這一部分抓取數據,以及亞馬遜相關產品的評論數據。適合在網絡中試行推薦系統。

地址:http://snap.stanford.edu/data/#amazon

2. Friendster 社交網絡數據集:在變成遊戲網站之前,Friendster 以朋友列表的形式爲 103,750,348 名用戶發佈了匿名數據。

地址:https://archive.org/details/friendster-dataset-201107

12

語音數據集

1. 2000 HUB5 English:最近在 Deep Speech 論文中使用的英語語音數據,從百度獲取。

地址:https://catalog.ldc.upenn.edu/LDC2002T43

2. LibriSpeech:包含文本和語音的有聲讀物數據集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成,包含帶有文本和語音的章節。

地址:http://www.openslr.org/12/

3. VoxForge:帶口音的清晰英語語音數據集。適用於提升不同口音或語調魯棒性的案例。

地址:http://www.voxforge.org/

4. TIMIT:英語語音識別數據集。

地址:https://catalog.ldc.upenn.edu/LDC93S1

5. CHIME:嘈雜的語音識別挑戰數據集。數據集包含真實、仿真和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成,仿真錄音由多個語音環境和清晰的無噪聲錄音結合而成。

地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

6. TED-LIUM:TED 演講的音頻轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。

地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

我是深度學習音頻的分割線

13

音符音樂數據集

1. Piano-midi.de: 古典鋼琴曲

地址:http://www.piano-midi.de/

2. Nottingham : 超過 1000 首民謠

地址:http://abc.sourceforge.net/NMD/

3. MuseData: 古典音樂評分的電子圖書館

地址:http://musedata.stanford.edu/

4. JSB Chorales: 四部協奏曲

地址:http://www.jsbchorales.net/index.shtml

14

其它數據集

1. CMU 動作抓取數據集。

地址:http://mocap.cs.cmu.edu/

2. Brodatz dataset:紋理建模。

地址:http://www.ux.uis.no/~tranden/brodatz.html

3. 來自歐洲核子研究中心的大型強子對撞機(LHC)的 300TB 高質量數據。

地址:http://opendata.cern.ch/search?ln=en&p=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets

4. 紐約出租車數據集:由 FOIA 請求而獲得的紐約出租車數據,導致隱私問題。

地址:http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

5. Uber FOIL 數據集:來自 Uber FOIL 請求的紐約 4.5M 拾取數據。

地址:https://github.com/fivethirtyeight/uber-tlc-foil-response

6. Criteo 點擊量數據集:來自歐盟重新定位的大型互聯網廣告數據集。

地址:http://research.criteo.com/outreach/

15

健康 &生物數據

1. 歐盟傳染病監測圖集。

地址:http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx

2. 默克分子活動挑戰。

地址:http://www.kaggle.com/c/MerckActivity/data

3. Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk,且其中一個構造決定了這一特性。

地址:https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)

16

政府&統計數據

1. Data USA: 最全面的可視化美國公共數據。

地址:http://datausa.io/

2. 歐盟性別統計數據庫。

地址:http://eige.europa.eu/gender-statistics

3. 荷蘭國家地質研究數據。

地址:http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within

4. 聯合國開發計劃署項目。

地址:http://open.undp.org/#2016

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章