常見數據收集網站-數學建模(二十二)

常見數據收集網站:

一.由簡單和通用的數據集開始

1.data.gov( https://www.data.gov/ )
這是美國政府公開數據的所在地,該站點包含了超過19萬的數據點。這些數據集不同於氣候、教育、能源、金融和更多領域的數據。

2.data.gov.in( https://data.gov.in/ )
這是印度政府公開數據的所在地,通過各種行業、氣候、醫療保健等來尋找數據,你可以在這裏找到一些靈感。根據你居住的國家的不同,你也可以從其他一些網站上瀏覽類似的網站。

3.WorldBank( http://data.worldbank.org/ )
世界銀行的開放數據。該平臺提供 Open Data Catalog,世界發展指數,教育指數等幾個工具。

4.RBI( https://rbi.org.in/Scripts/Statistics.aspx )
印度儲備銀行提供的數據。這包括了貨幣市場操作、收支平衡、銀行使用和一些產品的幾個指標。

5.Five ThirtyEight Datasets ( https://github.com/fivethirtyeight/data )
Five Thirty Eight,亦稱作 538,專注與民意調查分析,政治,經濟與體育的博客。該數據集爲 Five ThirtyEight Datasets 使用的數據集。每個數據集包括數據,解釋數據的字典和Five ThirtyEight 文章的鏈接。如果你想學習如何創建數據故事,沒有比這個更好。

二.大型數據集

1.Amazon WebServices(AWS)datasets
( https://aws.amazon.com/cn/datasets/ )
Amazon提供了一些大數據集,可以在他們的平臺上使用,也可以在本地計算機上使用。您還可以通過EMR使用EC2和Hadoop來分析雲中的數據。在亞馬遜上流行的數據集包括完整的安然電子郵件數據集,Google Booksn-gram,NASA NEX 數據集,百萬歌曲數據集等。

2.Googledatasets
( https://cloud.google.com/bigquery/public-data/ )
Google 提供了一些數據集作爲其 Big Query 工具的一部分。包括 GitHub 公共資料庫的數據,Hacker News 的所有故事和評論。

3.Youtubelabeled Video Dataset
( https://research.google.com/youtube8m/ )
幾個月前,谷歌研究小組發佈了YouTube上的“數據集”,它由800萬個YouTube視頻id和4800個視覺實體的相關標籤組成。它來自數十億幀的預先計算的,最先進的視覺特徵。

四.預測建模與機器學習數據集

1.UCI MachineLearning Repository
( https://archive.ics.uci.edu/ml/datasets.html )
UCI機器學習庫顯然是最著名的數據存儲庫。如果您正在尋找與機器學習存儲庫相關的數據集,通常是首選的地方。這些數據集包括了各種各樣的數據集,從像Iris和泰坦尼克這樣的流行數據集到最近的貢獻,比如空氣質量和GPS軌跡。存儲庫包含超過350個與域名類似的數據集(分類/迴歸)。您可以使用這些過濾器來確定您需要的數據集。

2.Kaggle
( https://www.kaggle.com/datasets )
Kaggle提出了一個平臺,人們可以貢獻數據集,其他社區成員可以投票並運行內核/腳本。他們總共有超過350個數據集——有超過200個特徵數據集。雖然一些最初的數據集通常出現在其他地方,但我在平臺上看到了一些有趣的數據集,而不是在其他地方出現。與新的數據集一起,界面的另一個好處是,您可以在相同的界面上看到來自社區成員的腳本和問題。

3.AnalyticsVidhya
(https://datahack.analyticsvidhya.com/contest/all/ )
您可以從我們的實踐問題和黑客馬拉松問題中參與和下載數據集。問題數據集基於真實的行業問題,並且相對較小,因爲它們意味着2 - 7天的黑客馬拉松。

4.Quandl
( https://www.quandl.com/ )
Quandl 通過起網站、API 或一些工具的直接集成提供了不同來源的財務、經濟和替代數據。他們的數據集分爲開放和付費。所有開放數據集爲免費,但高級數據集需要付費。通過搜索仍然可以在平臺上找到優質數據集。例如,來自印度的證券交易所數據是免費的。

5.Past KDDCups
( http://www.kdd.org/kdd-cup )
KDD Cup 是 ACM Special Interest Group 組織的年度數據挖掘和知識發現競賽。

6.DrivenData
( https://www.drivendata.org/ )
Driven Data 發現運用數據科學帶來積極社會影響的現實問題。然後,他們爲數據科學家組織在線模擬競賽,從而開發出最好的模型來解決這些問題。

三.圖像分類數據集

1.The MNISTDatabase
( http://yann.lecun.com/exdb/mnist/ )
最流行的圖像識別數據集,使用手寫數字。它包括6萬個示例和1萬個示例的測試集。這通常是第一個進行圖像識別的數據集。

2.Chars74K
(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/ )
這裏是下一階段的進化,如果你已經通過了手寫的數字。該數據集包括自然圖像中的字符識別。數據集包含74,000個圖像,因此數據集的名稱。

3.Frontal FaceImages
(http://vasc.ri.cmu.edu//idb/html/face/frontal_images/index.html )
如果你已經完成了前兩個項目,並且能夠識別數字和字符,這是圖像識別中的下一個挑戰級別——正面人臉圖像。這些圖像是由CMU & MIT收集的,排列在四個文件夾中。

4.ImageNet
( http://image-net.org/ )
現在是時候構建一些通用的東西了。根據WordNet層次結構組織的圖像數據庫(目前僅爲名詞)。層次結構的每個節點都由數百個圖像描述。目前,該集合平均每個節點有超過500個圖像(而且還在增加)。

四.文本分類數據集

1.Spam – NonSpam
(http://www.esp.uem.es/jmgomez/smsspamcorpus/)
區分短信是否爲垃圾郵件是一個有趣的問題。你需要構建一個分類器將短信進行分類。

2.TwitterSentiment Analysis
(http://thinknook.com/twitter-sentiment-analysis-training-corpus-dataset-2012-09-22/)
該數據集包含 1578627 個分類推文,每行被標記爲1的積極情緒,0位負面情緒。數據依次基於 Kaggle 比賽和 Nick Sanders 的分析。

3.Movie ReviewData
(http://www.cs.cornell.edu/People/pabo/movie-review-data/)
這個網站提供了一系列的電影評論文件,這些文件標註了他們的總體情緒極性(正面或負面)或主觀評價(例如,“兩個半明星”)和對其主觀性地位(主觀或客觀)或極性的標籤。

五.推薦引擎數據集

1.MovieLens
( https://grouplens.org/ )
MovieLens 是一個幫助人們查找電影的網站。它有成千上萬的註冊用戶。他們進行自動內容推薦,推薦界面,基於標籤的推薦頁面等在線實驗。這些數據集可供下載,可用於創建自己的推薦系統。

2.Jester
(http://www.ieor.berkeley.edu/~goldberg/jester-data/)
在線笑話推薦系統。

六.各種來源的數據集網站

1.KDNuggets
(http://www.kdnuggets.com/datasets/index.html)
KDNuggets 的數據集頁面一直是人們搜索數據集的參考。列表全面,但是某些來源不再提供數據集。因此,需要謹慎選擇數據集和來源。

2.Awesome PublicDatasets
(https://github.com/caesar0301/awesome-public-datasets)
一個GitHub存儲庫,它包含一個由域分類的完整的數據集列表。數據集被整齊地分類在不同的領域,這是非常有用的。但是,對於存儲庫本身的數據集沒有描述,這可能使它非常有用。

3.RedditDatasets Subreddit
(https://www.reddit.com/r/datasets/)
由於這是一個社區驅動的論壇,它可能會遇到一些麻煩(與之前的兩個來源相比)。但是,您可以通過流行/投票來對數據集進行排序,以查看最流行的數據集。另外,它還有一些有趣的數據集和討論。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章