寫報告數據找不到?看完這篇就再也不用怕找不到數據了

學數據分析當然要先有數據,數據是分析的根本,不然一切都是空談。如果是在公司裏,得到數據輕而易舉,因爲公司有客戶,有業務,必然會產生大量數據。但僅僅是個人學習的話,我們如何得到數據呢?

 

其實這也是好多正在學習數據分析的朋友常會遇到一個問題。一些朋友可能說爬蟲可以解決。沒錯,確實可以通過爬蟲來獲取一部分信息,但也有侷限性,並且每次都爬不但麻煩,也會遇到很多問題,畢竟我們的重點是分析而不是爬蟲。

 

下面博主將珍藏的一些網上公開數據源做一個彙總,幫助有需要數據的朋友們。

 

1機器學習/數據挖掘

 

1. 1 Kaggle

https://www.kaggle.com/

Kaggle是無數數據挖掘愛好者喜愛的競賽平臺,它的大標語是:your home for data science。許多大公司與Kaggle合作,提供公開的數據源,並設立獎金,希望數據挖掘愛好者們通過競賽的方式提供最優方案,解決實際問題。所提供的獎金豐厚,給予比賽最好成績的前三名選手。

當然,大部分人蔘加競賽並不是爲了獎金而去,真實的目的是通過實戰來提高自己的數據挖掘能力,在與世界各國的愛好者進行切磋的同時,開闊自己的眼界和視野,學習新知識。並且,這些大公司提供的數據源是非常有參考價值的,可以作爲實戰項目的首選,對求職者也是個很大的幫助。

 

1.2 天池

https://tianchi.aliyun.com/

國內比較有名的數據挖掘平臺了,它是一個數據科學家的社區,由阿里巴巴組織。賽事衆多,有獎金支持,並雲集了各路國內愛好者和高校研究者的參加。比賽設有初賽,複賽,決賽等關卡,有評委進行把關。平臺同樣也擁有大量免費的數據集供愛好者們使用。

 

1.3 數據城堡(DataCastle)

http://www.pkbigdata.com/

同樣也是數據科學的競賽平臺,報名後獲取任務數據集,也是一個非常好的學習網站。

 

1.4 SofaSofa

http://sofasofa.io/index.php

雖然競賽人數和項目都一般,但是作爲數據科學社區,提供免費的數據集。並可以在社區內進行技術交流和探討。

 

1.5 和鯨社區

https://www.kesci.com/

這裏不止有高質量的數據集、精彩的開源數據項目、多元的實訓場景,還有 50,000+ 數據科學愛好者等你來撩。

 

2 各行業的數據網站

 

2.1 世界宏觀經濟數據

https://knoema.com/

https://data.worldbank.org.cn/

關於世界宏觀經濟的兩個網站,涵蓋大量相關數據和學習資源。

 

2.2 國家統計局

https://www.stats.gov.cn/

數據來源於中國國家統計局,主要涉及我國經濟民生等多個方面的數據,並在月度、季度、年度等多維度覆蓋,較爲全面和權威,對於社會科學的研究非常有幫助。

 

2.3 CEIC

http://www.ceicdata.com/zh-hans

擁有超過128個國家的經濟數據,可以非常精確地查找到各國GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等數據。其中,“中國經濟數據庫”收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

 

2.4 萬得(Wind)

http://www.wind.com.cn/

萬得有“中國Bloomberg”的稱號,覆蓋了全面的金融業數據,且類目更新非常快,受到很多商業分析者和投資人的親睞。

 

2.5 搜數網

http://www.soshoo.com/

擁有海量的統計資料,數量高達7,874本,同時涵蓋了1,761,009張統計表格和364,580,480個統計數據,彙集了中國資訊行自92年以來收集的所有統計和調查數據。

 

2.6 中國統計信息網

http://www.tjcn.org/

國家統計局官網,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報爲主,統計年鑑、階段發展數據、統計分析、經濟新聞、主要統計指標排行等爲輔助的多元化統計信息資料庫,目前在線資料已達上萬份。

 

2.7 figshare

https://figshare.com/

一個研究成果共享的平臺,來自世界的研究成果分享,同時有共享的研究數據。

 

2.8 OpenStreetMap

https://www.openstreetmap.org/

通過這個網站可以下載世界各地的地圖數據。

 

2.9 極海(geohey)

https://geohey.com/

同樣也是可以提供地圖信息數據的網站;

 

2.10 github

https://github.com/caesar0301/awesome-public-datasets

如果還嫌數據源不夠,github上有位大神已經爲大家整理好了一個非常全面的數據網站彙總,包含各個細分領域的數據資源(非常全),下面只是部分截圖。

 

3 總結

其實數據是無處不在的,需要我們平時善於發現和觀察。以上是本次向大家分享的免費數據網站,希望對大家能有所幫助。

 

老鐵,要不點個贊再走可好?麼麼噠


關注我的原創微信公衆號「Python數據科學」,專注於寫基於Python的數據算法、機器學習、深度學習硬核乾貨。

保證讓你看完有所收穫,不信你打我。後臺回覆『乾貨』送你Python入門、機器學習、數據挖掘等豐富項目資源。

作者簡介
作者:大家好,我是東仔。原爲機械專業,憑藉自己的努力成功轉行數據分析,目前擔任某大銀行風控建模職位,創立『Python數據科學』公衆號,擁有近10w粉絲,文章涵蓋爬蟲,數據分析、機器學習等大量乾貨和實戰項目講解,提供海量學習資源,期待你的關注,和我一起學習。 轉載說明:未獲得授權,禁止轉載。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章