學數據分析當然要先有數據,數據是分析的根本,不然一切都是空談。如果是在公司裏,得到數據輕而易舉,因爲公司有客戶,有業務,必然會產生大量數據。但僅僅是個人學習的話,我們如何得到數據呢?
其實這也是好多正在學習數據分析的朋友常會遇到一個問題。一些朋友可能說爬蟲可以解決。沒錯,確實可以通過爬蟲來獲取一部分信息,但也有侷限性,並且每次都爬不但麻煩,也會遇到很多問題,畢竟我們的重點是分析而不是爬蟲。
下面博主將珍藏的一些網上公開數據源做一個彙總,幫助有需要數據的朋友們。
1機器學習/數據挖掘
1. 1 Kaggle
Kaggle是無數數據挖掘愛好者喜愛的競賽平臺,它的大標語是:your home for data science。許多大公司與Kaggle合作,提供公開的數據源,並設立獎金,希望數據挖掘愛好者們通過競賽的方式提供最優方案,解決實際問題。所提供的獎金豐厚,給予比賽最好成績的前三名選手。
當然,大部分人蔘加競賽並不是爲了獎金而去,真實的目的是通過實戰來提高自己的數據挖掘能力,在與世界各國的愛好者進行切磋的同時,開闊自己的眼界和視野,學習新知識。並且,這些大公司提供的數據源是非常有參考價值的,可以作爲實戰項目的首選,對求職者也是個很大的幫助。
1.2 天池
國內比較有名的數據挖掘平臺了,它是一個數據科學家的社區,由阿里巴巴組織。賽事衆多,有獎金支持,並雲集了各路國內愛好者和高校研究者的參加。比賽設有初賽,複賽,決賽等關卡,有評委進行把關。平臺同樣也擁有大量免費的數據集供愛好者們使用。
1.3 數據城堡(DataCastle)
http://www.pkbigdata.com/
同樣也是數據科學的競賽平臺,報名後獲取任務數據集,也是一個非常好的學習網站。
1.4 SofaSofa
雖然競賽人數和項目都一般,但是作爲數據科學社區,提供免費的數據集。並可以在社區內進行技術交流和探討。
1.5 和鯨社區
這裏不止有高質量的數據集、精彩的開源數據項目、多元的實訓場景,還有 50,000+ 數據科學愛好者等你來撩。
2 各行業的數據網站
2.1 世界宏觀經濟數據
https://data.worldbank.org.cn/
關於世界宏觀經濟的兩個網站,涵蓋大量相關數據和學習資源。
2.2 國家統計局
https://www.stats.gov.cn/
數據來源於中國國家統計局,主要涉及我國經濟民生等多個方面的數據,並在月度、季度、年度等多維度覆蓋,較爲全面和權威,對於社會科學的研究非常有幫助。
2.3 CEIC
http://www.ceicdata.com/zh-hans
擁有超過128個國家的經濟數據,可以非常精確地查找到各國GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等數據。其中,“中國經濟數據庫”收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。
2.4 萬得(Wind)
http://www.wind.com.cn/
萬得有“中國Bloomberg”的稱號,覆蓋了全面的金融業數據,且類目更新非常快,受到很多商業分析者和投資人的親睞。
2.5 搜數網
http://www.soshoo.com/
擁有海量的統計資料,數量高達7,874本,同時涵蓋了1,761,009張統計表格和364,580,480個統計數據,彙集了中國資訊行自92年以來收集的所有統計和調查數據。
2.6 中國統計信息網
http://www.tjcn.org/
國家統計局官網,彙集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報爲主,統計年鑑、階段發展數據、統計分析、經濟新聞、主要統計指標排行等爲輔助的多元化統計信息資料庫,目前在線資料已達上萬份。
2.7 figshare
https://figshare.com/
一個研究成果共享的平臺,來自世界的研究成果分享,同時有共享的研究數據。
2.8 OpenStreetMap
https://www.openstreetmap.org/
通過這個網站可以下載世界各地的地圖數據。
2.9 極海(geohey)
https://geohey.com/
同樣也是可以提供地圖信息數據的網站;
2.10 github
https://github.com/caesar0301/awesome-public-datasets
如果還嫌數據源不夠,github上有位大神已經爲大家整理好了一個非常全面的數據網站彙總,包含各個細分領域的數據資源(非常全),下面只是部分截圖。
3 總結
其實數據是無處不在的,需要我們平時善於發現和觀察。以上是本次向大家分享的免費數據網站,希望對大家能有所幫助。
老鐵,要不點個贊再走可好?麼麼噠
關注我的原創微信公衆號「Python數據科學」,專注於寫基於Python的數據算法、機器學習、深度學習硬核乾貨。
保證讓你看完有所收穫,不信你打我。後臺回覆『乾貨』送你Python入門、機器學習、數據挖掘等豐富項目資源。
作者簡介
作者:大家好,我是東仔。原爲機械專業,憑藉自己的努力成功轉行數據分析,目前擔任某大銀行風控建模職位,創立『Python數據科學』公衆號,擁有近10w粉絲,文章涵蓋爬蟲,數據分析、機器學習等大量乾貨和實戰項目講解,提供海量學習資源,期待你的關注,和我一起學習。 轉載說明:未獲得授權,禁止轉載。