大數據之我見

現在大數據是個熱詞(buzzword),我也湊個熱鬧。現在前面不加個“大”字都不好意思說數據,大確實是大數據的特點之一。以前也有數據,爲什麼最近變大了呢?信息技術的發展,硬件的發展,網絡技術的發展使海量數據的獲取、存儲、處理變得容易,所以數據變大了。”大“只是現在數據的一個特點,有mapreduce, hadoop, spark等工具來應對數據的大。 言必稱hadoop等工具的人不見得真的懂數據分析,畢竟大數據之前我們也做數據分析,當時我們用抽樣的方法(Sample)。


數據分析需要三個方面的知識,IT技能、數學和領域知識。 IT技能包括前面提到的hadoop,mapreduce等新工具的使用,還包括數據庫、SQL等舊工具的使用,相對來說我認爲不是最關鍵的技術。數學方面知識包括概率論數理統計、線性代數等數學分支,這些反而是我認爲相對更重要的,一個數據科學家可以不會用hadoop,mapreduce等工具,但這些數學知識必知必會。做數據分析,數據不是最重要的,我們想由數據回答什麼問題更重要。領域知識是用來提這些問題的。分析電子商務的商品數據,分析生物信息學的蛋白質和基因,分析行爲經濟學,需要不同的領域知識。所以說大數據分析團隊需要具備這三個方面能力的成員。


數據分析有描述(Descriptive Statistics),推論(Statistics Inference),應用等幾個層面。描述相對簡單,推論、預測和應用起來就難了。所以說宣稱自己是大數據專家的人,還要看他處於哪個層面。 

我覺得下面三句話對從事數據分析的人會很有用。一,相關不代表因果。二,洞察力比工具重要。三,問題比數據重要。


傳統數據分析重視因果的分析,大數據分析往往不重視。在大數據分析中,相關可能比因果重要。我知道啤酒和尿布擺放在一起可以促進銷量,不必要知道背後的原因。除了對相關和因果的追求不同外,大數據分析不同於普通數據分析的另外兩個特點是大數據分析要效率不要精確(全體數據裏可能包含錯誤數據,不可能全部剔除),要全體不要抽樣。


我看了微信公衆號CSDN大數據、數據客上的幾篇文章,奧卡姆剃刀微博上的文章,還有霍普金斯大學關於數據科學的一門介紹性的公開課,歸納出上面的觀點。自己對數據分析還是門外漢,本文目的是給自己繪個大的藍圖,而不是一開始就糾結到具體的工具上去。




 



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章