大數據時代需要轉變的思維

大數據時代要轉變的思維:

  • 要分析所有數據,而不是少量的數據樣本
  • 要追求數據的紛繁複雜,而不是精確性
  • 要關注事物的相關關係,而不是因果關係

bigdata

1. 分析所有數據,而非少量數據


至今爲止,人們蒐集數據的能力有限,因此採用的是“隨機採樣分析”。


例如,要想知道中國顧客都聯想筆記本的滿意度,不可能對所有買了聯想筆記本的人做問卷調查。通常的做法是隨機找1000個人,用這1000個人的滿意度來代表所有人的。


爲了使結果儘可能準確,我們會設計儘可能精確的問卷,並使樣本足夠隨機。


這就是“小數據時代”的做法,在不可能蒐集全部數據的情況下,隨機採樣分析在各領域取得了巨大的成功。


但是,隨機採樣有三個問題:


  1. 依賴隨機性,而隨機性很難做到。例如,使用固定電話隨機打給1000戶人家,這樣也是缺乏隨機性的,因爲沒有考慮到年輕人都使用手機的情況。
  2. 遠看不錯,一旦聚焦到某一點,就模糊了。例如,我們用1000個人來代表全國,這1000個人是隨機從全國選取的。但是,如果用此結果來判斷西藏的滿意度,卻是缺乏精確的。也就是說,分析結果不能適用於局部。
  3. 採樣的結果只能回答你事先設計好的問題,不能回答你突然意識到的問題。


在”大數據時代“,樣本=總體


如今,我們已經有能力蒐集到全面而完整的數據。大數據是建立在掌握所有數據、至少是儘可能多的數據的基礎上的。

2. 追求混雜性,而非精確性


在“小數據”時代,最重要的就是減少測量的錯誤,因爲收集的信息較少,所以必須保證記錄儘可能精確,否則細微的錯誤會被放大。爲了精確,科學家必須優化測量的工具。現代科學就是這麼發展過來的,物理學家開爾文(溫度的國際單位)說:“測量就是認知”。很多優秀的科學工作者必須要能準確收集和管理數據。


在“大數據”時代,使用所有數據變爲可能,且通常是上萬億個數據,要保證每一個數據的精確性是不可想象的,混雜性不可避免。但是,當數據量足夠大時,混亂不一定會帶來不好的結果。並且,由於放鬆了容錯的標準,所能蒐集的數據多了起來,還可以利用這些數據來做更多的事。舉一個例子:


要測一個葡萄園的溫度,如果只有一個溫度計,那必須保證這個測量儀精確且能一直工作。但是如果每100棵葡萄樹就有一個測量儀,則雖然有些測量數據是錯誤的,但是所有數據合起來卻能得到一個更準確的結果。


因此,“大數據"通常用概率說話,而不是板着”確鑿無疑“的面孔。”大數據“時代要求我們重新審視精確性的優劣。由於數據量太大,我們不再期待精確經,也無法實現精確性。


在圖書館我們可以看到,所有的書都被分類,例如,要找一本C語言的書籍,必須先找到”工科“分類,然後再找到”計算機“分類,再根據編號(類似於803.53x)找到需要的書籍,這是傳統的方法。如果圖書館的書少,可以這麼檢索,如果有1億本呢?10億本呢?網絡上的數據可遠非圖書館的藏書量可比,動則數十億,如果使用清晰的分類,那麼不僅分類的人會瘋,查詢的人也會瘋。因此,現在互聯網上廣泛使用”標籤“,通過標籤來檢索圖片、視頻、音樂等。當然,有時人們會錯標標籤,這讓習慣精確性的人很痛苦,但是,接受”混亂“給我們帶來了兩個好處:

  1. 由於擁有了遠比”分類"數量多得多的標籤,我們能夠獲得更多的內容。
  2. 可以通過標籤組合來過濾內容。

例如,如果我們要檢索“徐長卿”。“徐長卿”至少有三種身份:是一種中草藥,是命名草藥的人的名字,是仙劍3的主人公之一。如果按照傳統分類法,可能“徐長卿”會被分到“中草藥”類裏,這還取決於分類的人。那麼查詢的人就不會知道它還有另外兩重身份,或者只想查“徐長卿"這個人的人根本就不會到”中草藥“類裏查詢。但是,如果使用”標籤“,那麼輸入”徐長卿“+”草藥“,即可查到草藥;輸入”徐長卿“+”仙劍3“即可查到遊戲的主人公。


因此,使用”標籤“代替”分類“,雖然有很多不精確的數據,但是卻得到了大量標籤,使得檢索更方便,得到的結果更好了。

3. 關注相關關係,而非因果關係


知道”是什麼“就夠了,沒有必要知道”爲什麼“,要讓數據自己”發聲“。來看一個例子:


沃爾瑪是世界上最大的零售商,掌握了大量的零售數據。通過分析,沃爾瑪發現,每當季節性颶風來臨之前,不僅手電筒銷售量增加了,而且蛋撻的銷量也增加了。因此,當季節性暴風來臨時,沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置,以方便顧客。


看到這裏,一個馬上有人問”爲什麼颶風一來,人們都要買蛋撻“?


你問”爲什麼“,說明你注重的是因果關係。而這個“因”,可能是極難分析、且複雜的,而且即便研究出來,意義真的很大嗎?對沃爾瑪來說,只要知道“颶風來了,快擺蛋撻,準備大賺一筆”就行了,這就是注重的相關關係。


颶風與蛋撻有關,OK,行了,還能賺錢,太好了。爲什麼?不管,反正有關。


這也是大數據時代需要轉變的思維,即關注相關關係,而非因果關係。


通過探求”是什麼“,而非”爲什麼“,能夠幫助我們更好地理解世界。但是,由於因果關係在我們的思維中根深蒂固,而且有時會臆想出一些因果關係,反而帶來了錯誤的認知。例如:


父母經常告訴孩子,天冷時不帶帽子和手套就會感冒。然而,研究表明,感冒和穿戴之間沒有直接的聯繫。在某餐館喫飯後,晚上肚子疼,我們會想到原因是餐館的食物有問題。實際上很可能是和某人握手,或飯前沒有洗手的關係。


相關關係能給我們分析問題提供新的視角,我們不需要事事去探究爲什麼,並且,它使我們相信,不探究”爲什麼“也是合理的。


但是,並不是說因果關係就應該完全摒棄,而是要靈活地以相關關係的立場來思考問題。



本文總結自《大數據時代》,作者Viktor Mayer-Schonberger。



文檔信息

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章