《大數據時代：生活、工作與思維的大變革》：看“大數據時代預言家”的真知灼見

寫在前面：我是「雲祁」，一枚熱愛技術、會寫詩的大數據開發猿。暱稱來源於王安石詩中一句 [ 雲之祁祁，或雨於淵 ] ，甚是喜歡。

寫博客一方面是對自己學習的一點點總結及記錄，另一方面則是希望能夠幫助更多對大數據感興趣的朋友。如果你也對 數據中臺、數據建模、數據分析以及Flink/Spark/Hadoop/數倉開發 感興趣，可以關注我的動態 https://blog.csdn.net/BeiisBei ，讓我們一起挖掘數據的價值~

哪怕是野火焚燒，哪怕是冰雪覆蓋，依然是志向不改，依然是信念不衰。 (ง •_•)ง

文章目錄

一、前言

大數據開啓了一次重大的時代轉型。就像望遠鏡讓我們能感受宇宙，顯微鏡讓我們能夠觀測微生物一樣，成爲新發明和新服務的源泉，而更多的改變也正蓄勢待發…

《大數據時代：生活、工作與思維的大變革》是被譽爲“大數據時代的預言家”的牛津大學教授維克托.邁克-舍恩伯格所寫的一本經典大數據書籍，雖然書籍出版於七年前，但其中很多的觀點至今看來依然振聾發聵，如果還沒讀過此書的同學，建議可以讀一下。

但畢竟這麼多年過去了，大家對大數據也有了一些新的認識，無論是所謂的大數據帶來了思維方式上的變革，還是技術上的革命，或者商業模式或管理模式的改變，但從本質的角度講，大數據還沒有達到所謂的高度，即大數據時代，其與信息時代的計算機、集成電路、光纖通信，互聯網相比，目前還無法媲美，衡量大數據成功的標誌，是是否推動了國家的人均信息消費水平達到一個新的高度。

但這兩年，DT時代到來的呼聲愈來愈高，是的，馬爸爸說的IT到DT的時代已經到來！目前中國，一年半導體芯片的國際貿易額，超過石油成爲第一大進口商品，足以證明我國算力需求增長迅猛，比重驚人。全球電腦服務器的耗電量，也早就超過了鋼鐵、汽車等傳統工業，這一切變化證明，我們正進入DT時代，千真萬確。

對於《大數據時代》書中提的很多觀點應該用辯證的方法來看待，以下就一些認識上的一些爭議我結合傅一平老師的理解做出解答。

二、“不是隨機樣本，而是全體數據”，實際大多並不是這樣

作者表達了一個觀點，“當數據處理技術已經發生了翻天覆地的變化時，在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了，我們需要的是所有的數據，“樣本=總體””。

這種說法表明了一種新的認知世界的方式，是一種新的趨勢，努力達到全量的確可以讓我們抓到了更多的細節，讓我們擺脫傳統統計分析學的束縛，就好比以前預測美國總統大選，採用的是民意抽樣統計，而如今已經可以對於社區用戶所有言論的判斷來更精準的預測。

但是，現實世界很殘酷，大多數領域你其實無法拿到全量的數據，或者，如果你要拿到全量的數據，代價極其巨大，因此，大多數時候，我們用的大數據仍是局部的小數據，沒有所謂“樣本=總體”的條件，傳統的以抽樣來理解這個世界的方式仍然有效，機器學習與統計學作爲一種認知世界的方法也將持續有效，前期的AlphaGo與李世石的人機大戰。AlphaGo只能用採樣的方式獲得有限的棋局進行深度學習就是例證，因爲你不可能拿到全部的樣本或者甚至是足夠的樣本，因爲這個數量比全宇宙的原子還多。

當然，對於國際象棋和中國象棋上，全量的數據已經使得傳統勝負的玄妙缺失了意義，因此，可以這麼大膽推測，當某個領域具備“樣本=總體”的時候，就是該領域被大數據替換的時刻。

三、“不是精確性，而是混雜性”，沒能力但不能否定精確性的價值

作者表達了這樣一個觀點，執迷於精確性是信息時代和模擬時代的產物。只有5%的數據是結構化且能適用於傳統數據庫的。如果不接受混亂，剩下95%的非結構化數據都無法被利用，只有接受不精確性，我們才能打開一扇從未涉足的世界的窗戶，大數據的簡單算法比小數據的複雜算法更有效。

傳統數據處理追求“精確度”，這種思維方式適用於掌握“小數據量”的情況，因爲需要分析的數據很少，所以我們必須儘可能精準地量化我們的記錄。大數據紛繁多樣，優劣摻雜，分佈廣泛。擁有了大數據，我們不再需要對一個現象刨根究底，只要掌握大體的發展方向即可，適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。

這段話說得沒錯，但我認爲大數據的複雜算法對於認識這個世界更爲重要，對於精準性的把握始終是我們的目標，只是因爲我們現在的算法太弱了，無法駕馭大數據，才提簡單的算法。

比如，在工業界一直有個很流行的觀點：在大數據條件下，簡單的機器學習模型會比複雜模型更加有效。例如，在很多的大數據應用中，最簡單的線性模型得到大量使用。而最近深度學習的驚人進展，促使我們也許到了要重新思考這個觀點的時候。簡而言之，在大數據情況下，也許只有比較複雜的模型，或者說表達能力強的模型，才能充分發掘海量數據中蘊藏的豐富信息。運用更強大的深度模型，也許我們能從大數據中發掘出更多有價值的信息和知識。

爲了理解爲什麼大數據需要深度模型，先舉一個例子。語音識別已經是一個大數據的機器學習問題，在其聲學建模部分，通常面臨的是十億到千億級別的訓練樣本。在Google的一個語音識別實驗中，發現訓練後的DNN對訓練樣本和測試樣本的預測誤差基本相當。這是非常違反常識的，因爲通常模型在訓練樣本上的預測誤差會顯著小於測試樣本。因此，只有一個解釋，就是由於大數據裏含有豐富的信息維度，即便是DNN這樣的高容量複雜模型也是處於欠擬合的狀態，更不必說傳統的GMM聲學模型了。所以從這個例子中我們看出，大數據需要複雜深度學習，毫無疑問AlphGo也必定是欠擬合的。

四、“不是因果關係，而是相關關係”，追求真理是我們永恆的目標

作者提出了這樣一個觀點，尋找因果關係是人類長久以來的習慣。即使確定因果關係很困難而且用途不大，人類還是習慣性地尋找緣由。在大數據時代，我們無須再緊盯事物之間的因果關係，不再把分析建立在早已設立的假設的基礎之上。而應該尋找事物之間的相關關係，讓大數據告訴我們“是什麼”而不是“爲什麼”。

一方面，應該承認基於大數據的相關關係是我們認識世界和改造世界的新的方式，從應用科學的角度講，降低對於因果關係的追求可以讓大數據創造更大的價值。

另一方面，當前階段由於我們對於世界的認知太少，人類在有限的時間內不可能找到“終極真理”，大量的規律通過大數據暴露出了蛛絲馬跡，即所謂的相關關係，但其本質上仍是因果關係的體現，因此兩者並不衝突。一個解決當前問題，是近，一個解決長期問題，是遠，兩者相輔相成，無所謂誰替代誰。從社會角度來講，企業可以致力於大數據相關關係來創造更多的商機，而因果關係仍然是基礎研究需要追求的東西，不能說人類物質上滿足了，就不去追求更爲本原的東西。

同時，大數據方法也可以發現因果關係。2014年，美國國防高級研究計劃局啓動其“大機理”項目。目的是發展可以發現隱藏在大數據中因果模型。典型“大機理”例子就是，1854年的倫敦地圖顯示爆發霍亂和污染的公共水泵之間的聯繫。該發現推翻了當時認爲疾病是通過空氣傳播的認識。大機理包含在巨大的、零碎的、有時相互矛盾的文獻和數據庫中，所以，沒有任何一個人可以理解該如此複雜的系統，所以必須依靠計算機。

DARPA辦公室最初使用“大機理”工具來研究導致細胞癌變的複雜分子之間的相互作用。該方法包括使用電腦掃描癌症類論文，來獲取癌症路徑的有關數據。獲取的數據片段可以組成”前所未有規模和精度”的完整路徑，以此來確定傳遞路徑如何互動。最後，自動工具可以幫助確定因果關係，該因果關係可用來開發潛在治療癌症的方法。科恩說：“分子生物學和癌症文獻強調機理，論文描述蛋白質如何影響其它蛋白質的表達，這些影響如何產生生物效果。電腦應該可以被用來分析這些癌症類論文中的因果關係。”通過強調因果模型和解釋，大機理將成爲科學的未來。

五、“小數據的問題，大數據就能解決”，大數據並沒有解決小數據問題

大數據體現了4V特徵，但我們現在碰到的數據仍是主要是小數據，我們應該抱着務實的態度去解決小數據的問題，小數據的問題並不會由於大數據的產生而自動解決。

統計學家們花了200多年，總結出認知數據過程中的種種陷阱，這些陷阱並沒有被填平，比如採樣，大數據中有大量的小數據問題，這些問題不會隨着數據量的增大而消失，要注意數據（樣本）的偏差，比如Google的流感預測爲什麼近3年失敗，因爲其隨機性實際不夠，比如媒體對於流感流行的報道會增加與流感相關的詞彙的搜索次數，進而影響Google的預測，對谷歌大肆炒作的流感跟蹤系統的研究結果發現，該系統多年來一直高估美國的流感病例。這項失敗凸顯了依賴大數據技術的危險性。

“谷歌在2008年推出的流感趨勢系統監測全美的網絡搜索，尋找與流感相關的詞語，比如“咳嗽”和“發燒”等。它利用這些搜索來提前9個星期預測可能與流感相關的就醫量。在過去3年，該系統一直高估與流感相關的就醫量，在這類數據最有用的流感季節高峯期尤其預測不準確。在2012/2013流感季節，它預測的就醫量是美國疾控中心（CDC）最終記錄結果的兩倍；在2011/2012流感季節，它高估了逾50%。”

六、發人深省的彩蛋觀點，關於啤酒和尿布有點雷

（1）數據化，而不是數字化

所謂的數字化指的是把模擬數據轉換成用0和1表示的二進制碼，而數據化是指把現象轉變成可製表分析的量化形式的過程，舉個例子，我們掃描實體書成爲電子書，如果保存形式是圖片，這個只能叫作數字化，而我們通過字符識別軟件進行了文本解析，圖像就變成了數據化文本，兩者有本質的不同，萬物只有數據化後，纔可以被量化，我們才能通過量化後的數據創造更多的價值。美國政府在提數據開放的時候，強調了開放的數據必須是可以有機讀的，就是這個意思，一個PDF的信息量跟一個WORD的信息量顯然是不一樣的。

（2）應用爲王，不要迷信技術

目前各類企業都在建設大數據中心，但成本其實很大，當前的新的信息技術層出不窮，不斷冒出新概念，新名詞，大數據技術其實還在不停的發展，現階段，應該充分考慮成本因素，抱着應用爲先的態度，技術始終要爲應用服務，我們應該致力於用技術解決業務問題，而不是被潮流技術牽着鼻子走。不用迷信Google等技術公司的創新，有的放矢的借鑑，BAT做得足夠好，不要去貶低這些公司的技術創新性，不要用Google的AlphGo去鄙視百度的人工智能，應用始終爲王，百度發明的人工智能輸入實際應用意義可能遠大於AlphaGo。

（3）隱私問題，不是那麼簡單

告知與許可也許已經是世界各地執行隱私政策的基本法則，但這個法則有問題，大數據時代，很多數據在收集時並無意用於其它用途，但最終往往是二次開發利用創造了價值，公司無法告知用戶尚未想到的用途，而個人也無法同意這種尚是未知的用途。如果谷歌要使用檢測詞預測流感的話，必須徵得數億用戶的同意，就算沒有技術障礙，有哪個公司能負擔得起。

同樣，所謂的匿名化在小數據時代的確可以，但是隨着數據量和種類的增多，大數據促進了數據內容的交叉檢驗。

政府在未來制定相關法規的時候，應該充分尊重事實，也許提前預防永遠無法解決大數據應用和隱私問題。

（4）大數據的驅動效應

大家所說的大數據是沙裏淘金，大海撈針，導致人們總是渴望從大數據挖掘出意想不到的“價值”。實際上大數據更大的價值是帶動有關的科研和產業，提高個行業通過數據分析解決困難問題和增值的能力，大數據價值體現在它的驅動效益。

所謂的“啤酒與尿布”的數據挖掘經典案例，其實是Teradata公司的一位經理編造出來的“故事”，歷史上並沒有發生過，這個天雷滾滾啊。

馮.諾依曼指出：“在每一門學科中，當通過研究那些與終極目標相比頗爲樸實的問題，發展出一些可以不斷加以推廣的方法時，這門學科就得到了巨大的進展。”在發展大數據技術和產業中，不應天天期盼奇蹟出現，而應紮實多做“頗爲樸實”的事，培育數據文化，打造大數據應用環境，提高決策合理性，開拓新的數據應用。（此段引述李國傑院士的報告）深有感觸，大數據推動了企業的數據文化，大家對於數據有了新的認識和充分的尊重，即使我們在用得大多仍然是小數據，那又如何，只要我們的心中的數據已經足夠大。

《大數據時代：生活、工作與思維的大變革》：看“大數據時代預言家”的真知灼見

文章目錄

一、前言

二、“不是隨機樣本，而是全體數據”，實際大多並不是這樣

三、“不是精確性，而是混雜性”，沒能力但不能否定精確性的價值

四、“不是因果關係，而是相關關係”，追求真理是我們永恆的目標

五、“小數據的問題，大數據就能解決”，大數據並沒有解決小數據問題

六、發人深省的彩蛋觀點，關於啤酒和尿布有點雷

Python 潮流週刊#52：Python 處理 Excel 的資源

【Flink】（十二）Flink Table API 和 Flink SQL 編程

【Flink】（02）Apache Flink 漫談系列 —— 流批一體的實踐與探索

【Flink】（01）Apache Flink 漫談系列 —— 概述

《大數據時代：生活、工作與思維的大變革》：看“大數據時代預言家”的真知灼見

從數倉到數據中臺，且看馬蜂窩數倉研發總監談技術選型最優解

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結