如何應對大數據時代

近些年來，大數據逐步***到現實生活，從醫療到信貸，可謂是各個行業。
單從“大數據”這個詞語來看，說明數據量很大。如果這些數據結果，不做處理，以單純數字呈現，相信你看的超不過10秒中，你會頭皮發麻。你都頭皮發麻了，那我們的客戶豈不更發麻，如果這個問題解決不了，將非常影響大數據的發展。由此一個職業必將會興起，就是數據可視化工程師，而它的職責就是將大數據的結果做的一目瞭然，降低客戶的閱讀時間和閱讀門檻。
此教程將會盡快的完善起來，形成培養數據可視化工程師的經典網絡教程。
現在我們進入課程，如何應對大數據時代！我總結了三條有效的祕籍。
三條祕籍：
● 拋棄不精準的樣本數據，統計分析全部數據
截止到現在，我們獲取收集的數據仍很有限，因此更多的是“隨機採樣分析”。
隨機採樣分析的定義：對一個生物的總體，機會均等地抽取樣本，估計其總體的某種生物學特性的方法。
按照隨機的原則，即保證總體中每個單位都有同等機會被抽中的原則抽取樣本的方法。
優點：在根據樣本資料推論總體時，可用概率的方式客觀地測量出推論值的可靠程度，從而使這種推論建立在科學的基礎上。正因爲此，隨機採樣分析在社會調查和社會研究中應用比較廣。
缺點：只適用於總體單位數量有限的情況，否則編號工作繁重；對於複雜的總體，樣本的代表性難以保證；不能利用總體的已知信息等。在市場調研範圍有限，或調查對象情況不明，難以分類。並且必須對總體各單位的情況有較多的瞭解，否則無法作出科學的分類。而這一點在實際調查之前又往往難以做到，從而導致樣本的代表性較差。
例如，要想知道中國公民對某項政策的滿意度，不可能對所有中國公民做問卷調查。通常的做法是隨機找10000個人，用這10000個人的滿意度來代表所有人的。
爲了使結果儘可能準確，我們會設計儘可能精確的問卷，並使樣本足夠隨機。
這就是“小數據時代”的做法，在不可能蒐集全部數據的情況下，隨機採樣分析在各領域取得了巨大的成功。
但是，問題也就來了：
1.依賴隨機性，而隨機性很難做到。例如，使用固定電話隨機打給10000戶人家，這樣也是缺乏隨機性的，因爲沒有考慮到年輕人都使用手機的情況。
2.遠看不錯，一旦聚焦到某一點，就模糊了。例如，我們用10000個人來代表全國，這1000個人是隨機從全國選取的。但是，如果用此結果來判斷西藏的滿意度，卻是缺乏精確的。也就是說，分析結果不能適用於局部。
3.採樣的結果只能回答你事先設計好的問題，不能回答你突然意識到的問題。
而在”大數據時代“，樣本=總體。如今，我們已經有能力蒐集到全面而完整的數據。
通常我們所說的大數據就是建立在掌握所有數據、至少也是儘可能多的數據的基礎上的。
● 着眼數據的完整性和複雜性，弱化單條數據的精確性
在“小數據”時代，我們首先要解決的就是減少測量的錯誤，因爲本身收集的信息比較少，所以要保證結果儘可能的準確就必須先保證記錄的信息是正確的，否則細微的錯誤會被無限放大。由此我們必須先要優化測量工具。而現代科學就是這麼發展過來的，制定溫度的國際單位的物理學家開爾文曾說過：“測量就是認知”。要成爲一名優秀的科學工作者必須要能準確收集和管理數據。
在“大數據”時代，我們可以輕而易舉地獲得全部數據，並且數目龐大到上萬億個數據，也正因爲此，如果追求每一個數據的精確性，將不可想象的。弱化了數據的精確性，那麼數據的混雜性也就不可避免。
然而，如果數據量足夠大時，它所帶來的混亂也不一定會帶來不好的結果。也正是這個原因，我們放鬆了數據的標準，所能蒐集的數據就多了起來，我們就可以用這些數據來做更多的事。
舉一個例子：
要測一個一畝土地的含鹽量，如果只有一個測量儀，那必須保證這個測量儀精確且能一直工作。但是如果每平米土地就有一個測量儀，則雖然有些測量數據是錯誤的，但是所有數據合起來卻能得到一個更準確的結果。
因此，“大數據”通常用更有說服力的概率說話，而不是依賴測量工具的精準。這就要求我們重新審視獲取收集數據的思路。由於數據量特別大，我們放棄了個體精確性，當然也無法實現個體精確性。
比如，我們在電腦存儲上可以看到，所有的文件可以通過一個路徑找到它，例如，要找一首歌曲，必須先找到一個分區，然後再找到其文件夾，最後逐步找到所需要的歌曲，而這就是傳統的方法。如果電腦上的分區或者文件夾較少，可以這麼查找，但如果有1億個分區呢？10億個文件夾呢？網絡上的數據可遠比個人電腦上的文件多，動則數十億，如果使用清晰的分類，那麼不僅分類的人會瘋，查詢的人也會瘋。因此，現在互聯網上廣泛使用”標籤“，通過標籤來檢索圖片、視頻、音樂等。當然，有時人們會錯標一個標籤，這讓習慣精確性的人很痛苦，但是，接受”混亂“也給我們帶來了好處：
由於擁有了比”分類”數量多得多的標籤，我們就能夠獲得更多的內容。
可以通過標籤組合來過濾內容。
又例如，如果我們要搜索“白鴿”。而“白鴿”所關聯的信息又有很多：比如一種動物，又或者是一個品牌，還可以是一個名人。一旦我們按照傳統的分類法，“白鴿”就會被分到動物類，品牌類，名人類。導致一個結果就是查詢的人不知道它還有其他的分類，還有可能就是隻想查“白鴿”這種動物，所以就不會到品牌類或者名人類裏查詢。但是，如果使用”標籤“，輸入”白鴿“+”動物“，即可查到想要的結果；輸入”白鴿“+”品牌“即可查到想要的結果；輸入”白鴿“+”名人“即可查到想要的結果。
由此可見，使用”標籤“代替”分類“，雖然有很多不精確的數據，但是得力於大量的標籤，使得我們搜索更爲方便。
● 思考數據的關聯性，放棄單一的因果性
首要研究數據的本身，不必再深究數據的形成的原因，讓數據自身發言。
舉個例子：
沃爾瑪是世界上最大的零售商，掌握了大量的零售數據。通過銷售數據分析，沃爾瑪得到，每當季節性颶風來臨之前，手電筒和蛋撻的銷售量都會增加。由此，當季節性颶風來臨時，沃爾瑪會把庫存的蛋撻放在靠近颶風用品的位置，促進顧客購買。
肯定會有人問“爲什麼颶風一來，人們都要買蛋撻呢？”
而這個“爲什麼”，是因果關係。而這個“因”，分析起來極難、並且很複雜，即便最後得出來了，意義也不大。對沃爾瑪來說，當颶風來臨時，擺好蛋撻，就行了。這就是數據自身發言。
而我們知道颶風與蛋撻有關，並且能賺錢就可以了。
這就是應對大數據時代的方式，即思考數據的關聯性，放棄單一的因果關係。
這種方式能夠幫助我們更好地理解世界。有時候，因果關係還會給我們帶來一些錯誤的認知。
例如：
我們從父母那裏得知，天冷時要帶帽子和手套，否則就會感冒。但是，感冒的成因並非如此。又或者我們在餐館裏吃飯，突然肚子疼，可以想到原因食物有問題。可實際上很可能是接觸到外界病菌的關係。
關聯性在分析問題時提供了新的視角，讓我們明白數據自身的發言。但是，因果性也不應該完全放棄，而是要以科學的關聯性的立場來審視。

引來一個新的問題：大數據時代如何做到數據一目瞭然？答案在這裏

如何應對大數據時代

大話HTTP[第一集]

破解HTML困惑的第一封信

如何應對大數據時代

程序員這個行業，有很多坎

零基礎快速全面掌握html遊戲開發

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結