大數據語錄節選

原創

2020-02-23 10:03

學習大數據，要清楚大數據能做什麼，不擅長做什麼，大數據不是萬金油。

首先粗略瞭解下大數據：

大數據目前的技術和應用都是在數據分析、數據倉庫等方面，主要針對OLAP（OnlineAnalyticalSystem），從技術角度來說，包含我總結的兩條腿：一條腿是批量數據處理（包括MR、MPP等），另一條腿實時數據流處理（Storm、內存數據庫等）。
在此基礎上，部分場景又發現MR框架或實時框架不能很好的滿足近線、迭代的挖掘需要，故又產生了目前非常火的基於內存數據處理Spark框架。很多企業目前的大數據框架是，一方面以Hadoop2.0之上的Hive、Pig框架處理底層的數據加工和處理，把按照業務邏輯處理完的數據直接送入到應用數據庫中；另一方面以Storm流處理引擎處理實時的數據，根據業務營銷的規則觸發相應的營銷場景。同時，用基於Spark處理技術集羣滿足對於實時數據加工、挖掘的需求。
以上描述可以看出，大數據說白了就是還沒有進入真正的交易系統，沒有在OLTP（OnlineTransactionsystem）方面做出太大的貢獻。至於很多文章把大數據和物聯網、泛在網、智慧城市都聯繫在一起，我認爲大數據不過是條件之一，其餘的OLTP系統是否具備，物理網絡甚至組織架構都是重要因素。
最後還想說，大數據處理技術，再炫如Google的Dataflow或成熟如Hadoop2.0、數據倉庫、Storm等，本質上都是數據加工工具，對於很多工程師來說，只需要把數據處理流程搞清楚就可以了，在這個平臺上可以用固定的模版和腳本進行數據加工已經足夠。畢竟數據的價值70%以上是對業務應用而言的，一個炫詞對於業務如果沒有幫助，終將只是屠龍之術。任何技術、IT架構都要符合業務規劃、符合業務發展的要求，否則技術只會妨礙業務和生產力的發展。

2、大數據落地面臨的困難
應該說，全球來看，對大數據認識、研究和應用還都處於初期階段。特別是對我國來說，大數據真正落地，還需要邁過三道坎。

1)數據是否足夠豐富和開放
豐富的數據源是大數據產業發展的前提。而我國數字化的數據資源總量遠遠低於美歐，每年新增數據量僅爲美國的7%，歐洲的12%，其中政府和製造業的數據資源積累遠遠落後於國外。就已有有限的數據資源來說，還存在標準化、準確性、完整性低，利用價值不高的情況，這大大降低了數據的價值。
同時，我國政府、企業和行業信息化系統建設往往缺少統一規劃和科學論證，系統之間缺乏統一的標準，形成了衆多“信息孤島”，而且受行政壟斷和商業利益所限，數據開放程度較低，以鄰爲壑、共享難，這給數據利用造成極大障礙。制約我國數據資源開放和共享的一個重要因素是政策法規不完善，大數據挖掘缺乏相應的立法，無法既保證共享又防止濫用，一方面欠缺推動政府和公共數據的政策，另一方面數據保護和隱私保護方面的制度不完善抑制了開放的積極性。因此，建立一個良性發展的數據共享生態系統，是我國大數據發展需要邁過去的第一道砍。
2)是否掌握強大的數據分析工具
要以低成本和可擴展的方式處理大數據，這就需要對整個IT架構進行重構，開發先進的軟件平臺和算法。這方面，國外又一次走在我們前面。特別是近年來以開源模式發展起來的Hadoop等大數據處理軟件平臺，及其相關產業已經在美國初步形成。
而我國數據處理技術基礎薄弱，總體上以跟隨爲主，難以滿足大數據大規模應用的需求。如果把大數據比作石油，那數據分析工具就是勘探、鑽井、提煉、加工的技術。我國必須掌握大數據關鍵技術，才能將資源轉化爲價值。應該說，要邁過這道坎，開源技術爲我們提供了很好的基礎。

3)管理理念和運作方式能否適配數據化決策
大數據開發的根本目的是以數據分析爲基礎，幫助人們做出更明智的決策，優化企業和社會運轉。哈佛商業評論說，大數據本質上是“一場管理革命”。大數據時代的決策不能僅憑經驗，而真正要“拿數據說話”。因此，大數據能夠真正發揮作用，深層次看，還要改善我們的管理模式，需要管理方式和架構的與大數據技術工具相適配。這或許是我們最難邁過的一道坎了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

大數據語錄節選

推薦的幾本數學書【by DaHua Lin】

如何閱讀學術論文

數學在機器學習中的重要性

對數學的新思考[1]

數據分析師的python日記【1】

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

大數據語錄 節選

大數據語錄節選