大數據學習，大數據發展趨勢和Spark介紹

大數據是隨着計算機技術、通信技術、互聯網技術的發展而產生的一種現象。
以前我們沒有實現人和人之間的連接，產生的數據沒有現在這麼多；或者說沒有把產生的數據記錄下來；即使記錄下來，我們也沒有很好的工具對這些數據進行處理、分析和挖掘。而隨着大數據技術的發展，我們開始逐漸地擁有這種能力，來發掘數據中的價值。
大數據技術在2012年之前是以MapReduce爲代表的批處理技術；2013年之後，則是以Spark爲代表的大數據處理引擎；展望未來，大家越來越關注人工智能和大數據的結合，希望通過人工智能技術從大數據中挖掘更多的價值。近年來人工智能的爆發，也正是得益於大數據技術在存儲、算力和算法上的飛速發展，所以人工智能和大數據是密不可分的，離開大數據，人工智能也是無源之水，無木之本。我們可以打個比方，如果把人工智能比喻成火箭，那麼大數據技術就是推動這艘火箭的燃料。
以上我們從宏觀的角度來看大數據技術的發展趨勢，下面讓我們以一個技術人員的角度，來看看當前大多數企業中所使用的大數據平臺的系統架構。
首先企業會從各個渠道收集數據，這些數據通過消息訂閱系統，一部分會經過一些流失的計算和處理，支持在線和實時的分析；另一部分數據則進入到相對靜態的數據湖中，中間會涉及到數據的清洗、過濾、再加工等操作，另外還可以對數據進行結構調整來優化業務，如合併大量小文件等等。數據湖中這些數據可以用來支持商業分析報表、數據挖掘、人工智能等應用。事實上Spark是當前使用最普遍的大數據計算引擎。在各個大企業的業務系統中，都把Spark作爲數據處理和分析的核心組件。簡單來說，原始的數據通常需要利用Spark來進行一系列的處理，才能最終應用於人工智能等應用，可以說Spark已經成爲大數據處理領域的一個實施標準。所以在當前大數據+AI的時代，正是因爲有了像Spark這樣的大數據技術，才使得企業能夠更快、更好地搭建業務系統，服務於所需的應用，從而充分的結合大數據和AI的能力，進一步發掘數據中的價值。
接下來讓我們一起了解一下Spark。作爲大數據技術中的明星，Spark它是一種通用的高性能的集羣計算系統。它起源於UC Berkeley AMP Lab一個研究項目，於2010年開源，2013年加入Apache基金會，如今Spark個在全球已經擁有50萬的Meetup成員，Spark的開源社區有1300+開發者，Spark也被廣泛的使用於企業和高校中。
那麼究竟是什麼讓Spark能得到大家的青睞呢？第一點原因就是它的高性能，比傳統MapReduce要快一百倍以上，讓Spark這個項目在一開始就非常的引人注目。其次，是它的通用性，Spark讓你可以在一個Pipline裏面編寫SQL、Streaming、ML、Graph等多種應用，而在Spark號之前是沒有一個系統能夠做到這一點的。第三點，Spark支持Java、Scala、Python、R、SQL等多種API，而且設計得非常簡潔易用。不光如此，Spark還在其周圍構建豐富的生態，他能夠處理多種數據源，如HBase、Kafka、MySQL等等，以及多種數據格式，如Parquet、ORC、CSV、JSON等等。此外還支持多種模式的部署，Yarn、Mesos、Kubernetes（也簡稱爲K8S），另外Spark也提供獨立的Standalone部署模式。
通過上面的內容我們大概瞭解了大數據發展趨勢和Spark的特點，是否意猶未盡呢，想要了解更多大數據、Spark的信息，請登錄華爲雲學院（https://edu.huaweicloud.com/）
學習相關課程《華爲雲數據湖探索服務》、《大數據入門與應用》。。。還有更多精彩課程等你來學習！

大數據學習，大數據發展趨勢和Spark介紹

華爲人才生態數字化平臺 & 華爲雲微認證發佈

區塊鏈是什麼？華爲雲學院帶你領略區塊鏈的前世今生

大數據學習，大數據發展趨勢和Spark介紹

物聯網是什麼，華爲雲學院帶你走進物聯網的前世今生

掘金23 萬億數字經濟華爲雲微認證官方上線

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結