Hadoop - Spark 關係

原創

2020-02-21 03:27

談到大數據，相信大家對Hadoop和Spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上，並沒有對它們進行深入的思考，下面不妨跟我一塊看下它們究竟有什麼異同。

一、解決問題的層面不一樣

1. 首先，Hadoop和Apache Spark兩者都是大數據框架，但是各自存在的目的不盡相同。Hadoop實質上更多是一個分佈式數據基礎設施: 它將巨大的數據集分派到一個由普通計算機組成的集羣中的多個節點進行存儲，意味着您不需要購買和維護昂貴的服務器硬件。

2. 同時，Hadoop還會索引和跟蹤這些數據，讓大數據處理和分析效率達到前所未有的高度。Spark，則是一個專門用來對那些分佈式存儲的大數據進行處理的工具，它並不會進行分佈式數據的存儲。

二、兩者可合可分

1. Hadoop除了提供爲大家所共識的HDFS分佈式數據存儲功能之外，還提供了叫做MapReduce的數據處理功能。

所以這裏我們完全可以拋開Spark，使用Hadoop自身的MapReduce來完成數據的處理。

2. Spark也不是非要依附在Hadoop身上才能生存。

但如上所述，畢竟它沒有提供文件管理系統，所以，它必須和其他的分佈式文件系統進行集成才能運作。這裏我們可以選擇Hadoop的HDFS,也可以選擇其他的基於雲的數據系統平臺。但Spark默認來說還是被用在Hadoop上面的，畢竟，大家都認爲它們的結合是最好的。

3. 對MapReduce的最簡潔明瞭的解釋:

我們要數圖書館中的所有書。你數1號書架，我數2號書架。這就是“Map”。我們人越多，數書就更快。

現在我們到一起，把所有人的統計數加在一起。這就是“Reduce”。

4. Spark數據處理速度秒殺MapReduce

Spark因爲其處理數據的方式不一樣，會比MapReduce快上很多。MapReduce是分步對數據進行處理的: 從集羣中讀取數據，進行一次處理，將結果寫到集羣，從集羣中讀取更新後的數據，進行下一次的處理，將結果寫到集羣，等等…
反觀Spark，它會在內存中以接近“實時”的時間完成所有的數據分析：“從集羣中讀取數據，完成所有必須的分析處理，將結果寫回集羣，完成，” Spark的批處理速度比MapReduce快近10倍，內存中的數據分析速度則快近100倍。
如果需要處理的數據和結果需求大部分情況下是靜態的，且你也有耐心等待批處理的完成的話，MapReduce的處理方式也是完全可以接受的。
但如果你需要對流數據進行分析，比如那些來自於工廠的傳感器收集回來的數據，又或者說你的應用是需要多重數據處理的，那麼你也許更應該使用Spark進行處理。
大部分機器學習算法都是需要多重數據處理的。此外，通常會用到Spark的應用場景有以下方面：實時的市場活動，在線品推薦，網絡安全分析，機器日記監控等。

三、災難恢復

兩者的災難恢復方式迥異，但是都很不錯。因爲Hadoop將每次處理後的數據都寫入到磁盤上，所以其天生就能很有彈性的對系統錯誤進行處理。
Spark的數據對象存儲在分佈於數據集羣中的叫做彈性分佈式數據集(RDD: Resilient Distributed Dataset)中。這些數據對象既可以放在內存，也可以放在磁盤，所以RDD同樣也可以提供完成的災難恢復功能。

安卓學吧

發佈了110 篇原創文章 · 獲贊 95 · 訪問量 7萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Hadoop - Spark 關係

EXCEL中下拉菜單中添加新選項或者刪除選項

號稱能打敗MLP的KAN到底行不行？數學核心原理全面解析

Git使用經驗總結5-修改提交信息

Python 爬蟲：Spring Boot 反爬蟲的成功案例

京東科技數字化營銷能力的演進與最佳實踐| 京東雲技術團隊

同事使用 insert into select 遷移數據，開開心心上線，上線後被公司開除！

Java中止線程的方式

[轉帖]Oracle Exadata 學習筆記之核心特性Part1

《最新出爐》系列入門篇-Python+Playwright自動化測試-43-分頁測試

HTTP協議相關文檔

Redis教程（二）詳解

Redis教程（一）簡介及安裝

Redis - Memcached 比較

Hadoop 2.x 四層架構

（三）github分支管理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結