技術-Hadoop

原創

gexiaobaoHelloWorld

2020-07-03 17:08

http://guoli0813.blog.51cto.com/623863/293138/

1，什麼是hadoop

組成：HDFS，MapReduce和Hbase。
定義：一個分佈式系統基礎架構，由Apache基金會開發。用戶可以在不瞭解分佈式底層細節的情況下，開發分佈式程序。充分利用集羣的威力高速運算和存儲（維基百科）。

這裏面關鍵就是高速運算和海量存儲。

2，海量存儲

HDFS（Hadoop Distributed File System）

上圖中展現了整個HDFS三個重要角色：NameNode、DataNode和Client。

2.1 NameNode

NameNode可以看作是分佈式文件系統中的管理者，主要負責管理文件系統的命名空間、集羣配置信息和存儲塊的複製等。NameNode會將文件系統的Meta-data存儲在內存中，這些信息主要包括了文件信息、每一個文件對應的文件塊的信息和每一個文件塊在DataNode的信息等。

2.2 DataNode

DataNode是文件存儲的基本單元，它將Block存儲在本地文件系統中，保存了Block的Meta-data，同時週期性地將所有存在的Block信息發送給NameNode。

2.3 Client

Client就是需要獲取分佈式文件系統文件的應用程序。

2.4 交互關係

這裏通過三個操作來說明他們之間的交互關係。

文件寫入：
Client向NameNode發起文件寫入的請求。
NameNode根據文件大小和文件塊配置情況，返回給Client它所管理部分DataNode的信息。
Client將文件劃分爲多個Block，根據DataNode的地址信息，按順序寫入到每一個DataNode塊中。
文件讀取：
Client向NameNode發起文件讀取的請求。
NameNode返回文件存儲的DataNode的信息。
Client讀取文件信息。
文件Block複製：
NameNode發現部分文件的Block不符合最小複製數或者部分DataNode失效。
通知DataNode相互複製Block。
DataNode開始直接相互複製。

2.5 HDFS的幾個設計特點

Block的設置：

默認不配置。一個Block會有三份備份，一份放在NameNode指定的DataNode，另一份放在與指定 DataNode非同一Rack上的DataNode，最後一份放在與指定DataNode同一Rack上的DataNode上。備份無非就是爲了數據安全，考慮同一Rack的失敗情況以及不同Rack之間數據拷貝性能問題就採用這種配置方式。
心跳檢測DataNode的健康狀況，如果發現問題就採取數據備份的方式來保證數據的安全性。
數據複製（場景爲DataNode失敗、需要平衡DataNode的存儲利用率和需要平衡DataNode數據交互壓力等情況）：這裏先說一下，使用HDFS的balancer命令，可以配置一個Threshold來平衡每一個DataNode磁盤利用率。例如設置了Threshold爲 10%，那麼執行balancer命令的時候，首先統計所有DataNode的磁盤利用率的均值，然後判斷如果某一個DataNode的磁盤利用率超過這個均值Threshold以上，那麼將會把這個DataNode的block轉移到磁盤利用率低的DataNode，這對於新節點的加入來說十分有用。
數據校驗：

採用CRC32作數據交驗。在文件Block寫入的時候除了寫入數據還會寫入交驗信息，在讀取的時候需要交驗後再讀入。
NameNode是單點：如果失敗的話，任務處理信息將會紀錄在本地文件系統和遠端的文件系統中。
數據管道性的寫入：當客戶端要寫入文件到DataNode上，首先客戶端讀取一個Block然後寫到第一個DataNode上，然後由第一個DataNode傳遞到備份的DataNode上，一直到所有需要寫入這個Block的NataNode都成功寫入，客戶端纔會繼續開始寫下一個 Block。
安全模式：

在分佈式文件系統啓動的時候，開始的時候會有安全模式，當分佈式文件系統處於安全模式的情況下，文件系統中的內容不允許修改也不允許刪除，直到安全模式結束。安全模式主要是爲了系統啓動的時候檢查各個DataNode上數據塊的有效性，同時根據策略必要的複製或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中，系統啓動的時候去修改和刪除文件也會有安全模式不允許修改的出錯提示，只需要等待一會兒即可。

3，高速計算

上面的圖片是計算這個文件中每個單詞出現的次數，這個任務被分裂成三個子任務，然後映射到集羣中JobTracker指定的TaskTracker上運行子任務，每個子任務都可以在指定的TaskTracker上運行，然後把運行的結果保存在當地，然後reduce程序被調用。然後進行的是結果的整合，整合完畢，就是最終結果了。這是計算向數據靠攏的計算方式。

好了，我們開始說安裝，好多都在講0.17和0.18的安裝，hadoop這玩意兒因爲最近很火，所以變動很厲害，變動的速度估計和nginx有一拼，所以在安裝的時候得批判的繼承他們安裝過程。

4，環境和角色

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

http、https、Socks代理知識彙總

原文鏈接：https://twindy.org/http-https-socksdai-li-zhi-shi-hui-zong/ 什麼是代理？在計算機領域，代理泛指中間傳輸web服務器，充當着用戶和目標服務器之間的中介。代理

2020-07-08 10:22:35

vue.js實現搜索結果支持全選與取消全選並添加到已選中

搜索結果支持全選與取消全選，打開、搜索、隨便點安裝vue-cli 安裝elementUI npm i element-ui -S 在main.js 引入elementUI import ElementUI from 'ele

2020-07-08 08:56:44

vue-cli實現tab切換

這幾天在用vue寫項目，記錄下用vue實現tab選項卡 html <div class="tab-big white-tab-big"> <div class="tabs"> <span v-for="(item,index) in

2020-07-08 08:56:44

後臺如何通過Request取得多個含有相同name的控件的值

所有html控件的值都是可以在服務器端用後臺代碼的Request[name]來獲取其值的。但如果有多個相同name的Html控件提交到後臺，怎麼分別取各個控件的值呢？而多數情況下這些控件的個數是不定的。例如在填寫簡歷表單中，“工作

2020-07-08 05:04:36

iOS開發之利用AsyncSocket實現即時通信(一)

AsyncSocket簡介在實現App的時候經常需要進行實時的網絡通信，也就是即時通信。實現即時通信的方式很多，可以利用極光、融雲等即時通信平臺進行通信，也可以利用一些打包類進行簡單的即時通信。這些打包類也有很多，例如GCDAsyn

2020-07-07 16:10:19

小白初學jenkins，記錄操作過程

1、點擊“新建Item”，創建項目 2、選擇 freestyle project 3、構建觸發器-選擇Build periodically -H 10 * * * 4、構建 ubuntu選擇 Execute shell 5、命令行 /us

2020-07-07 15:23:48

jacob 導出word文檔打開顯示爲web視圖問題

問題產生：由於是使用html 另存爲word導致打開生成的word文檔爲web視圖：Dispatch.call(this.document, "SaveAs", outputPath)；問題解決：1.創建空的word 文檔 this.

2020-07-07 14:37:10

程序員現在嚴重內卷化了！

最近很多人提到“內卷化”這個詞，其實程序員近年來內卷化就挺嚴重的。百度百科的搜索結果提到：內卷化，指一種社會或文化模式在某一發展階段達到一種確定的形式後，便停滯不前或無法轉化爲另一種高級模式的現象。這一概念最早是用

程序员云课堂

2020-07-07 11:37:36

java開發微信公衆號支付

這篇文章主要給大家結合微信支付接口開發的實踐,從獲取用戶授權到各主要接口的使用方法等方面介紹微信支付的關鍵點技術，有需要的小夥伴可以參考下最近做了微信公衆號支付的開發，由於是第一次做也摸索了幾天的時間，也只是達到了實現功能的水平，並沒有太

2020-07-07 09:34:21

Kafka高可靠性測試失敗，爲什麼？

CentOS7上，JDK 1.8.0_231-b11，zookeeper-3.4.6，kafka_2.12-2.3.0 測試multi-broker的例子https://kafka.apache.org/quickstart#quicks

2020-07-07 08:37:58

Windows 下製作 mac os 的優盤啓動

理論上MacBook的操作系統可以直接從WiFi重裝，但也有可能遇到網速過慢斷線等問題。如果手頭沒有別的Mac電腦，怎樣在Windows 下製作 MacOs 啓動優盤？網上有很多AppStore下載製作而來的原版dmg鏡像文件，實測這種文

潜在的码农

2020-07-07 08:11:23

UE4學習之旅(渲染篇#0001)：模式下的地貌與植被的介紹

UE4學習之旅(渲染篇#0001)：模式下的地貌與植被的介紹摘要本文章主要講述如何在UE4下創建一個地形，如何使用各個地形工具以及如何快速刷出大量的植物。地貌在模式下點擊地貌會出現三個不同的組件。分別是管理，雕刻，描畫。

2020-07-07 05:59:23

安裝及卸載Windows服務---詳細

　一、手動安裝Windows服務　　1、使用.net framwork工具InstallUtil 　　該工具版本跟當前系統安裝的.net framework版本相關(路徑爲C:/Windows/Microsoft.NET/Fram

2020-07-07 05:31:34

ubuntu首次登錄root密碼更改

ubuntu首次登錄root密碼更改搜索並打開Termial $sudo passwd root

2020-07-07 05:29:55

Python項目中使用配置文件

一些討論 Python中使用配置文件的最佳實踐 Python中使用配置文件的最好方法 Python符號常量多種配置文件方案對比我的建議 1. 排除yaml yaml 不是一個好主意，因爲需要給項目引入額外的依賴。首先排除它，除非是你

2020-07-07 04:45:07

24小時熱門文章

最新文章

最新評論文章