大數據開發面試題詳解：Hadoop的運行原理

原創

2019-01-04 13:10

hadoop的核心思想是MapReduce，但shuffle又是MapReduce的核心。shuffle的主要工作是從Map結束到Reduce開始之間的過程。

Hadoop不僅僅是大數據技術的核心重點，還是我們面試官面試的時候經常會問道的問題，本文將詳細介紹Hadoop的運行原理。

hadoop運行原理包括HDFS和Mapreduce兩部分。

1）HDFS自動保存多個副本，移動計算。缺點是小文件存取佔用namenode內存，寫入只支持追加，不能隨機修改。

它存儲的邏輯空間稱爲block，文件的權限類似linux。整體架構分三種節點，NN,SNN,DN

NN 負責讀寫操作保存metadata(Ownership Permission blockinfo)

SNN 負責輔助NN合併fsimage和edits，減少nn啓動時間

DN 負責存數據，每個數據（文件）分割成若干block，每個block默認3個副本。啓動後像NN發送心跳保持聯繫

NN保存的metadata在hdfs啓動後加載到計算機內存，除block位置信息的metadata保存在OS文件系統中的fsimage文件中，對metadata的操作日誌保存在OS文件系統中的edits文件中。block位置信息是hdfs啓動後由DN上報NN再加載到內存的。

HDFS的安全模式：直到NN完全加載完metadata之前的這段時間。期間不能寫入文件，DN檢查各個block完整性，並修復。

2）MapReduce

離線計算框架，過程分爲split map shuffle reduce四個過程

架構節點有：Jobtracker TaskTracker

Split將文件分割，傳輸到mapper，mapper接收KV形式的數據，經過處理，再傳到shuffle過程。

Shuffle先進行HashPartition或者自定義的partition，會有數據傾斜和reduce的負載均衡問題；再進行排序，默認按字典排序；爲減少mapper輸出數據，再根據key進行合併，相同key的數據value會被合併；最後分組形成（key,value{}）形式的數據，輸出到下一階段

Reduce輸入的數據就變成了，key+迭代器形式的數據，再進行處理。

以上是對大數據技術面試題的詳細解析，當然了，既然是面試題不可能只有一道，小編還在積極預測備選中，針對大數據技術的重點內容進行詳細講解和階段測試，讓同學們真正掌握大數據技術，通過一週一小測，一個月一大測的培訓原則，給學生外界的學習推力。更多精彩，歡迎持續關注~

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.