hadoop的核心思想是MapReduce,但shuffle又是MapReduce的核心。shuffle的主要工作是從Map結束到Reduce開始之間的過程。
Hadoop不僅僅是大數據技術的核心重點,還是我們面試官面試的時候經常會問道的問題,本文將詳細介紹Hadoop的運行原理。
hadoop運行原理包括HDFS和Mapreduce兩部分。
1)HDFS自動保存多個副本,移動計算。缺點是小文件存取佔用namenode內存,寫入只支持追加,不能隨機修改。
它存儲的邏輯空間稱爲block,文件的權限類似linux。整體架構分三種節點,NN,SNN,DN
NN 負責讀寫操作保存metadata(Ownership Permission blockinfo)
SNN 負責輔助NN合併fsimage和edits,減少nn啓動時間
DN 負責存數據,每個數據(文件)分割成若干block,每個block默認3個副本。啓動後像NN發送心跳保持聯繫
NN保存的metadata在hdfs啓動後加載到計算機內存,除block位置信息的metadata保存在OS文件系統中的fsimage文件中,對metadata的操作日誌保存在OS文件系統中的edits文件中。block位置信息是hdfs啓動後由DN上報NN再加載到內存的。
HDFS的安全模式:直到NN完全加載完metadata之前的這段時間。期間不能寫入文件,DN檢查各個block完整性,並修復。
2)MapReduce
離線計算框架,過程分爲split map shuffle reduce四個過程
架構節點有:Jobtracker TaskTracker
Split將文件分割,傳輸到mapper,mapper接收KV形式的數據,經過處理,再傳到shuffle過程。
Shuffle先進行HashPartition或者自定義的partition,會有數據傾斜和reduce的負載均衡問題;再進行排序,默認按字典排序;爲減少mapper輸出數據,再根據key進行合併,相同key的數據value會被合併;最後分組形成(key,value{})形式的數據,輸出到下一階段
Reduce輸入的數據就變成了,key+迭代器形式的數據,再進行處理。
以上是對大數據技術面試題的詳細解析,當然了,既然是面試題不可能只有一道,小編還在積極預測備選中,針對大數據技術的重點內容進行詳細講解和階段測試,讓同學們真正掌握大數據技術,通過一週一小測,一個月一大測的培訓原則,給學生外界的學習推力。更多精彩,歡迎持續關注~