原创 MapReduse框架原理—Shuffle機制

Shuffle機制   Mapreduce確保每個reducer的輸入都是按key排序的。系統執行排序的過程(即將mapper輸出作爲輸入傳給reducer)稱爲shuffle,如圖。 Partition分區   問題引出:要求將

原创 MapReduce框架原理—MapTask工作機制

並行度決定機制 1.問題引出   maptask的並行度決定map階段的任務處理併發度,進而影響到整個job的處理速度。那麼,mapTask並行任務是否越多越好呢? 2.MapTask並行度決定機制   一個job的map階段MapT

原创 MapReduce框架原理—InputFormat數據輸入(源碼詳解+實現類+切片機制+案例操作)

一、Job提交流程和切片源碼詳解 1.job提交流程源碼詳解,如代碼下圖 waitForCompletion() submit(); // 1建立連接 connect(); // 1)創建提交job的代理

原创 (HDFS)MapReduce核心思想+進程+編程規範+WordCount案例

聊聊MapReduce   Mapreduce是一個分佈式運算程序的編程框架,是用戶開發“基於hadoop的數據分析應用”的核心框架。   Mapreduce核心功能是將用戶編寫的業務邏輯代碼和自帶默認組件整合成一個完整的分佈式運算程序

原创 NameNode和SecondaryNameNode詳解

一、NN和2NN工作機制 NN和2NN工作機制,如圖 1.第一階段:NameNode啓動 (1)第一次啓動NameNode格式化後,創建fsimage和edits文件。 如果不是第一次啓動,直接加載編輯日誌和鏡像文件到內存。

原创 (Hdoop)HDFS—HA高可用詳解

一、HA概述 1)所謂HA(high available),即高可用(7*24小時不中斷服務)。 2)實現高可用最關鍵的策略是消除單點故障。HA嚴格來說應該分成各個組件的HA 機制:HDFS的HA和YARN的HA。 3)Hadoop

原创 Hadoop(HDFS)的Shell操作

一、基本語法 bin/hadoop fs 具體命令 二、命令大全 [admin@hadoop2 hadoop-2.7.2]$ bin/hadoop fs [-appendToFile <localsrc> ... <dst>]

原创 Hadoop運行模式—本地運行模式

一、官方grep案例  1.創建在hadoop-2.7.2文件下面創建一個input文件夾 [admin@hadoop101 hadoop-2.7.2]$ mkdir input  2.將hadoop的xml配置文件複製到input [a

原创 MapReduce框架原理—MapReduce工作流程

1.流程示意圖,如圖 2.流程詳解   上面的流程是整個mapreduce最全工作流程,但是shuffle過程只是從第7步開始到第16步結束,具體shuffle過程詳解,如下: 1)maptask收集我們的map()方法輸出的kv對

原创 HDFS的數據流—HDFS寫數據流程和HDFS讀數據流程

HDFS寫數據流程 一、剖析文件寫入 HDFS寫數據流程,如圖 1)客戶端通過Distributed FileSystem模塊向NameNode請求上傳文件, NameNode檢查目標文件是否已存在,父目錄是否存在。 2)NameNo

原创 DataNode詳解

一、DataNode工作機制 DataNode工作機制,如圖3 1)一個數據塊在DataNode上以文件形式存儲在磁盤上,包括兩個文件,一個是數據本身,一個是元數據包括數據塊的長度,塊數據的校驗和,以及時間戳。 2)DataNod

原创 Linux_Shell編程

概述   Shell是一個命令行解釋器,它爲用戶提供了一個向Linux內核發送請求以便運行程序的界面系統級程序,用戶可以用Shell來啓動、掛起、停止甚至是編寫一些程序。   Shell還是一個功能相當強大的編程語言,易編寫、易調試、靈

原创 HDFS客戶端操作

HDFS客戶端環境準備 1.根據自己電腦的操作系統拷貝對應的編譯後的hadoop jar包到非中文路徑(例如:D:\Develop\hadoop-2.7.2) 2.配置HADOOP_HOME環境變量,如圖 3. 配置Path環境變

原创 Linux常見問題

1、明明bios已經調成 虛擬化支持了 但是安裝64位版本的時候依然提示不支持64位 或者 提示沒有打開虛擬化支持 解決: 換vm10的版本, 換32位的linux安裝。 2、vmware tools 安裝不成功或者安裝完畢

原创 Hadoop運行模式—僞分佈式運行模式

一、啓動HDFS並運行MapReduce程序 1.分析 (1)配置集羣 (2)啓動、測試集羣增、刪、查 (3)執行wordcount案例 2.執行步驟 (1)配置集羣  (a)配置:hadoop-env