原创 Zookeeper-2 利用Zookeeper實現HDFS HA(High Availability)方案

利用Zookeeper實現HDFS HA方案引言用到的ZK特性HDFS HA實現之元數據備份共享存儲系統節點功能劃分HDFS HA實現之主備選舉腦裂處理HA中的腦裂 引言 在Hadoop 1.x版本,HDFS集羣的NameNo

原创 Zookeeper-1 基本概念和基礎操作

Zookeeper 基本概念和基礎操作Zookeeper概述什麼是zookeeper爲什麼要使用zookeeperZookeeper基本概念Zookeeper數據結構Zookeeper數據節點Znode持久節點臨時節點有序節點如何

原创 hadoop-16 yarn的調度器

Yarn的任務調度器概述FIFO容量調度器公平調度器 概述 資源調度器是YARN最核心的組件之一,是一個插拔式的服務組件,負責整個集羣資源的管理和分配。 YARN提供了三種可用的資源調度器: FIFO Capacity Sche

原创 haoop-15 yarn

YARNYarn概述Yarn架構ResourceManager調度器Scheduler應用程序管理器Applications Manager,ASMNodeManagerNodeManager的功能:ContainerContai

原创 hadoop-12 shuffle壓縮

數據壓縮的意義和好處 在shuffle階段,有大量的數據拷貝操作: 從Map階段輸出的數據,通過網絡拷貝,發送到reduce階段。 這其中涉及了大量的網絡IO,如果數據能夠進行壓縮,那麼數據的發送了就會少的多。 文件壓縮的好處

原创 hadoop-13 mapTask、reduceTask工作機制

mapTask工作機制 Read階段:MapTask通過用戶編寫的RecordReader,從輸入InputSplit中解析出一個個key/value。 Map階段:該節點主要是將解析出的key/value交給用戶編寫map(

原创 hadoop-11 自定義OutputFormat

步驟 仿照TextOuputtFormat自定義OutputFormat。實現:根據輸入源的某個非key字段輸出到不同的路徑。 1.自定義類繼承FileOutputFormat 添加靜態類MyRecordWriter()繼承Re

原创 hadoop-14 自定義計數器

計數器的作用 如果需要將日誌信息傳輸到map或reduce任務, 比較好的方法之一是看能否用一個計數器值來記錄某一特定事件的發生 獲取計數器值比輸出日誌更方便,還有根據計數器值統計特定事件的發生次數要比分析一堆日誌文件容易得多

原创 hadoop-7 MapRecude

MapRecudeMR概念MR核心功能MR核心思想三大階段八大步驟Map階段Shuffle階段(可以省略,程序調用haoop默認shuffle)Reduce階段MR入門之單詞統計MapTask的數量ReduceTask的數量Map

原创 hadoop-9 InputFormat詳解

概述 InputFormat是MapReduce用於處理數據輸入的一個最頂級的抽象父類 InputFormat實現結構 InputFormat抽象類僅有兩個抽象方法: List<InputSplit> getSplits(),

原创 hadoop-10 MapTask及輸入切片機制

概念 Block: HDFS物理上數據切成一塊一塊存儲 Split : 邏輯上對輸入進行分片,不會改變物理上的存儲。 MapTask 在MR中,每個mapTask 處理一個邏輯切片split的數據量 默認情況下,每個物理的b

原创 JAVA基礎-IO

JAVA基礎-IOIO基礎含義FILE相對路徑和絕對路徑的構建文件和目錄的判斷獲得路徑File常用函數當File表示一個文件時:當File表示一個目錄時:InputStreamInputStream分類讀取字符流示例ByteArr

原创 未能找到路徑“\bin\roslyn\csc.exe”的一部分 解決方法

Your build is trying to find \bin\roslyn\csc.exe because following packages have been added in your project.Just review

原创 hadoop-8 序列化

概述 序列化就是把內存中的對象,轉換成字節序列(或其他數據傳輸協議)以便於存儲到磁盤(持久化)和網絡傳輸 反序列化就是將收到字節序列(或其他數據傳輸協議)或者是磁盤的持久化數據,轉換成內存中的對象 java序列化和hadoop序

原创 hadoop-5 datanode

Datanodedatanode工作機制數據完整性掉線時限參數設置DataNode的目錄結構Datanode多目錄配置 datanode工作機制 1)一個數據塊在datanode上以文件形式存儲在磁盤上,包括兩個文件,一個是數據本