原创 Hadoop序列化與壓縮

傳統的的計算機系統通過I/O操作與外界交流,,Hadoop的I/O由傳統的I/O系統發展而來,但是又有些不同,Hadoop需要處理P、T級別的數據,所以在org.apache.hadoop.io包中包含了一些面向海量數據處理的基本輸入輸出工

原创 Hadoop啓動腳本分析

1 基本概述Hadoop的命令位於${HADOOP_HOME}/bin、${HADOOP_HOME}/sbin、${HADOOP_HOME}/libexec下面。包含了Linux的shell腳本和windows的批處理文件。本文主要解析li

原创 僞分佈式模式的Hadoop環境搭建

一、本文說明:     本次測試在一臺虛擬機系統上進行僞分佈式搭建。Hadoop僞分佈式模式是在單機上模擬Hadoop分佈式,單機上的分佈式並不是真正的僞分佈式,而是使 用線程模擬分佈式。Hadoop本身是無法區分僞分佈式和分佈式的,兩種

原创 史上最全大數據學習資源整理(2)

服務編程  Akka Toolkit:JVM中分佈性、容錯事件驅動應用程序的運行時間;  Apache Avro:數據序列化系統;  Apache Curator:Apache ZooKeeper的Java庫;  Apache Karaf:

原创 Hadoop配置信息處理

1 配置文件簡介配置文件是一個靈活系統不可缺少的一部分,雖然配置文件非常重要,但卻沒有標準。1.1 Java配置文件JDK提供了java.util.Properties類,用於處理簡單的配置文件。Properties很早就被引入到Java的

原创 獨立模式的Hadoop環境搭建

    對於Hadoop來說,最主要的是兩個方面,一個是分佈式文件系統HDFS,另一個是MapReduce計算模型,搭建Hadoop的運行環境主要分爲三種:獨立模式環境、僞分佈式環境、完全分佈式環境。    一、獨立模式:也叫單機模式。這種

原创 如何高效的閱讀hadoop源代碼

首先,不得不說,hadoop發展到現在這個階段,代碼已經變得非常龐大臃腫,如果你直接閱讀最新版本的源代碼,難度比較大,需要足夠的耐心和時間,所以,如果你覺得認真一次,認真閱讀一次hadoop源代碼,一定要有足夠的心理準備和時間預期。其次,需

原创 Java 將字節轉化爲16進制字符串

    很多時候我們需要將字節數組轉化爲16進制字符串來保存,例如做I/O字節流操作的時候,尤其在很多加密的場景中應用都比較廣泛。     Java中byte用二進制表示佔用8位,而我們知道16進制的每個字符需要用4位二進制位來表示,所以我

原创 Eclipse導入Hadoop 源碼

1.準備工作     jdk:    eclipse:    Maven:    libprotoc :https://developers.google.com/protocol-buffers/    hadoop:http://www

原创 Hadoop之NameNode元數據相關文件目錄解析

    下面所有的內容是針對Hadoop 2.x版本進行說明的,Hadoop 1.x和這裏有點不一樣。     在第一次部署好Hadoop集羣的時候,我們需要在NameNode(NN)節點上格式化磁盤:ubuntu@ubuntu hadoo

原创 完全分佈式模式的Hadoop環境搭建

一、本文說明:本次測試在五臺虛擬機系統上進行完全分佈式搭建。Hadoop分佈式模式是在多臺機器上分佈式部署,配置非常類似於僞分佈式,名稱節點和數據節點都分佈在不同的主機上,每臺數據節點上都有相應的任務調度。 二、環境說明:       虛擬

原创 hadoop fs 命令

1,hadoop fs –fs [local | <file system URI>]:聲明hadoop使用的文件系統,如果不聲明的話,使用當前配置文件配置的,按如下順序查找:hadoop jar裏的hadoop-default.xml->

原创 Hive入門到剖析(三)

8 Hive Shell操作8.1 Hive bin下腳本介紹8.2 Hive Shell 基本操作1、Hive 命令行hive [-hiveconf x=y]* [<-ifilename>]* [<-f filename>|<-e que

原创 Hadoop之MapReduce工作原理

    Hadoop由兩部分組成,分別是分佈式文件系統HDFS和分佈式計算框架MapReduce。其中,分佈式文件系統HDFS主要用於大規模數據的分佈式存儲,而MapReduce則構建在分佈式文件系統上,對於存儲在分佈式文件系統的數據進行分

原创 Hadoop之HDFS回收站

    Hadoop回收站trash,默認是關閉的。 習慣了window的同學,建議最好還是把它提前開開,否則誤操作的時候,就欲哭無淚了。    1.修改conf/core-site.xml,配置如下:<property>  <name>f