原创 Linux Unbutu系統下進行jdk版本切換

我的系統默認jdk是1.6,在系統中配置了jdk1.7版本,jdk1.7安裝在/jdk1.7目錄下。 首先需要把新安裝的jdk添加到alternatives,添加命令:        (1)alternatives --install 

原创 Hadoop2.x 源代碼組織結構

在 Hadoop 的 JAR 壓縮包解壓後的目錄 hadoop-{VERSION} 中包含了 Hadoop 全部的管理腳本和 JAR 包,下面簡單對這些文件或目錄進行介紹。 (1)bin:Hadoop 最基本的管理腳本和使用腳本所在目錄

原创 Maven搭建hadoop環境之pom.xml基本配置

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLoc

原创 簡單統計Hbase某列個數筆記

思路:將hbase表中數據輸出到本地文件中,通過linux命令查找指定字符串個數。 echo "scan 'TestTable'"|hbase shell |grep column > test.txt cat test.txt |

原创 hadoop Secondary NameNode作用

1.  光從字面上來理解,很容易讓一些初學者先入爲主的認爲:SecondaryNameNode(snn)就是NameNode(nn)的熱備進程。其 實不是。snn是HDFS架構中的一個組成部分,但是經常由於名字而被人誤解它真正的用途,其實

原创 hadoop實現Join的幾種方法

1) reduce side join reduce side join是一種最簡單的join方式,其主要思想如下: 在map階段,map函數同時讀取兩個文件File1和File2,爲了區分兩種來源的key/value數據對,對每條數據打

原创 hadoop之namenode工作特點

1. namenode始終在內存中保存metedata(整個文件系統的目錄結構,每個目錄有哪些文件,每個文件有哪些分塊及每個分塊保存在哪個DataNode上),用於處理“讀請求”(不需要修改內容),到有“寫請求”到來時,namenode會

原创 hive udf、udaf、udtf使用區分

UDF:一進一出 實現方法: 1. 繼承UDF類 2. 重寫evaluate方法 3. 將該java文件編譯成jar 4. 在終端輸入如下命令: hive> add jar test.jar; hive> create temporar

原创 Hbase原理(更新中)

Hbase內部保留名爲-ROOT-和.META.的特殊目錄表。他們維護者集羣上的所有區域的列表、狀態和位置。-Root-表包含.META.表的區域列表。 .META.表包含所有用戶空間區域的列表。表中的項

原创 Java hashcode作用

總的來說,Java中的集合(Collection)有兩類,一類是List,再有一類是Set。 前者集合內的元素是有序的,元素可以重複;後者元素無序,但元素不可重複。 那麼這裏就有一個比較嚴重的問題了:要想保證元素不重複,可兩個元素是否

原创 java使用jdbc調用hive出現The query did not generate a result set!

使用java通過jdbc調用hive,執行hive sql時出現如下異常: Exception in thread "main" java.lang.reflect.InvocationTargetException at sun.r

原创 vmware centos上網配置

1. windows網絡適配器中設置VMnet8的IPV4設置爲自動獲取 2. 虛擬機設置爲NAT,如下圖     3. “編輯”-“虛擬網絡編輯器”選中VMnet8,點選NAT(與虛擬機共享主機IP地址),把DHCP勾上(那兩個框都勾上

原创 原MapReduce與YARN比對

一、原 MapReduce 程序的流程         1. 首先用戶程序 (JobClient) 提交了一個 job,job 的信息會發送到 Job Tracker 中,Job Tracker 是 Map-reduce 框架的中心,他需

原创 從const char *中獲取指定char *字符串

今天做項目需要在代碼中修改視頻url格式,貼出主要實現代碼,以本地視頻url爲例:         const char *url = "file:///home/wanghy/work/avFile/File_Seg-0.ts?Fil

原创 MapReduce之shuffle過程

Shuffle描述着數據從map task輸出到reduce task輸入的這段過程。官網圖片表示Shuffle過程橫跨map與reduce兩端,如下圖:    一 map端shuffle     map端流程如下圖: