原创 Hadoop 實例15 MultipleInputs實戰2:多種自定義文件格式的文件輸入處理

MultipleInputs 可以讓MR支持多種輸入格式。 比如我們有兩種文件格式,那麼我們就需要有兩套 Record Class, RecordReader和InputFormat。 MultipleInputs需要不同的InputFo

原创 Dijkstra的雙棧算法表達式求值算法

import java.util.Stack; /** * Created by gary on 16-1-3. */ public class TestStack { public static void main(Str

原创 Hadoop 案例7-----日誌分析:分析非結構化文件

1、需求:根據tomcat日誌計算url訪問了情況,具體的url如下, 要求:區別統計GET和POST URL訪問量 結果爲:訪問方式、URL、訪問量 127.0.0.1 - - [03/Jul/2014:23:36:

原创 Hadoop 實例9 Join講解2: 將人員的地址ID完善成爲地址名稱

輸出格式要求:人員Id,姓名,地址 1、原始數據 人員ID 人員名稱 地址ID 1 張三 1 2 李四 2 3 王五 1 4 趙六 3 5 馬七 3 另外一組爲地址信息: 地址ID 地址名稱 1 北

原创 Hadoop 實例11 二次排序講解

說明: 關於二次排序主要涉及到這麼幾個東西: 在0.20.0 以前使用的是 setPartitionerClass setOutputkeyComparatorClass setOutputVal

原创 Hadoop 實例10 Join講解3: 將人員的地址ID完善成爲地址名稱,輸出格式要求:人員Id,姓名,地址 ----優化方案

1、原始數據 人員ID 人員名稱 地址ID 1 張三 1 2 李四 2 3 王五 1 4 趙六 3 5 馬七 3 另外一組爲地址信息: 地址ID 地址名稱 1 北京

原创 Hadoop 案例3----數據排序

“數據排序”是許多實際任務執行時要完成的第一項工作, 比如學生成績評比、數據建立索引等。這個實例和數據去重類似,都是先對原始數據進行初步處理,爲進一步的數據操作打好基礎。下面進入這個示例。 1、需求描述 對輸入文件中數據進行排序。輸

原创 Hadoop 案例2----數據去重問題

1、原始數據 1)file1: 2012-3-1 a 2012-3-2 b 2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b 2012-3-7 c 2012-3-3 c 2)file