原创 Hadoop學習筆記(十二)---hadoop配置文件詳解

關於conf/core-site.xml, conf/hdfs-site.xml,conf/mapred-site.xml的配置作如下說明: conf/core-site.xml配置如下: fs.default.name : Na

原创 Hadoop學習筆記(九)---自定義排序

如果有下面的數,我們想按照每行兩個數的乘積的大小來進行排序,就得如下操作: 1 2 1 1 3 2 2 2 5 1 先自定義排序的key,注意實現 WritableComparable這個接口: package cn.edu.bj

原创 Hadoop學習筆記(八)---內置數據類型與自定義數據類型

例如我們要計算下面數據的同一電話號碼(5,6,7,8位置)相同位置數據相加結果: 1363157985066 13726230503 00-FD-07-A4-72-B8:CMCC 120.196.100.82 24 27 2481

原创 JAVA編程思想學習筆記(二)---方法重載

        在日常生活中,相同的詞可以表達多種不同的含義,特別是含義之間的差別很小時,這種方式十分有用,你可以說“清洗襯衫”,“清洗車”,“清洗狗”等等,這就相當於我們在程序中定義了一個方法名“清洗”,我們可以傳入不同的對象“

原创 Hadoop學習筆記(十三)---Hbase的僞分佈安裝及配置

1.下載hbase,然後通過ftp上傳到linux 2.複製到/usr/local/,然後解壓,重命名hbase 3.執行命令vim /etc/profile,添加環境變量: export HBASE_HOME=/usr/lo

原创 Hadoop 實例14 MultipleInputs實戰2:多文件輸入執行join操作

hadoop多文件格式輸入,一般可以使用MultipleInputs類指定不同的輸入文件路徑以及輸入文件格式。 1、需求: 比如現在有如下的需求: 現有兩份數據: phone: 123,good number 124,common n

原创 Linux(CentOS)常用命令

echo $LANG 顯示系統語言 LANG=[zh_CN.UTF-8 | en_US]設置系統語言 date顯示系統時間 date "+%Y-%m-%d %H:%M:%S"格式化日期 cal 顯示日曆 cal[[month]

原创 ubuntu設置命令行啓動

推薦方法二 方法1. sudo gedit /etc/default/grub 將代碼:GRUB_CMDLINE_LINUX_DEFAULT="quiet splash"  改爲: GRUB_CMDLINE_LINUX_DEFAULT

原创 Hadoop 實例8 Join講解1: 獲取員工所在部門信息

輸出格式要求:員工編號,員工姓名,部門名稱,部門編號 1、原始數據 員工數據 empno ename job mgr hiredate sal comm deptno loc 7499 al

原创 Hadoop 實例1---通過採集的氣象數據分析每年的最高溫度

1.原始數據分析 0067011990999991950051507004888888889999999N9+00001+9999999999999999999999 00670119909999919500515120048888888

原创 Hadoop 案例5-----求最大最小值問題

1、數據準備 [root@x00 hd]# cat eightteen_a.txt 102 10 39 109 200 11 3 90 28 [root@x00 hd]# cat eightteen_b.txt 5 2 30 838

原创 二維數組的查找問題

題目:在一個二維數組中,每一行都按照從左往右遞增的順序排序,每一列都是按照從上到下遞增的順序排序。請完成一個函數,輸入這樣的一個二維數組和一個整數,判斷數組中是否擁有這個數字。 例如:下面這個數組就是每行每列都是遞增排序,如果在這個數

原创 Hadoop 案例4----平均成績

1、需求分析 對輸入文件中數據進行就算學生平均成績。輸入文件中的每行內容均爲一個學生的姓名和他相應的成績,如果有多門學科,則每門學科爲一個文件。 要求在輸出中每行有兩個間隔的數據,其中,第一個代表學生的姓名,第二個代表

原创 Hadoop 案例12----自連接問題

1、需求分析 實例中給出child-parent(孩子——父母)表,要求輸出grandchild-grandparent(孫子——爺奶)表。 2、原始數據 file: child parent Tom

原创 Hadoop 案例13----倒排索引

“倒排索引”是文檔檢索系統中最常用的數據結構,被廣泛地應用於全文搜索引擎。它主要是用來存儲某個單詞(或詞組)在一個文檔或一組文檔中的存儲位置的映射,即提供了一種根據內容來查找文檔的方式。由於不是根據文檔來確定文檔所包含的內容,而是進行相反