原创 讓你真正明白什麼是MapReduce組合式,迭代式,鏈式

問題導讀: 能夠到這一步,說明已經對hadoop入門,並且產生問題。這個問題,似乎困惑了不少初學者。1.比如我們輸出的mapreduce結果,需要進入下一個mapreduce,該怎麼解決? 可以使用迭代式2.那麼什麼是迭代式?3.什麼是依

原创 HDFS支持數據壓縮的幾種方法探討

HDFS支持數據壓縮存在以下幾種方法: 1、在HDFS之上將數據壓縮好後,再存儲到HDFS 2、在HDFS內部支持數據壓縮,這裏又可以分爲幾種方法:

原创 hive用戶接口、元數據、及數據模型等介紹

可以帶着下面問題來閱讀:1.Hive用戶接口主要有幾個?分別是什麼?常用幾個?2.能否通過界面操作HIVE?3.Hive元數據通常存儲在什麼地方?4.HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成靠什麼完成?5.生成的

原创 新手指導:mapreduce不同類型的數據分到同一個分區是否會影響輸出結果

問題導讀1.不同類型數據被分到同一個分區,是否會影響輸出結果?2.分區函數該如何實現 此篇需要對mapreduce有一定的瞭解,知道了解mapreduce的過程中,map需要分區,有多少個分區就有多少個reduce。因此我們的map是如何

原创 Mapreduce shuffle和排序

Mapreduce爲了確保每個reducer的輸入都按鍵排序。系統執行排序的過程-----將map的輸出作爲輸入傳給reducer 稱爲shuffle。學習shuffle是如何工作的有助於我們理解mapreduce工作機制。shuffle

原创 HDFS的Java訪問接口

得到filesystem的實例 有兩個靜態方法可以得到filesystem接口的實例 public static FileSystem get(Configuration conf) throws IOException public s

原创 Hadoop Hive sql語法詳解5--HiveQL與SQL區別

1.hive內聯支持什麼格式?2.分號字符注意什麼問題?3.hive中empty是否爲null? 4.hive是否支持插入現有表或則分區中? 5.hive是否支持INSERT INTO 表 values()? 1、Hive不支持等值連接

原创 Hive安裝指導

本篇爲安裝篇較簡單:這裏關鍵是配置文件的配置。 前提: 1: 安裝了hadoop-1.0.4正常運行 2:安裝了hbase-0.94.3, 正常運行 接下來,安裝Hive,基於已經安裝好的hadoop,步驟如下:1:下載 從http://

原创 Hadoop Shell命令字典(可收藏)

可以帶着下面問題來閱讀:1.chmod與chown的區別是什麼?2.cat將路徑指定文件的內容輸出到哪裏?3.cp能否是不同之間複製?4.hdfs如何查看文件大小?5.hdfs如何合併文件?6.如何顯示當前路徑下的所有文件夾和文件7.rm

原创 深度瞭解mapreduce---MapReduce源碼分析總結

本人適合對mapreduce有一定經驗人來閱讀,對於新手來講,只是閱讀前面會有收穫不少,但是到了後面就會有些看不懂,可以簡單瞭解。如果對mapreduce有了半年的編程經驗並且善於思考,或許這是一篇不錯的文章。問題導讀:1.mapredu

原创 Java創建hdfs文件實例

1.創建文件過"FileSystem.create(Path f)"可在HDFS上創建文件,其中f爲文件的完整路徑。 package com.hebut.file; import org.apache.hadoop.conf.Conf

原创 Hadoop Hive sql語法詳解2-修改表結構

hive同樣也面對傳統數據庫的一些操作,那麼hive1.如何增加分區、刪除分區?2.如何重命名錶?3.如何修改列的名字、類型、位置、註釋?4.如何增

原创 Hadoop Hive sql語法詳解1-認識hive及DDL操作

hive或許我們有一個整體的認識,可以轉換爲mapreduce,那麼具體是如何做的那?1.編寫的mapreduce能否成爲hive插件那?2.hive如何創建?3.hive是如何查詢數據的?1.認識hive: Hive 是基於Hadoo

原创 關於Mapper、Reducer的個人總結

我們瞭解mapreduce的作用是什麼,我們還可以詳細瞭解下面內容: RecordReader的作用是什麼? job類的作用是什麼? Reducer包含幾個步驟? 擴充: Reducer所有步驟是不是必須的Mapper的處理過程: 1.1