原创 Java大數據學習17--Hbase操作MapReduce

一、實現方法 Hbase對MapReduce提供支持,它實現了TableMapper類和TableReducer類,我們只需要繼承這兩個類即可。 1、寫個mapper繼承TableMapper<Text, IntWritable> 參數:

原创 Java大數據學習14--Hbase的JavaAPI使用(增刪改查)

在安裝好Hbase環境,以及熟悉了Hbase Shell的使用之後,我們來學習一下Hbase 的Java API的使用,主要是一些增刪改查操作。 ---以Hbase.0.99版本爲例: 首先來介紹一下API。 Hbase rowkey就是

原创 Java大數據學習13--Hbase命令行的使用和常用命令介紹

Hbase支持與用戶通過shell進行交互。我們來簡單介紹一下使用方法和一些常用命令。 一、Hbase命令行的使用: 1、進入Hbase的安裝目錄下的bin文件夾。 2、執行 ./hbase shell 即可進入命令行界面。 3、如果想要

原创 Java大數據學習09--Mapreduce數據壓縮

一、概述: 數據壓縮是mapreduce的一種優化策略:通過壓縮編碼對mapper或者reducer的輸出進行壓縮,以減少磁盤IO,提高MR程序運行速度(但相應增加了cpu運算負擔) 二、基本原則: 運算密集型的job,少用壓縮 IO密集

原创 Java大數據學習06--Mapreduce概述及核心思想

一、MapReduce的作用: 用來解決集羣上的海量數據的分佈式計算問題的框架,讓用戶將更多精力放在業務邏輯的開發上,而不用關心分佈式計算中的複雜性。 二、MapReduce的結構: 1、MRAppMaster:負責整個程序的過程調度及狀

原创 Java大數據學習08--Mapreduce的shuffle機制及序列化

一、什麼是shuffle: mapreduce中,map階段處理的數據如何傳遞給reduce階段,是mapreduce框架中最關鍵的一個流程,這個流程就叫shuffle; 具體來說:就是將maptask輸出的處理結果數據,分發給reduc

原创 Java大數據學習10--Mapreduce常用配置參數優化

一、資源相關參數 (1) mapreduce.map.memory.mb: 一個Map Task可使用的資源上限(單位:MB),默認爲1024。如果Map Task實際使用的資源量超過該值,則會被強制殺死。 (2) mapreduce.r

原创 Java大數據學習07--Mapreduce--MapTask和ReduceTask並行度的決定機制

一、mapTask並行度的決定機制 1、maptask的並行度決定map階段的任務處理併發度,它可以決定job的處理速度。但並不是MapTask並行實例越多越好,它是綜合了很多因素來決定的。 2、一個job的map階段並行度由客戶端在提交

原创 Java大數據學習12--Hbase的概述及安裝流程

一、HBASE介紹 HBASE是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBASE技術可在廉價PC Server上搭建起大規模結構化存儲集羣。 二、HBASE的優點 1、線性擴展,隨着數據量增多可以通過節點擴展進行支撐

原创 Linux---搭建簡易文件服務器上傳下載-HTTPD(Apache)的配置及使用

Apache HTTP Server(簡稱Apache或httpd)是Apache軟件基金會的一個開放源代碼的網頁服務器軟件,旨在爲unix,windows等操作系統中提供開源httpd服務。由於其安全性、高效性及可擴展性,被廣泛使用,自

原创 MongoDB詳解--MongoDB在Linux上的安裝教程及用戶管理(新增,修改權限,刪除)

由於Linux系統的速度快,安裝性和穩定性都比windows系統要好。在真實的生產環境中,我們往往都把一些軟件安裝到Linux系統上,今天我們來介紹一下MongoDB在Linnx系統上的安裝過程及用戶管理。 一、下載和安裝啓動 1.安裝包

原创 Linux--如何查看內存使用情況及釋放多餘內存

一、查看內存使用情況命令: free -h 以混合形式展示 -m 以MB形式展示 -g 以GB形式展示 二、手動釋放多餘內存過程: 釋放緩存關鍵的配置文件 /proc/sys/vm/drop_caches。這個

原创 Java--通過JDBC元數據獲取表結構(ResultSetMetaData元數據的使用)

最近在線上聯調,由於我們沒有數據庫的可視化工具,和其他公司比對數據和表結構總是十分麻煩。後來我看到組長通過元數據來獲取表結構和值。之後我自學了一下,感覺十分方便,分享給大家。 jdbc的元數據有兩類。一個是DatabaseMetaData

原创 Java大數據學習05--HDFS的Java API使用

我們使用過hdfs的命令行,接着使用Java操作一下hdfs。 1.創建一個Maven工程。導入pom文件。 <dependency> <groupId>org.apache.hadoop</groupId> <artifactId

原创 hdfs報錯解決--ExitCodeException exitCode=-1073741701: (從hdfs向客戶端下載文件失敗)

今天在學習HDFS時使用Java API從hdfs上下載文件到客戶端時,報了這個錯。 ExitCodeException exitCode=-1073741701: 經查最終確定是我方法調用時參數不對導致。如果調用windows上安裝的h