原创 好記性不如爛筆頭---MapReduce1作業運行機制

學習hadoop先從搞懂作業運行機制開始,不看懂運行機制總感覺MapReduce的執行是一件很神祕的事情,現在來解開她的神祕面紗,本想自己看看書就算了,但是記憶力真的是個好東西,然而我卻沒有。。。只好把看到的內容記下來,也好留下更深的印象

原创 好記性不如爛筆頭---hadoop的作業調度

早期的hadoop 使用非常簡單的方法調度用戶作業:按照作業的提交順序,使用FIFO調度算法來運行作業。典型情況下,每個作業都會使用整個集羣,但是這樣作業需要等待直到輪到自己運行。不久後,增加了設置作業優先級的功能,可以通過設置mapre

原创 Spark2.2.1運行在mesos1.7上成功執行wordcount例子

實驗環境:共三臺機器,Redhat7.1操作系統,其中一臺master,兩臺slave。三臺機器上已經安裝配置了Spark2.2.1(參考 Spark2.2.1安裝配置)。 本文主要記錄mesos安裝配置的過程,以及Spark的wor在w

原创 spark中textfile方法對文件的分片

以數據源爲HDFS上的文件爲例:JavaRDD data_raw = sc.textfile(path, partitionnum),path指定數據所在位置,partitionnum影響data_raw RDD所具有的partition

原创 Spark作業執行之JVM參數設置

spark作業提交後,在driver上運行init()方法時報錯:java.lang.OutOfMemoryError: GC overhead limit exceeded報錯原因是代碼中使用了HashMap而且數據量很大,所以導致GC

原创 Spark2.2.1+hadoop2.6.1安裝配置成功運行WordCount

    hadoop2.6.1安裝配置可以參考:分佈式環境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功運行例子Scala安裝與配置1.下載Scala包2. 新建一個目錄,將scala包複製進去使用如下命

原创 hadoop之map結果寫入hbase數據庫,無reduce

    算法需要讀取整個文件作爲一個分片,因此自定義了WholeFileInputFormat類和WholeFileRecordReader類用於實現一個map能夠讀取一整個文件。    Configuration類實例化的對象和HBas

原创 解決spark+hbase 報錯 java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/HBaseConfiguration

spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作業時報錯如下:Exception in thread "main" java.lang.NoClassDefFoundError: or

原创 hbase shell 中list命令報錯ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

    hbase運行了好多天,今天需要重啓一下,於是執行stop-hbase.sh命令,先是報錯stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or direc

原创 好記性不如爛筆頭---YARN作業運行機制

       YARN將jobtracker的職能進行了劃分,劃分了兩個獨立的守護進程:管理集羣上資源使用的資源管理器ResourceManager,管理集羣上運行任務生命週期的應用管理器ApplicationMaster。基本思路是:A

原创 好記性不如爛筆頭---hadoop分佈式文件系統HDFS

       何爲分佈式文件系統,即管理網絡中跨多臺計算機存儲的文件系統稱爲分佈式文件系統,該系統架構於網絡之上,引入了網絡編程的複雜性,因此分佈式文件系統比普通磁盤文件系統更爲複雜。   HDFS的設計        HDFS以流式數據

原创 hadoop屬性的配置調優記錄

1.配置網頁查看hadoop集羣狀態在瀏覽器輸入http://ip地址:8088/cluster,即可用網頁查看hadoop集羣狀態,配置好之後查看某個作業時會報錯,這是因爲沒有設置域名重定向,我的電腦是Win7操作系統,設置域名重定向的

原创 hadoop2.6.1+hbase1.4.0完全分佈式

寫這篇之前已經搭建好一個hadoop集羣,集羣中有三臺服務器,能正常運行。具體見第一篇博文。   1.官網下載與hadoop對應的HBASE,我下載的是Hbase-1.4.0-bin.tar.gz,master節點服務器中新建目錄/hom

原创 好記性不如爛筆頭---hadoop配置調優

       以下屬性以作業爲單位,默認值適合於常規作業。        map端的調優屬性 屬性              類型       默認值   io.sort.mb       int          100 排

原创 eclipse中遠程操作hbase例子,只有map過程沒有reduce,map中讀取hbase表的所有列

本文例子能夠成功運行的前提是,hadoop分佈式運行正常,hbase分佈式運行正常,eclipse遠程操作hadoop和hbase正常。話不多說,撕代碼。 代碼儘量加了詳盡的註釋,可以成功運行,過程中碰了不少壁,但是遇到問題解決問題纔是