台部落Jiawen

學習hadoop先從搞懂作業運行機制開始，不看懂運行機制總感覺MapReduce的執行是一件很神祕的事情，現在來解開她的神祕面紗，本想自己看看書就算了，但是記憶力真的是個好東西，然而我卻沒有。。。只好把看到的內容記下來，也好留下更深的印象

2020-06-03 20:52:55

早期的hadoop 使用非常簡單的方法調度用戶作業：按照作業的提交順序，使用FIFO調度算法來運行作業。典型情況下，每個作業都會使用整個集羣，但是這樣作業需要等待直到輪到自己運行。不久後，增加了設置作業優先級的功能，可以通過設置mapre

2020-06-03 20:52:45

實驗環境：共三臺機器，Redhat7.1操作系統，其中一臺master，兩臺slave。三臺機器上已經安裝配置了Spark2.2.1（參考 Spark2.2.1安裝配置）。本文主要記錄mesos安裝配置的過程，以及Spark的wor在w

2018-12-30 04:38:10

以數據源爲HDFS上的文件爲例：JavaRDD data_raw = sc.textfile(path, partitionnum)，path指定數據所在位置，partitionnum影響data_raw RDD所具有的partition

2018-09-04 10:47:57

spark作業提交後，在driver上運行init()方法時報錯：java.lang.OutOfMemoryError: GC overhead limit exceeded報錯原因是代碼中使用了HashMap而且數據量很大，所以導致GC

2018-09-04 10:47:56

hadoop2.6.1安裝配置可以參考：分佈式環境搭建redhat7+hadoop2.6.1+jdk1.8+WordCount成功運行例子Scala安裝與配置1.下載Scala包2. 新建一個目錄，將scala包複製進去使用如下命

2018-09-04 10:47:55

算法需要讀取整個文件作爲一個分片，因此自定義了WholeFileInputFormat類和WholeFileRecordReader類用於實現一個map能夠讀取一整個文件。 Configuration類實例化的對象和HBas

2018-09-04 10:47:55

spark2.2.1+hbase1.2.6+hadoop2.6.1+jdk1.8.1 提交spark作業時報錯如下：Exception in thread "main" java.lang.NoClassDefFoundError: or

2018-09-04 10:47:55

hbase運行了好多天，今天需要重啓一下，於是執行stop-hbase.sh命令，先是報錯stopping hbasecat: /tmp/hbase-hadoop-master.pid: No such file or direc

2018-09-04 10:47:55

YARN將jobtracker的職能進行了劃分，劃分了兩個獨立的守護進程：管理集羣上資源使用的資源管理器ResourceManager，管理集羣上運行任務生命週期的應用管理器ApplicationMaster。基本思路是：A

2018-09-04 10:47:55

何爲分佈式文件系統，即管理網絡中跨多臺計算機存儲的文件系統稱爲分佈式文件系統，該系統架構於網絡之上，引入了網絡編程的複雜性，因此分佈式文件系統比普通磁盤文件系統更爲複雜。 HDFS的設計 HDFS以流式數據

2018-09-04 10:47:55

1.配置網頁查看hadoop集羣狀態在瀏覽器輸入http://ip地址:8088/cluster，即可用網頁查看hadoop集羣狀態，配置好之後查看某個作業時會報錯，這是因爲沒有設置域名重定向，我的電腦是Win7操作系統，設置域名重定向的

2018-09-04 10:47:55

寫這篇之前已經搭建好一個hadoop集羣，集羣中有三臺服務器，能正常運行。具體見第一篇博文。 1.官網下載與hadoop對應的HBASE，我下載的是Hbase-1.4.0-bin.tar.gz，master節點服務器中新建目錄/hom

2018-09-04 10:47:55

以下屬性以作業爲單位，默認值適合於常規作業。 map端的調優屬性屬性類型默認值 io.sort.mb int 100 排

2018-09-04 10:47:54

本文例子能夠成功運行的前提是，hadoop分佈式運行正常，hbase分佈式運行正常，eclipse遠程操作hadoop和hbase正常。話不多說，撕代碼。代碼儘量加了詳盡的註釋，可以成功運行，過程中碰了不少壁，但是遇到問題解決問題纔是

2018-09-04 10:47:54