原创 spark-shell啓動命令詳細解析2

環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141   接上篇【 spark-shell啓動命令詳細解析1】 下面我們來看下org.apache.spark.repl.Main是如何處理spark-sh

原创 hadoop jar執行任務,報錯 java.io.FileNotFoundException:/tmp/hadoop-unjarxxxx/...(no space left on device)

問題描述: 使用hadoop jar命令執行MapReduce任務,報錯如下 查看大數據提交機的磁盤使用情況: df -h 發現/tmp目錄空間沒有用滿 查看inode使用情況: df -i /tmp目錄的inode已經用滿了。。。

原创 Mac上Spark本地模式調試報錯-no snappyjava in java.library.path

Idea本地運行Spark,SparkContext.textFile()讀取文件時報錯,具體報錯: Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.lib

原创 Apache Kylin的精確去重Measure的使用和探索

Kylin版本:apache-kylin-3.0.0-alpha2-bin-cdh60   Apache Kylin在構建Cube的時候,提供的Count Distinct功能,有近似去重和精確去重。        近似去重是基於Hype

原创 docker創建鏡像,常見報錯

1.Error: Cannot find a valid baseurl for repo: base 參考: https://www.jianshu.com/p/8c3f0004e06a https://blog.csdn.net/li

原创 MapReduce任務報錯:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1

問題描述:        之前寫了一個讀取RCFile的MapReduce任務,現在放到測試集羣上報錯了 錯誤信息: Error: java.lang.IllegalArgumentException: Unrecognized Hado

原创 spark master HA流程和源碼詳解(standalone)

環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141   本文主要內容: Spark集羣HA安裝部署 Spark Master HA 主備切換流程 Spark Master HA 在Zookeeper上的

原创 MapReduce輸出avro文件,報錯GenericData.createDatumWriter...NoSuchMethodError

Hadoop 2.7.2 <dependency>     <groupId>org.apache.avro</groupId>     <artifactId>avro</artifactId>     <version>1.7.7</

原创 Spark Worker 啓動流程及源碼詳解

環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 可以參考【Spark Master啓動流程及源碼詳解】 ${SPARK_HOME}/sbin/start-slaves.sh # Launch th

原创 spark-shell啓動命令詳細解析1

環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141   執行spark-shell命令後,會啓動spark-shell交互命令行窗口:   那麼spark-shell命令的啓動流程是怎樣的呢? 下面讓

原创 Mysql優化碎片空間

mysql的表在使用的過程,會不斷產生碎片空間,佔用存儲 1.查詢表的碎片空間 select ROW_FORMAT,TABLE_ROWS,DATA_LENGTH,INDEX_LENGTH,MAX_DATA_LENGTH,DATA_FREE

原创 Spark Master啓動流程及源碼詳解

環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141   ${SPARK_HOME}/sbin/start-master.sh # NOTE: This exact class name is m

原创 VirtualBox中windows虛擬機複製/粘貼和主機共享(Mac)

由於VirtualBox是免費的,所以在Mac中經常使用,缺點就是虛機的分辨率不夠。(有錢的話可以買個Parallels Desktop) 1.設置—>常規—>高級—> 共享粘貼板和拖放調整爲雙向。   2.安裝vitural box增

原创 MapReduce程序調整Map/Reduce task內存參數

參考:https://blog.csdn.net/u014665013/article/details/80923044   1.先看yarn.scheduler.minimum-allocation-mb和yarn.scheduler.

原创 MapReduce程序通過-libjar參數指定第三方jar包,step by step 調試

hadoop 3.1.0   日常開發的程序,我們都是通過Maven管理相關jar包依賴,但有時一些第三方包沒有提供maven源,只能手動管理jar包。   對於hadoop jar 使用第三方依賴的方式有很多: 參考:https://w