原创 spark-shell啓動命令詳細解析2
環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 接上篇【 spark-shell啓動命令詳細解析1】 下面我們來看下org.apache.spark.repl.Main是如何處理spark-sh
原创 hadoop jar執行任務,報錯 java.io.FileNotFoundException:/tmp/hadoop-unjarxxxx/...(no space left on device)
問題描述: 使用hadoop jar命令執行MapReduce任務,報錯如下 查看大數據提交機的磁盤使用情況: df -h 發現/tmp目錄空間沒有用滿 查看inode使用情況: df -i /tmp目錄的inode已經用滿了。。。
原创 Mac上Spark本地模式調試報錯-no snappyjava in java.library.path
Idea本地運行Spark,SparkContext.textFile()讀取文件時報錯,具體報錯: Caused by: java.lang.UnsatisfiedLinkError: no snappyjava in java.lib
原创 Apache Kylin的精確去重Measure的使用和探索
Kylin版本:apache-kylin-3.0.0-alpha2-bin-cdh60 Apache Kylin在構建Cube的時候,提供的Count Distinct功能,有近似去重和精確去重。 近似去重是基於Hype
原创 docker創建鏡像,常見報錯
1.Error: Cannot find a valid baseurl for repo: base 參考: https://www.jianshu.com/p/8c3f0004e06a https://blog.csdn.net/li
原创 MapReduce任務報錯:Unrecognized Hadoop major version number: 3.0.0-cdh6.2.1
問題描述: 之前寫了一個讀取RCFile的MapReduce任務,現在放到測試集羣上報錯了 錯誤信息: Error: java.lang.IllegalArgumentException: Unrecognized Hado
原创 spark master HA流程和源碼詳解(standalone)
環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 本文主要內容: Spark集羣HA安裝部署 Spark Master HA 主備切換流程 Spark Master HA 在Zookeeper上的
原创 MapReduce輸出avro文件,報錯GenericData.createDatumWriter...NoSuchMethodError
Hadoop 2.7.2 <dependency> <groupId>org.apache.avro</groupId> <artifactId>avro</artifactId> <version>1.7.7</
原创 Spark Worker 啓動流程及源碼詳解
環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 可以參考【Spark Master啓動流程及源碼詳解】 ${SPARK_HOME}/sbin/start-slaves.sh # Launch th
原创 spark-shell啓動命令詳細解析1
環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 執行spark-shell命令後,會啓動spark-shell交互命令行窗口: 那麼spark-shell命令的啓動流程是怎樣的呢? 下面讓
原创 Mysql優化碎片空間
mysql的表在使用的過程,會不斷產生碎片空間,佔用存儲 1.查詢表的碎片空間 select ROW_FORMAT,TABLE_ROWS,DATA_LENGTH,INDEX_LENGTH,MAX_DATA_LENGTH,DATA_FREE
原创 Spark Master啓動流程及源碼詳解
環境: spark 2.3.3 scala 2.11.8 Java 1.8.0_141 ${SPARK_HOME}/sbin/start-master.sh # NOTE: This exact class name is m
原创 VirtualBox中windows虛擬機複製/粘貼和主機共享(Mac)
由於VirtualBox是免費的,所以在Mac中經常使用,缺點就是虛機的分辨率不夠。(有錢的話可以買個Parallels Desktop) 1.設置—>常規—>高級—> 共享粘貼板和拖放調整爲雙向。 2.安裝vitural box增
原创 MapReduce程序調整Map/Reduce task內存參數
參考:https://blog.csdn.net/u014665013/article/details/80923044 1.先看yarn.scheduler.minimum-allocation-mb和yarn.scheduler.
原创 MapReduce程序通過-libjar參數指定第三方jar包,step by step 調試
hadoop 3.1.0 日常開發的程序,我們都是通過Maven管理相關jar包依賴,但有時一些第三方包沒有提供maven源,只能手動管理jar包。 對於hadoop jar 使用第三方依賴的方式有很多: 參考:https://w