原创 ubuntu安裝emacs

1、查看版本 emacs --version 2、卸載 sudo apt remove --autoremove emacs26 emacs26-nox 3、安裝 sudo add-apt-repository ppa:kelle

原创 hadoop擴容與下線

1、下線退役datanode nodemanager a、下線datanode節點 修改 hadoop/etc/hadoop/slaves 文件 分發到所有機器 在執行datanode下線命令 hdfs dfsadmin -re

原创 虛擬VirtualBox rc=-1908錯誤

Ubuntu 18.04 每次Linux內核更新以後會出現這個問題 因爲升級了內核,加載的就是上一個內核版本的驅動,已經不適用當前內核了,需要爲當前內核重新安裝一個驅動,用以下命令: sudo apt install --rein

原创 查看hdfs目錄下每個目錄大小

hadoop fs -du /user/hive/warehouse/ods.db/ | tail -n +2 | sort -r -n | awk '{size=$1/1024;if(size<1024){printf("%10

原创 hive array、collect_list、collect_set、concat_ws

1、array():將兩列合併爲一列 如 將a字段 和b字段 合併爲 c字段 hive> select array(a,b) from temp.xxxx; OK [“aa”,“aa”] [“aa”,“cc”] [“aa”,“bb

原创 shell替換文件字符串

1、將當前目錄下包含jack串的文件中,jack字符串替換爲tom sed -i "s/jack/tom/g" `grep "jack" -rl ./` 2、將某個文件中的jack字符串替換爲tom sed -i "s/jack

原创 hive合併小文件

set hive.merge.mapfiles=true; set hive.merge.mapredfiles=true; set hive.merge.orcfile.stripe.level=true; set hive.m

原创 hive動態分區最大分區問題

``` set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic

原创 GenericUDF udf在不同數據壓縮格式下的處理

package com.**.udf; import org.apache.hadoop.hive.ql.exec.UDFArgumentException; import org.apache.hadoop.hive.ql.e

原创 用戶配置sudo免密

echo 'user ALL=(ALL) NOPASSWD: NOPASSWD: ALL' >> /etc/sudoers sed -i 's/Defaults requirett/#Defaults requir

原创 zookeeper java.io.IOException: Leaders epoch, 1 is less than accepted epoch, 3

java.io.IOException: Leaders epoch, 1 is less than accepted epoch, 3 at org.apache.zookeeper.server.quorum.Learner.

原创 數據分析-指標體系

指標 體系 數據指標體系的建設實際上對於數據倉庫工程師來說是一個吃力不討好的事情,因爲體系的建立距離kpi較遠,但是指標體系的建立又非常的重要。所有在做好指標體系建立的同時,還要做好宣貫、存檔、落地、實施! 原子指標->修飾詞(

原创 mongo shell 客戶端顯示更多的數量

DBQuery.shellBatchSize = 300

原创 查看訪問本機的ip及端口

netstat -ntu

原创 mapreduce的OrcOutputFormat與OrcNewOutputFormat

1.兩個orc格式的依賴包不同 OrcOutputFormat----org.apache.orc.mapreduce.OrcOutputFormat OrcNewOutputFormat—org.apache.hadoop.hi