原创 pyspark使用隨筆

最近在使用python中pyspark來處理RDD的問題,順便記錄相關基礎知識與心得。 class pyspark.SparkContext ( master = None, appName = None, s

原创 linux服務器使用df和du命令,磁盤佔用情況不一樣的解決方法

linux服務器一直報警,使用df -h查看磁盤佔用情況的時候掛載目錄/opt 佔用100%, 但是使用du -h --max-depth=1 時發現磁盤的佔用空間和df -h的不一樣。 原因分析: du - estimate f

原创 crontab執行不成功,但是手動執行成功的問題

我寫好的一個python腳本,通過crontab定時執行,但是卻不成功 10 2 * * * python /home/ztx/growingio_funnels/readfunnels.py 最後通過在網上查看發現可能是路

原创 centos7.4安裝MySQL5.7及後續遇到的問題與解決方法

可以直接使用yum源安裝,詳見: https://blog.csdn.net/pzl_pzl/article/details/82015144 安裝過程中報錯: [root@localhost bin]# mysql -u roo

原创 flume監控mysql數據推送到kafka

前提: 1.需要安裝flume服務 2.mysql-connector-java-5.1.35-bin.jar需要有這個連接的jar包,且版本要一致。 3.status.file.path 路徑需要給予flume相應的權限(chm

原创 Maxcompute分區表插入數據

1.創建分區表 create table aaa(id bigint,name string) partitioned by (address string); 2.創建分區字段 alter table aaa add if no

原创 kafka監控工具KafkaOffsetMonitorji的安裝與問題

黑窗口的kafka集羣沒有監控,可以使用三方開源的監控工具,查詢了些資料,網上流傳最多的有三個監控工具: Kafka Web Conslole Kafka Manager KafkaOffsetMonitor。 在此,筆者選用的是

原创 CDH添加Hue服務時遇到的坑

一、Hue驗證數據庫連接時不能正常連接 Unexpected error. Unable to verify database connection CDH 5.10.0 解決方法: 在相同系統中/usr/lib64/mysql找

原创 HIVE創建外部表

基礎建表語句: CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [COMME

原创 Hive On Spark報錯:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException

Hive On Spark報錯:Failed to execute spark task, org.apache.hadoop.hive.ql.metadata.HiveException 我的問題是因爲版本不兼容。 HIVE

原创 spark-shell客戶端連接hive

1.拷貝hive-site.xml到spark/conf下,拷貝mysql-connector-java-xxx-bin.jar到hive/lib下 2.開啓hive元數據服務:hive --service metastore 3.

原创 開發隨筆

2019.4.15 shell腳本修改後, (1)./test.sh (2)sh test.sh 運用其中一種方式進行申明更新。.sh文件纔會生效

原创 CDH安裝SPARK2.3

在我的CDH5.14集羣中,默認安裝的spark是1.6版本,這裏需要將其升級爲spark2.x版本。 經查閱官方文檔,發現spark1.6和2.x是可以並行安裝的,也就是說可以不用刪除默認的1.6版本, 可以直接安裝2.x版本,它們

原创 CM5.14.4離線安裝及卸載(詳細版本,含MYSQL卸載)

uname -a 查看服務器版本 Linux datanode1 3.10.0-693.2.2.el7.x86_64 #1 SMP Tue Sep 12 22:26:13 UTC 2017 x86_64 x86_64 x86_64 G