原创 hive udf報gc異常

在編寫實現udf函數時,在小批量數據是沒有問題的,一旦數據量多就報錯,仔細看日誌有gc異常,後來經過排查,發現是udf包太大導致的問題,去除了一些不必要的依賴之後變得正常。下面是寫的一個時間戳轉任意時區的udf函數功能 1.獲取北京時間y

原创 spark thrift server 查詢日誌留存

原文鏈接:https://www.jianshu.com/p/b106ee06580c spark thrift server的web ui在運行時可以看到sql查詢的提交用戶,執行sql等信息

原创 Hive性能調優總結

原文鏈接:https://www.cnblogs.com/frankdeng/p/9463897.html 一、Fetch抓取   1、理論分析   Fetch抓取是指,Hive中對某些情況的查

原创 hive msck repair table

原文鏈接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverP

原创 spark如何開啓HTTP模式

原文鏈接:https://www.jianshu.com/p/c5f838f153e4 1. HDFS配置:             hadoop.proxyuser.HTTP.groups=

原创 Oozie的簡單使用

原文鏈接:https://blog.csdn.net/Jorocco/article/details/90577398 1、Oozie的介紹     Oozie是一個工作流引擎服務器,用於運行H

原创 Hive性能調優

原文鏈接:https://blog.csdn.net/wisgood/article/details/17356629 1.      設置hive.map.aggr=true,提高HiveQL

原创 oozie在hue裏支持多個用戶提交scheduler任務

我們在使用aws的emr自帶的hue+oozie服務時,遇到一個詭異的問題,描述如下:我們的hue有多個賬號,每個用戶都可以執行workflow並提交scheduler,但是會報一個錯誤:Cann't submit scheduler 先

原创 mysql插入特殊字符亂碼

在使用AWS的rds數據庫時,往mysql插入數據的時候,遇到emjo這種笑臉字符的時候會報如下錯誤:Incorrect string value: '\xF0\x9F\x98\xB4' for column 'brand' at row

原创 oozie java.lang.illegalargumentexception stream exceeds limit 2 048

在oozie-site.xml中修改以下值 <property> <name>oozie.servlet.CallbackServlet.max.data.len</name> <value>20

原创 hive sql 自動根據時區轉換

select date_format(from_utc_timestamp(1567640142000,"UTC"),'yyyy-MM-dd') as local_time 2019-09-04 select date_format(fr

原创 Hive JDBC連接Tez(AM)容器長期不釋放問題的解決方法

原文鏈接:https://blog.csdn.net/bluishglc/article/details/86703939 問題 有這樣一個問題是很常見的:如果我們的Hive使用默認使用Tez作

原创 spark 根據parquet文件 建表

def save_table(spark: SparkSession, partitionCondition:String, path: String, database: String, table_name: String, sav

原创 Spark SQL 相關

原文鏈接:https://www.jianshu.com/p/56e996f506db Spark SQL的簡介 1. 簡介 Spark SQL是用於處理結構化數據的模塊。與Spark RDD不

原创 spark partitionBy date type to string

If you set "spark.sql.sources.partitionColumnTypeInference.enabled" to "false", spark will infer all partition columns