原创 hive udf報gc異常
在編寫實現udf函數時,在小批量數據是沒有問題的,一旦數據量多就報錯,仔細看日誌有gc異常,後來經過排查,發現是udf包太大導致的問題,去除了一些不必要的依賴之後變得正常。下面是寫的一個時間戳轉任意時區的udf函數功能 1.獲取北京時間y
原创 spark thrift server 查詢日誌留存
原文鏈接:https://www.jianshu.com/p/b106ee06580c spark thrift server的web ui在運行時可以看到sql查詢的提交用戶,執行sql等信息
原创 Hive性能調優總結
原文鏈接:https://www.cnblogs.com/frankdeng/p/9463897.html 一、Fetch抓取 1、理論分析 Fetch抓取是指,Hive中對某些情況的查
原创 hive msck repair table
原文鏈接:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-RecoverP
原创 spark如何開啓HTTP模式
原文鏈接:https://www.jianshu.com/p/c5f838f153e4 1. HDFS配置: hadoop.proxyuser.HTTP.groups=
原创 Oozie的簡單使用
原文鏈接:https://blog.csdn.net/Jorocco/article/details/90577398 1、Oozie的介紹 Oozie是一個工作流引擎服務器,用於運行H
原创 Hive性能調優
原文鏈接:https://blog.csdn.net/wisgood/article/details/17356629 1. 設置hive.map.aggr=true,提高HiveQL
原创 oozie在hue裏支持多個用戶提交scheduler任務
我們在使用aws的emr自帶的hue+oozie服務時,遇到一個詭異的問題,描述如下:我們的hue有多個賬號,每個用戶都可以執行workflow並提交scheduler,但是會報一個錯誤:Cann't submit scheduler 先
原创 mysql插入特殊字符亂碼
在使用AWS的rds數據庫時,往mysql插入數據的時候,遇到emjo這種笑臉字符的時候會報如下錯誤:Incorrect string value: '\xF0\x9F\x98\xB4' for column 'brand' at row
原创 oozie java.lang.illegalargumentexception stream exceeds limit 2 048
在oozie-site.xml中修改以下值 <property> <name>oozie.servlet.CallbackServlet.max.data.len</name> <value>20
原创 hive sql 自動根據時區轉換
select date_format(from_utc_timestamp(1567640142000,"UTC"),'yyyy-MM-dd') as local_time 2019-09-04 select date_format(fr
原创 Hive JDBC連接Tez(AM)容器長期不釋放問題的解決方法
原文鏈接:https://blog.csdn.net/bluishglc/article/details/86703939 問題 有這樣一個問題是很常見的:如果我們的Hive使用默認使用Tez作
原创 spark 根據parquet文件 建表
def save_table(spark: SparkSession, partitionCondition:String, path: String, database: String, table_name: String, sav
原创 Spark SQL 相關
原文鏈接:https://www.jianshu.com/p/56e996f506db Spark SQL的簡介 1. 簡介 Spark SQL是用於處理結構化數據的模塊。與Spark RDD不
原创 spark partitionBy date type to string
If you set "spark.sql.sources.partitionColumnTypeInference.enabled" to "false", spark will infer all partition columns