原创 通過Hive JDBC提交的查詢, 如何獲取其在Yarn上的Application ID

數據平臺上需要封裝Hive查詢,只提供API給業務方使用,代碼中通過Hive JDBC完成將查詢語句向Hive提交,等待執行完成,結果解析的功能. 用戶提交查詢之後意識到查詢語句錯誤(非語法錯誤),不想等待錯誤的語句執行完成後再次提交.

原创 淺談Spark On Yarn 中的延遲調度問題

延遲調度算法思想十分簡單,爲了實現data locality(即該task所需數據就在其運行的機器上),會盡量將task分佈到有其所需數據的機器或者jvm中去,如果機器或者jvm已被佔用就進行延遲等待,直到該機器或者jvm可以運行該tas

原创 Capacity Scheduler的隊列屬性介紹

概述   本文基於 Apache hadoop 3.1.1 版本對Capacity Scheduler隊列屬性進行說明介紹。隊列的部分屬性對應於Yarn web中展示的隊列信息。下表是Yarn web中的隊列信息示例,在後面的隊列屬性介紹

原创 ssh 設置超時時間

sh連接超時問題解決方案: 1.修改server端的etc/ssh/sshd_config ClientAliveInterval 60 #server每隔60秒發送一次請求給client,然後client響應,從而保持連接 Client

原创 Using a single hive warehouse for all EMR(Hadoop) clusters

s the EMR/Hadoop cluster’s are transient, tracking all those databases and tables across clusters may be difficult. So,

原创 hive server 2 crashing with OutOfMemoryError (OOM) ?

ften times HiveServer2 can be single point of failure. It can easy crash with OOM. If HiveServer2 restarts now-and-then

原创 解決HUE使用sparksql查詢無法顯示元數據的問題

要解決的問題   image.png image.png 解決方法: 1、首先你的hive肯定要能用,我們就是將spark的元數據查詢請求轉換爲hive的元數據請求 2、操作步驟:   cd hue/build/static/des

原创 Spark UI vs. Spark History Server UI

Is Job Running ? 1. If you have Spark Applications Running, then you should be using SPARK UI. This UI is usually hoste

原创 修改aws emr系統datanode的ulimit值

1.hadoop用戶登錄到EMR集羣的core節點 2.執行sudo su命令切換到root用戶 3. 執行 echo ' * - nofile 65535' >> /etc/security/limits.conf 4. reboot

原创 JVisualVM簡介與內存泄漏實戰分析

一、JVisualVM能做什麼       VisualVM 是Netbeans的profile子項目,已在JDK6.0 update 7 中自帶(java啓動時不需要特定參數,監控工具在bin/jvisualvm.exe),能夠監控線程

原创 ENABLING DEBUG LOGGING – EMR MASTER GUIDE

Contains different configurations and procedures to enable logging on different daemons on AWS EMR cluster. [Please con

原创 YARN之架構設計以及生產調優參數配置以及調度器

本節分爲三部分: 1.YARN架構設計 2.YARN生產上資源管理--生產調優參數配置 3.YARN生產上調度器   YARN :Yet Another Resource Negotiator 1.YARN架構設計    (和上一篇的Ma

原创 從私鑰中提取公鑰

chmod 600 test.pemssh-keygen -y -f test.pem  如果登錄不上,一定要看下生成的authorzation 文件權限 點贊 收藏 分享 文章舉報

原创 Improving Hive Performance with S3/ADLS/WASB

Tune the following parameters to improve Hive performance when working with S3, ADLS or WASB. ​ Table 7.1. Improving Ge

原创 Hive analyze命令解析

關於Hive analyze命令 1. 命令用法: 表與分區的狀態信息統計 ANALYZE TABLE tablename [PARTITION(partcol1[=val1], partcol2[=val2], ...)] COMPUT