原创 Common issues of disk going full on EMR Cluster (or In general any Hadoop / Spark cluster)

A disk going full can make YARN on EMR UNHEALTHY. So, customer’s need to identify and proactively predict why each Appl

原创 Amazon AWS 中國區的那些"坑"

使用AWS 中國區有一段時間了, 期間踩過了一些坑. 簡單寫一下, 希望對別人有幫助. ** 文中一些主觀猜測或者AWS 後續升級, 如有誤導, 敬請見諒. Amazon S3 所有坑中, 最數 S3 坑多. 原因很簡單: EC2的服務大

原创 jedis使用scan替換keys

keys命令和scan命令區別 KEYS命令是將redis中所有的key與KEYS參數一一匹配,時間複雜度是O(N),耗費時間很少,使用也非常簡單,一次性返回所有匹配的key,會阻塞服務,對服務器的性能影響較大,一般產線會禁止使用,該命令

原创 HDFS中將普通用戶加入到supergroup組來訪問HDFS

本機是linux系統,使用遠程的hadoop。程序直接訪問hdfs://node1:8020 會有權限問題。 比較簡單的解決粗暴方式是把用戶加入到supergroup組。 Hadoop本身的用戶和組的關係,是同步Linux系統中的用戶權限

原创 hive-site.xml 參數設置

<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <!--    Licensed to the Apache Softw

原创 EMR vCPU vCore issue

Several customer confuse when they see vCore’s used by EMR is different from what Ec2 vCPU’s. This article will clarify

原创 org.apache.hadoop.security.AccessControlException: Permission denied: user=root

原因:hdfs上沒有root用戶,也沒有對應的文件夾/user/root 會默認以root身份去將作業寫入hdfs文件系統中,對應的也就是 HDFS 上的/user/xxx , 我的爲/user/root,   由於 root用戶對hdf

原创 新建hadoop用戶並給予sudo權限

step1:新建用戶 sudo adduser hadoop passwd hadoop step2:添加用戶組 sudo usermod -a -G hadoop hadoop 前面一個hadoop是組名,後面一個hadoop是用戶名

原创 yarn裏有大量的短暫killed的hive任務問題排查

問題:我們用AWS EMR的時候發現在yarn的application  manager ui裏有大量killed的hive任務,而且非常之多,如截圖所,我們是通過hive server2方式提交任務的: 解決方案: 首先想到的是不是有

原创 埋點模型與管理平臺

項目背景 來到我司的時候,雖然是一家在線教育行業,但基本沒有互聯網的基因,剛剛開始做數據埋點的工作。而且只是聚焦在上課教室內的核心指標埋點。當時對埋點這件事,有了一個基礎的技術框架,也有了一個比較簡陋的流程。但存在以下問題: 1需求環節:

原创 EMR 上的 Spark 或 Hive 作業失敗並出現 HTTP 503 “Slow Down” AmazonS3Exception

問題現象 java.io.IOException: com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.model.AmazonS3Exception: Slow D

原创 SonarQube代碼質量檢查工具簡介

Sonar (SonarQube)是一個開源平臺,用於管理源代碼的質量 Sonar 不只是一個質量數據報告工具,更是代碼質量管理平臺 支持Java, C#, C/C++, PL/SQL, Cobol, JavaScrip, Groov

原创 遠程倉庫 & 分支管理&標籤管理

遠程倉庫 到目前爲止,我們已經掌握瞭如何在Git倉庫裏對一個文件進行時光穿梭,你再也不用擔心文件備份或者丟失的問題了。 可是有用過集中式版本控制系統SVN的童鞋會站出來說,這些功能在SVN裏早就有了,沒看出Git有什麼特別的地方。 沒錯,

原创 大數據平臺數據權限管理設計

背景和範圍 當前大數據團隊沒有一個統一的操作權限控制和管理平臺,對於分析師在服務器上的權限,目前都是給予對應分析節點的EC2機器賬號,且爲了方便操作和管理都是給予的管理員權限,因此安全性風險較大;對於數據開發者,主要通過分配IAM控制AW

原创 hive server日誌配置

HiveServer2操作日誌可用於Beeline客戶端(Hive 0.14以上)。這些參數配置記錄: hive.server2.logging.operation.enabled hive.server2.logging.operati