原创 Hive用戶權限管理理解

HiverServer2支持遠程多客戶端的併發和認證,支持通過JDBC、Beeline等連接操作。hive默認的Derby數據庫,由於是內嵌的文件數據庫,只支持一個用戶的操作訪問,支持多用戶需用mysql保存元數據。現在關心的是HiveS

原创 大數據權限平臺設計

背景和範圍 當前大數據團隊沒有一個統一的操作權限控制和管理平臺,對於分析師在服務器上的權限,目前都是給予對應分析節點的EC2機器賬號,且爲了方便操作和管理都是給予的管理員權限,因此安全性風險較大;對於數據開發者,主要通過分配IAM控制AW

原创 hadoop作業reduce過程調優使用到的參數筆記

  reduce的運行是分成三個階段的。分別爲copy->sort->reduce。 由於job的每一個map都會根據reduce(n)數將數據分成map 輸出結果分成n個partition, 所以map的中間結果中是有可能包含每一個re

原创 Getting stack trace/Heap dump of a process in EMR

In latest EMR AMI’s , Different Applications like Hive and Hadoop are installed with corresponding Unix USERS. Example

原创 HDFS中的文件訪問權限

1.超級用戶:啓動namenode服務的用戶就是超級用戶, 該用戶的組是supergroup,對於超級用戶,系統不會執行任何權限檢查,每個文件和目錄都有所屬用戶、所屬組別、模式。這個模式是由所屬用戶的權限、組內成員的權限以及其他用戶的權限

原创 如何加速hive msck?

You can increase the value of the hive.metastore.fshandler.threads parameter to increase the number of threads used for

原创 yarn-cluster模式提交Spark任務,如何關閉client進程?

問題: 最近現場反饋採用yarn-cluster方式提交spark application後,在提交節點機上依然會存在一個yarn的client進程不關閉,又由於spark application都是spark structured st

原创 分佈式 Lambda 從海外到中國自動同步S3文件

原文鏈接:https://amazonaws-china.com/cn/blogs/china/lambda-overseas-china-s3-file/?nc1=f_ls 現在,越來越多的中

原创 hive select count返回負數

今天有同事諮詢我一個hive sql的問題,據描述是:在用hive select count(1)的時候返回負數 首先基於這種問題,我的初步的判斷是由於表較大,計算資源可能不足導致的,後來經過研究發現,hive有個參數: hive.com

原创 hive的metadata中的表用途說明

原文鏈接:https://blog.51cto.com/14284607/2383614 在本例中將Hive的metadata存儲在mysql中;   透徹理解每個表的用途,以及每個表之間是通過

原创 執行aws cli報ImportError: cannot import name 'AliasedEventEmitter' 錯誤

解決方案: 1. sudo aws install awscli 2.如果1 不成功後,直接執行以下步驟: sudo  python -m pip install --upgrade pip sudo pip uninstall awsc

原创 spark streaming中的廣播變量應用

原文鏈接:https://blog.csdn.net/dengxing1234/article/details/74330768 1. 廣播變量 我們知道spark 的廣播變量允許緩存一個只讀的

原创 Hive跨集羣遷移

原文鏈接:https://www.cnblogs.com/gaoyuechen/p/11142577.html Hive跨集羣遷移數據工作是會出現的事情, 其中涉及到數據遷移, metastor

原创 查看parquet文件格式內容

1. 下載對應的parquet-tools jar:http://logservice-resource.oss-cn-shanghai.aliyuncs.com/tools/parquet-tools-1.6.0rc3-SNAPSHOT

原创 spark使用supervisor守護進程

原文鏈接:https://saboloh.com/2016/04/19/use-supervisor/ Install $ sudo apt-get install supervisor 配