原创 Impala的中文翻譯鏈接

Impala的中文翻譯鏈接 http://my.oschina.net/weiqingbin/blog?catalog=423691

原创 Impala一些注意點

(1)數據類型(Data Types) 使用數字(Numeric)類型(不是字符串) l   儘可能避免字符串類型 l   字符串 => 更高的內存消耗、更多的存儲空間、更慢的計算速度   Decimal vs Float / Doubl

原创 HDFS的dfs.replication不同驗證

集羣只有三個Datanode,hadoop系統replication=4時,會出現什麼情況?文件塊只有三份,hadoop fsck -locations 如圖所示:        對於上傳文件到hdfs上時,當時hadoop

原创 Impala和Hive集成Sentry

本文主要記錄 CDH 5.2 Hadoop 集羣中配置 Impala 和 Hive 集成 Sentry 的過程,包括 Sentry 的安裝、配置以及和 Impala、Hive 集成後的測試。 使用 Sentry 來管理集羣的權限,需要

原创 YARN動態資源池配置案例

EDH作爲統一的企業級數據中心,往往是一個多租戶的應用環境。在該環境中,不同用戶會同時使用集羣資源。如何保證用戶數據不被任意篡改?如何保證任務的權限控制 (例如用戶A不能任性地取消用戶B的任務)?如何確保用戶資源使用不超過他們的配額?

原创 YARN配置Kerberos認證

關於 Kerberos 的安裝和 HDFS 配置 kerberos 認證,請參考 HDFS配置kerberos認證。 請先完成 HDFS 配置 Kerberos 認證,再來配置 YARN 集成 Kerberos 認證 ! 參考 使

原创 Hadoop配置LDAP集成Kerberos

本文主要記錄 cdh hadoop 集羣集成 ldap 的過程,這裏 ldap 安裝的是 OpenLDAP 。LDAP 用來做賬號管理,Kerberos作爲認證。授權一般來說是由應用來決定的,通過在 LDAP 數據庫中配置一些屬性可以讓

原创 Impala配置Kerberos認證

關於 Kerberos 的安裝和 HDFS 配置 kerberos 認證,請參考 HDFS配置kerberos認證。 關於 Kerberos 的安裝和 YARN 配置 kerberos 認證,請參考 YARN配置kerberos認證。

原创 linux性能分析及調優

cpu 性能瓶頸調優可調性能參數 、內存性能瓶頸可調性能參數(操作系統設置swap的目的、在寫程序時、如何使自己的內存不被換出swap,常駐物理內存)、磁盤I/O可調性能參數(如何判斷磁盤IO瓶頸,使用iostat -x 1)、網絡可

原创 Kerberos認證流程詳解

原文   http://blog.csdn.net/jewes/article/details/20792021 Kerberos是誕生於上個世紀90年代的計算機認證協議,被廣泛應用於各大操作系統和Hadoop生態系統中。瞭解Kerber

原创 Fair Scheduler

與Capacity Scheduler類似,Fair Scheduler以隊列爲單位劃分資源,每個隊列可設定一定比例的資源最低保證和使用上限,同時,每個用戶也可設定一定的資源使用上限以防止資源濫用;當一個隊列的資源有剩餘時,可暫時將剩餘

原创 CDH5 Apache Spark初體驗

Apache Spark是一個通用的分佈式計算框架,爲大規模數據處理提供了一個高效、可擴展的計算引擎。由於性能、接口、功能的那個多種原因,Spark正處於“風頭浪尖”,熱度也超過了MapReduce。在這片博文中,你將學習到如何在CDH5

原创 CDH 5.2中Impala認證集成LDAP和Kerberos

這是一篇翻譯的文章,原文爲 New in CDH 5.2: Impala Authentication with LDAP and Kerberos。由於翻譯水平有限,難免會一些翻譯不準確的地方,歡迎指正! Impala 認證現在可

原创 HDFS配置Kerberos認證

本文轉自:http://blog.javachen.com/ 本文主要記錄 CDH Hadoop 集羣上配置 HDFS 集成 Kerberos 的過程,包括 Kerberos 的安裝和 Hadoop 相關配置修改說明。 注意

原创 linux 新建用戶、用戶組 以及爲新用戶分配權限

Linux 系統是一個多用戶多任務的分時操作系統,任何一個要使用系統資源的用戶,都必須首先向系統管理員申請一個賬號,然後以這個賬號的身份進入系統。用戶的賬號一方面可以幫助系統管理員對使用系統的用戶進行跟蹤,並控制他們對系統資源的訪問;另