原创 Kerberos 命令使用

指南 登錄 kinit admin/[email protected] [root@dounine ~]# kinit admin/[email protected] Password for admin/[email protected]

原创 Kerberos命令使用2

進入kerberos 控制檯 kadmin.local 或 kadmin 創建數據庫 kdb5_util create -r HADOOP.COM -s 啓動kdc服務 service krb5kdc start 啓動kadmi

原创 flume集成hdfs(hdfs開啓kerberos認證)

)當 sink 到 hdfs 時: ) 需修改 flume-env.sh 配置,增添 hdfs 依賴庫:   FLUME_CLASSPATH="/root/TDH-Client/hadoop/hadoop/*:/root/TDHClien

原创 flume接收kafka單條消息過大處理方式

查看kafka官網配置 new comsumer.configs a1.sources.r1.kafka.consumer.max.partition.fetch.bytes=20485760 flume配置文件.conf加上這條

原创 Dataframe中na.fill的用法

 對兩個數據表如A,B取JOIN操作的時候,其結果往往會出現NULL值的出現。     這種情況是非常不利於後續的分析與計算的,特別是當涉及到對這個數值列進行各種聚合函數計算的時候。     Spark爲此提供了一個高級操作,就是:na.

原创 spark 密集向量和稀疏向量

1、概念 稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的區別: 密集向量的值就是一個普通的Double數組 而稀疏向量由兩個並列的 數組indices和values組成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表

原创 Elasticsearch出現circuit_breaking_exception異常

1. 產生Data too large異常 異常如下:CircuitBreakingException[[FIELDDATA] Data too large, data for [proccessDate] would be large

原创 Phoenix創建二級索引

爲什麼需要Secondary Index 對於HBase而言,如果想精確地定位到某行記錄,唯一的辦法是通過rowkey來查詢。如果不通過rowkey來查找數據,就必須逐行地比較每一列的值,即全表掃瞄。對於較大的表,全表掃瞄的代價是不可接受

原创 Hive調優策略——並行執行、嚴格模式、JVM重用、壓縮、設置mapper和reducer個數 & 小文件合併

目錄 1. 並行執行 2. 嚴格模式 3. JVM重用 4. 壓縮 (1)開啓Map輸出階段壓縮(snappy壓縮) (2)開啓Reduce輸出階段壓縮(snappy壓縮) 5. 合理設置Map和Reduce個數 (1)小文件過多,減少m

原创 hive按當天日期建立分區表 | 動態往日期分區插入數據

hive建立分區表,以當天日期(“2014-08-15”)作爲分區依據,hql如下: CREATE EXTERNAL TABLE IF NOT EXISTS product_sell( category_id BIGINT, provin

原创 es+spark 讀取es中的自定義格式日期時報異常

問題描述:spark讀取指定索引/類型的數據,其中有自定義格式的日期數據,讀取該日期時報異常 User class threw exception: org.apache.spark.SparkException: Job aborted

原创 elasticsearch查詢某個字段爲空值的結果

傳統sql查詢返回某個字段爲空值的結果寫法是select * from 表名 where 字段名 is null 在elasticsearch中查詢語句爲 GET index/type/_search  {   "query": {  

原创 使用spark對輸入目錄的文件進行過濾

使用spark進行文件過濾 在使用spark的很多情形下, 我們需要計算某個目錄的數據. 但這個文件夾下面並不是所有的文件都是我們想要計算的 比如 : 對於某一天的數據,我們只想計算其中的幾個小時,這個時候就需要把剩下的數據過濾掉 更壞的

原创 IDEA 自動刪除類中無用的import包

1.手動快捷鍵 Ctrl + Alt + O 2.配置自動清理 Ctrl + Alt + S 打開設置 然後,進行如下操作: IDEA會自動清理無引用的包。 

原创 TiDB 2.0 kill會話

運行環境:     在tiDB中國目前的版本家索引很費時間,對磁盤的IO影響較大,若在加索引的時候可以考慮kill掉會話。 待空閒時間在加索引。 1.準備單表1000萬條記錄: sysbench 2.執行添加字段和索引的語句: alter