原创 自定義一個flume監控回收source

自定義回收metrics的source,及增加一個心跳heartbeat收集 #source主要配置  #自定義的類名a1.sources.HeartBeat.type = org.apache.flume.source.MonitorC

原创 elasticsearch-updateRequest的應用

#step1:插入數據,全部更新之前的 curl -X PUT 'localhost:9200/test/type1/1' -H 'Content-Type: application/json'  -d '{     "name":"zh

原创 gbase數據庫更改字段類型

背景:gbase數據庫不支持直接修改列的數據類型如( ALTER TABLE t MODIFY b varchar(10) 這種語句),這裏提供一個方法假設有表“t”有兩個字段“a”“b”數據類型都爲varchar(10)現在要將“b”的

原创 hadoop集羣配置免密鑰登陸

背景:搭建集羣時,首先要配置各節點間的免密鑰登陸,以保證各節點之間的數據傳輸。介紹一個比較快的配置方法。注意:搭建集羣時要保證各機器在相同的用戶下,如都在“root”用戶或都在“test”用戶下。那麼免密鑰也要都在相同的用戶下,配置在不同

原创 Gbase入庫異常:sed: -e expression #1, char 29: unknown option to `s'

異常:用shell執行Gbase入庫的腳本,一直報錯,逐一排查問題。異常一:如標題        sed: -e expression #1, char 103: unknown option to `s'  檢查發現入庫的腳本中有一個傳

原创 scrapy爬取某網站景區評論爬蟲

step1.研究網頁結構,每個景點有一個景區的超“鏈接” https://piao.ctrip.com/ticket/dest/t2286.html step2.鏈接到景區後,評論,在scrapy shell中不顯示。推測應該是ajax等

原创 hbase過濾器應用-and跟or的簡單實現

1.運算符 < LESS <= LESS_OR_EQUAL = EQUAL != NOT_EQUAL >= GREATER_OR_EQUAL > GREATER 排除所有 NO_OP 2.過濾器組FilterList可利用過濾器組,實現s

原创 flume-hive-sink偶發kryo缺失異常(cdh)

flume寫入hive開始正常,後續有時候報jar包缺失,有時候又正常,按提示導入相關jar包後沒再出現 異常信息: (Caused by: java.lang.ClassNotFoundException: com.esotericso

原创 linux下切割大文件

背景:工作傳輸數據的時候,經常會遇到限制文件大小的情況,這是就要將大文件切割成幾個小文件,用過for循環+sed的方法,還有split的方法,剛發現split本身提供了不同場景的切割方法。整理一下,非常好用。首先split --help