原创 storm和hadoop角色對比

1.hadoop運行mapreduce作業,storm運行topology作業 2.MapReduce作業最終會結束,而topology是不會結束的,除非手動殺掉 3.hadoop的jobTracker對應storm的nimbus,  

原创 HDFS刪除文件之後空間不釋放,LINUX刪除文件之後空間不釋放

刪除文件之後空間不釋放在我這遇到的情況主要有兩種: 1.hdfs刪除文件之後空間不釋放 針對此種情況主要是hdfs的回收站功能,爲了防止文件誤刪除,刪除的文件會先放到回收站裏。 刪除的時候也可以直接徹底刪除,只需 hdfs dfs -rm

原创 Idea本地運行FLINK調試

日誌無法正常輸出 Idea運行FLINK無法正常輸出日誌提示以下錯誤 SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". SLF4J: Defaulting

原创 strom配置參數簡單分析

Woker        storm的一個拓撲任務可能有一個或多個woker,一個worker代表一個線程,但是一個拓撲任務中woker的最大數據量是有限制的,max( number of worker)=number of   supe

原创 HIVE多角度優化總結

說明 hivesql應該越簡單約好,sql優化一定要先確定瓶頸,瓶頸確定了才能針對性的去進行優化,否則就是自尋煩惱 關於union的優化 一般來說stage越多,意味着中間會有更多的中間數據落地磁盤,增大網絡IO磁盤IO,建議熟練使用HI

原创 Hivesql優化&sparksql優化梳理

Hive sql 優化方案梳理總結 目錄 Hive sql 優化方案梳理總結 說明 簡單最合理 對應表的HDFS文件大小和數量問題 數據傾斜問題 where在on前面後面的問題   說明 此篇文章我們將對Hivesql的優化方案進行梳理和

原创 關於Join的時候where在on之前和之後的效率測試

看到很多網友在說join的時候,where一定要在on的條件之前,這樣可以起到優化左右,比如有同學這樣說(如下截圖),其實不然,對此我做了實驗 爲驗證此結論我選擇了一個大表進行數據驗證,進行了sparksql查詢 sql1是這樣的,wh

原创 淺談hive常用窗口函數

淺談hive常用窗口函數 目錄 淺談hive常用窗口函數 簡介 常用窗口函數 over SUM,AVG,MIN,MAX NTILE ROW_NUMBER RANK & DENSE_RANK CUME_DIST&PERCENT_RANK L

原创 hive拉鍊表與拉鍊表簡單實現

hive拉鍊表 拉鍊表優缺點 節省空間,尤其是數據量很大的時候; 對於訂單事務性的數據,查看歷史操作記錄非常方便,比如說需要查看某一個時間點或者時間段的歷史快照信息,查看某一個訂單在歷史某一個時間點的狀態,查看某一個用戶在過去某一段時間內

原创 hive3.x異常- return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask

提交joinsql核心異常如下 return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask The value of property yarn.resourc

原创 mysql和hive實現關聯查詢

最近有個需求就是要求實現傳統數據庫和大數據數據庫的關聯查詢。 剛開始的時候一頭霧水,感覺要實現這個需求很難,但是查了相關資料,漸漸了些思緒。 起初我想到的是想實現mysql和hive實現關聯查詢,hive和hbase是可以整合的,如

原创 hive插入中文數據亂碼

今天在hive中插入數據的時候使用了中文,結果select出來的全是亂碼,經測試以下方法能夠得以解決,特此記錄 select * from dept; +----------+----------------+--+ | dept.id

原创 Nodemanager in unhealthy state

Unhealthy Node local-dirs and log-dirs are bad” ambari的系統裏出現這個告警,但是nodemanager也沒有掛掉,所有的mapreduce任務都不能進行,處於卡主狀態,有的日誌

原创 get_json_object不能解析json裏面中文的key

get_json_object不能解析json裏面中文的key 一般來說不會把json中的key定義爲中文,但是如果是中文的話可以用 hive 的json_tuple json_tuple A new json_tuple() UDTF

原创 Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster

hive mr任務 Reducer preempted to make room for pending map attempts Container killed by the ApplicationMaster. Container