原创 細述hbase協處理器

1.起因(Why HBase Coprocessor) HBase作爲列族數據庫最經常被人詬病的特性包括:無法輕易建立“二級索引”,難以執行求和、計數、排序等操作。比如,在舊版本的(<0.92)Hbase中,統計數據表的總行數,需要使用C

原创 高級面試:JAVA內存模型

我們先來看一個反常識的例子。int a=0, b=0; public void method1() { int r2 = a; b = 1; } public void method2() { int r1 = b; a

原创 IT職場新人碰到的幾個常見誤區

來自:www.cnblogs.com/sankt/p/8658028.html 作者:沐璟我工作10+年了,大概五年前從技術轉管理後,多少還是發現一些職場新人職業發展的問題。表現驚豔的新人肯定有,這種人往往在學校裏面或者進入職場後就養成了一

原创 flink 有狀態udf 引起血案一

場景最近在做一個畫像的任務,sql實現的,其中有一個udf,會做很多事情,包括將從redis讀出歷史值加權,並將中間結果和加權後的結果更新到redis。大家都知道,flink 是可以支持事件處理的,也就是可以沒有時間的概念,那麼在聚合,jo

原创 偏好:個人習慣的侷限與反思

經過長時間的工作實踐,我們會逐步養成一些做事的個人喜好或習慣,並且會自我感覺這種個人習慣會是很好的方法。不可否認,每個人做事情都有些個人習慣,有些特別強烈的,可能其程度還會上升到 “癖” 這個字。明朝散文家張岱在其文《陶庵夢憶》中留有名句:

原创 RDD的join和Dstream的join有什麼區別?

有人在知識星球裏問:浪院長,RDD的join和Dstream的join有什麼區別?浪尖的回答:DStream的join底層就是rdd的join。下面,我們就帶着疑問去驗證以下,我們的想法。2. DStream -> PairDStreamF

原创 寫個yarn的監控

在星球裏和微信羣裏很多朋友都有疑惑,如何監控 yarn 上 spark 或者 mr 應用的存活狀態,浪尖今天在這裏分享一下實現方法,實際上只需要簡單的幾行代碼即可。 首先是,pom文件,添加yarn相關的配置 <!-- https://mv

原创 如何成爲一名優秀的架構師?

衆所周知,架構師的角色,更偏向於策劃、而非指揮,塑造、而非支配,其存在的意義,在於引導大家討論、而非自己主宰一切。 但是,具體應該如何執行呢?本文作者整理了 30 個公認的架構原則,來幫助大家解決此問題。也許有的原則,你從未聽說,但你看完就

原创 Structured Streaming實現超低延遲

浪院長,最近忙死了,寫文章的時間都沒了。但是,都說時間就像海綿裏的水,擠擠就有了。所以,今晚十點半開始整理這篇Structured streaming 相關的文章。最近,忙於開發完善flink平臺,並且使用我們的平臺去支持一些複雜的業務,比

原创 針對 Hadoop 的 Oozie 工作流管理引擎的實際應用

本文操作性強,建議先收藏再仔細閱讀,文章源碼可以公衆號後臺輸入1026獲取。簡介Apache Oozie 是用於 Hadoop 平臺的一種工作流調度引擎。該框架(如圖 1 所示)使用 Oozie協調器促進了相互依賴的重複工作之間的協調,您可

原创 不可不知的zookeeper小工具-zkui

本文主要是首先帶着大家回顧一下zookeeper在大數據中的作用,然後給大家介紹一款zk的監控管理工具。zookeeper在分佈式集羣的作用1,數據發佈與訂閱(配置中心)發佈與訂閱模型,即所謂的配置中心,顧名思義就是講發佈者將數據發佈到zk

原创 Flink高效的內存管理

如今,大數據領域的開源框架(Hadoop,Spark,Storm)都使用的 JVM,當然也包括 Flink。基於 JVM 的數據分析引擎都需要面對將大量數據存到內存中,這就不得不面對 JVM 存在的幾個問題:Java 對象存儲密度低。一個只

原创 中國IT工作者35歲後的發展出路調查報告

來自: https://blog.csdn.net/wksnm0724/article/details/6878598都說男人40一枝花,35歲恐怕還是花骨朵,正值事業發展的高峯時期,可是職場上很多的“35歲以上免談”的條款似乎爲花骨朵們澆

原创 Hive學習之Lateral View

Lateral view與UDTF函數如explode()一起使用,UDTF對每個輸入行產生0或者多個輸出行。Lateral view首先在基表的每個輸入行應用UDTF,然後連接結果輸出行與輸入行組成擁有指定表別名的虛擬表。Lateralv

原创 老司機常用的kafka監控-eagle

前面有文章說到了一個叫kafka manager的kafka管理工具,這個工具管理kafka確實很強大,但是沒有安全認證,隨便都可以創建,刪除,修改topic,而且告警系統,流量波動做的不好。所以,在這裏浪尖,再給大家推薦一款kafka 的