台部落首席數據師

原创大數據分析技術與實戰之 Spark Streaming

Spark是基於內存的大數據綜合處理引擎，具有優秀的作業調度機制和快速的分佈式計算能力，使其能夠更加高效地進行迭代計算，因此Spark能夠在一定程度上實現大數據的流式處理。隨着信息技術的迅猛發展，數據量呈現出爆炸式增長趨勢，數據的種類與變化

2019-02-22 21:31:17

1

原创 Hadoop運行在Kubernetes平臺實踐

Hadoop與Kubernetes就好像江湖裏的兩大絕世高手，一個是成名已久的長者，至今仍然名聲遠揚，一個則是初出茅廬的青澀少年，骨骼驚奇，不走尋常路，一出手便驚詫了整個武林。Hadoop與Kubernetes之間有很深的淵源，因爲都出自I

2019-02-22 21:31:17

原创沒有什麼內存問題，是一行Python代碼解決不了的

內存不足是項目開發過程中經常碰到的問題，我和我的團隊在之前的一個項目中也遇到了這個問題，我們的項目需要存儲和處理一個相當大的動態列表，測試人員經常向我抱怨內存不足。但是最終，我們通過添加一行簡單的代碼解決了這個問題。結果如圖所示：我將

2019-02-22 21:31:17

原创小議Lambda與Kappa架構，不可變數據的計算探索

Lambda架構說起來也很簡單，就是通過分佈式系統的組件搭建，設計出一個具有魯棒性，可擴展，低延時的分佈式計算系統。之所以稱之爲Lambda架構，就是它最爲核心的點就是理由了數據處理過程之中的不可變性與無依賴性。Lambda架構說起來也很簡

2019-02-22 21:31:17

原创學hadoop需要什麼基礎

最近一段時間一直在接觸關於 hadoop 方面的內容，從剛接觸時的一片空白，到現在也能夠說清楚一些問題。這中間到底經歷過什麼只怕也就是隻有經過的人才會體會到吧。前幾天看到有個人問“學 hadoop 需要什麼基礎”，這個問題好像至今還沒好好細

2019-02-22 21:31:17

原创大數據hadoop入門之hadoop家族詳解

大數據這個詞也許幾年前你聽着還會覺得陌生，但我相信你現在聽到 hadoop 這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事 hadoop 開發或者是正在學習 hadoop 的人變多了。作爲一個 hadoop 入門級的新手，你會覺得哪

2019-02-22 21:31:17

原创深度預警：深入理解HBase的系統架構

HBase的構成物理上來說，HBase是由三種類型的服務器以主從模式構成的。這三種服務器分別是：Region server，HBase HMaster，ZooKeeper。其中Region server負責數據的讀寫服務。用戶通過溝通Reg

2018-12-25 13:21:51

1

原创 flink內部計算指標的95線-99線等的實現

15年在某電商從0設計了一個通用的API監控系統，當時只是計算了成功率+平均耗時，沒有算75,90,95,99,999,9999線，這次單位需要，所以促使我去思考這個問題，問了單位CAT維護人員，大致瞭解了計算方式，跟我在18年7月份在單位

2018-12-25 13:21:51

1

原创小議Lambda與Kappa架構，不可變數據的計算探索

Lambda架構說起來也很簡單，就是通過分佈式系統的組件搭建，設計出一個具有魯棒性，可擴展，低延時的分佈式計算系統。之所以稱之爲Lambda架構，就是它最爲核心的點就是理由了數據處理過程之中的不可變性與無依賴性。Lambda架構說起來也很簡

2018-12-24 13:17:52

原创大數據分析技術與實戰之 Spark Streaming

Spark是基於內存的大數據綜合處理引擎，具有優秀的作業調度機制和快速的分佈式計算能力，使其能夠更加高效地進行迭代計算，因此Spark能夠在一定程度上實現大數據的流式處理。隨着信息技術的迅猛發展，數據量呈現出爆炸式增長趨勢，數據的種類與變化

2018-12-23 13:14:56

原创解讀 2018：13 家開源框架誰能統一流計算？

018 年接近尾聲，我018 年接近尾聲，我策劃了“解讀 2018”年終技術盤點系列文章，希望能夠給讀者清晰地梳理出重要技術領域在這一年來的發展和變化。本文是實時流計算 2018 年終盤點，作者對實時流計算技術的發展現狀進行了深入剖析，並對

2018-12-22 13:18:24

原创阿里重磅開源 Blink：爲什麼我們等了這麼久？

今年，實時流計算技術開始步入主流，各大廠都在不遺餘力地試用新的流計算框架，實時流計算引擎和 API 諸如 Spark Streaming、Kafka Streaming、Beam 和 Flink 持續火爆。阿里巴巴自 2015 年開始改進

2018-12-22 13:18:24

原创 Hadoop運行在Kubernetes平臺實踐

Hadoop與Kubernetes就好像江湖裏的兩大絕世高手，一個是成名已久的長者，至今仍然名聲遠揚，一個則是初出茅廬的青澀少年，骨骼驚奇，不走尋常路，一出手便驚詫了整個武林。Hadoop與Kubernetes之間有很深的淵源，因爲都出自I

2018-12-21 13:14:07

原创沒有什麼內存問題，是一行Python代碼解決不了的

內存不足是項目開發過程中經常碰到的問題，我和我的團隊在之前的一個項目中也遇到了這個問題，我們的項目需要存儲和處理一個相當大的動態列表，測試人員經常向我抱怨內存不足。但是最終，我們通過添加一行簡單的代碼解決了這個問題。結果如圖所示：我將

2018-12-21 13:14:05

2

原创大數據hadoop入門之hadoop家族詳解

大數據這個詞也許幾年前你聽着還會覺得陌生，但我相信你現在聽到 hadoop 這個詞的時候你應該都會覺得“熟悉”！越來越發現身邊從事 hadoop 開發或者是正在學習 hadoop 的人變多了。作爲一個 hadoop 入門級的新手，你會覺得哪

2018-10-26 02:23:07