原创 電信客服綜合項目 第1天 項目背景介紹

1、項目背景 通信運營商每時每刻會產生大量的通信數據,例如通話記錄,短信記錄,彩信記錄,第三方服務資費等等繁多信息。數據量如此巨大,除了要滿足用戶的實時查詢和展示之外,還需要定時定期的對已有數據進行離線的分析處理。例如,當日話單,

原创 第 26 節 Flink Kafka-Connector詳解

上篇:第 25 節 Flink 並行度詳解(Parallel) 1、Kafka-connector Kafka中的partition機制和Flink的並行度機制深度結合 Kafka可以作爲Flink的source和sink 任

原创 第 23 節 State Backend(狀態的後端存儲)之重啓策略

上篇:第 22 節 Flink 狀態、恢復、快照 1、State Backend(狀態的後端存儲) 2、Restart Strategies(重啓策略) 3、重啓策略之固定間隔 (Fixed delay) 4、重

原创 第 22 節 Flink 狀態、恢復、快照

上篇:第 21 節 Flink Distributed Cache(分佈式緩存) 1、Flink 狀態(State)管理與恢復 (1)狀態(State) 我們前面寫的wordcount的例子,沒有包含狀態管理。如果一個task

原创 第 21 節 Flink Distributed Cache(分佈式緩存)

上篇:第 20 節 Flink Counters(scala) 1、Flink Broadcast和Accumulators的區別 Broadcast(廣播變量)允許程序員將一個只讀的變量緩存在每臺機器上,而不用在任務之間傳遞

原创 用戶行爲數據採集 第2節 基準測試

上篇:用戶行爲數據採集 第1節 日誌生成代碼編寫 1、Hadoop安裝 詳見:hadoop集羣搭建(完全分佈式詳細版) 1)集羣規劃: 服務器flink105 服務器flink106 服務器flink107 HDFS Nam

原创 用戶行爲數據採集 第9節 總結

上篇:用戶行爲數據採集 第8節 項目經驗之Flume內存優化 1、數倉概念總結 數據倉庫的輸入數據源和輸出系統分別是什麼? 輸入系統:埋點產生的用戶行爲數據、JavaEE後臺產生的業務數據。 輸出系統:報表系統、用戶畫像系統、推

原创 用戶行爲數據採集 第6節 數倉採集Kafka Manager安裝腳本測試

上篇:用戶行爲數據採集 第5節 日誌採集分析、ETL攔截器、分類型攔截器及腳本編寫 1、Kafka安裝 架構圖 Kafka集羣安裝 詳見:參照自己上次寫的博客: Kafka集羣部署 集羣規劃: 服務器hadoop1.x

原创 用戶行爲數據採集 第4 節 完全分佈式的 zk、 xcall、dt、lg腳本編寫

上篇:用戶行爲數據採集 第 3 節 項目經驗之Hadoop參數調優 1、Zookeeper安裝 詳見參照:zookeeper分佈式安裝部署 集羣規劃 服務器flink105 服務器flink106 服務器flink107 Zoo

原创 電信客服綜合項目 第4天 Kafka控制檯消費Flume採集的生產數據

上篇:電信客服綜合項目 第3天 數據採集隨機生成主被叫電話號碼、項目打包發佈到Linux 1、數據消費 - Kafka控制檯消費Flume採集的生產數據 (1)啓動zookeeper,再啓動kafka集羣 //先關閉防火牆 oo

原创 大數據之實時項目 第9天 es 查詢總數

上篇:大數據之實時項目 第8天 es保存 1、kibana基本操作 (1)過濾查詢,按條件查詢,如查詢日期,執行語句 GET gmall0315_dau/_search { "query":{ "bool": {

原创 第 25 節 Flink 並行度詳解(Parallel)

上篇:第 24 節 Flink Window詳解 1、TaskManager與Slot Flink的每個TaskManager爲集羣提供solt。 solt的數量通常與每個TaskManager節點的可用CPU內核數成比例。一般

原创 用戶行爲數據倉庫 第 1 節 數倉分層概念

上篇:用戶行爲數據採集 第9節 總結 1、爲什麼要分層 架構圖 2、數倉分層 架構圖 3、數據集市與數據倉庫概念 數據集市與數據倉庫的區別 4、數倉命名規範 ODS層命名爲ods DWD層命名爲dwd DWS層命

原创 用戶行爲數據採集 第 3 節 項目經驗之Hadoop參數調優

上篇:用戶行爲數據採集 第2節 基準測試 1、 HDFS參數調優hdfs-site.xml (1)dfs.namenode.handler.count=20 * log2(Cluster Size),比如集羣規模爲8臺時,此參數設

原创 用戶行爲數據採集 第1節 日誌生成代碼編寫

1、創建Maven工程 創建log-collector 工程創建ok,如圖所示: log-collector模塊代碼編寫 在pom.xml文件中添加如下內容 <!--版本號統一--> <properties