原创 一文理解Kafka消息存儲到Broker中的過程

問題導讀: 1、kafka客戶端有哪些組件? 2、客戶端緩存存儲模型原理? 3、如何確定消息的 partition 位置? 4、如何發送線程的工作原理?前言經過上篇文章的簡單實戰之後,今天來聊聊生產者將消息從客戶端發送到 Broker 上

原创 Elasticsearch實戰之億級架構演進

問題導讀1.ES集羣怎麼做隔離? 2.ES集羣節點副本怎麼調優? 3.ES主從集羣怎麼調整?Elasticsearch作爲一款功能強大的分佈式搜索引擎,支持近實時的存儲、搜索數據,在京東到家訂單系統中發揮着巨大作用,目前訂單中心ES集羣存

原创 數據倉庫建設過程的8個建議

問題導讀1.數據倉庫和數據平臺有什麼區別?2.爲何提前規劃你的數據倉庫?3.文檔有什麼作用?前言大數據時代,作爲數據的掌握者,我們不僅要更好地使用數據,也要更好地管理數據。而數據倉庫正是這樣一套管理和組織數據的解決方案。本文試圖從一種經驗

原创 Flink-1.10 SQL電商用戶行爲實時分析應用

1、如何使用Docker Compose 啓動容器? 2、如何使用 DDL 創建 Kafka 表? 3、如何使用 DDL 創建 Elasticsearch 表? 4、如何使用 Kibana 可視化結果?Flink 1.10.0 於近期剛發

原创 Spark實踐經驗和Spark原理爲依據調優spark

1.Executor和分區該如何調優? 2.緩存和數據本地性該如何調整? 3.在TaskSet級別Spark提供了哪兩種模式?概述本文以Spark實踐經驗和Spark原理爲依據,總結了Spark性能調優的一些方法。這些總結基於Spark-

原创 Spark組件:RDD、DataFrame和DataSet介紹、場景與比較

1.rdd,dataframe,dataset在哪個版本被引入?2.什麼情況下使用rdd,dataframe,dataset?3.它們有什麼不同?spark生態系統中,Spark Core,包括各種Spark的各種核心組件,它們能夠對內存

原创 Hive數據傾斜(大表join大表)【優化】

業務背景 用戶軌跡工程的性能瓶頸一直是etract_track_info,其中耗時大戶主要在於trackinfo與pm_info進行左關聯的環節,trackinfo與pm_info兩張表均爲GB級別,左關聯代碼塊如下: [SQL] 

原创 實時ETL解決方案總結

問題導讀1.實時ETL可以選擇哪些架構部件? 2.實時ETL有哪些實現方法? 3.實時ETL有哪些難點?1、簡述在架構實時ETL時的可以選擇的架構部件。答:在建立數據倉庫時,ETL通常都採用批處理的方式,一般來說是每天的夜間進行跑批。隨着

原创 時序數據庫InfluxDB詳解

問題導讀1.什麼是InfluxDB?2.InfluxDB與常見關係數據有哪些不同?3.InfluxDB有哪些需要注意的地方?InfluxDB(時序數據庫),常用的一種使用場景:監控數據統計。每毫秒記錄一下電腦內存的使用情況,然後就可以根據

原创 排名前5位的企業ETL工具

隨着數據量的不斷增長,企業對用於高級分析的數據倉庫項目和系統的需求不斷增長。ETL是它們的基本要素。它確保在各種數據庫和應用程序中成功進行數據集成。在此ETL工具比較中,我們將研究: Apache NiFi Apache StreamS

原创 Shell文本處理三劍客之awk

本章大綱: 8.3 awk awk是一個處理文本的編程語言工具,能用簡短的程序處理標準輸入或文件、數據排序、計算以及生成報表等等。 在Linux系統下默認awk是gawk,它是awk的GNU版本。可以通過命令查看應用的版本:ls -l

原创 流計算框架 Flink 與 Storm 的性能對比

概述: 將分佈式實時計算框架 Flink 與 Storm 進行性能對比,爲實時計算平臺和業務提供數據參考。 一. 背景 Apache Flink 和 Apache Storm 是當前業界廣泛使用的兩個分佈式實時計算框架。其中 Apache

原创 Kafka史上最詳細原理總結

Kafka Kafka是最初由Linkedin公司開發,是一個分佈式、支持分區的(partition)、多副本的(replica),基於zookeeper協調的分佈式消息系統,它的最大的特性就是可以實時的處理大量數據以滿足各種需求場景:比

原创 Apache Flink DataStream API 編程

1. 流處理基本概念 對於什麼是流處理,從不同的角度有不同的定義。其實流處理與批處理這兩個概念是對立統一的,它們的關係有點類似於對於 Java 中的 ArrayList 中的元素,是直接看作一個有限數據集並用下標去訪問,還是用迭代器去訪問

原创 大數據流處理技術選型彙總

表一: 流平臺的質量屬性 流平臺 當前版本 主要推動者 Event Size 消息傳遞保證 狀態管理 Flume 1.8.0 Apple, Cloudera single at least once 事務型更新 NiFi 1.5.0 Ho