kafka適用哪些離線同步場景

原創

2018-08-25 05:28

一、源端爲大量小文件，合併爲一個大文件存儲到hdfs

a）爲什麼要把小文件合併爲大文件

大量的小文件同步到hdfs，對namenode的壓力非常大，生成環境是不會允許如此使用集羣的。

b）爲什麼選kafka

producer可以將文件內容轉成消息發送到topic，相當於在數據傳輸過程對小文件進行了合併

c）consumer將消息直接寫到hdfs還是保存在本地，那個方式比較好？

實際上兩種方式都可以，直接寫到本地，速度最快，但是還需要將本地數據put到hdfs，操作起來簡單，但比較繁瑣，但相對來說效率最好；直接寫到hdfs，由於consumer直接調用hdfs客戶端，如果單行寫效率很低，如果批量寫效率有提升，但相對put命令還是要慢很多，而且複雜度一下就上來了，kafka出現異常、consumer寫hdfs失敗時該如何處理offset，這個問題很複雜。

Kafka同步效率優化：

kafka有consumer group的概念，消費者以組爲單位消費topic裏的消息，但是一個partition中的消息同時只能被consumer group裏的一個consumer處理，最優設置爲一個topic有多少個partition，對應的consumer group就配置多少個consumer，如果partition不變，且consumer個數大於等於partition數量的前提下，再增加consumer group的consumer個數，不會增加消費效率。

PS：

kafka作爲一款消息分發框架，簡單點說就是將源端數據按行分裝成一個個單獨的消息，一個一個的處理，效率肯定是不如輸入輸出流的，所有kafka適合處理實時、小批量或者小文件的離線場景，不適用於大文件的同步場景。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

「從零單排canal 04」啓動模塊deployer源碼解析

基於1.1.5-alpha版本，具體源碼筆記可以參考我的github：https://github.com/saigu/JavaKnowledgeGraph/tree/master/code_reading/canal 本文將

2020-07-05 23:40:03

goldengate加密

goldengate配置文件裏面登入數據庫的密碼是明文的，這樣很不安全，我們需要對其加密環境：redhat 5.7 oracle 11.2.0.3 beijing用戶，shenzhen用戶，tianjin用戶，shanghai

2020-07-05 01:08:33

mysql(oracle)-shareplex-kafka-flink-hbase數據同步

企業運維的數據庫最常見的是mysql(oracle)；但是mysql(oracle)有個缺陷：當數據量達到千萬條的時候，mysql(oracle)的相關操作會變的非常遲緩；如果這個時候有需求需要實時展示數據；對於mysql來說

2020-07-03 16:17:42

FileGee文件同步工具

FileGee文件同步工具企業版的功能最全面，支持網絡映射盤，百度雲等高端模式的數據傳輸，通常本地傳輸自用的話，個人免費版足矣。個人免費版截圖

捉虫大仙里

2020-06-29 16:37:15

canal+kafka+mysql+canal-admin聯合部署+最新版

此貼原創，需要轉載請標明原帖位置,否則將追究安裝步驟： 1、安裝mysql -（自行安裝） 2、安裝zk+kafka -（自行安裝） 3、安裝canal 4、安裝canal-admin ---------------------

2020-06-24 18:43:37

「從零單排canal 03」 canal源碼分析大綱(1.1.4版本)

在前面兩篇中，我們從基本概念理解了canal是一個什麼項目，能應用於什麼場景，然後通過一個demo體驗，有了基本的體感和認識。從這一篇開始，我們將從源碼入手，深入學習canal的實現方式。瞭解canal相關功能的實現方式，其中有

2020-06-23 14:02:11

數據異構之 Canal 初探（技巧篇）

源碼分析 Canal 系列開始了，一個全新的系列，即能探討 canal 本身的實現原理，也是筆者源碼閱讀技巧的展示。本節目錄1、應用場景2、架構設計原理3、在 IntelliJ IDEA 中運行 Canal Demo 1、應

唯有坚持不懈

2020-06-23 08:26:17

在oracle數據庫中實現數據同步

http://liuzhixiong1992.iteye.com/blog/2040772

liuzhixiong1992

2020-06-21 14:23:31

otter全量同步

原理：使用canel讀取了源庫的retl_buffer操作binlog來進行實現的，所以在使用此功能時，channel必須處於工作狀態。步驟一：在otter配置otter同步的庫/表。配置好channel—>pipeline—

2020-06-19 06:42:55

數據同步RSYNC

RSYNC： rsync（Remote sync）是linux系統自帶的鏡像備份工具，支持本地複製和遠程複製。 sync類型： sync：同步 async：異步 rsync：遠程同步 inotify：可以監控目錄，文件系統，刪

2020-06-16 11:46:26

使用Kettle進行數據同步（增量）

文章目錄kettle介紹kettle安裝kettle使用使用kettle同步關係型數據庫數據（MySQL示例）1. 創建一個轉換2. 選擇表輸入3. 格式轉換4. 執行腳本5. 創建job使用kettle同步NoSql數據（Mon

2020-06-16 09:10:21

數據庫同步大數據量表之增量同步實現方案

遇到的需求：兩個服務器上的兩個不同類型的數據庫，分別是源pg庫-->目標庫的MySQL。數據量：4億條數據。同步方案：同步每日新增和修改，刪除的數據條。由於之前同步是全量同步，每天都需要定時全量同步，不僅時間消耗長，也影響下游業務（

menglonghuanying

2020-06-12 22:20:18

sqoop系列-增量優化 fecth-size填坑記

原因描述用戶表6月3、8、9號在覈心項目啓動前導入未就緒導入明顯比平時長 3號出現超時是排查發現該表爲全量導入，當時聯繫業務開發添加增量字段索引，業務開發答覆10號左右上線新版本添加，9號添加了version索引，9號添加

数据新玩法

2020-06-11 13:05:31

Datax支持kerberos認證

一、DataX很好用 https://github.com/alibaba/DataX 看到本篇之前，基本都從其他blog瞭解過datax（此處輕吹千字...）二、DataX不支持Kerberos 由於阿里內部討論過hdfs使用kerb

明文存密码

2020-06-09 08:59:48

xstream-guide_19c 文檔筆記

好長的文檔，週末看了100多頁，記錄些概念 XStream 由DB組件和API接口組成，能讓客戶端應用接收源DB數據變化併發送至目標端，目標端可以是非oracle，例如sqlserver/pg/文件系統/第三方軟件應用等。 XStre

2020-06-08 12:45:49

24小時熱門文章

最新文章

kafka適用哪些離線同步場景

最新評論文章