0129 Kafka 與 Flume 如何選擇

原創

2020-06-15 16:36

採集層主要可以使用Flume, Kafka兩種技術。

Flume：Flume 是管道流方式，提供了很多的默認實現，讓用戶通過參數部署，及擴展API.

Kafka：Kafka是一個可持久化的分佈式的消息隊列。

Kafka 是一個非常通用的系統。你可以有許多生產者和很多的消費者共享多個主題Topics。相比之下,Flume是一個專用工具被設計爲旨在往HDFS,HBase發送數據。它對HDFS有特殊的優化，並且集成了Hadoop的安全特性。所以，Cloudera 建議如果數據被多個系統消費的話，使用kafka；如果數據被設計給Hadoop使用，使用Flume。

正如你們所知Flume內置很多的source和sink組件。然而，Kafka明顯有一個更小的生產消費者生態系統，並且Kafka的社區支持不好。希望將來這種情況會得到改善，但是目前：使用Kafka意味着你準備好了編寫你自己的生產者和消費者代碼。如果已經存在的Flume Sources和Sinks滿足你的需求，並且你更喜歡不需要任何開發的系統，請使用Flume。

Flume可以使用攔截器實時處理數據。這些對數據屏蔽或者過量是很有用的。Kafka需要外部的流處理系統才能做到。

Kafka和Flume都是可靠的系統,通過適當的配置能保證零數據丟失。然而，Flume不支持副本事件。於是，如果Flume代理的一個節點奔潰了，即使使用了可靠的文件管道方式，你也將丟失這些事件直到你恢復這些磁盤。如果你需要一個高可靠行的管道，那麼使用Kafka是個更好的選擇。

Flume和Kafka可以很好地結合起來使用。如果你的設計需要從Kafka到Hadoop的流數據，使用Flume代理並配置Kafka的Source讀取數據也是可行的：你沒有必要實現自己的消費者。你可以直接利用Flume與HDFS及HBase的結合的所有好處。你可以使用Cloudera Manager對消費者的監控，並且你甚至可以添加攔截器進行一些流處理。

Flume和Kafka可以結合起來使用。通常會使用Flume + Kafka的方式。其實如果爲了利用Flume已有的寫HDFS功能，也可以使用Kafka + Flume的方式。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

flume搭建調試

Installing CDH3 https://ccp.cloudera.com/display/CDHDOC/CDH3+Installation

2020-07-06 08:33:02

用Maven編譯Apache flume-ng 1.5.0源碼及問題解決

在今年的5月22號，Flume-ng 1.5.0版本正式發佈，關於Flume-ng 1.5.0版本的新特性可以參見本博客的《Apache Flume-ng 1.5.0正式發佈》進行了解。關於Apache flume-ng 1.4.

2020-07-06 08:32:51

Flume單機安裝及測試

一、安裝 1、官網下載 http://flume.apache.org/download.html [root@master softWare]# cd flume/ [root@master flume]# ls [root@ma

时不我待，一日千里

2020-07-06 03:53:34

flume各種配置

source 1 avro 從網絡收集數據 #a2 a2.sources = r2 a2.sinks= k2 a2.channels = c2 a2.sources.r2.type=avro a2.sources.r2.bi

2020-07-05 18:43:20

flume攔截器的使用

interceptors 攔截器可以攔截數據源 source 給數據源添加數據 header信息爲了後續的數據的更加方便的使用默認攔截器有: 1）Timestamp Interceptor 在數據源上添加時間

2020-07-05 18:43:20

Flume+Hbase--採集和儲存日誌數據

前言大數據時代，誰掌握了足夠的數據，誰就有可能掌握未來，而其中的數據採集就是將來的流動資產積累。幾乎任何規模企業，每時每刻也都在產生大量的數據，但這些數據如何歸集、提煉始終是一個困擾。而大數據技術的意義確實不在於掌握規模龐大的

2020-07-05 10:57:53

嘗試flume配置文件從啓動命令接收參數

接着上一篇flume接收數據傳入hbase。這次的目的是： flume配置文件sink指定hbase的表名可以當成參數進行接收，以便於能隨外部切換hbase不同的表。例如在test.conf中 a1.sources = r1

2020-07-05 09:15:56

Windows10安裝apache-flume-1.9.0-bin

1、flume1.9下載地址：http://mirror.bit.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz 2、然後找到1.9版本下載解壓到指定路徑（安裝路徑名

小强签名设计

2020-07-04 12:16:25

flume學習日記

Flume 優點：可以和任意存儲進程集成。輸入的的數據速率大於寫入目的存儲的速率，flume會進行緩衝，減小hdfs的壓力。 flume中的事務基於channel，使用了兩個事務模型（sender + receiver），確

2020-07-03 19:13:08

Centons7下安裝配置Flume、Linux下安裝配置Flume、Flume的簡單使用示例、Flume整合Kafka使用

本篇文章主要介紹在windows下使用vmware虛擬機中的Linux(Centons7)下配置安裝Flume。目前Flume 的最新版本爲1.8，筆者安裝的是1.6，是Flume的一個經典版本，通常在生產環境中使用的就是這個版本，在安

2020-07-02 20:00:07

日常問題——flume連接hive時報錯Caused by: java.lang.NoSuchMethodError

問題描述：今天新安裝的flume，使用flume來做kafka與hive對接時出現了以下兩個的錯誤： Caused by: org.apache.hive.hcatalog.streaming.ConnectionError:

2020-07-02 07:40:32

通過Flume簡單實現Kafka與Hive對接（Json格式）

將以下存儲在kafka的topic中的JSON格式字符串，對接存儲到Hive的表中 {"id":1,"name":"小李"} {"id":2,"name":"小張"} {"id":3,"name":"小劉"} {"id":4,"n

2020-07-02 07:40:32

Flume常見面試題

一、Flume 組成、Put 事務、Take 事務 Taildir Source：斷點續傳、多目錄。Flume1.6 以前需要自己自定義 Source 記錄每次讀取文件位置，實現斷點續傳。 File Channel：數據存儲在磁盤

2020-07-02 04:00:39

24小時熱門文章

python gdal 安裝使用（Windows， python 3.6.8）

最新文章

最新評論文章