大廠架構師傾心之作:Flume構建高可用、可擴展的海量日誌採集系統

前言

幾乎任何規模的公司,每時每刻都在產生大量的數據,收集業務日誌數據,供離線和在線的分析系統使用。處理這些日誌需要特定的日誌系統,一般而言,這些系統需要具有高可用性、高可靠性和可擴展性。

Flume是一個分佈式、可靠的和高可用的海量日誌採集,聚合和傳輸的系統。支持在系統中定製各類數據發送方,用於收集數據;同時,Flume 提供對數據進行簡單處理,並寫到各種數據接受方(可定製)的能力。Flume 初始的發行版本目前被統稱爲Flume OG(original generation) ,屬於Cloudera.但隨着Flume功能的擴展,Flume OG代碼工程臃腫,核心組件設計不合理、核心配置不標準等缺點暴露出來,尤其是在Flume OG的最後一個發行版本0.94.0中,日誌傳輸不穩定的現象尤爲嚴重。爲了解決這些問題,2011 年10月22日,Cloudera完成了Flume-728,對Flume進行了里程碑式的改動:重構核心組件、核心配置以及代碼架構,重構後的版本統稱爲Flume NG (next generation) ;改動的另一原因是將Flume納入Apache旗下,Cloudera Flume改名爲Apache Flume。

Flume構建高可用、可擴展的海量日誌採集系統

第1章給出了Apache Hadoop. Apache HBase的基本介紹。本章只是爲了向讀者介紹Hadoop. HBase 和它們內部的一些細節。 如果讀者已經熟悉Hadoop和HBase,這章可以跳過。

54844229e93c409ea74d4b4c38bb8a12


第2章介紹了Flume主要的組件和配置,也解釋瞭如何部署Flume以從數據生成服務器推送數據到存儲和索引系統。

fb93a8e45b0b482b9567acf83188d7ed


第3章、第4章、第5章和第6章解釋了Flume內置的不同種類的Source,Channel 和Sink以及編寫自定義插件以定製Flume接收、修改、格式化和寫數據的方式。

6d0a821fb9bf42ebbf8b5b629b92cdb1



第7章討論從你的應用程序發送數據到Flume Agent的不同方式。本章主要是爲了寫推送數據到FlumeAgent的應用程序的開發人員。

bca2c03d5e89432cbf8673a18707dc2f


第8章討論如何設計、部署和監控Flume部署。

211e140aae5d499b871abdeae099f5d9


限於平臺篇幅原因,同時也爲了大家更好的閱讀,小編把Flume相關的資料都打包整理好了,有感興趣的程序員朋友可以幫忙轉發文章後,關注私信回覆【學習】來獲取

9b70d0ef64584fc9a3529afdffd0398b


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章