深入淺出系列之 -- 如何爲kafka集羣選擇合適的Topics/Partitions數

這是許多kafka使用者經常會問到的一個問題。本文的目的是介紹與本問題相關的一些重要決策因素，並提供一些簡單的計算公式。

越多的分區可以提供更高的吞吐量

首先我們需要明白以下事實：在kafka中，單個patition是kafka並行操作的最小單元。

1)在producer和broker端，向每一個分區寫入數據是可以完全並行化的，此時，可以通過加大硬件資源的利用率來提升系統的吞吐量，例如對數據進行壓縮。

2)在consumer段，kafka只允許單個partition的數據被一個consumer線程消費。因此，在consumer端，每一個Consumer Group內部的consumer並行度完全依賴於被消費的分區數量。

綜上所述，通常情況下，在一個Kafka集羣中，partition的數量越多，意味着可以到達的吞吐量越大。

我們可以粗略地通過吞吐量來計算kafka集羣的分區數量。假設對於單個partition，producer端的可達吞吐量爲p，Consumer端的可達吞吐量爲c，期望的目標吞吐量爲t，那麼集羣所需要的partition數量至少爲max(t/p,t/c)。在producer端，單個分區的吞吐量大小會受到批量大小、數據壓縮方法、確認類型（同步/異步）、複製因子等配置參數的影響。經過測試，在producer端，單個partition的吞吐量通常是在10MB/s左右。在consumer端，單個partition的吞吐量依賴於consumer端每個消息的應用邏輯處理速度。因此，我們需要對consumer端的吞吐量進行測量。

雖然隨着時間的推移，我們能夠對分區的數量進行添加，但是對於基於Key來生成的這一類消息需要我們重點關注。當producer向kafka寫入基於key的消息時，kafka通過key的hash值來確定消息需要寫入哪個具體的分區。通過這樣的方案，kafka能夠確保相同key值的數據可以寫入同一個partition。kafka的這一能力對於一部分應用是極爲重要的，例如對於同一個key的所有消息，consumer需要按消息的順序進行有序消費。如果partition的數量發生改變，那麼上面的有序性保證將不復存在。爲了避免上述情況發生，通常的解決辦法是多分配一些分區，以滿足未來的需求。通常情況下，我們需要根據未來1到2年的目標吞吐量來設計kafka的分區數量。

　　一開始，我們可以基於當前的業務吞吐量爲kafka集羣分配較小的broker數量，隨着時間的推移，我們可以向集羣中增加更多的broker，然後在線方式將適當比例的partition轉移到新增加的broker中去。通過這樣的方法，我們可以在滿足各種應用場景（包括基於key消息的場景）的情況下，保持業務吞吐量的擴展性。

　　在設計分區數時，除了吞吐量，還有一些其他因素值得考慮。正如我們後面即將看到的，對於一些應用場景，集羣擁有過的分區將會帶來負面的影響。

越多的分區需要打開更多地文件句柄

在kafka的broker中，每個分區都會對照着文件系統的一個目錄。在kafka的數據日誌文件目錄中，每個日誌數據段都會分配兩個文件，一個索引文件和一個數據文件。當前版本的kafka，每個broker會爲每個日誌段文件打開一個index文件句柄和一個數據文件句柄。因此，隨着partition的增多，需要底層操作系統配置更高的文件句柄數量限制。這更多的是一個配置問題。我們曾經見到過，在生產環境Kafka集羣中，每個broker打開的文件句柄數量超過30,000。

更多地分區會導致更高的不可用性

kafka通過多副本複製技術，實現kafka集羣的高可用和穩定性。每個partition都會有多個數據副本，每個副本分別存在於不同的broker。所有的數據副本中，有一個數據副本爲Leader，其他的數據副本爲follower。在kafka集羣內部，所有的數據副本皆採用自動化的方式進行管理，並且確保所有的數據副本的數據皆保持同步狀態。不論是producer端還是consumer端發往partition的請求，皆通過leader數據副本所在的broker進行處理。當broker發生故障時，對於leader數據副本在該broker的所有partition將會變得暫時不可用。Kafka將會自動在其他數據副本中選擇出一個leader，用於接收客戶端的請求。這個過程由kafka controller節點broker自動完成，主要是從Zookeeper讀取和修改受影響partition的一些元數據信息。在當前的kafka版本實現中，對於zookeeper的所有操作都是由kafka controller來完成的（serially的方式）。

　　在通常情況下，當一個broker有計劃地停止服務時，那麼controller會在服務停止之前，將該broker上的所有leader一個個地移走。由於單個leader的移動時間大約只需要花費幾毫秒，因此從客戶層面看，有計劃的服務停機只會導致系統在很小時間窗口中不可用。（注：在有計劃地停機時，系統每一個時間窗口只會轉移一個leader，其他leader皆處於可用狀態。）

然而，當broker非計劃地停止服務時（例如，kill -9方式)，系統的不可用時間窗口將會與受影響的partition數量有關。假如，一個2節點的kafka集羣中存在2000個partition，每個partition擁有2個數據副本。當其中一個broker非計劃地宕機，所有1000個partition同時變得不可用。假設每一個partition恢復時間是5ms，那麼1000個partition的恢復時間將會花費5秒鐘。因此，在這種情況下，用戶將會觀察到系統存在5秒鐘的不可用時間窗口。

　　更不幸的情況發生在宕機的broker恰好是controller節點時。在這種情況下，新leader節點的選舉過程在controller節點恢復到新的broker之前不會啓動。Controller節點的錯誤恢復將會自動地進行，但是新的controller節點需要從zookeeper中讀取每一個partition的元數據信息用於初始化數據。例如，假設一個kafka集羣存在10,000個partition，從zookeeper中恢復元數據時每個partition大約花費2ms，則controller的恢復將會增加約20秒的不可用時間窗口。

　　通常情況下，非計劃的宕機事件發生的情況是很少的。如果系統可用性無法容忍這些少數情況的場景，我們最好是將每個broker的partition數量限制在2,000到4,000，每個kafka集羣中partition的數量限制在10,000以內。

越多的分區可能增加端對端的延遲

Kafka端對端延遲定義爲producer端發佈消息到consumer端接收消息所需要的時間。即consumer接收消息的時間減去producer發佈消息的時間。Kafka只有在消息提交之後，纔會將消息暴露給消費者。例如，消息在所有in-sync副本列表同步複製完成之後才暴露。因此，in-sync副本複製所花時間將是kafka端對端延遲的最主要部分。在默認情況下，每個broker從其他broker節點進行數據副本複製時，該broker節點只會爲此工作分配一個線程，該線程需要完成該broker所有partition數據的複製。經驗顯示，將1000個partition從一個broker到另一個broker所帶來的時間延遲約爲20ms，這意味着端對端的延遲至少是20ms。這樣的延遲對於一些實時應用需求來說顯得過長。

　　注意，上述問題可以通過增大kafka集羣來進行緩解。例如，將1000個分區leader放到一個broker節點和放到10個broker節點，他們之間的延遲是存在差異的。在10個broker節點的集羣中，每個broker節點平均需要處理100個分區的數據複製。此時，端對端的延遲將會從原來的數十毫秒變爲僅僅需要幾毫秒。

　　根據經驗，如果你十分關心消息延遲問題，限制每個broker節點的partition數量是一個很好的主意：對於b各broker節點和複製因子爲r的kafka集羣，整個kafka集羣的partition數量最好不超過100*b*r個，即單個partition的leader數量不超過100.

越多的partition意味着需要客戶端需要更多的內存

在發佈的0.8.2版本的kafka中，我們開發了一個更加高效的Java producer。新版producer擁有一個比較好的特徵，他允許用戶爲待接入消息存儲空間設置內存大小上限。在內部實現層面，producer按照每一個partition來緩存消息。在數據積累到一定大小或者足夠的時間時，積累的消息將會從緩存中移除併發往broker節點。

　　如果partition的數量增加，消息將會在producer端按更多的partition進行積累。衆多的partition所消耗的內存彙集起來，有可能會超過設置的內容大小限制。當這種情況發生時，producer必須通過消息堵塞或者丟失一些新消息的方式解決上述問題，但是這兩種做法都不理想。爲了避免這種情況發生，我們必須重新將produder的內存設置得更大一些。

　　根據經驗，爲了達到較好的吞吐量，我們必須在producer端爲每個分區分配至少幾十KB的內存，並且在分區數量顯著增加時調整可以使用的內存數量。

　　類似的事情對於consumer端依然有效。Consumer端每次從kafka按每個分區取出一批消息進行消費。消費的分區數越多，需要的內存數量越大。儘管如此，上述方式主要運用於非實時的應用場景。

總結

通常情況下，kafka集羣中越多的partition會帶來越高的吞吐量。但是，我們必須意識到集羣的partition總量過大或者單個broker節點partition過多，都會對系統的可用性和消息延遲帶來潛在的影響。

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

考慮一千次，不如去做一次；猶豫一萬次，不如實踐一次；華麗的跌倒，勝過無謂的彷徨，將來的你，一定會感謝現在奮鬥的你。歡迎大家加入大數據交流羣：725967421 一起交流，一起進步！！

------------------------------------------------------------------------------------------------------------------------------------------------------------------------

深入淺出系列之 -- 如何爲kafka集羣選擇合適的Topics/Partitions數

越多的分區可以提供更高的吞吐量

越多的分區需要打開更多地文件句柄

更多地分區會導致更高的不可用性

越多的分區可能增加端對端的延遲

越多的partition意味着需要客戶端需要更多的內存

總結

ziw2pdf

apisix~helm方式的部署到k8s

firmeye - IoT固件漏洞挖掘工具

HA/HDFS重要參數實操

HDFS HA 架構解析

YARN HA解析

HDFS 文件讀寫流程剖析

Prometheus監控系列之二：Prometheus運行框架和數據格式介紹

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結