SparkStreaming消費kafka數據堆積問題(即生產者生產數據速率>>消費者消費數據速率)

原創

Morgan_Mu

2019-04-28 15:08

Spark直連kafka解決方案：

注意：spark直連kafka spark的分區數和kafka的分區數是一致的

1.增加kafka的分區數，相當於增加了spark的分區數，分區數增加處理數據能力上升。但是分區數量不要少於服務器(exector服務器)的cpu核數，spark官方提示分區數要是cpu總核數的2~3倍

Kafka增加分區的命令:

./kafka-topics.sh --zookeeper localhost:2181 -alter --partitions 4 --topic test1

2.增加每個分區的內存數量，在執行spark程序的命令中指定 --executor (x)G --driver (x)G。

增加了內存數量降低程序的運行時間。

3.增加服務器的數量。服務器數量增加spark的節點相對應的增加，節點增加會將原來數據分發到多的節點上進行數據的處理，增加速率。

4.最優處理方式就是，增加服務器數量的同時也增加kafka分區的數量（相當於增加spark的分區數量），兩種方式同時增加對消費數據速率有大幅度提升。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

spark-25.spark調優_3_spark資源配置

1.資源運行中的幾種情況實踐中跑的SparkJob，有的特別慢，查看CPU利用率很低，可以嘗試減少每個executor佔用的CPU core的數量，增加並行的executor數量，同時配合增加分片，整體上增加了CPU的利用率，

蒙面小生

2020-07-04 08:37:58

spark-27.spark調優_5_Shuffle優化

spark.shuffle.file.buffer spark.shuffle.file.buffer默認值：32k 參數說明：該參數用於設置shuffle write task的BufferedOutputStream的bu

蒙面小生

2020-07-04 08:37:58

Spark性能調優---JVM調優之調節executor堆外內存與連接等待時長

一、executor堆外內存 ①理論在實際項目中，有時候需要處理大量的數據，比如上億、數十億條數據，發現項目時不時地報錯：shuffle file not found,executor lost,task lost,out of mem

Johnson8702

2020-07-02 01:26:47

Spark的統一內存管理

Spark的統一內存管理圖1：統一內存管理 spark 1.6之後引入的統一內存管理機制。統一內存管理的結構是： -----

Morgan_Mu

2020-06-23 00:38:07

Spark調優詳解

数据小二

2020-02-22 13:00:03

Spark性能優化-Shuffer調優

青于蓝胜于蓝

2020-02-21 16:25:38

Spark性能優化：資源調優篇

青于蓝胜于蓝

2020-02-21 16:25:37

Spark on yarn 的兩種模式不同之處（spark on yarn的內存分配）

Morgan_Mu

2019-08-23 04:00:19

SparkStreaming性能調優

Johnson8702

2019-04-26 06:47:15

Spark SQL數據傾斜解決方案

Johnson8702

2019-03-11 20:24:45

Spark性能調優---算子調優

Johnson8702

2019-03-06 13:43:22

Spark性能調優---JVM調優之原理概述及降低cache操作的內存佔比

Johnson8702

2019-02-28 21:59:52

shuffle原理及調優

Johnson8702

2019-02-27 22:09:25

三、Spark性能優化：數據傾斜調優

tianlan996

2018-12-28 17:36:04

一、Spark性能優化：開發調優篇

tianlan996

2018-12-28 17:36:04

24小時熱門文章

SparkStreaming消費kafka數據堆積問題(即生產者生產數據速率>>消費者消費數據速率)

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

kafka命令總結與講解

JVM各組件的功能

Spark的統一內存管理

Flink消費0.10版本kafka

Spark Task 級調度

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結