Kafka 異常對應用程序造成的影響及應用程序處理kafka發送解耦合的思路

原創

2020-02-22 17:57

多線程解析文件併發送kafka的應用程序發生故障的原因和解決方案：

1．故障發生的背景：

中國本地服務器上部署了XXXMQ（一種Java編寫的可實時傳輸文件的MQ）服務，國外服務器會實時的通過MQ發送需要解析的文件到本地。

本地服務器上部署了兩個應用程序（應用程序1 ：對外提供的 Webservice ，應用程序2：解析程序 ImportData）。本次出故障的是解析程序ImportData（以下簡稱解析程序）。

2．解析程序的實現原理：

程序啓動時開啓多線程和定時任務。當服務器的work目錄有文件時先通過定時任務轉移到queue目錄，與此同時將文件放到阻塞隊列中；

多線程從阻塞隊列中獲取文件，解析到數據庫之後，將解析成功的文件移到backup目錄，失敗的移到error目錄；

解析成功的Data Object會根據不同業務規則分別發送到KafKa 服務器對應不同的Topic上（一個線程中進行）； --- 故障點

前置機上部署不同的Kafka Consumer 去消費不同Topic 上的Data Object，插入前置機的數據庫，前置機再部署webservice 對外提供服務。

3．上述標黃的故障點發生的原因：

由於解析到總部數據庫和發送Kafka 的操作在同一個線程中進行，當kafka客戶端在連接服務端的時候，

有可能會拋出TimeoutException （Kafka 的某臺機器宕機或者某個broker節點down 掉），默認會阻塞當前線程1分鐘。以此造成文件的積壓越來越大。

我模擬製造了kafka 內部的一個TimeoutException，work中放了6個文件，啓動2個線程，文件解析總時長需要3分鐘。

第一個文件開始時間：

第一個文件超時時間：

最後一個文件完成時間：

4．解決方案：

a. 總部數據解析入庫後，單獨起一個獨立的線程去向KafKa 發送數據，由於KafKa 內部是線程安全的，相比多線程，可能單線程的處理效率更高，佔用系統資源更少。（具體源碼分析可參照參考資料1）

如果發現要發送的數據積壓或者kafka服務器連接異常，將所有未發送完成的數據，實時寫入到一張臨時表中。待KafKa 連接恢復正常後，從臨時表取出數據繼續發送，發完之後立即刪除即可。

如果出現業務高峯期kafka 宕機或者kafka超時連接1個小時以上的情況，直接將臨時表的job停掉即可。發郵件通知所有服務中心全部切換到總部webserice。

b. 多線程將數據解析完之後，會將文件保存在backup 中，單獨起一個job從backup中拿文件，解析後根據不同服務中心發送到Kafka服務端。這樣需要考慮對backup的檢索效率。

c. 多線程在解析文件之前，將work目錄文件先拷貝一份到work1中。work1中的文件單獨做kafka的發送。

這樣相當於同一個文件解析兩次，對系統資源消耗較大；如果出現kafka 宕機，也會造成work1的文件積壓，積壓之後再去解析，若超過1個小時，前置機就無法正常提供服務了。

d. 多線程直接解析入庫，再從數據庫查詢需要發送的數據給kafka服務端。（同一時間段內會持續的對數據庫同一張表造成讀寫，高峯期無法預知數據庫壓力。而且現在的表需要加字段，標記哪些數據未發送完成，

對於未發送成功的，如若kafka 宕機，重複查詢的量加大，加上各服務中心切換過來的壓力（最壞情況），對目前的數據庫是一個很大的考驗）。

綜上，請各位大佬決定採用哪種方案比較合理。本人菜鳥一個，不過還是傾向於方案a。

參考資料：https://www.cnblogs.com/dafanjoy/p/10292875.html （這個作者真的大牛，膜拜~~）

https://blog.csdn.net/lipeng_bigdata/article/details/51112870

發佈了2 篇原創文章 · 獲贊 2 · 訪問量 1617

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

教你如何搞定springboot集成kafka

本文分享自華爲雲社區《手拉手入門springboot+kafka》，作者：QGS。安裝kafka 啓動Kafka本地環境需Java 8+以上 Kafka是一種高吞吐量的分佈式發佈訂閱消息系統，它可以處理消費者在網站中的所有動作流數據。

2024-05-16 22:58:25

O2OA平臺流程催辦怎麼做

O2OA平臺設計了靈活的消息提醒數據交互方式，開發者可以根據自己的需要，來消費消息提醒數據，也可以將消息提醒數據接入到Kafka消息中間件來實現消息的準實時提醒。本篇主要介紹如何在O2OA服務器中設置流程的催辦提醒消息。催辦

2024-05-16 22:48:44

Flink1.12 文檔

API 移除掉 ExecutionConfig 中過期的方法移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可以使用 ExecutionConfig#getLatencyTracki

2024-05-13 21:17:28

TiDB + ES：轉轉業財系統億級數據存儲優化實踐

以下文章來源於轉轉技術，作者戴美琪導讀本文詳細介紹了轉轉業財系統億級數據存儲優化的實踐。面對系統數據量大、慢查詢多等挑戰，轉轉業財採取了 TiDB 方案優化數據量問題，同時引入 Elasticsearch（ES）解決慢查詢難題。實踐表

2024-05-13 11:16:34

愛奇藝數據湖實戰 - 實時湖倉一體化

01 概述數據是洞察用戶、市場、運營決策的基礎資料，在愛奇藝被廣泛應用在推薦、廣告、用戶增長、營銷等場景中。愛奇藝大數據業務之前採用 Lambda 架構，滿足海量

愛奇藝技術產品團隊

2024-05-09 01:18:23

Sermant在異地多活場景下的實踐

本文分享自華爲雲社區《Sermant在異地多活場景下的實踐》，作者：華爲雲開源。 Sermant社區在1.3.0和1.4.0版本相繼推出了消息隊列禁止消費插件和數據庫禁寫插件，分別用於解決異地多活場景下的故障切流和保護數據一致性問題。本文將

2024-05-08 10:34:22

kafka更新元數據失敗問題研究

現象 kafka-admin-client-thread線程打印: AdminMetadataManager.updateField Metadata update failed: org.apache.kafka.common.error

2024-04-24 23:18:37

用DolphinScheduler輕鬆實現Flume數據採集任務自動化！

轉載自天地風雷水火山澤目的因爲我們的數倉數據源是Kafka，離線數倉需要用Flume採集Kafka中的數據到HDFS中。在實際項目中，我們不可能一直在Xshell中啓動Flume任務，一是因爲項目的Flume任務很多，二是一旦Xsh

2024-04-24 21:18:09

工程中實踐的微服務設計模式

最近在讀《微服務架構設計模式》，開始的時候我非常的好奇，因爲在我印象中，設計模式是常說的那23種設計模式，而微服務的設計模式又是什麼呢？這個問題也留給大家，在文末我會附上我對這個問題的理解。本次文章的內容主要是工作中對微服務設計模式的應

2024-04-19 23:17:23

GaussDB(DWS)基於Flink的實時數倉構建

本文分享自華爲雲社區《GaussDB(DWS)基於Flink的實時數倉構建》，作者：胡辣湯。大數據時代，廠商對實時數據分析的訴求越來越強烈，數據分析時效從T+1時效趨向於T+0時效，爲了給客戶提供極速分析查詢能力，華爲雲數倉GaussDB

2024-04-18 10:32:57

用海豚調度器定時調度從Kafka到HDFS的kettle任務腳本

在實際項目中，從Kafka到HDFS的數據是每天自動生成一個文件，按日期區分。而且Kafka在不斷生產數據，因此看看kettle是不是需要時刻運行？能不能按照每日自動生成數據文件？爲了測試實際項目中的海豚定時調度從Kafka到HDFS的K

2024-04-15 21:18:44

更優性能與性價比，從自建 ELK 遷移到 SLS 開始

作者：荊磊背景 ELK (Elasticsearch、Logstash、Kibana) 是當下開源領域主流的日誌解決方案，在可觀測場景下有比較廣泛的應用。隨着數字化進程加速，機器數據日誌增加，自建 ELK 在面臨大規模數據、查詢性能等方

2024-04-15 21:12:22

kafka 異常記錄

Group coordinator 10.0.17.89:9094 (id: 2147483646 rack: null) is unavailable or invalid, will attempt rediscovery 原因：當前消

2024-04-07 13:07:04

TiDB 實戰分享丨第三方支付企業的核心數據庫升級之路

本文介紹了一家第三方支付企業在面對市場競爭和監管壓力的態勢下，通過升級核心數據庫來提升業務能力的實踐。該企業選擇 TiDB 分佈式數據庫，成功將其應用於核心業務、計費、清結算和交易查詢等關鍵系統。TiDB 的水平擴展能力、高可用性和簡化數據

2024-04-05 22:23:16

案例|民生銀行Zabbix潛望者管理平臺建設

（本文整理自民生銀行王斐在2023Zabbix中國峯會上的演講，點擊圖片查看視頻，更多內容可在B站“Zabbix中國”查看）大家好，我是來自民生銀行的王斐，給大家分享民生銀行在Zabbix相關管理上的應用成果，還有Zabb

2024-04-02 22:13:17

24小時熱門文章

最新文章

Kafka 異常對應用程序造成的影響及應用程序處理kafka發送解耦合的思路

最新評論文章