消息隊列:ActiveMQ、RabbitMQ、RocketMQ、Kafka

目錄

1、爲什麼要使用消息隊列?   

(1)解耦

(2)異步  

(3)削峯  

2、使用了消息隊列會有什麼缺點?             

3、消息隊列如何選型?             

4、如何保證消息隊列是高可用的?   

5、如何保證消息不被重複消費?  

6、如何保證消費的可靠性傳輸?

7、如何保證消息的順序性?

8、主要消息中間件對比

(1)ActiveMQ 

(2)RabbitMQ  

(3)RocketMQ   

(4)Kafka  

(5)總結:


 

1、爲什麼要使用消息隊列?   

    分析:一個用消息隊列的人,不知道爲啥用,這就有點尷尬。沒有複習這點,很容易被問蒙,然後就開始胡扯了。

    這個問題,咱只答三個最主要的應用場景(不可否認還有其他的,但是隻答三個主要的),即以下六個字:解耦、異步、削峯

(1)解耦

A 傳統模式:

    傳統模式的缺點:系統間耦合性太強,如上圖所示,系統A在代碼中直接調用系統B和系統C的代碼,如果將來D系統接入,系統A還需要修改代碼,過於麻煩!

                        

 

B 中間件模式:

    中間件模式的的優點:將消息寫入消息隊列,需要消息的系統自己從消息隊列中訂閱,從而系統A不需要做任何修改。

                            

 

(2)異步  

A 傳統模式:

    傳統模式的缺點: 一些非必要的業務邏輯以同步的方式運行,太耗費時間。

                    

 

B 中間件模式:

    中間件模式的的優點:將消息寫入消息隊列,非必要的業務邏輯以異步的方式運行,加快響應速度 

                               

 

(3)削峯  

A 傳統模式:

    傳統模式的缺點:併發量大的時候,所有的請求直接懟到數據庫,造成數據庫連接異常

                                                 

B 中間件模式:

    中間件模式的的優點:系統A慢慢的按照數據庫能處理的併發量,從消息隊列中慢慢拉取消息。   在生產中,這個短暫的高峯期積壓是允許的。

                                  

 

 

2、使用了消息隊列會有什麼缺點?             

    分析:一個使用了MQ的項目,如果連這個問題都沒有考慮過,就把MQ引進去了,那就給自己的項目帶來了風險。我們引入一個技術,要對這個技術的弊端有充分的認識,才能做好預防。要記住,不要給公司挖坑!

    回答也很容易,從以下兩個個角度來答

    系統可用性降低:你想啊,本來其他系統只要運行好好的,那你的系統就是正常的。現在你非要加個消息隊列進去,那消息隊列掛了,你的系統不是呵呵了。因此,系統可用性降低

    系統複雜性增加:要多考慮很多方面的問題,比如一致性問題、如何保證消息不被重複消費,如何保證保證消息可靠傳輸。因此,需要考慮的東西更多,系統複雜性增大。

    但是,我們該用還是要用的。

 

3、消息隊列如何選型?             

    先說一下,博主只會ActiveMQ,RabbitMQ,RocketMQ,Kafka,對什麼ZeroMQ等其他MQ沒啥理解,因此只能基於這四種MQ給出回答。

    分析:既然在項目中用了MQ,肯定事先要對業界流行的MQ進行調研,如果連每種MQ的優缺點都沒了解清楚,就拍腦袋依據喜好,用了某種MQ,還是給項目挖坑。如果面試官問:"你爲什麼用這種MQ?。"你直接回答"領導決定的。"這種回答就很LOW了。還是那句話,不要給公司挖坑。

 

    回答:首先,咱先上ActiveMQ的社區,看看該MQ的更新頻率:

Apache ActiveMQ 5.15.3 Release

Christopher L. Shannon posted on Feb 12, 2018

Apache ActiveMQ 5.15.2 Released

Christopher L. Shannon posted on Oct 23, 2017

Apache ActiveMQ 5.15.0 Released

Christopher L. Shannon posted on Jul 06, 2017

省略以下記錄

...

我們可以看出,ActiveMq幾個月才發一次版本,據說研究重心在他們的下一代產品Apollo。

    接下來,我們再去RabbitMQ的社區去看一下,RabbitMQ的更新頻率

RabbitMQ 3.7.3 release 30 January 2018

RabbitMQ 3.6.15 release 17 January 2018

RabbitMQ 3.7.2 release23 December 2017

RabbitMQ 3.7.1 release21 December 2017

省略以下記錄

...

    我們可以看出,RabbitMQ版本發佈比ActiveMq頻繁很多。至於RocketMQ和kafka就不帶大家看了,總之也比ActiveMQ活躍的多。詳情,可自行查閱。    

 

    再來一個性能對比表:

特性

ActiveMQ

RabbitMQ

RocketMQ

kafka

開發語言

java

erlang

java

scala

單機吞吐量

萬級

萬級

10萬級

10萬級

時效性

ms級

us級

ms級

ms級以內

可用性

高(主從架構)

高(主從架構)

非常高(分佈式架構)

非常高(分佈式架構)

功能特性

成熟的產品,在很多公司得到應用;有較多的文檔;各種協議支持較好

基於erlang開發,所以併發能力很強,性能極其好,延時很低;管理界面較豐富

MQ功能比較完備,擴展性佳

只支持主要的MQ功能,像一些消息查詢,消息回溯等功能沒有提供,畢竟是爲大數據準備的,在大數據領域應用廣。

綜合上面的材料得出以下兩點:

    (1)中小型軟件公司,建議選RabbitMQ。

       一方面,erlang語言天生具備高併發的特性,而且他的管理界面用起來十分方便。正所謂,成也蕭何,敗也蕭何!他的弊端也在這裏,雖然RabbitMQ是開源的,然而國內有幾個能定製化開發erlang的程序員呢?所幸,RabbitMQ的社區十分活躍,可以解決開發過程中遇到的bug,這點對於中小型公司來說十分重要。

      不考慮rocketmq和kafka的原因是,一方面中小型軟件公司不如互聯網公司,數據量沒那麼大,選消息中間件,應首選功能比較完備的,所以kafka排除。

      不考慮rocketmq的原因是,rocketmq是阿里出品,如果阿里放棄維護rocketmq,中小型公司一般抽不出人來進行rocketmq的定製化開發,因此不推薦。

 

    (2)大型軟件公司,根據具體使用在rocketMq和kafka之間二選一。

        一方面,大型軟件公司,具備足夠的資金搭建分佈式環境,也具備足夠大的數據量。針對rocketMQ,大型軟件公司也可以抽出人手對rocketMQ進行定製化開發,畢竟國內有能力改JAVA源碼的人,還是相當多的。至於kafka,根據業務場景選擇,如果有日誌採集功能,肯定是首選kafka了。具體該選哪個,看使用場景。

 

4、如何保證消息隊列是高可用的?   

    分析:在第二點說過了,引入消息隊列後,系統的可用性下降。在生產中,沒人使用單機模式的消息隊列。因此,作爲一個合格的程序員,應該對消息隊列的高可用有很深刻的瞭解。如果面試的時候,面試官問,你們的消息中間件如何保證高可用的?你的回答只是表明自己只會訂閱和發佈消息,面試官就會懷疑你是不是隻是自己搭着玩,壓根沒在生產用過。請做一個愛思考,會思考,懂思考的程序員。

    回答:這問題,其實要對消息隊列的集羣模式要有深刻了解,纔好回答。

    以RcoketMQ爲例,他的集羣就有多master 模式、多master多slave異步複製模式、多 master多slave同步雙寫模式。多master多slave模式部署架構圖(網上找的,偷個懶,懶得畫):

                   

    其實博主第一眼看到這個圖,就覺得和kafka好像,只是NameServer集羣,在kafka中是用zookeeper代替,都是用來保存和發現master和slave用的。通信過程如下:

    Producer 與 NameServer集羣中的其中一個節點(隨機選擇)建立長連接,定期從 NameServer 獲取 Topic 路由信息,並向提供 Topic 服務的 Broker Master 建立長連接,且定時向 Broker 發送心跳。Producer 只能將消息發送到 Broker master,但是 Consumer 則不一樣,它同時和提供 Topic 服務的 Master 和 Slave建立長連接,既可以從 Broker Master 訂閱消息,也可以從 Broker Slave 訂閱消息。

    那麼kafka呢,爲了對比說明直接上kafka的拓補架構圖(也是找的,懶得畫)

                            

     如上圖所示,一個典型的Kafka集羣中包含若干Producer(可以是web前端產生的Page View,或者是服務器日誌,系統CPU、Memory等),若干broker(Kafka支持水平擴展,一般broker數量越多,集羣吞吐率越高),若干Consumer Group,以及一個Zookeeper集羣。Kafka通過Zookeeper管理集羣配置,選舉leader,以及在Consumer Group發生變化時進行rebalance。Producer使用push模式將消息發佈到broker,Consumer使用pull模式從broker訂閱並消費消息。

    至於rabbitMQ,也有普通集羣和鏡像集羣模式,自行去了解,比較簡單,兩小時即懂。

    要求,在回答高可用的問題時,應該能邏輯清晰的畫出自己的MQ集羣架構或清晰的敘述出來。

 

5、如何保證消息不被重複消費?  

    分析:這個問題其實換一種問法就是,如何保證消息隊列的冪等性?這個問題可以認爲是消息隊列領域的基本問題。換句話來說,是在考察你的設計能力,這個問題的回答可以根據具體的業務場景來答,沒有固定的答案。

    回答:先來說一下爲什麼會造成重複消費?

 其實無論是那種消息隊列,造成重複消費原因其實都是類似的。正常情況下,消費者在消費消息時候,消費完畢後,會發送一個確認信息給消息隊列,消息隊列就知道該消息被消費了,就會將該消息從消息隊列中刪除。只是不同的消息隊列發送的確認信息形式不同,例如RabbitMQ是發送一個ACK確認消息,RocketMQ是返回一個CONSUME_SUCCESS成功標誌,kafka實際上有個offset的概念,簡單說一下(如果還不懂,出門找一個kafka入門到精通教程),就是每一個消息都有一個offset,kafka消費過消息後,需要提交offset,讓消息隊列知道自己已經消費過了。那造成重複消費的原因?,就是因爲網絡傳輸等等故障,確認信息沒有傳送到消息隊列,導致消息隊列不知道自己已經消費過該消息了,再次將該消息分發給其他的消費者。

  如何解決?這個問題針對業務場景來答分以下幾點

  (1)比如,你拿到這個消息做數據庫的insert操作。那就容易了,給這個消息做一個唯一主鍵,那麼就算出現重複消費的情況,就會導致主鍵衝突,避免數據庫出現髒數據。

  (2)再比如,你拿到這個消息做redis的set的操作,那就容易了,不用解決,因爲你無論set幾次結果都是一樣的,set操作本來就算冪等操作。

  (3)如果上面兩種情況還不行,上大招。準備一個第三方介質,來做消費記錄。以redis爲例,給消息分配一個全局id,只要消費過該消息,將<id,message>以K-V形式寫入redis。那消費者開始消費前,先去redis中查詢有沒消費記錄即可。

 

6、如何保證消費的可靠性傳輸?

    分析:我們在使用消息隊列的過程中,應該做到消息不能多消費,也不能少消費。如果無法做到可靠性傳輸,可能給公司帶來千萬級別的財產損失。同樣的,如果可靠性傳輸在使用過程中,沒有考慮到,這不是給公司挖坑麼,你可以拍拍屁股走了,公司損失的錢,誰承擔。還是那句話,認真對待每一個項目,不要給公司挖坑。

    回答:其實這個可靠性傳輸,每種MQ都要從三個角度來分析:生產者弄丟數據、消息隊列弄丟數據、消費者弄丟數據

 

RabbitMQ

(1)生產者丟數據

    從生產者弄丟數據這個角度來看,RabbitMQ提供transaction和confirm模式來確保生產者不丟消息。

    transaction機制就是說,發送消息前,開啓事物(channel.txSelect()),然後發送消息,如果發送過程中出現什麼異常,事物就會回滾(channel.txRollback()),如果發送成功則提交事物(channel.txCommit())。

    然而缺點就是吞吐量下降了。因此,按照博主的經驗,生產上用confirm模式的居多。一旦channel進入confirm模式,所有在該信道上面發佈的消息都將會被指派一個唯一的ID(從1開始),一旦消息被投遞到所有匹配的隊列之後,rabbitMQ就會發送一個Ack給生產者(包含消息的唯一ID),這就使得生產者知道消息已經正確到達目的隊列了.如果rabiitMQ沒能處理該消息,則會發送一個Nack消息給你,你可以進行重試操作。處理Ack和Nack的代碼如下所示(說好不上代碼的,偷偷上了):

channel.addConfirmListener(new ConfirmListener() {

@Override

public void handleNack(long deliveryTag, boolean multiple) throws IOException {

System.out.println("nack: deliveryTag = "+deliveryTag+" multiple: "+multiple);

}

@Override

public void handleAck(long deliveryTag, boolean multiple) throws IOException {

System.out.println("ack: deliveryTag = "+deliveryTag+" multiple: "+multiple);

}

});

 

(2)消息隊列丟數據

    處理消息隊列丟數據的情況,一般是開啓持久化磁盤的配置。這個持久化配置可以和confirm機制配合使用,你可以在消息持久化磁盤後,再給生產者發送一個Ack信號。這樣,如果消息持久化磁盤之前,rabbitMQ陣亡了,那麼生產者收不到Ack信號,生產者會自動重發。

    那麼如何持久化呢,這裏順便說一下吧,其實也很容易,就下面兩步

   1、將queue的持久化標識durable設置爲true,則代表是一個持久的隊列

   2、發送消息的時候將deliveryMode=2

   這樣設置以後,rabbitMQ就算掛了,重啓後也能恢復數據

(3)消費者丟數據

    消費者丟數據一般是因爲採用了自動確認消息模式。這種模式下,消費者會自動確認收到信息。這時rahbitMQ會立即將消息刪除,這種情況下如果消費者出現異常而沒能處理該消息,就會丟失該消息。

    至於解決方案,採用手動確認消息即可。

 

 

kafka

這裏先引一張kafka Replication的數據流向圖

             

    Producer在發佈消息到某個Partition時,先通過ZooKeeper找到該Partition的Leader,然後無論該Topic的Replication Factor爲多少(也即該Partition有多少個Replica),Producer只將該消息發送到該Partition的Leader。Leader會將該消息寫入其本地Log。每個Follower都從Leader中pull數據。

 

針對上述情況,得出如下分析

(1)生產者丟數據

    在kafka生產中,基本都有一個leader和多個follwer。follwer會去同步leader的信息。因此,爲了避免生產者丟數據,做如下兩點配置第一個配置要在producer端設置acks=all。這個配置保證了,follwer同步完成後,才認爲消息發送成功。

   在producer端設置retries=MAX,一旦寫入失敗,這無限重試

(2)消息隊列丟數據

    針對消息隊列丟數據的情況,無外乎就是,數據還沒同步,leader就掛了,這時zookpeer會將其他的follwer切換爲leader,那數據就丟失了。針對這種情況,應該做兩個配置。

replication.factor參數,這個值必須大於1,即要求每個partition必須有至少2個副本

min.insync.replicas參數,這個值必須大於1,這個是要求一個leader至少感知到有至少一個follower還跟自己保持聯繫

這兩個配置加上上面生產者的配置聯合起來用,基本可確保kafka不丟數據

(3)消費者丟數據

   這種情況一般是自動提交了offset,然後你處理程序過程中掛了。kafka以爲你處理好了。再強調一次offset是幹嘛的

    offset:指的是kafka的topic中的每個消費組消費的下標。簡單的來說就是一條消息對應一個offset下標,每次消費數據的時候如果提交offset,那麼下次消費就會從提交的offset加一那裏開始消費。

    比如一個topic中有100條數據,我消費了50條並且提交了,那麼此時的kafka服務端記錄提交的offset就是49(offset從0開始),那麼下次消費的時候offset就從50開始消費。

解決方案也很簡單,改成手動提交即可。

 

ActiveMQ和RocketMQ大家自行查閱吧。

 

 

7、如何保證消息的順序性?

    分析:其實並非所有的公司都有這種業務需求,但是還是對這個問題要有所複習。

    回答:針對這個問題,通過某種算法,將需要保持先後順序的消息放到同一個消息隊列中(kafka中就是partition,rabbitMq中就是queue)。然後只用一個消費者去消費該隊列。

    有的人會問:那如果爲了吞吐量,有多個消費者去消費怎麼辦?

    這個問題,沒有固定回答的套路。比如我們有一個微博的操作,發微博、寫評論、刪除微博,這三個異步操作。如果是這樣一個業務場景,那隻要重試就行。比如你一個消費者先執行了寫評論的操作,但是這時候,微博都還沒發,寫評論一定是失敗的,等一段時間。等另一個消費者,先執行寫評論的操作後,再執行,就可以成功。

    總之,針對這個問題,我的觀點是保證入隊有序就行,出隊以後的順序交給消費者自己去保證,沒有固定套路。

 

 

8、主要消息中間件對比

 

(1)ActiveMQ 

  單機吞吐量:萬級

  topic數量都吞吐量的影響:

  時效性:ms級

  可用性:高,基於主從架構實現高可用性

  消息可靠性:有較低的概率丟失數據

  功能支持:MQ領域的功能極其完備

  總結:

    非常成熟,功能強大,在早些年業內大量的公司以及項目中都有應用  

    偶爾會有較低概率丟失消息  

    現在社區以及國內應用都越來越少,官方社區現在對ActiveMQ 5.x維護越來越少,幾個月才發佈一個版本   

    主要是基於解耦和異步來用的,較少在大規模吞吐的場景中使用

 

(2)RabbitMQ  

  單機吞吐量:萬級

  topic數量都吞吐量的影響:

  時效性:微秒級,延時低是一大特點。

  可用性:高,基於主從架構實現高可用性

  消息可靠性:

  功能支持:基於erlang開發,所以併發能力很強,性能極其好,延時很低

  總結:  

    erlang語言開發,性能極其好,延時很低;  

    吞吐量到萬級,MQ功能比較完備  

    開源提供的管理界面非常棒,用起來很好用  

    社區相對比較活躍,幾乎每個月都發布幾個版本分  

    在國內一些互聯網公司近幾年用rabbitmq也比較多一些   但是問題也是顯而易見的,RabbitMQ確實吞吐量會低一些,這是因爲他做的實現機制比較重。  

    erlang開發,很難去看懂源碼,基本職能依賴於開源社區的快速維護和修復bug。  

    rabbitmq集羣動態擴展會很麻煩,不過這個我覺得還好。其實主要是erlang語言本身帶來的問題。很難讀源碼,很難定製和掌控。

 

(3)RocketMQ   

  單機吞吐量:十萬級

  topic數量都吞吐量的影響:topic可以達到幾百,幾千個的級別,吞吐量會有較小幅度的下降。可支持大量topic是一大優勢。

  時效性:ms級

  可用性:非常高,分佈式架構

  消息可靠性:經過參數優化配置,消息可以做到0丟失

  功能支持:MQ功能較爲完善,還是分佈式的,擴展性好

  總結:

    接口簡單易用,可以做到大規模吞吐,性能也非常好,分佈式擴展也很方便,社區維護還可以,可靠性和可用性都是ok的,還可以支撐大規模的topic數量,支持複雜MQ業務場景  

    而且一個很大的優勢在於,源碼是java,我們可以自己閱讀源碼,定製自己公司的MQ,可以掌控  

    社區活躍度相對較爲一般,不過也還可以,文檔相對來說簡單一些,然後接口這塊不是按照標準JMS規範走的有些系統要遷移需要修改大量代碼  

 

阿里巴巴:

    https://help.aliyun.com/document_detail/29532.html?spm=a2c4g.11186623.6.542.c87170fb58btRJ

    消息隊列 RocketMQ 是阿里巴巴集團基於高可用分佈式集羣技術,自主研發的雲正式商用的專業消息中間件,既可爲分佈式應用系統提供異步解耦和削峯填谷的能力,同時也具備互聯網應用所需的海量消息堆積、高吞吐、可靠重試等特性,是阿里巴巴雙 11 使用的核心產品。

 

 

(4)Kafka  

  單機吞吐量:十萬級,最大的優點,就是吞吐量高。

  topic數量都吞吐量的影響:topic從幾十個到幾百個的時候,吞吐量會大幅度下降。所以在同等機器下,kafka儘量保證topic數量不要過多。如果要支撐大規模topic,需要增加更多的機器資源

  時效性:ms級

  可用性:非常高,kafka是分佈式的,一個數據多個副本,少數機器宕機,不會丟失數據,不會導致不可用

  消息可靠性:經過參數優化配置,消息可以做到0丟失

  功能支持:功能較爲簡單,主要支持簡單的MQ功能,在大數據領域的實時計算以及日誌採集被大規模使用

  總結:

    kafka的特點其實很明顯,就是僅僅提供較少的核心功能,但是提供超高的吞吐量,ms級的延遲,極高的可用性以及可靠性,而且分佈式可以任意擴展  

    同時kafka最好是支撐較少的topic數量即可,保證其超高吞吐量  

    kafka唯一的一點劣勢是有可能消息重複消費,那麼對數據準確性會造成極其輕微的影響,在大數據領域中以及日誌採集中,這點輕微影響可以忽略

 

(5)總結:

  一般的業務系統要引入MQ,最早大家都用ActiveMQ,但是現在確實大家用的不多了,沒經過大規模吞吐量場景的驗證,社區也不是很活躍

  後來大家開始用RabbitMQ,但是確實erlang語言阻止了大量的java工程師去深入研究和掌控他,對公司而言,幾乎處於不可控的狀態,但是確實人家是開源的,比較穩定的支持,活躍度也高;

  不過現在確實越來越多的公司,會去用RocketMQ,確實很不錯,但是要想好社區萬一突然黃掉的風險

  所以中小型公司,技術實力較爲一般,技術挑戰不是特別高,用RabbitMQ是不錯的選擇;大型公司,基礎架構研發實力較強,用RocketMQ是很好的選擇

  如果是大數據領域的實時計算、日誌採集等場景,用Kafka是業內標準的,絕對沒問題,社區活躍度很高,絕對不會黃,何況幾乎是全世界這個領域的事實性規範。

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章