Activemq 常見的一些問題 心得

1.先講嚴重的:服務掛掉。

這得從ActiveMQ的儲存機制說起。在通常的情況下,非持久化消息是存儲在內存中的,持久化消息是存儲在文件中的,它們的最大限制在配置文件的<systemUsage>節點中配置。但是,在非持久化消息堆積到一定程度,內存告急的時候,ActiveMQ會將內存中的非持久化消息寫入臨時文件中,以騰出內存。雖然都保存到了文件裏,但它和持久化消息的區別是,重啓後持久化消息會從文件中恢復,非持久化的臨時文件會直接刪除。

那如果文件增大到達了配置中的最大限制的時候會發生什麼?我做了以下實驗:

設置2G左右的持久化文件限制,大量生產持久化消息直到文件達到最大限制,此時生產者阻塞,但消費者可正常連接並消費消息,等消息消費掉一部分,文件刪除又騰出空間之後,生產者又可繼續發送消息,服務自動恢復正常。

設置2G左右的臨時文件限制,大量生產非持久化消息並寫入臨時文件,在達到最大限制時,生產者阻塞,消費者可正常連接但不能消費消息,或者原本慢速消費的消費者,消費突然停止。整個系統可連接,但是無法提供服務,就這樣掛了

具體原因不詳,解決方案:儘量不要用非持久化消息,非要用的話,將臨時文件限制儘可能的調大。

詳細配置信息見文檔:http://activemq.apache.org/producer-flow-control.html

2、丟消息

這得從java的java.net.SocketException異常說起。簡單點說就是當網絡發送方發送一堆數據,然後調用close關閉連接之後。這些發送的數據都在接收者的緩存裏,接收者如果調用read方法仍舊能從緩存中讀取這些數據,儘管對方已經關閉了連接。但是當接收者嘗試發送數據時,由於此時連接已關閉,所以會發生異常,這個很好理解。不過需要注意的是,當發生SocketException後,原本緩存區中數據也作廢了,此時接收者再次調用read方法去讀取緩存中的數據,就會報Software caused connection abort: recv failed錯誤。

通過抓包得知,ActiveMQ會每隔10秒發送一個心跳包,這個心跳包是服務器發送給客戶端的,用來判斷客戶端死沒死。如果你看過上面第一條,就會知道非持久化消息堆積到一定程度會寫到文件裏,這個寫的過程會阻塞所有動作,而且會持續20到30秒,並且隨着內存的增大而增大。當客戶端發完消息調用connection.close()時,會期待服務器對於關閉連接的回答,如果超過15秒沒回答就直接調用socket層的close關閉tcp連接了。這時客戶端發出的消息其實還在服務器的緩存裏等待處理,不過由於服務器心跳包的設置,導致發生了java.net.SocketException異常,把緩存裏的數據作廢了,沒處理的消息全部丟失。

解決方案:用持久化消息,或者非持久化消息及時處理不要堆積,或者啓動事務,啓動事務後,commit()方法會負責任的等待服務器的返回,也就不會關閉連接導致消息丟失了。

關於java.net.SocketException請看我的詳細研究:http://blog.163.com/_kid/blog/static/3040547620160231534692/


3.持久化消息非常慢。

默認的情況下,非持久化的消息是異步發送的,持久化的消息是同步發送的,遇到慢一點的硬盤,發送消息的速度是無法忍受的。但是在開啓事務的情況下,消息都是異步發送的,效率會有2個數量級的提升。所以在發送持久化消息時,請務必開啓事務模式。其實發送非持久化消息時也建議開啓事務,因爲根本不會影響性能。

4.消息的不均勻消費。

有時在發送一些消息之後,開啓2個消費者去處理消息。會發現一個消費者處理了所有的消息,另一個消費者根本沒收到消息。原因在於ActiveMQ的prefetch機制。當消費者去獲取消息時,不會一條一條去獲取,而是一次性獲取一批,默認是1000條。這些預獲取的消息,在還沒確認消費之前,在管理控制檯還是可以看見這些消息的,但是不會再分配給其他消費者,此時這些消息的狀態應該算作“已分配未消費”,如果消息最後被消費,則會在服務器端被刪除,如果消費者崩潰,則這些消息會被重新分配給新的消費者。但是如果消費者既不消費確認,又不崩潰,那這些消息就永遠躺在消費者的緩存區裏無法處理。更通常的情況是,消費這些消息非常耗時,你開了10個消費者去處理,結果發現只有一臺機器吭哧吭哧處理,另外9臺啥事不幹。

解決方案:將prefetch設爲1,每次處理1條消息,處理完再去取,這樣也慢不了多少。

詳細文檔:http://activemq.apache.org/what-is-the-prefetch-limit-for.html

5.死信隊列。

如果你想在消息處理失敗後,不被服務器刪除,還能被其他消費者處理或重試,可以關閉AUTO_ACKNOWLEDGE,將ack交由程序自己處理。那如果使用了AUTO_ACKNOWLEDGE,消息是什麼時候被確認的,還有沒有阻止消息確認的方法?有!

消費消息有2種方法,一種是調用consumer.receive()方法,該方法將阻塞直到獲得並返回一條消息。這種情況下,消息返回給方法調用者之後就自動被確認了。另一種方法是採用listener回調函數,在有消息到達時,會調用listener接口的onMessage方法。在這種情況下,在onMessage方法執行完畢後,消息纔會被確認,此時只要在方法中拋出異常,該消息就不會被確認。那麼問題來了,如果一條消息不能被處理,會被退回服務器重新分配,如果只有一個消費者,該消息又會重新被獲取,重新拋異常。就算有多個消費者,往往在一個服務器上不能處理的消息,在另外的服務器上依然不能被處理。難道就這麼退回--獲取--報錯死循環了嗎?

ONMESSAGE必須做好異常處理,保證有確認消息

在重試6次後,ActiveMQ認爲這條消息是“有毒”的,將會把消息丟到死信隊列裏。如果你的消息不見了,去ActiveMQ.DLQ裏找找,說不定就躺在那裏。

詳細文檔:http://activemq.apache.org/redelivery-policy.html

http://activemq.apache.org/message-redelivery-and-dlq-handling.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章