JAVA分佈式架構的演變及解決方案

JAVA分佈式架構的演變及解決方案

分佈式系統介紹

定義:

  • 組件分佈在網絡計算機上

  • 組件之間僅僅通過消息傳遞來通信並協調行動

負載均衡

  • 硬件負載均衡
    如f5等,大多比較昂貴。

  • 軟件負載均衡
    如lvs,nginx等。免費,可控性強

 

 

總結:
1:增加網絡開銷與延遲,不過基本上影響很小,可以不在考慮因素之內
2:負載均衡硬件/軟件出現問題,那麼整個網絡都會受到影響,所以需要考慮代理服務器的雙機熱備問題。

而且在切換過程中,未完成的請求還是會受到影響。總的來說,是一種非常方便及適用的保證高可用的一種方式。

 爲了解決當交易數據庫出現故障時,整個系統就會癱瘓這個單點的問題,我們可以添加另外一個數據庫,與數據庫一保持相同的數據。

 

事務

單機的事務很方便的就能控制,而在分佈式環境中,事務是比較重要也比較難解決的一個問題。主要是通過兩段提交(2pc)/最終一致/BASE/CAP/Paxos等來實現的。
分佈式一致性算法:
http://www.hollischuang.com/archives/693
http://www.hollischuang.com/archives/663
兩階段提交協議/三階段提交協議:http://www.hollischuang.com/archives/681
BASE:http://www.hollischuang.com/archives/672
CAP:http://www.hollischuang.com/archives/666

 

 

 

 分佈式和集羣區別:

一句話:分佈式是並聯工作的,集羣是串聯工作的。

分佈式:一個業務分拆多個子業務,部署在不同的服務器上
集羣:同一個業務,部署在多個服務器上

集羣是個物理形態,分佈式是個工作方式
只要是一堆機器,就可以叫集羣,他們是不是一起協作着幹活,這個誰也不知道;一個程序或系統,只要運行在不同的機器上,就可以叫分佈式,嗯,C/S架構也可以叫分佈式。
集羣一般是物理集中、統一管理的,而分佈式系統則不強調這一點。
所以,集羣可能運行着一個或多個分佈式系統,也可能根本沒有運行分佈式系統;分佈式系統可能運行在一個集羣上,也可能運行在不屬於一個集羣的多臺(2臺也算多臺)機器上。



1:分佈式是指將不同的業務分佈在不同的地方。 而集羣指的是將幾臺服務器集中在一起,實現同一業務。

分佈式中的每一個節點,都可以做集羣。 而集羣並不一定就是分佈式的。

2:簡單說,分佈式是以縮短單個任務的執行時間來提升效率的,而集羣則是通過提高單位時間內執行的任務數來提升效率。

例如:

如果一個任務由10個子任務組成,每個子任務單獨執行需1小時,則在一臺服務器上執行該任務需10小時。

採用分佈式方案,提供10臺服務器,每臺服務器只負責處理一個子任務,不考慮子任務間的依賴關係,執行完這個任務只需一個小時。(這種工作模式的一個典型代表就是Hadoop的Map/Reduce分佈式計算模型)

而採用集羣方案,同樣提供10臺服務器,每臺服務器都能獨立處理這個任務。假設有10個任務同時到達,10個服務器將同時工作,1小時後,10個任務同時完成,這樣,整身來看,還是1小時內完成一個任務!

 

分佈式系統基礎架構:

Hadoop(Hadoop的框架最核心的設計就是:HDFS和MapReduce。HDFS爲海量的數據提供了存儲,則MapReduce爲海量的數據提供了計算)

 

 分佈式系統解決方案:

Apache HTTP Server+tomcat+redis+mysql 分佈式數據庫+分佈式文件系統

Nginx+Tomcat+redis+mysql 分佈式數據庫+分佈式文件系統

系統架構演變

系統架構演化歷程-初始階段架構

初始階段 的小型系統 應用程序、數據庫、文件等所有的資源都在一臺服務器上通俗稱爲LAMP

解決方案:單機部署

 

系統架構演化歷程-應用服務和數據服務分離

數據量增加,單臺服務器性能及存儲空間不足,需要將應用和數據分離,併發處理能力和數據存儲空間得到了很大改善。

應用程序、數據庫、文件分別部署在獨立的資源上

 解決方案:多機部署應用、數據庫、文件

 

系統架構演化歷程-使用緩存改善性能

數據庫中訪問較集中的一小部分數據存儲在緩存服務器中,減少數據庫的訪問次數,降低數據庫的訪問壓力

系統訪問特點遵循二八定律,即80%的業務訪問集中在20%的數據上

緩存分爲本地緩存和遠程分佈式緩存,本地緩存訪問速度更快但緩存數據量有限,同時存在與應用程序爭用內存的情況。

解決方案:Redis、Nosql、ORM框架的緩存機制、ehcache(分佈式緩存框架)

 

系統架構演化歷程-使用應用服務器集羣

分庫分表之後,數據庫,壓力一切正常,之後查看webserver,發現apache阻塞了很多的請求

而應用服務器對每個請求也是比較快的,看來 是請求數太高導致需要排隊等待,響應速度變慢

多臺服務器通過負載均衡同時向外部提供服務,解決單臺服務器處理能力和存儲空間上限的問題。

使用集羣是系統解決高併發、海量數據問題的常用手段。通過向集羣中追加資源,提升系統的併發處理能力,使得服務器的負載壓力不再成爲整個系統的瓶頸。

 解決方案:tomcat+Apache HTTP Server+redis、Nginx+Tomcat+redis、Nginx+Tomcat+Memcached

 

系統架構演化歷程-數據庫讀寫分離

數據庫寫入、更新的這些操作的部分數據庫連接的資源競爭非常激烈,導致了系統變慢。

讀寫分離,是把對數據庫讀和寫的操作分開對應不同的數據庫服務器。主數據庫提供寫操作,從數據庫提供讀操作。當主數據庫進行寫操作時,數據要同步到從的數據庫,有效保證數據庫完整性。

Quest SharePlex就是比較牛的同步數據工具,聽說比oracle本身的流複製還好,MySQL也有自己的同步數據技術。

mysql只要是通過二進制日誌來複制數據。通過日誌在從數據庫重複主數據庫的操作達到複製數據目的。這個複製比較好的就是通過異步方法,把數據同步到從數據庫。

讀的操作怎麼樣分配到從數據庫上?應該根據服務器的壓力把讀的操作分配到服務器,而不是簡單的隨機分配。mysql提供了MySQL-Proxy實現讀寫分離操作。不過MySQL-Proxy好像很久不更新了。oracle可以通過F5有效分配讀從數據庫的壓力。

 解決方案:mysql有Mysql Proxy、Amoeba、Atlas;

 

系統架構演化歷程-反向代理和CDN加速

爲了應付複雜的網絡環境和不同地區用戶的訪問,通過CDN和反向代理加快用戶訪問的速度,同時減輕後端服務器的負載壓力。CDN與反向代理的基本原理都是緩存。

  解決方案:Nginx,apache

CDN:

目的是使用戶可就近取得所需內容,解決Internet網絡擁擠的狀況,提高用戶訪問網站的相應速度。

反向代理(Reverse Proxy)方式是指以代理服務器來接受internet上的連接請求,然後將請求轉發給內部網絡上的服務器,並將從服務器上得到的結果返回給internet上請求連接的客戶端,

此時代理服務器對外就表現爲一個反向代理服務器。這樣做的好處是保護了真實的服務器

 

 

 

系統架構演化歷程-分佈式文件系統和分佈式數據庫

發現分庫後查詢仍然會有些慢,於是按照分庫的思想開始做分表的工作

數據庫採用分佈式數據庫(所有節點的數據加起來纔算是整體數據),文件系統採用分佈式文件系統

任何強大的單一服務器都滿足不了大型系統持續增長的業務需求,數據庫讀寫分離隨着業務的發展最終也將無法滿足需求,需要使用分佈式數據庫及分佈式文件系統來支撐。

分佈式數據庫是系統數據庫拆分的最後方法,只有在單表數據規模非常龐大的時候才使用,更常用的數據庫拆分手段是業務分庫,將不同的業務數據庫部署在不同的物理服務器上。

 解決方案:mysql有mysql cluster 和 Mysql Proxy;mongodb(是一個基於分佈式文件存儲的數據庫);

分佈式文件系統方案:CEPH、glusterfs、fastDFS、mogilefs 、moosefs,Hadoop實現了一個分佈式文件系統(Hadoop Distributed File System)

 

系統架構演化歷程-使用NoSQL和搜索引擎

特徵:
系統引入NoSQL數據庫及搜索引擎。

描述:
隨着業務越來越複雜,對數據存儲和檢索的需求也越來越複雜,系統需要採用一些

非關係型數據庫如NoSQL和分數據庫查詢技術如搜索引擎。應用服務器通過統一數據訪問模塊訪問各種數據,減輕應用程序管理諸多數據源的麻煩。

 

系統架構演化歷程-業務拆分

特徵:
系統上按照業務進行拆分改造,應用服務器按照業務區分進行分別部署。

描述:
爲了應對日益複雜的業務場景,通常使用分而治之的手段將整個系統業務分成不同的產品線,

應用之間通過超鏈接建立關係,也可以通過消息隊列進行數據分發,

當然更多的還是通過訪問同一個數據存儲系統來構成一個關聯的完整系統。

 

縱向拆分:
將一個大應用拆分爲多個小應用,如果新業務較爲獨立,那麼就直接將其設計部署爲一個獨立的Web應用系統
縱向拆分相對較爲簡單,通過梳理業務,將較少相關的業務剝離即可。

橫向拆分:

將複用的業務拆分出來,獨立部署爲分佈式服務,新增業務只需要調用這些分佈式服務
橫向拆分需要識別可複用的業務,設計服務接口,規範服務依賴關係。

 

系統架構演化歷程-分佈式服務

特徵:
公共的應用模塊被提取出來,部署在分佈式服務器上供應用服務器調用。
描述:
隨着業務越拆越小,應用系統整體複雜程度呈指數級上升,由於所有應用要和所有數據庫系統連接,最終導致數據庫連接資源不足,拒絕服務。

 

 

分佈式服務應用會面臨哪些問題?

(1) 當服務越來越多時,服務URL配置管理變得非常困難,F5硬件負載均衡器的單點壓力也越來越大。
(2) 當進一步發展,服務間依賴關係變得錯蹤複雜,甚至分不清哪個應用要在哪個應用之前啓動,架構師都不能完整的描述應用的架構關係。
(3) 接着,服務的調用量越來越大,服務的容量問題就暴露出來,這個服務需要多少機器支撐?什麼時候該加機器?
(4) 服務多了,溝通成本也開始上升,調某個服務失敗該找誰?服務的參數都有什麼約定? 
(5) 一個服務有多個業務消費者,如何確保服務質量?
(6) 隨着服務的不停升級,總有些意想不到的事發生,比如cache寫錯了導致內存溢出,故障不可避免,每次核心服務一掛,影響一大片,人心慌慌,如何控制故障的影響面?服務是否可以功能降級?或者資源劣化? 

 

JAVA分佈式應用技術基礎

分佈式服務下的關鍵技術:消息隊列架構

消息對列通過消息對象分解系統耦合性,不同子系統處理同一個消息。

 

分佈式服務下的關鍵技術:服務框架架構
服務框架通過接口分解系統耦合性,不同子系統通過相同的接口描述進行服務啓用
服務框架是一個點對點模型
服務框架面向同構系統
適合:移動應用、互聯網應用、外部系統

 

分佈式服務下的關鍵技術:服務總線架構

服務總線同服務框架一樣,均是通過接口分解系統耦合性,不同子系統通過相同的接口描述進行服務啓用
服務總線是一個總線式的模型
服務總線面向同構、異構系統
適合:內部系統

 

分佈式架構下系統間交互的5種通信模式

request/response模式(同步模式):客戶端發起請求一直阻塞到服務端返回請求爲止。
Callback(異步模式):客戶端發送一個RPC請求給服務器,服務端處理後再發送一個消息給消息發送端提供的callback端點,此類情況非常合適以下場景:A組件發送RPC請求給B,B處理完成後,需要通知A組件做後續處理。
Future模式:客戶端發送完請求後,繼續做自己的事情,返回一個包含消息結果的Future對象。客戶端需要使用返回結果時,使用Future對象的.get(),如果此時沒有結果返回的話,會一直阻塞到有結果返回爲止。
Oneway模式:客戶端調用完繼續執行,不管接收端是否成功。
Reliable模式:爲保證通信可靠,將藉助於消息中心來實現消息的可靠送達,請求將做持久化存儲,在接收方在線時做送達,並由消息中心保證異常重試。

五種通信模式的實現方式-同步點對點服務模式

五種通信模式的實現方式-異步點對點消息模式1

五種通信模式的實現方式-異步點對點消息模式2

五種通信模式的實現方式-異步廣播消息模式

 

 

分佈式架構下的服務治理
服務治理是服務框架/服務總線的核心功能。

所謂服務治理,是指服務的提供方和消費方達成一致的約定,保證服務的高質量。

服務治理功能可以解決將某些特定流量引入某一批機器,以及限制某些非法消費者的惡意訪問,並在提供者處理量達到一定程度是,拒絕接受新的訪問。

 

 

Dubbo,分佈式服務框架,淘寶開源的。致力於提供高性能和透明化的RPC遠程服務調用方案,是阿里巴巴SOA服務化治理方案的核心框架.

基於服務框架Dubbo的服務治理-服務管理
可以知道你的系統,對外提供了多少服務,可以對服務進行升級、降級、停用、權重調整等操作
可以知道你提供的服務,誰在使用,因業務需求,可以對該消費者實施屏蔽、停用等操作

基於服務框架Dubbo的服務治理-服務監控
可以統計服務的每秒請求數、平均響應時間、調用量、峯值時間等,作爲服務集羣規劃、性能調優的參考指標。 

基於服務框架Dubbo的服務治理-服務路由

基於服務框架Dubbo的服務治理-服務保護

基於服務總線OSB的服務治理-功能介紹


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章