MPP-大規模並行處理簡介

參考文章: MPP-大規模並行處理簡介

 MPP(大規模並行處理)

1、 什麼是MPP?

MPP (Massively Parallel Processing),即大規模並行處理,在數據庫非共享集羣中,每個節點都有獨立的磁盤存儲系統和內存系統,業務數據根據數據庫模型和應用特點劃分到各個節點上,每臺數據節點通過專用網絡或者商業通用網絡互相連接,彼此協同計算,作爲整體提供數據庫服務。非共享數據庫集羣有完全的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優勢。

簡單來說,MPP是將任務並行的分散到多個服務器和節點上,在每個節點上計算完成後,將各自部分的結果彙總在一起得到最終的結果(與Hadoop相似)。

2、MPP(大規模並行處理)架構 

3、 MPP架構特徵

● 任務並行執行;

● 數據分佈式存儲(本地化);

● 分佈式計算;

● 私有資源;

● 橫向擴展;

● Shared Nothing架構。

4、 MPP服務器架構

它由多個SMP服務器通過一定的節點互聯網絡進行連接,協同工作,完成相同的任務,從用戶的角度來看是一個服務器系統。其基本特徵是由多個SMP服務器(每個SMP服務器稱節點)通過節點互聯網絡連接而成,每個節點只訪問自己的本地資源(內存、存儲等),是一種完全無共享(Share Nothing)結構,因而擴展能力最好,理論上其擴展無限制。

5、MPPDB

MPPDB是一款 Shared Nothing 架構的分佈式並行結構化數據庫集羣,具備高性能、高可用、高擴展特性,可以爲超大規模數據管理提供高性價比的通用計算平臺,並廣泛地用於支撐各類數據倉庫系統、BI 系統和決策支持系統

6、MPPDB架構

MPP 採用完全並行的MPP + Shared Nothing 的分佈式扁平架構,這種架構中的每一個節點(node)都是獨立的、自給的、節點之間對等,而且整個系統中不存在單點瓶頸,具有非常強的擴展性。

7、 MPPDB特徵

MPP 具備以下技術特徵:

1) 低硬件成本:完全使用 x86 架構的 PC Server,不需要昂貴的 Unix 服務器和磁盤陣列;

2) 集羣架構與部署:完全並行的 MPP + Shared Nothing 的分佈式架構,採用 Non-Master 部署,節點對等的扁平結構;

3) 海量數據分佈壓縮存儲:可處理 PB 級別以上的結構化數據,採用 hash分佈、random 存儲策略進行數據存儲;同時採用先進的壓縮算法,減少存儲數據所需的空間,可以將所用空間減少 1~20 倍,並相應地提高 I/O 性能;

4) 數據加載高效性:基於策略的數據加載模式,集羣整體加載速度可達2TB/h;

5) 高擴展、高可靠:支持集羣節點的擴容和縮容,支持全量、增量的備份/恢復;

6) 高可用、易維護:數據通過副本提供冗餘保護,自動故障探測和管理,自動同步元數據和業務數據。提供圖形化工具,以簡化管理員對數據庫的管理工作;

7) 高併發:讀寫不互斥,支持數據的邊加載邊查詢,單個節點併發能力大於 300 用戶;

8) 行列混合存儲:提供行列混合存儲方案,從而提高了列存數據庫特殊查詢場景的查詢響應耗時;

9) 標準化:支持SQL92 標準,支持 C API、ODBC、JDBC、ADO.NET 等接口規範。

8、 常見MPPDB

● GREENPLUM(EMC)

● Asterdata(Teradata)

● Nettezza(IBM)

● Vertica(HP)

● GBase 8a MPP cluster(南大通用)

9、 MPPDB、Hadoop與傳統數據庫技術對比與適用場景

MPPDBHadoop都是將運算分佈到節點中獨立運算後進行結果合併(分佈式計算),但由於依據的理論和採用的技術路線不同而有各自的優缺點和適用範圍。兩種技術以及傳統數據庫技術的對比如下:

特徵

Hadoop

MPPDB

傳統數據倉庫

平臺開放性

運維負責度

擴展能力

擁有成本

系統和數據管理成本

應用開發維護成本

SQL支持

中(低)

數據規模

PB級別

部分PB

TB級別

計算性能

對非關係型操作效率高

對關係型操作效率高

對關係型操作效率中

數據結構

機構化、半結構化和非機構化數據

結構化數據

結構化數據


綜合而言,HadoopMPP兩種技術的特定和適用場景爲:

● Hadoop在處理非結構化和半結構化數據上具備優勢,尤其適合海量數據批處理等應用要求。

● MPP適合替代現有關係數據機構下的大數據處理,具有較高的效率。

MPP適合多維度數據自助分析、數據集市等;Hadoop適合海量數據存儲查詢、批量數據ETL、非結構化數據分析(日誌分析、文本分析)等。

由上述對比可預見未來大數據存儲與處理趨勢:MPPDB+Hadoop混搭使用,用MPP處理PB級別的、高質量的結構化數據,同時爲應用提供豐富的SQL和事務支持能力;用Hadoop實現半結構化、非結構化數據處理。這樣可以同時滿足結構化、半結構化和非結構化數據的高效處理需求。

轉載於:https://www.cnblogs.com/gentle-awen/p/10021809.html

發佈了84 篇原創文章 · 獲贊 137 · 訪問量 64萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章