MPP-大規模並行處理簡介

1、什麼是MPP？

MPP (Massively Parallel Processing)，即大規模並行處理，在數據庫非共享集羣中，每個節點都有獨立的磁盤存儲系統和內存系統，業務數據根據數據庫模型和應用特點劃分到各個節點上，每臺數據節點通過專用網絡或者商業通用網絡互相連接，彼此協同計算，作爲整體提供數據庫服務。非共享數據庫集羣有完全的可伸縮性、高可用、高性能、優秀的性價比、資源共享等優勢。

簡單來說，MPP是將任務並行的分散到多個服務器和節點上，在每個節點上計算完成後，將各自部分的結果彙總在一起得到最終的結果(與Hadoop相似)。

2、MPP(大規模並行處理)架構

3、 MPP架構特徵

● 任務並行執行;

● 數據分佈式存儲(本地化);

● 分佈式計算;

● 私有資源;

● 橫向擴展;

● Shared Nothing架構。

4、 MPP服務器架構

它由多個SMP服務器通過一定的節點互聯網絡進行連接，協同工作，完成相同的任務，從用戶的角度來看是一個服務器系統。其基本特徵是由多個SMP服務器(每個SMP服務器稱節點)通過節點互聯網絡連接而成，每個節點只訪問自己的本地資源(內存、存儲等)，是一種完全無共享(Share Nothing)結構，因而擴展能力最好，理論上其擴展無限制。

5、MPPDB

MPPDB是一款 Shared Nothing 架構的分佈式並行結構化數據庫集羣，具備高性能、高可用、高擴展特性，可以爲超大規模數據管理提供高性價比的通用計算平臺，並廣泛地用於支撐各類數據倉庫系統、BI 系統和決策支持系統

6、MPPDB架構

MPP 採用完全並行的MPP + Shared Nothing 的分佈式扁平架構，這種架構中的每一個節點（node）都是獨立的、自給的、節點之間對等，而且整個系統中不存在單點瓶頸，具有非常強的擴展性。

7、 MPPDB特徵

MPP 具備以下技術特徵：

1) 低硬件成本：完全使用 x86 架構的 PC Server，不需要昂貴的 Unix 服務器和磁盤陣列；

2) 集羣架構與部署：完全並行的 MPP + Shared Nothing 的分佈式架構，採用 Non-Master 部署，節點對等的扁平結構；

3) 海量數據分佈壓縮存儲：可處理 PB 級別以上的結構化數據，採用 hash分佈、random 存儲策略進行數據存儲；同時採用先進的壓縮算法，減少存儲數據所需的空間，可以將所用空間減少 1~20 倍，並相應地提高 I/O 性能；

4) 數據加載高效性：基於策略的數據加載模式，集羣整體加載速度可達2TB/h；

5) 高擴展、高可靠：支持集羣節點的擴容和縮容，支持全量、增量的備份/恢復;

6) 高可用、易維護：數據通過副本提供冗餘保護，自動故障探測和管理，自動同步元數據和業務數據。提供圖形化工具，以簡化管理員對數據庫的管理工作；

7) 高併發：讀寫不互斥，支持數據的邊加載邊查詢，單個節點併發能力大於 300 用戶；

8) 行列混合存儲：提供行列混合存儲方案，從而提高了列存數據庫特殊查詢場景的查詢響應耗時；

9) 標準化：支持SQL92 標準，支持 C API、ODBC、JDBC、ADO.NET 等接口規範。

8、常見MPPDB

● GREENPLUM(EMC)

● Asterdata(Teradata)

● Nettezza(IBM)

● Vertica(HP)

● GBase 8a MPP cluster(南大通用)

9、 MPPDB、Hadoop與傳統數據庫技術對比與適用場景

MPPDB與Hadoop都是將運算分佈到節點中獨立運算後進行結果合併(分佈式計算)，但由於依據的理論和採用的技術路線不同而有各自的優缺點和適用範圍。兩種技術以及傳統數據庫技術的對比如下：

特徵	Hadoop	MPPDB	傳統數據倉庫
平臺開放性	高	低	低
運維負責度	高	中	中
擴展能力	高	中	低
擁有成本	低	中	高
系統和數據管理成本	高	中	中
應用開發維護成本	高	中	中
SQL支持	中(低)	高	高
數據規模	PB級別	部分PB	TB級別
計算性能	對非關係型操作效率高	對關係型操作效率高	對關係型操作效率中
數據結構	機構化、半結構化和非機構化數據	結構化數據	結構化數據

綜合而言，Hadoop和MPP兩種技術的特定和適用場景爲：

● Hadoop在處理非結構化和半結構化數據上具備優勢，尤其適合海量數據批處理等應用要求。

● MPP適合替代現有關係數據機構下的大數據處理，具有較高的效率。

MPP適合多維度數據自助分析、數據集市等；Hadoop適合海量數據存儲查詢、批量數據ETL、非結構化數據分析(日誌分析、文本分析)等。

由上述對比可預見未來大數據存儲與處理趨勢：MPPDB+Hadoop混搭使用，用MPP處理PB級別的、高質量的結構化數據，同時爲應用提供豐富的SQL和事務支持能力；用Hadoop實現半結構化、非結構化數據處理。這樣可以同時滿足結構化、半結構化和非結構化數據的高效處理需求。

轉載於:https://www.cnblogs.com/gentle-awen/p/10021809.html

風情客家__

發佈了84 篇原創文章 · 獲贊 137 · 訪問量 64萬+

他的留言板關注

MPP-大規模並行處理簡介

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

MySQL和PostgreSQL在多表連接算法上的差異

spark標籤計算及用戶畫像應用

MySQL 四種事務隔離級別詳解介紹

Linux批量添加或修改文件後綴名稱

MySQL 四種事務隔離級別詳解介紹(二)

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結