多版本併發控制:PostgreSQL vs InnoDB

摘自:http://wangyuanzju.blog.163.com/blog/static/130292009107101544125/

 

多版本併發控制技術被很多數據庫或存儲引擎採用,如Oracle,MS SQL Server 2005+, PostgreSQL, Firebird, InnoDB, Falcon, PBXT, Maria等等。新的數據庫存儲引擎,幾乎毫無例外的使用多版本而不是單版本加鎖的方法實現併發控制,可以說多版本已經成爲未來的發展趨勢。

雖然都是多版本,但不同的系統的實現卻有很大不同。在開源數據庫領域最負盛名的兩個系統PostgreSQL和InnoDB的多版本實現就可謂有天壤之別。

一、PostgreSQL的多版本實現(基於8.4.1版本)
PostgreSQL採用堆+B+樹索引(忽視R樹、哈希、GiST等不常用的索引)的存儲結構,堆與索引的存儲模式不同。

堆中記錄包含版本化信息,PostgreSQL不區分記錄的最新版本或老版本,都存儲在堆中。簡單的說,堆中每條記錄頭上記錄t_xmin和t_xmax兩個屬性,分別表示創建與刪除這一版本的事務ID,另外記錄t_ctid屬性,表示該記錄下一個更新的版本的RID,即記錄的多個版本構成從最老到最新的單向鏈表(見HeapTupleHeaderData結構)。DELETE一條記錄時,設置t_xmax,並不將記錄真正刪除;UPDATE一條記錄時,也不直接更新,而是插入一個新版本,對原來被更新的版本,將其t_xmax設爲當前事務ID,設置其t_ctid指向新版本。

有了這些信息還不夠,爲了判斷版本的可見性,還需要兩個東西,一是事務提交日誌,二是事務快照。事務提交日誌對每個事務使用兩個bit,記錄事務是活躍、已提交還是已回滾。事務快照在事務開始時分配,其中最重要的信息是當時活躍事務的列表(見SnapshotData結構)。

有了這些東西,系統可以判斷一個版本是否可見。判斷過程比較複雜,不過從簡單的原理上說,系統先通過判斷t_xmin是否在全局活躍事務列表中、是否在事務快照活躍事務列表中、根據事務提交日誌判斷事務是提交還是回滾了等來判斷t_xmin事務是否在事務開始時已經提交;然後用類似的方法判斷t_xmax是否在事務開始時已經提交。如果t_xmin在事務開始時沒有提交則不可見;如果t_xmin在事務開始時已經提交而t_xmax沒有,則可見;如果t_xmin和t_xmax在事務開始時都已經提交了則不可見。(詳細過程見HeapTupleSatisfiesMVCC、TransactionIdDidCommit、XidInMVCCSnapshot等函數)。

索引中則不包含版本信息。一般情況下,記錄的所有版本都在索引中存在對應的索引項。舉個例子,如果一個表有三個索引,更新一條記錄時,不但在堆中會插入一個新版本,新版本對應的索引項也要插入到三個索引中,即使這次更新可能沒有更新某些索引的屬性(見ExecUpdate函數)。在PostgreSQL 8.3中引入了HOT(Heap-Only-Tuple)技術,如果新老版本在同一頁面,並且UPDATE沒有更新任何索引屬性,則不插入新版本對應的索引項。

由於索引沒有版本信息,進行索引掃描時,即使查詢所需所有屬性在索引中都存在,也需要從堆中取出對應的記錄判斷是否可見(見index_getnext函數)。

事務提交或回滾時操作簡單,除事務提交時要寫出事務外,只需要更新事務提交日誌中對應的事務狀態。也就是說回滾時並不需要將事務所作的操作從物理上清理掉,只要將事務狀態設爲已經回滾,則該事務產生的版本對其它事務自然就不可見了。

老舊的不再需要的版本,即不會被將來的任何事務見到的版本的清理是通過VACUUM實現的。由於新老版本混雜在一起,進行VACUUM時本質上是需要掃描所有數據。8.4版中引入了Visibility Map技術,用來在VACUUM時跳過那些肯定不包含老舊版本的頁面,但如果系統更新頻繁且離散,這一技術就派不上大用場。在線的VACUUM只能清理頁面中的老舊版本,但不能縮減表佔用的空間,其實是產生碎片。要縮減表空間時的VACUUM會鎖住表導致期間表不能被更新。

二、InnoDB的多版本實現(基於MySQL 5.1.33版本帶的InnoDB)
InnoDB採用索引組織表的存儲結構,沒有堆,記錄存儲在主鍵索引中,其它索引稱爲二級索引,其中每個索引項都包含所對應記錄的主鍵。主鍵索引與二級索引的存儲格式也不同。

主鍵索引擁有版本化信息,但與PostgreSQL不同,一般情況下InnoDB的主鍵索引中只存儲記錄的最新版本,舊版本的信息則集中存儲在回滾段中,只有主鍵被更新時才需要同時存儲多個版本在主鍵索引中。主鍵索引記錄的頭上包含有6字節的事務ID與7字節指向回滾段中舊版本的指針(見MySQL手冊)。DELETE時只是標記而不真正刪除。UPDATE時進行本地更新,並將前像寫到回滾段中。

存在與PostgreSQL中事務快照類似讀視圖,也記錄了事務開始時的活躍事務列表(見read_view_struct結構),但不需要PostgreSQL中的事務提交日誌。根據讀視圖和記錄頭上的事務ID,可以判斷出一個版本在事務開始時是否已經提交,即是否可見。如果存儲在主鍵索引中的記錄不可見,則根據指向回滾段中舊版本的指針找到舊版本信息,構造出舊的記錄。回滾段採用的是append-only的日誌型存儲,記錄的舊版本信息並不是一條完整的記錄,而只是被更新的屬性的前像。回滾段中的舊版本信息中也包含更舊的版本的位置,即版本鏈表是從新到舊的。

由於沒有事務日誌表示事務是否回滾,在事務回滾時必須清理該事務所進行的修改,插入的記錄要刪除,更新的記錄要更新回來(見row_undo函數)。事務提交時則無需處理。

二級索引中的每個索引項並沒有版本化信息。但在頁面頭記錄了對該頁面操作的事務的ID的最大值,通過這一值可以判斷頁面中是否可能包含不可見的數據,如果是,則需要訪問主鍵索引判斷可見性。否則,可以直接從索引中獲取查詢所需屬性。二級索引中可能存儲一條記錄的多個版本對應的索引項,如果UPDATE操作更新了某個索引的屬性,則類似於PostgreSQL,插入新索引項到二級索引中,老索引項並不刪除。但沒有被UPDATE操作更新的索引則不需要插入新索引項。

系統使用一個後臺線程不時處理回滾段,在需要時清理由於DELETE、二級索引或主鍵索引中由於主鍵被更新而產生的老舊版本,這一過程稱這purge。如果UPDATE沒有更新索引,則不會帶來purge開銷。

三、我的評價
PostgreSQL與InnoDB的多版本實現最大的區別在於最新版本和歷史版本是否分離存儲,PostgreSQL不分,InnoDB分。

PostgreSQL的這種設計被其最初的設計者Mike Stonebraker稱爲no-overwrite的設計,在設計了PostgreSQL幾年之後他的一篇回顧性論文《The Implementation of Postgres》 (PostgreSQL早期叫Postgres)中,Stonebraker指出當初這樣設計的主要原因是尋求與當時已經廣泛使用的WAL模式不同的存儲機制,有點爲了創新而創新的意思。這一設計有兩大好處:一是事務回滾時無需複雜處理,非常快;二是可以查詢以前的歷史數據。還有一個可能的好處是可以實現數據即日誌,即更新時只要更新數據就行了,不需要再寫日誌來描述做了什麼更新。但要使這個好處實現,需要有一種持久的,並且隨機寫具有與順序寫類似性能的存儲介質才行,因爲爲了保證事務提交後的持久性,需要寫出被事務更新的數據,而這些數據可能是離散的。WAL系統則不同,事務提交時只需要寫日誌就行了,而日誌是順序寫入的。當前的硬件環境並不是這樣,因此PostgreSQL中仍然還要寫日誌,只不過不需要寫UNDO日誌,只要REDO日誌就行了。

最新的PostgreSQL與當初Stonebraker的設計已經有了很大改進,比如HOT技術減少了索引中的版本數,Visibility Map技術加快了VACUUM,記錄頭部結構也更緊湊。但no-overwrite的設計原則仍然沒變。

相對於InnoDB,PostgreSQL的優勢似乎主要的只有一條:事務回滾可以立即完成,無論事務進行了多少操作。查詢以前的歷史數據的功能並不常用,在目前的PostgreSQL中也並不實用。

PostgreSQL的主要劣勢在於:
1、最新版本和歷史版本不分離存儲,導致清理老舊版本需要作更多的掃描,代價更大;
2、UPDATE不是本地更新,會產生老舊版本需要清理。與之相對的是InnoDB只有在事務回滾時才需要清理老的記錄數據。而事務回滾是罕見的;
3、只要有一個索引屬性被更新,或者新版本的記錄與原版本不在同一頁面,就要插入所有索引的新版本索引項;
4、堆佔用的空間不能通過在線的VACUUM回收,在線VACUUM會產生很多碎片(這也是由於使用了堆而不是索引組織表導致的);
5、由於索引中完全沒有版本信息,不能實現Coverage index scan,即查詢只掃描索引,直接從索引中返回所需的屬性。與之相對的是InnoDB中二級索引頁頭記錄的最近修改該頁的事務ID信息可以在大部分情況下實現Coverage index scan。Coverage index scan是應用中經常使用的優化技巧,PostgreSQL不支持這個對提升系統性能帶來很大限制,因爲索引掃描是順序訪問,去訪問堆則很可能變成亂序訪問,性能可能相差百倍;
6、判斷版本可見性更復雜,開銷更大。PostgreSQL比InnoDB在判斷可見性時,需要增加訪問事務提交日誌的操作,事務提交日誌每個事務需要分配兩個bit,對高更新負載的系統會佔用較大空間,這時要麼事務提交日誌回佔用大量內存,要麼判斷可見性時就可能產生額外的IO。對比PostgreSQL中判斷可見性的函數HeapTupleSatisfiesMVCC和InnoDB中判斷可見性的函數read_view_sees_trx_id,可以容易看出這兩者的複雜度不可同日而語。

InnoDB的主要劣勢在於事務回滾時需要清理事務所作的所有修改,因此使用InnoDB時要避免使用超大型事務,否則回滾可能超慢無比。
發佈了80 篇原創文章 · 獲贊 8 · 訪問量 34萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章