提問式複習:圖文回顧 redo log 相關知識

原文鏈接:提問式複習:圖文回顧 redo log 相關知識

1、如何提升 redo日誌 的寫性能?

  • 爲了保證 redo日誌 不丟失,會在磁盤中開闢一塊空間將日誌保存起來。但是這樣會有一個問題,磁盤的讀寫性能非常的差。
  • 所以 redo日誌 和數據頁一樣,系統都是會分配一塊連續的內存,來提升讀寫性能;數據頁對應的是 buffer pool,而 redo日誌 對應的是 log buffer。

buffer pool可以利用「innodb_buffer_pool_size」指定總大小,利用「innodb_buffer_pool_instances」指定實例數,但是必須size大於等於1G才生效。

log buffer 可利用「innodb_log_buffer_size」指定 log buffer 的大小;一片連續的內存空間會被劃分爲N個512字節大小的block。

log file 可以利用「innodb_log_file_size」指定每個 log file 的大小,利用「innodb_log_files_in_group」指定一共多少個log file。

2、redo日誌 何時寫入log buffer?

  • 對底層頁面(可能是多個頁面)進行一次原子性訪問,等於一個MTR,即 Mini Transaction。一個 MTR對應一組 redo日誌 。一個事務對應多個語句,一個語句對應多個個MTR,一個MTR對應一組redo日誌,即多個 redo日誌 。
  • 在MTR結束後,會將一組 redo日誌 寫入到log buffer中。

詳情可看下圖:
redo-lsn-offset

3、log buffer 中的 redo日誌 何時刷盤?

  • 當 log buffer 已經被寫入約一半左右,下次再寫入 redo日誌 時,需將 log buffer 的 redo日誌 刷到磁盤文件中。
  • 當事務結束時,需先將 log buffer 中,被修改的緩存頁對應的 redo日誌 刷回磁盤中。
  • 後臺線程刷,大概每隔一秒刷一次 log buffer 中的 redo日誌 到磁盤中。
  • 執行checkpoint。
  • 正常關閉服務器。

4、我們都知道每次寫入 redo日誌 ,都是以組爲單位,那麼我們怎麼知道哪些是一組?

  • 在該組中的最後一條 redo日誌 後邊加上一條特殊類型的 redo日誌 ,該類型名稱爲「MLOG_MULTI_REC_END」,type字段對應的十進制數字爲31,該類型的 redo日誌 結構很簡單,只有一個type字段。

5、如何知道下一次redo日誌改寫到log buffer的哪個位置?

  • buf_free全局變量,指向log buffer中下個寫入的位置。

6、如何知道下次從log buffer的哪個位置開始刷入磁盤?

  • buf_next_to_write全局變量,指向log buffer中下個刷回磁盤的位置。

7、如何定位 log buffer 中的 redo日誌 對應哪些被修改的數據頁;在被修改的數據頁中,如何定位到對應的是哪些 redo日誌 ?

  • 修改的緩存頁找到對應的 redo日誌
    • lsn
      • 首先,出場一個變量,叫lsn,全稱:log sequence number,日誌序列號。它記錄的是,redo日誌 的總字節數,初始值爲8704。當系統啓動,初始化log buffer 時,lsn 值爲 8704+12(一個log block header)=8716
      • 接着,log buffer 是由多個block組成的(可以理解爲buffer pull的緩存頁),block由三部分組成,log block header(12個字節)、log block body、log block trailer(4個字節)。
      • 當第一個 redo日誌 組,如「mt_1」準備被寫入,並且一個block能容納,此時lsn爲 8704+12(一個log block header)=8716,假設「mt_1」一共100字節,那麼「mt_1」寫入後,lsn爲8716+100=8816
      • 當第二個 redo日誌 組,如「mt_2」準備被寫入,並且需要跨block才能容納,如跨一個(即包含一個log block header和一個log block trailer),開始寫入前lsn:8816,假設「mt_2」一共1000個字節,那麼「mt_2」寫入後,lsn爲8816+12(一個log header)+4(一個log tail)+1000=9832
    • flush和lsn
      • 當 MTR 結束時,會將被修改過的數據頁對應的數據塊放入 flush鏈表 的表頭中,並且給兩個參數賦值,分別是 old_modification 和 new_modification:old_m 賦值是 MTR 開始前的 lsn 值,而 new_m 賦值是 MTR 結束時的 lsn 值。
      • 如果一個 MTR 修改的數據頁對應的控制塊本來就在 flush鏈表 中,則不調整數據頁對應的數據塊的位置,只是修改 new_modification 的值,old_modification還 是保持第一次進入 flush鏈表 時 lsn 的值。
      • 就是說,在 flush鏈表 中,數據塊是根據第一次修改的時間進行倒序排列的。
    • 通過上面,那麼我們可以根據flush鏈表中,數據塊的 old_modification 和 new_modification 找到對應的一組 redo日誌 ,因爲通過 lsn 可以定位到對應 redo日誌 在磁盤文件中的偏移量(這個下面會講解到)。
  • redo日誌 找到對應的緩存頁面
    • redo日誌 的通用結構是:type-spaceId ID-page Number-data,即我們可以根據 redo日誌 的 space ID 和 page Number 即可找到對應的緩存頁。
    • 順帶一提:在 InnoDB 中,有一個哈希表,key爲表空間號+頁號,value爲緩存頁地址。這樣我們可以通過 space ID 和 page Number 快速定位到對應的緩存頁。

8、我們知道可以利用 lsn 知道有多少字節數的 redo日誌 寫入到 log buffer 中,那麼我們能有變量對應的知道有多少字節數的 redo日誌 被刷入磁盤中嗎?

  • flushed_to_disk_lsn 全局變量,表示刷到磁盤的日誌量。

9、lsn 和 log file 的偏移量怎麼對得上麼?

  • lsn 初始值是 8704,隨着 redo日誌 的不斷寫入,lsn 不斷增大。而 innodb 中,是利用 block 這個結構來存儲 redo日誌 (不管是 log buffer 還是 log file),而 block 包含三部分,上面已經提到。當 redo日誌 不斷寫入,不斷佔用 block 的空間,那麼 lsn 會增加對應的字節數,當然了,除了body、也算 header 和 trailer。
  • log file 是由日誌組組成,日誌組最大設置100個文件數,每個日誌文件也是由多個512字節的block鏡像組成,日誌組第一個日誌文件前4個block鏡像用於存儲重要信息、如checkpoint等、即前2048個字節不用於存儲 redo日誌 ,即從2048個字節開始計算 redo日誌 的存放量。
  • log file 的 log file header 中有一個「LOG_HEADER_START_LSN」屬性,標記本 redo日誌 文件偏移量2048字節處對應的lsn值。

詳情可看下圖:
redo-lsn-offset

10、log buffer 中的 redo日誌 真的會在事務結束時立馬刷回到磁盤中嗎?

  • 默認是的,這裏有一個參數控制:「innodb_flushing_log_at_trx_commit」,默認值是1
    • 0:事務提交,不會立馬刷到磁盤中,依賴後臺線程刷入,即如果此時MySQL或系統掛掉重啓,無法恢復髒頁
    • 1:事務提交,會立馬將log buffer的 redo日誌 刷回磁盤中
    • 2:事務提交,會立馬將log buffer的 redo日誌 刷到操作系統的緩存中,而不是刷到磁盤中;如果此時MySQL掛掉了,重啓後不會影響恢復髒頁,而如果是系統掛掉,就無力迴天了。

11、log file 都是循環使用,即可以覆蓋,那麼怎麼判斷是否可以覆蓋?

  • log file 中可被覆蓋,那麼首要條件就是 redo日誌 對應的髒頁已經被刷到磁盤中。
  • innodb 有個全局變量:checkpoint_lsn,它記錄的是可被覆蓋的 redo日誌量。初始值就是lsn的初始值,8704。
    • 什麼是 checkpoint?
      • 當有髒頁被刷到磁盤時,首先在flus鏈表中拿到最舊的緩存頁,即需要拿到鏈表尾部的控制塊,然後拿到 old_modification 的值,然後將這個值賦值給 checkpoint_lsn,因爲只要是小於 flush 鏈表中最舊的控制塊的 old_modification 的 lsn,就代表可以被覆蓋,畢竟對應的髒頁已經被刷到磁盤中了。
      • 接着,將根據當前的 checkpoint_lsn 獲取對應日誌文件組的偏移量,記錄爲 checkpoint_offset,checkpoint_no 也需要加1,最後將三個信息記錄在日誌文件組的 checkpoint1 或 checkpoint2(checkpoint_no爲奇數存1,否則存2)。
      • 上面兩步稱爲執行一次checkpoint。
  • 我們只需要從日誌文件組中的 checkpoint1 和 checkpoint2 拿到信息,然後對比 checkpoint_no 看哪個是最新的,接着拿到checkpoint_lsn,那麼 lsn 小於 checkpoint_lsn 的日誌都可以被覆蓋。

12、系統崩潰重啓,如何利用 redo日誌 進行恢復?

  • redo日誌 進行崩潰恢復主要是利用上面提到的 checkpoint_lsn,因爲 checkpoint_lsn 表示可以覆蓋的日誌量,則表示 checkpoint_lsn 之前的 redo日誌 對應的髒頁都已經被刷回到磁盤中。
  • 首先從 redo 日誌組中拿到 checkpoint1 和 checkpoint2,接着判斷誰的 checkpoint_no 大,大的就是最新的一次 checkpoint 執行。
  • 接着拿到對應的 checkpoint_offset,那麼 checkpoint_offset 後的 redo日誌 都需要掃描一遍,然後根據 redo日誌 的內容,對數據頁進行恢復。

13、恢復是掃描一個 redo日誌 ,就進行一次恢復嗎?

  • 問題:
    • 因爲根據 redo日誌 恢復數據頁的變更,是直接更新磁盤中的數據頁;掃描一個 redo日誌 ,就進行一次恢復,如果存在多個 redo日誌 記錄同一個數據頁的變更,並且不是連續的,那麼會導致多次隨機IO,性能會非常的差。
  • 解決:
    • 所以會有一個哈希表,key爲 space ID + page Number,value 爲數據頁地址。掃描 redo日誌 時,會將同一個 space ID + page Number 的 redo日誌 都放在同一個槽下。
    • 接着遍歷哈希表,執行每一個 space ID + page Number 對應所有的 redo日誌 。
  • 好處:
    • 避免了多次的隨機IO,提升恢復的速度。
    • 按順序根據 redo日誌 進行恢復,避免出現恢復的順序問題。

詳情可看下圖:
redo-恢復

14、恢復時,如何知道什麼時候結束?

  • 首先,我們知道,在日誌組裏,有多個block鏡像,然後 redo日誌 刷盤,是按順序填入每個block的,只有前一個block填滿了,才接着填下一個
  • 接着,每個 block 的大小都是 512 個字節,包括 log block header、log block body 和 log block trailer。在block的頁面結構中,log block header 頭部有一個「LOG_BLOCK_HDR_DATA_LEN」的屬性,該屬性值記錄了當前block裏使用了多少字節的空間。對於被填滿的block來說,該值永遠爲512。
  • 最後,所以只管往後面一直掃,直到 log block header 中 「LOG_BLOCK_HDR_DATA_LEN」屬性不是512的 block,那麼就是恢復的終點了。

15、如何兼容髒頁已經已經刷回磁盤,但是 redo日誌 沒有刷回磁盤的場景?

  • 場景復現:
    • 當我們提交事務時,會根據參數「innodb_flush_at_trx_commit」來做下一步操作,如果是0或者2,那麼此時的日誌並沒有刷回到磁盤中,而是留在log buffer中或操作系統緩存中。
    • 接着,如果有後臺線程將 LRU 鏈表或 flush 鏈表的某些髒頁刷回磁盤中,刷回後;但是此時對應的 redo日誌 還停留在上面提到的兩個地方,如果服務器宕機,那麼對應的 redo日誌 就會丟失了。
    • 因爲刷 LRU 鏈表、flush 鏈表和刷 redo日誌 的後臺線程,往往都是不同的線程,無法知道對應的 redo日誌 是否已經刷回去。
  • 兼容:
    • 每個數據頁都有一個稱之爲 File Header 的部分,在 File Header 裏有一個稱之爲 FIL_PAGE_LSN 的屬性,該屬性記載了最近一次修改頁面時對應的 lsn 值(其實就是頁面控制塊中的 newest_modification 值)。
    • 如果在做了某次 checkpoint 之後有髒頁被刷新到磁盤中,那麼該頁對應的 FIL_PAGE_LSN 代表的 lsn 值肯定大於 checkpoint_lsn 的值,凡是符合這種情況的頁面就不需要重複執行 lsn 值小於 FIL_PAGE_LSN 的 redo日誌 了,

最後,祝大家國慶節快樂!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章