IDR、CRA、BLA、RASL、RADL、closed-gop、open-gop

相對於H.264編碼的每個GOP是相互獨立的,GOP切換用I幀,幀間搜索不再參考前一個GOP。而HEVC切換則可以“軟切換”。
 BLA、CRA、IDR是文獻中提到過的三種隨機接入點(RAP),在文獻中的解釋的確不是很容易理解。


 (1)關於GOP。這是圖像組(Group of Pictures)的意思,表示編碼的視頻序列分成了一組一組的有序的幀的集合進行編碼。每個GOP一定是以一個I幀開始的,但是卻不一定指代的是兩個I幀之間的距離。因爲一個GOP內可能包含幾個I幀,只有第一個I幀(也就是第一幀)纔是關鍵幀。在程序cfg中,GOP的長度和兩個I幀的距離也是兩個不同參數指定的(如IntraPeriod和GOP Size或者類似的參數)。所以,兩個I幀的間距不可能大於GOP的長度,一般情況是更小的。
 

(2)關於IDR。這個詞兒的全稱是Instantaneous Decoding Refresh,是在H.264中定義的結構。在H.264中,IDR幀一定是I幀,而且一定是GOP的開始,也是H.264 GOP的關鍵幀。但是反過來卻不成立,I幀不一定是IDR幀。GOP的長度不是定死不變的,在H.264的編碼器中,如果判定場景發生變化,那麼及時不到原定GOP的末尾,也會在這個位置加入一個IDR,作爲新一個GOP的開始。此時這個GOP的長度就被縮小了。
 

(3)閉合GOP和開放GOP(closed GOP/open GOP),CRA。閉合GOP是H.264中GOP的格式。在H.264的GOP中,所有的GOP都是獨立解碼的,與其他GOP無關,即它們都是“封閉”的。但是在HEVC中,GOP的結構發生了變化,採用了“開放”的結構,在解碼過程過可能會參考其他GOP的數據。這時,一個GOP的起始幀命名爲CRA, clean random access,同樣採用幀內編碼,但是這個GOP內的幀間編碼幀可以越過CRA參考前一個GOP的數據,這便是GOP的open。
 

(4)關於BLA。BLA只是CRA在視頻流切換情況下的一種特例。視頻流在某個RAP上要求切換到另一個視頻流繼續解碼,則直接將該CRA同另一個視頻流中的接入CRA連接,後者便是BLA。由於BLA之前解碼到緩存的視頻流與當前視頻流無關,因此其特性類似於直接從該點進行隨機存取後的CRA。
 

(5)RASL和RADL。這是兩種GOP間的圖像類型。如果解碼器從某個CRA隨機接入,則按照顯示順序的後面幾幀數據由於缺少參考幀而不能解碼,這些圖像將被解碼器拋棄,即skip leading。而對於沒有從當前CRA接入的數據,這些圖像可以被正常解碼顯示,因此稱爲decodable leading。由於這些數據是有可能捨棄的,因此其他圖像(trailing pictures)不能參考這些數據,否則萬一這些圖像被捨棄,將會有更多的圖像受其影響而不能正常解碼。

 

另外:
談一談我的理解。之所以引入CRA是因爲它可以比IDR提高更好的壓縮效率,因爲CRA是open GOP,open GOP structure usually provides better coding efficiency and peak-less bit-rate. 那麼CRA引入之後遺留的問題,就是解碼器一旦從CRA接入(比如快進快退?),那些CRA之後的要從previous GOP尋找參考圖像的幀怎麼辦?只能丟棄,這些幀就是RASL幀(skip leading)了。那如果不是從CRA接入(即我沒快進快退而是正常解碼),這些幀又是可解碼的(decodable leading),也就變成RADL幀了。還有一個問題,就是當前GOP剩下的幀(trailing pictures)怎麼辦呢?它們一定不能用RASL幀做參考幀,因爲這些幀可能被丟棄(從CRA接入時)。什麼是BLA?應該是視頻流切換情況下另一個流的CRA吧! 

下面舉個例子:
假設視頻序列的顯示順序爲①,這是一個完整的GOP,解碼順序爲②
①I B B P B B P B B P
②I P B B P B B P B B
在H.264中,第一個I幀爲IDR,GOP爲閉合結構,因此兩個GOP組成視頻的結構爲
I B B P B B P B B PI B B P B B P B B P(顯示順序)
I P B B P B B P B BI P B B P B B P B B(解碼順序)
而在HEVC中,兩個I幀爲CRA,GOP爲開放結構,因此GOP的結構爲:
I B B P B B P B B PB B I B B P B B P B(顯示順序)
I P B B P B B P B B I B B P B B P B B...(解碼順序)
兩個紅色的B幀表示的是按照解碼順序在CRA之後,該GOP內參考的前一個GOP進行編碼的圖像。這樣便很容易得知,如果選擇在第二個CRA進行隨機接入,這兩個紅色的B幀將會由於沒有參考幀無法解碼而被捨棄。這兩個紅色的B幀即RASP。如果沒有選擇這個CRA進行隨機接入,這兩個紅色B幀將可以順利解碼,即成爲RADP。
對於BLA,情況也是類似的。由於出現碼流拼接,第二段碼流的CRA之後的B也會因爲沒有參考幀無法解碼而丟棄。很容易理解,此時緩存中的參考幀數據還來自上一段碼流,跟當前碼流沒關係,當然不能用作B的參考了。
之餘HEVC這麼設計的目的,我覺得應該是爲了編碼效率考慮的。因爲B幀的壓縮比相對是最高的,引入這種設計可以在不影響隨機存取性能的前提下,儘可能增大B幀的比重,提高整體壓縮編碼的性能。
以下是一些國外研究者在論壇中對這個問題的一些討論,可以拿來做一下參考:
www.linkedin.com/groups/IDR-vs-CRA-3724292.S.125836481
forum.doom9.org/archive/index.php/t-105129.html


HEVC中的新結構:clean random access (CRA)。支持開放GOP操作。基本概念:random access skipped leading (RASL) pictures,因爲包含幀間信息而不能解碼的圖像;broken link access (BLA) pictures:位於不同比特流連接點的圖像;random access decodable leading (RADL) picture:在隨機接入點後,可以按順序解碼的圖像。隨機接入點的圖像可能是IDR/CRA/BLA的圖像。leading pictures (LPs):RASL和RADL的總稱。trailing pictures:隨機接入點後按解碼和輸出順序的圖像。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章