視頻流快速處理技術之一——基於幀數據量波動特性的壓縮域視頻快速檢索方法

在進行視頻檢索、檢測等處理時,許多方法需要先提取圖像,然後在圖像序列上進行處理。這些方法處理的數據量很大,導致算法運行速度慢、延時長,不能應用在實時處理的場合。爲加快速度,可在壓縮域直接進行視頻處理。

1 視頻數據及常用視頻特徵

視頻是由分層單元組成的,如底層的獨立幀和高層的片段如鏡頭、場景和事件。視頻內容分析的一個重要任務是檢測視頻片段的邊界,即視頻分割,主要是將一段視頻分成多個鏡頭。鏡頭是由單個攝像機順序記錄的在時間和空間上代表某個連續行爲的一組幀的集合,連續的場景組成事件。鏡頭變換檢測可採用直方圖方法、壓縮域DCT係數和運動向量、文本識別和標題條方法等。檢測結果可將鏡頭用一些關鍵幀代表。
對相似度不同視頻進行檢索需要不同的特徵, 相似度較高的複製視頻(duplicate video)在網站上比例很大。 在YouToBe、Google Video和Yahoo Video 上對24段視頻進行搜索,返回的相關視頻中有27%複製視頻。檢測複製視頻常用特徵有:
1.基於關鍵點的特徵:使用Harris角點和其它描述子如SIFT、PCA-SIFT和SURF等確定每個關鍵幀的局部興趣點。
2.全局圖像特徵:通過計算時間上連續的視頻關鍵幀序列集合之間的相似性進行視頻複製檢測。如顏色分佈描述子(CLD, Color Layout Descriptor)、邊緣直方圖描述子(EHD, Edge Histogram Descriptor)和緊緻傅里葉梅林變換(CFMT, Compact Fourier Mellin Transform)等。
3.視頻特徵:基於視頻的簽名比基於關鍵幀的簽名更緊緻,更有利於視頻檢索。比如將所有關鍵幀的特徵生成一個直方圖作爲視頻簽名。順序特徵(OF, Ordinal Features)也可以生成緊緻的視頻簽名,已經用於視頻序列匹配。順序特徵可結合其它圖像特徵如顏色直方圖等用於視頻片段匹配。
爲了便於檢索,提取出的特徵需要建立索引。由於每個關鍵幀由一組特徵點表示,檢索的過程就涉及大量特徵點對的比較,而且很多特徵點維數較高,計算代價大,所以需要快速有效的索引方法。當前的快速索引建立方法主要是基於哈希的方法,如LSH(Locality Sensitive Hashing)、 DBH (Distance Based Hashing)等。

2 壓縮域視頻格式

以MPEG-2格式爲例。MPEG-2協議對視頻數據封裝方式進行了詳盡的描述,符合該協議的視頻數據流的格式完全一致,視頻的各幀數據被封裝在傳送流中。各層的數據包都按照協議包含相應的起始碼和規定格式的參數描述字段。如序列頭給出了圖像尺寸、寬高比、幀速率、碼率等信息;圖像組頭給出了編碼類型、碼錶選擇、視頻磁帶記錄時間等信息;圖像頭給出了圖像編碼的時間基準、幀類型等信息。
利用圖組頭和圖像頭可以確定視頻各幀和各圖組的數據量,每段視頻數據由多個圖組組成,每個圖組由I、P、B三種圖像幀組成,三種幀數據量差異較大。平均而言,I幀最大,B幀最小。視頻各幀數據量的變化呈現一定的規律,如彩條、固定場景等內容不變的視頻各圖像幀的數據量曲線規律性較強,呈週期性變化;而內容相似的視頻,數據量曲線規律性要差些,但是還會顯示出相似的變化趨勢。當然,這需要使用相同的編碼算法。

3 壓縮域視頻特徵——幀數據量

從視頻各幀數據量看,數據量雖然不能反映視頻圖像數據本身,但各幀壓縮後的數據量的變化趨勢能反映出視頻內容的異同,也就是說變化趨勢相同的數據量曲線對應的視頻內容一般是相同的。這是因爲圖象編碼後數據量的多少與圖像內容、編碼方法等多種因素有關,即使同一幀圖像編碼後數據量也可能不同,但內容相同的視頻編碼後數據量變化趨勢一般是相同的。我們把這樣的變化趨勢稱作波動特性。比如,電視節目中的彩條、黑屏等內容不變的測試視頻,其波動就有很強的週期性,如下圖所示。
視頻流快速處理技術之一——基於幀數據量波動特性的壓縮域視頻快速檢索方法
圖中曲線每個週期包含15個數據點,對應於每個圖組15個幀的數據量,最高點表示I幀數據量,次高的4個點表示P幀數據量,最低的10個點表示B幀數據量,而且各週期數據量幾乎相同,曲線呈週期性波動。另外,相同內容的視頻片段,其波動特性也是非常相似的,如下圖所示。
視頻流快速處理技術之一——基於幀數據量波動特性的壓縮域視頻快速檢索方法
該圖給出了某新聞節目片花在不同時間播放的兩段視頻的數據量波動。該視頻每個圖組爲12個幀,video 1的I幀數據量與video 2的I幀數據量幾乎相同,數據量不斷增加的趨勢也相同。利用這樣的波動特性就可以進行視頻檢索。

4 壓縮域視頻相似度衡量

設P、Q分別代表查詢視頻和待查詢視頻,其對應的數據量分別爲P<sub>k</sub>、Q<sub>k</sub>, 查詢視頻和待查詢視頻的相似度可以通過兩者的波動特性來衡量。由於波動特性反映的是曲線的性質,所以準確的衡量方法可以通過對曲線進行建模並衡量模型的相近程度來實現,或者利用動態波形匹配的方法來實現。
當該距離小於設定門限時這兩個視頻相似。這種距離度量方式雖然比較簡單,但非常有效,適合進行實時的視頻檢索。由於查詢視頻與待查詢視頻長度可能不等,需要採用窗口滑動法在固定窗長內計算相似度。窗長的選取以圖組整數倍長爲宜,當查詢視頻較短時,可以取視頻所有幀數作爲窗長。下圖給出了一段查詢視頻與兩個視頻片段的距離曲線,video 1與圖video 2的最低點都代表待查詢視頻出現的幀位置。經驗證,這兩個位置都是正確的。

視頻流快速處理技術之一——基於幀數據量波動特性的壓縮域視頻快速檢索方法

視頻檢索框架

由於該方法完全不需要對視頻進行解壓,也不需要計算解壓後圖像幀的特徵進一步得出視頻特徵,並用來進行視頻檢索,所以它的速度大大高於基於各視頻幀特徵提取的方法。另外,由於三種圖像幀數據量差距較大,當兩段視頻的I幀對齊時,它們的距離會小與I幀沒有對齊的距離相似的可能性更大,而且如果僅在I幀對齊時進行相似計算,計算次數會減少爲原來的 1/12(一個圖組包含12個圖像幀)或1/15(一個圖組包含15個圖像幀)。所以在窗口滑動時可以先進行I幀對齊,並以圖組長度爲步長進行滑動。這樣每個圖組只進行一次距離計算。
同樣的,相似判決只需要判斷該距離是否小於設定門限,若小於門限,則認爲這兩段視頻相似,否則認爲它們不相似。該方法主要包括以下幾步:
1.初始化設置相關參數,如圖組長度、窗長等;
2.計算查詢視頻在窗長內的各幀數據量;
3.計算待查詢視頻在窗長內的各幀數據量;
4.在I幀對齊的基礎上計算兩段視頻的距離;
5.進行相似度判決,如果小於設定相似門限值T,則認爲找到了與查詢視頻相似的視頻,並報告結果;否則,以步長進行窗口滑動,並重復3、4,直到滑動窗右邊界到達待查詢視頻尾部;
6.重複3~5,直到遍歷完所有視頻文件。
本文詳細內容請下載基於幀數據量波動特性的壓縮域視頻快速檢索方法並查看。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章