基於機器學習技術的非迭代內容自適應分佈式編碼

摘要：

分佈式編碼是縮短內容準備雲工作流程的週轉時間的一種有效方法。當前已經提出了內容自適應比特分配的策略以保證存儲和傳輸的效率。但這些方法中的許多方法本質上傾向於使用迭代，需要消耗大量額外的計算資源，我們應限制計算複雜度的這種增加。本文提出了一種非迭代的代碼同義方法，它採用機器學習技術來實現平均比特率的節省，同時保證目標質量。方法是以一種方式爲每個自適應比特率（ABR）表示中的每個ABR段選擇內容自適應比特率和分辨率，使它同樣適用於實時和按需工作流程。初步結果表明，所提出的方法可以通過更詳細的技術實現約85％的比特節省可能，而其計算複雜度僅爲雙通可變比特率（VBR）編碼的15％-20％。

本文內容來自於Sriram Sethuraman, Nithya V. S.和Venkata Narayanababu Laveti D.在SMPTE Motion Imaging Journal刊登的文章“Noniterative Content-Adaptive Distributed Encoding Through ML Techniques”

引言

由於能夠隨時在任何地方消費內容，通過因特網流媒體的多媒體內容消費開始成爲最優選的模式。基於HTTP的自適應比特率流，基於Apple的HTTP直播流（HLS）或基於MPEG的動態自適應HTTP流傳輸（DASH）等規範，爲客戶端應用程序提供了基於靜態方面選擇合適的ABR表示的能力，例如客戶端設備屬性，用戶偏好等；以及動態方面，例如端到端連接上的可用帶寬。傳統做法是使用Apple，Inc中保守的固定比特率/分辨率ABR表示階梯。在過去三年中，出現了多種內容自適應編碼或流媒體方法，可以節省平均比特率並保證更一致的視頻質量。實現的比特節省減少了內容傳送網絡邊緣設備中的存儲需求以及用於服務訂閱用戶的平均字節數，這兩者都提高了服務的操作效率。這些方法還可以帶來更好的體驗質量（QoE），並減少了流媒體服務使用者的月度數據消耗。這些方法中的大多數需要評估質量度量以確保能夠通過設置給定的峯值比特率來限制目標質量水平，最終實現比特節省。

分佈式編碼通過在雲端的多個計算實例中同時生成標題的HLS / DASH段的ABR表示集，可以縮短週轉時間，因此它在現今得到了廣泛的應用。它還提供根據所獲取的計算實例的異構屬性來調度和負載平衡編碼實例的功能。即使對於視頻直播，這種傳統模式中在單個計算實例上使用更快編碼設置的實時流式場景，分佈式編碼和ABR段的概念也爲一種具有更高壓縮效率的較慢編碼設置提供了可能。內容自適應編碼可能實現的平均比特節省是互補的，有時與通過更慢的編碼預設實現的比特節省相比更有意義。由於流行體育和現實事件的直播流有數百萬訂閱者消費接近實時時間線的內容，因此交付效率更具重要性。然而，大多數內容自適應方法本質上是迭代的，因此，這些方法可能導致實時傳送用例的延遲最終超出可接受的限制，實時解決方案成本的增加，或者如果給定的ABR段本身跨越多個計算實例，可能使內容準備工作流程過於複雜。內容自適應流式傳輸方法或是通過創建過剩的表示，或是失去保存額外比特，或是進一步提高質量，來增加邊緣存儲。此外，需要爲每個流和每次迭代評估有意義的質量度量以實現最大的比特節省可能，這進一步增加了計算複雜度需求。

在本文中，作者提出了基於機器學習（ML）的方法，該方法消除了對迭代的需求，這些迭代通常用於描述以不同比特率和分辨率組合針對每個內容段獲得的感知質量。一個簡單的內容分析過程只需要雙通道編碼時間的一小部分，以及一個基於機器學習的、用於使用速率與質量數據最近鄰來估計每個段的目標比特和分辨率的程序，就能實現接近迭代方法的性能。它也消除了對明確的質量度量評估的需求。因此，這種方法適用於現場和按需使用的情況。它還允許使用任何現有的編碼器（例如，已經預先集成到工作流中的編碼器）來執行最終編碼。

內容自適應比特率分辨率階梯

指定比特率和分辨率組合的固定ABR階梯是一種保守的方法，它量化了跨用戶基礎的可用帶寬範圍（在某一時段內測量），並且爲那些相對較難編碼的視頻片段集合識別出了在每個比特率上以最高質量出現的分辨率。自然地，當段非常簡單時，爲它配置的比特率不需要很高。當配置成使用標準雙通VBR編碼設置進行編碼時，這些段達到的質量顯著高於複雜段達到的質量。這導致在相同的表示內質量水平不必要的波動和比特的浪費。本文參考了一種基於整數規劃的方法，該方法試圖展示與當時流行的固定階梯相比，比特節省的範圍，同時確定使目標受衆的平均QoE最大化的編碼參數。×264開源編碼器首先提出了恆定速率因子(CRF)模式，該模式通過淡化需求，在儘量滿足編碼質量一致性時允許限制峯值比特率，來滿足高級別的平均比特率。當然，要配置正確的CRF值以達到某個質量目標，需要跨越多個分辨率以多個CRF值對內容進行迭代編碼。爲了能在編碼給定段時利用CRF，並識別實現比特目標的CRF值，本文參考了一種基於神經網絡的迴歸，其中在網絡中使用在恆定量化參數下從實際編碼生成的一組特徵。該方法在使用預估的CRF值編碼時能夠滿足目標比特率±20%的精度。然而，該方法使用了CRF值作爲質量指示符，並且不建議被用於估計不超過目標感知質量水平所需的比特分配的方法中。在另一篇文獻中，Netflix宣佈了一種適用於每個標題的優化方法，其中階梯適用於每個標題，從而在某些標題上節省了20%的比特。此方法後來被改進爲塊自適應調整，其中對應於標題級(title-level)比特率的CRF值用於識別塊級(chunk-level)比特，以便在VBR模式下爲最終編碼進行分配。這個過程將分配的比特限制到比每個標題的比特率更低的級別，因此，與基於標題的編碼方法相比，能夠轉換爲額外的比特節省。該過程涉及使用不同的CRF值對標題內的中度複雜的片段在每個分辨率下進行多個編碼，以獲得每個分辨率下的率-失真曲線。

雖然CRF根據時間複雜度（相對於恆定量化器選項）來調整量化級別，但通過使用主觀相關的客觀質量度量，可以通過充分利用給定內容中存在的空間和時間掩蔽來進一步增加比特節省。此外，當從每個標題轉到每個塊時應使用相同的邏輯，在塊級(chunk-level)，場景或幀級別確定特定的比特分配也在預期中將與塊級別相比增加比特節省。 Rehrer和Begen都以多個比特率對標題的每個片段執行一組恆定比特率或VBR編碼，並依賴於質量度量來爲給定內容選擇正確的比特率表示。有多個相關優化工作正在進行。一個工作在內容準備端的後處理步驟通過去除超過某個基於SSIMplus的特定質量等級的比特率表示（並指向滿足質量等級的較低比特率表示）來優化ABR階梯，從而實現平均比特率節省。一個工作在流測量的質量等級被流式客戶端用於選擇一致的質量段表示或者在可用帶寬改變時減少質量波動。還有一個工作在內容自適應編碼由在編碼處理內在幀級計算的主觀質量度量引導，並且調整幀消耗的比特以確保不超過目標最大質量，同時將複雜幀的質量向平均一致質量改進，直到峯值比特率限制它。選擇正確的依賴於內容的分辨率的過程要求對每個分辨率進行編碼，然後選擇在給定比特率下以相同質量或最高質量實現最低比特率的分辨率。

雖然上述方法的計算複雜度存在很大程度的變化，但是可以看出它們本質上都是迭代的。即使平均迭代計數很低，對於實時用例，峯值迭代計數也會增加解決方案的延遲。因此，仍然需要一種在複雜度上更具確定性，並且與傳統工作流（爲固定ABR階梯生成流）的複雜性相比足夠輕量的方法。因此，在本論文提出一種基於ML的方法，它消除了多重試用編碼的需要，也消除了對任何與主觀質量良好相關的複雜客觀質量度量的在線評估的需要。在“基於ML的非迭代方法”中詳細解釋了該方法。

基於ML的非迭代方法

假設流服務提供商具有跨目標受衆測量得到的比特率範圍，該比特率範圍表示隨時間獲得的可持續峯值比特率。基於離線分析，假定服務提供商已經到達該範圍內的一組量化峯值比特率。例如，這種量化可以通過從最高要求的峯值比特率開始，找到一系列比特率來執行，這些比特率在質量上根據一組相當高的複雜度內容，與前一個比特率恰好相差一個可觀測到的差值。這種量化的峯值比特率(Rmax i，i=1，N)的數目(N)決定所需的ABR表示的最大數量(對於一個目標顯示類型)。該部分還假定服務提供商具有目標顯示的分佈。對於每個目標顯示類型(D)，假定服務提供商定義了一個“不超過質量度量”(Qmax N)表示集合中的最高質量。該部分假設速率量化過程爲每個其它的表示(N-1個)導出相應的質量度量(Qmax i)提供了指導。

現在，每個ABR段的內容自適應階梯計算具有識別M對(B，R)的問題，其中B代表比特，R代表空間分辨率，並滿足(M≤N)，在這些條件下使得在(R i≤Rmax i)和(Qi)的約束下段質量達到最大化。對於i＝1，…，n，內容自適應梯形還可以擴展到考慮幀速率的自適應確定，以及跨越內容幀速率的一小組子集。

爲了減少在線計算，所提出的方法依賴於ML技術。有工作已經提出了一種在稍微不同的場景中的方法，將具有不同時空複雜度的大量視頻片段用作離線訓練集。有相關文獻提出了一種在2D可視化複雜度空間中的方法，其中x軸是空間複雜度的指示器，y軸是相對於空間複雜度的時間複雜度的指示器。在給定峯值比特率受到限制的情況下，所有達到Rmax N但仍未達到Qmax N的段必須在Rmax N處編碼。

在過濾出所有這樣的段之後，剩餘段的分佈如圖1所示。峯值比特率約束導致2D空間中的點分佈爲下三角分佈。對於每個訓練視頻段，獲得跨越多個分辨率的速率與質量數據。在每個訓練段上執行視頻分析遍歷，在此期間收集從複雜性角度表徵內容的多個度量。通過這些措施，通過訓練過程獲得與識別具有非常相似（R，Q）曲線的最近鄰相關的特徵。（R，Q）數據和訓練段的特徵將以適當的格式存儲。

通過執行以下有序步驟來確定給定(Rmax i，Qmax i)組合的給定ABR段的內容自適應(Bi，Ri)對。圖2說明了本方法的關鍵階段。首先，對該段進行相同的視頻分析以獲得複雜性度量。從這些措施中，訓練好的ML模型將生成一個特徵向量。利用這個特徵向量，通過評估當前片段的特徵和每個訓練片段的特徵之間的相似性度量，識別出來自訓練集的最多k個最近鄰。檢索這些相鄰的（R，Q）數據。對於每個鄰居，在每個分辨率中，查找QMAX I所需的比特。需要將在QMAX I中最低位數的分辨率作爲目標分辨率。當相鄰分辨率不匹配時，使用最近相鄰建議的分辨率。基於相似性度量，將目標分辨率下的所有比特估計適當地組合以導出最終比特估計。如果QMAX I以比最近的相鄰Rmaxi更高的比特率來達到，那麼將Rmaxi作爲最終比特估計返回。在這種情況下，選擇在RMAXI中達到最高質量的分辨率作爲目標分辨率。

除了獲得最佳（B，R）對之外，還可以使用最近相鄰項來調整默認編碼參數以使其更適合於內容。用於×264編碼器的這種編碼參數的一些示例是諸如psyrd強度、aq強度和解塊強度之類的參數。計算得到的分辨率和比特率被用於使用在與用於爲訓練段生成(R，Q)數據的編碼器相同的編碼器來對段進行編碼。這種編碼參數的微調過程不在本文的範圍之內。

段可以包含多達兩個部分場景和許多完整場景，這取決於片段持續時間。所提出的方法已擴展到工作現場的水平，以確保一致的質量。這提供了節省比特的額外範圍，也有助於提高片段中簡單場景旁邊的複雜場景的質量。通過提供對前段和後續段的訪問，可以保證實現一致質量的比特分配。

因此，在分佈式內容自適應編碼工作流程中，每個計算實例可以從內容源(例如，雲存儲單元)攝取一個或多個片段，使用所提出的方法確定內容自適應階梯，並以獨立於其他計算實例的方式生成M個不同的表示，同時確保在整個標題中實現一致的質量。這將允許在按需內容準備場景中減少週轉時間。在實時用例中，特別是對於較短的段，如果使用N個計算實例，則每個計算實例獲得N*段持續時間以處理一個段。這有助於使用更高的壓縮預配置用於現場使用。在這些情況下，權衡跨延遲、比特節省和工作流的複雜性之後我們將正確選擇的N。

實驗結果

本實驗採用視頻多媒體評估融合（VMAF）作爲主觀相關的客觀質量度量。目標顯示類型被假定爲1080p，並且在測量VMAF之前，所有較低分辨率被適當地縮放到1080p。選擇了一組覆蓋複雜空間的100個1080p測試段。採用開源×264編碼器對段進行編碼。具體而言，該編碼器在“非常慢”預設中的雙通道VBR編碼模式用於跨目標比特率範圍對每個段進行編碼，並且測量所得到的VMAF以獲得針對每個段和段內每個場景的多分辨率的詳盡R–Q數據。從固定階梯中選取用於實驗結果的參考表示作爲5.8Mbits/s的目標比特率，峯值比特率設置爲8.5Mbits/s，計算得到跨段的中值質量水平爲95的VMAF。該質量水平被選擇爲QMAX值。

使用這些詳盡的R- Q數據，我們可以計算在該目標質量水平上消耗的場景級(scene-level)比特。參考編碼器消耗的場景級(scene-level)比特與該場景的計算比特之間的差異被認爲是可以實現節省比特的機率。對於選定的片段，這個機率是47%。對於每個場景，使用所提出的基於ML的方法來獲得目標質量水平的分辨率和比特估計。所提出的方法實現的比特節省爲40%。圖3說明了使用參考編碼器的初始質量分佈以及使用所提出的方法可能的質量分佈。可以看出，比特節省的較高機會來自峯值質量大約爲97的VMAF。然而，這個參考編碼器具有質量低至VMAF爲78的場景。所提出的方法將最小質量轉移到VMAF爲82。這是可能的，因爲當片段內的其他場景更簡單時，能夠增加場景的分配。

爲了說明所提出的方法如何跨越各種時空複雜度點，在空間中選擇了四個代表性點。兩個目標VMAF質量水平分別爲90和95。表1總結了從詳盡的R–Q數據中獲得的最佳分辨率和比特，並將其與使用所提出的方法獲得的結果進行比較。可以看出，在空間複雜度高和時間複雜度低時選擇較高分辨率，在時間複雜度高時選擇較低分辨率這兩方面，分辨率的選擇是符合預期的。雖然比特節約僅僅是預估的，但該表也說明了其中可以改進的空間。

視頻分析模塊帶來的額外複雜度只有雙通道VBR編碼器複雜度的15%-20%。

總結

本文提出了一種基於ML的低複雜度方法，用於在ABR流傳輸場景中對分辨率和比特率組合進行內容自適應確定。與理想的實現比特節省的機會相比，所提出的方法在實現合理的比特節省水平方面表現出良好的前景。該方法還在分辨率選擇方面表現得相當好。因此，在計算複雜性起着重要作用的現場用例中，所建議的方法預期將發揮更重要的作用。未來的方向包括改進特徵選擇和ML方法，以便爲恢復更高的比特節省提供機會。

參考文獻

1.Apple, Inc., “Best Practices for Creating and Deploying HTTP Live Streaming Media for Apple Devices,” Technical Note TN2224, Feb. 8, 2016. [Online]. Available: https://developer.apple.com/library/content/technotes/tn2224/_index.html

2.L. Toni, R. Aparicio-Pardo, G. Simon, A. Blanc, and P. Frossard, “Optimal Set of Video Representations in Adaptive Streaming,” Proc. MMSys 2014, pp. 271–282, 2014. doi: http://dx.doi.org/10.1145/2557642.2557652

3.A. Aaron, Z. Li, M. Manohara, J. De Cock, and D. Ronca, “Per-Title Encode Optimization,” 2015. [Online]. Available: https://medium.com/netflix-techblog/per-title-encode-optimization-7e99442b62a2

4.J. De Cock, Z. Li, M. Manohara, and A. Aaron, “Complexity Based Consistent Quality Encoding in the Cloud,” Proc. ICIP 2016, pp. 1484–1487, 2016.

5.C. Chen, S. Inguva, A. Rankin, and A. Kokaram, “A Subjective Study for the Design of Multi-resolution ABR Video Streams with the VP9 Codec,” Proc. SPIE Electronic Imaging, Human Visual Perception, 2016.

6.M. Rehrer, “Using QoE scoring and ABR encoding,” presented at Bits by the Bay 2016, a SMPTE event. [Online]. Available: https://www.smpte.org/sites/default/files/section-files/BBTB%202016%20111%20Telestream%20-%20Using%20QoE%20and%20ABR.pdf

7.A. C. Begen, “More Juice, Less Bits: Mediamelon Content Aware Streaming,” presented at ACM MMSys, May 2016, Klagenfurt am Wörthersee, Austria.

8.D. Gill, “Content Adaptive Encoding Approaches for Improved Video Quality at Reduced Bitrates,” Proc. Broadcast Eng. Inform. Technol. Conf., NABShow, 2017.

9.“×264 open source code.” [Online]. Available: https://www.videolan.org/developers/x264.html

10.M. Covell, M. Arjovsky, Y.-C. Lin, and A. Kokaram, “Optimizing Transcoder Quality Targets Using a Neural Network with an Embedded Bitrate Model,” Visual Inform. Proc. Comm., 2016.

11.Y. Wang, M. van der Schaar, S.-F. Chang, and A. C. Loui, “Classification-Based Multidimensional Adaptation Prediction for Scalable Video Coding Using Subjective Quality Evaluation,” IEEE Trans. Circuits Syst. Video Technol., 15(10), Oct. 2005.

12.Z. Li, A. Aaron, I. Katsavounidis, A. Moorthy, and M. Manohara, “Toward a Practical Perceptual Video Quality Metric,” Netflix Techblog, June 2016. [Online]. Available: https://medium.com/netflix-techblog/toward-a-practical-perceptual-video-quality- metric-653f208b9652

基於機器學習技術的非迭代內容自適應分佈式編碼

工作中用到的腳本合集

24-5-18 X

基於機器學習技術的非迭代內容自適應分佈式編碼

SRT: 開源的視頻傳輸協議

新一代傳輸協議QUIC——HTTP/3新在哪兒？

TICO : UHD生產系統中的Mezzanine Codec

JPEG-XS：用於IP視頻的母片圖像（mezzanine image）編解碼器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結