AVS3實時語音標準制定取得重要進展

編者按：由騰訊提交的AI Codec爲基礎的技術順利通過評審，被選爲AVS3P10實時語音編碼標準的RM0基線和WD過點成功。從交叉測試來看，真正實現了低碼率下質量是對齊OPUS、EVS中高碼率的，達到運營級質量。我們在相近碼率下，MOS分差過Google和Meta方案在0.6MO-1.0MOS。

AVS對此高度評價，“AVS3P10 實時語音編碼，作爲新一代的語音編解碼技術標準，是對AVS系列標準的重要補充。該標準代表了騰訊在語音處理和人工智能技術創新和用戶體驗方面的最高追求，體現了業界最高水平，將爲用戶帶來前所未有的性能和體驗，引領行業進入一個全新的時代。”。對此，團隊表示，希望這個進展可以推動產業界在（音頻）AI Codec的技術演進和推廣。

詳細內容見下文：來源「新一代人工智能聯盟」，經允許轉發。

近日，AVS3P10實時語音編碼標準獲得重要進展。

2023年12月14日，第 87 次 AVS 工作組會議於成都開幕。會上，《智能媒體編碼第 10 部分實時語音》（以下簡稱AVS3P10） WD 1.0通過全體會議審議；騰訊提交的技術方案，被選擇爲AVS3P10實時語音編碼的RM0基線。

實時語音通信技術（RTC: Real-time Communication），已廣泛應用於協同辦公、互動娛樂、社交等領域。上述多樣豐富的應用場景給實時語音通信技術提出了多種技術挑戰，其中，高質量、低延時、低帶寬、高抗性的語音編碼是非常重要的一環。

傳統的語音編碼器，包括AVS、ITU-T等標準語音編碼器，在16-20kbps左右碼率時，能夠恢復出高質量寬帶語音；在30-35kbps，可以恢復出高質量超寬帶甚至全帶語音。然而，當碼率進一步降低（如：降到10kbps以下時），傳統語音編碼器恢復的質量下降明顯，影響用戶體驗。

基於上述應用訴求，在今年3月第84次AVS會議上，由騰訊提議在AVS音頻組啓動面向實時語音通信場景的低碼率高質量語音統項目。經過需求分析，在第85次AVS會議上，AVS正式立項AV3P10實時語音編碼項目，並通過AVS音頻組發出技術徵集書。AVS3P10實時語音編碼項目將由來自騰訊會議天籟實驗室的肖瑋負責推進和維護。

在第 86 次 AVS 會議上，音頻組審議了由騰訊會議天籟實驗室提交的M7886《AVS3P10語音編碼參考模型候選技術方案》提案。

審議指出該方案具有以下4點特徵：深度融合了經典信號處理和深度神經網絡技術等人工智能技術，屬於AI Codec；支持低碼率、高質量編碼、實時編碼和解碼和多速率編碼；基於子帶編碼和多模式編碼架構，低頻信號採用深度神經網絡提取特徵，高頻信號採用頻帶擴展方案提取特徵，結合標量量化和熵編碼完成特徵壓縮；具有開放的編碼神經網絡架構技術特徵，在保證碼流前向兼容基礎上，可以重新修改和優化編碼神經網絡。

*點擊圖片查看大圖

今年11 月 1 日，騰訊會議天籟實驗室提交AVS3P10 RM0候選方案的可執行文件，由中國電子技術標準化研究院和華爲分別進行了主觀測試和交叉驗證。交叉驗證力求全面，基於 ITU-T P.800 DCR主觀質量評價體系，主觀測試覆蓋不同帶寬下純淨語音、丟包語音、混合語音等多場景，並首次將3A處理後的測試場景引入信源編碼器測試中，以檢驗新一代AI Codec技術在貼近真實場景的表現。

在上述測試場景下，AVS3P10 RM0質量優勢明顯。主觀測試結果表明，AVS3P10 RM0在寬帶和超寬帶等多個主要測試場景均達到了4.0以上MOS分，體現出明顯優勢，最低碼率可達5.9kbps。AVS3P10 RM0採納了深度神經網絡技術，自帶的丟包損傷能力，有效提升了編碼器在網絡不佳時的質量。

*點擊圖片查看大圖

此外，在ITU-T P.863客觀質量評價實驗中，AVS3P10 RM0也體現出了顯著優勢。第一，在所有8個測試碼率中，AVS3P10 RM0均超過4.0MOS，最高在4.45MOS。AVS3P10 RM0的質量，可以對齊OPUS和EVS等傳統信號處理編碼器在中高碼率的表現，達到運營級質量。在AI Codec領域，AVS3P10 RM0在相近碼率下，質量優勢在0.6MOS以上。上述測試結論均反映出，AVS3P10 RM0代表了目前AI Codec的最高水平。

AVS3P10 實時語音編碼，作爲新一代的語音編解碼技術標準，是對AVS系列標準的重要補充。該標準代表了騰訊在語音處理和人工智能技術創新和用戶體驗方面的最高追求，體現了業界最高水平，將爲用戶帶來前所未有的性能和體驗，引領行業進入一個全新的時代。

未來，AVS3P10實時語音編碼項目，將按照既定計劃推進。預計，在2024年年中，完成標準化工作。

AITISA聯盟簡介

新一代人工智能產業技術創新戰略聯盟（AITISA）由兩百餘家來自人工智能行業內的頂尖企業、高校和科研院所、資本機構、服務機構、創新創業企業組成。聯盟立足於人工智能技術資源及產業環境，聯合人工智能領域的產、學、研、用、資、服等單位，以建立人工智能技術創新生態體系爲基本願景。聯盟通過“一體兩翼”的工作部署，聚集工業界、科研界的中堅力量及相關機構，利用產業基金的引導，服務企業與開發者，推進人工智能產業的發展。

“一體兩翼”中的 “一體”是指新一代人工智能開源開放平臺（OpenI啓智社區），“兩翼”的“左翼”是以技術專家爲主體組成的多個工作組，包括標準工作組、知識產權工作組、投融資工作組等。“右翼”是爲以企業爲主體的應用推進組，目的是促進人工智能在各產業領域的應用，已經在智能物流、智能醫療、智能政務、智能教育等方向開展工作。

自成立以來，聯盟主辦了全球人工智能產品應用博覽會（AIExpo）、系列AITech國際智能科技峯會、上交會人工智能展區、天津世界智能大會分論壇、啓智開發者大會等有重大影響力的會展活動，承辦全國人工智能大賽，發佈並啓動了新一代人工智能開源開放平臺（OpenI啓智社區）、“新一代人工智能燎原計劃”等。

本文分享自微信公衆號 - LiveVideoStack（livevideostack）。
如有侵權，請聯繫 [email protected] 刪除。
本文參與“OSC源創計劃”，歡迎正在閱讀的你也加入，一起分享。

AVS3實時語音標準制定取得重要進展

LiveVideoStack暫停商業化運營

美圖AI動漫功能的落地探索

AVS3實時語音標準制定取得重要進展

超燃！全球邊緣計算大會，騰訊、阿里、百度等攜手打造前所未有的AI知識盛宴！

AI新範式下，阿里雲視頻雲大模型算法實踐

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結