騰訊AI Lab 2020年度回顧:科技向善,邁向通用人工智能

來源:騰訊AI Lab

剛剛過去的 2020 年算不上是平靜的一年。貫穿全年的新冠肺炎疫情仍未平息,各類偶發事件也層出不窮。即便如此,秉承「科技向善」信念和「Make AI Everywhere」願景的騰訊 AI Lab 仍在這一年中做出了許多有價值的成果,其中包括將 AI 技術應用於疫情防控及病理篩查等其它醫療應用。同時,在以往研究的基礎上,騰訊 AI Lab 在虛實集成世界與虛擬人、機器人、智慧藥物研發、智慧農業、數據安全等領域都取得了進一步的重要進展。除了通過研究論文與開源項目與社區共享研究成果,騰訊 AI Lab 也在積極與高校、企業和研究機構合作,共同探索 AI 技術的潛在可能性。

下面首先將介紹 2020 年騰訊 AI Lab 在虛擬集成世界與機器人兩大研究方向上的重要探索,然後會分 AI+醫療、AI+醫藥、AI+遊戲、AI+農業、AI+內容幾大主題總結這一年的行業應用成果,最後會概述這一年騰訊 AI Lab 在不同研究方向上的前沿進展。

一、雙軌並行邁向通用人工智能:虛實集成世界與機器人

通用人工智能(AGI)是騰訊 AI Lab 成立伊始便已確立的核心長遠目標,即創造能感知和理解真實世界並能有效執行各種不同任務的 AI 系統。爲了實現這一目標,我們既需要軟件上的突破,也需要硬件的迭代創新,還更需要目前行業普遍缺乏的軟硬件的有效整合與集成。

2020 年,騰訊 AI Lab 和 Robotics X 實驗室主任張正友博士提出了一個全新的概念:虛實集成世界(Integrated Physical-Digital WorldIPhD。它將當前在 AI、虛擬現實(VR)、增強現實(AR)、混合現實(MR)領域的前景展望乃至互聯網和物聯網的思想融合到了一起。在此基礎上,一個通過互相交織和共同進化的軟件與硬件、虛擬與現實、人與人工智能和機器人實現通用人工智能的願景呈現在了世人眼前。目前騰訊 AI Lab 的所有研究都可以納入到虛實集成世界的整體框架之下,有關該概念的更詳細說明可參看張博士的演講《Hello,虛實集成世界》

在虛實集成世界框架下,現實虛擬化、虛擬真實化、全息互聯網、智能執行體四大發展方向將成爲騰訊 AI Lab 和 Robotics X 實驗室未來發展的重要指導。

下面將呈現騰訊 AI Lab 和 Robotics X 實驗室在 2020 年取得的兩項重大突破:虛擬人和機器人。我們也可將它們描述爲虛擬集成世界框架下的軟件和硬件智能執行體,同時也涵蓋其它三大方向的一些核心技術,比如將人臉建模成數字版本就是一項現實虛擬化成果。

虛擬人:或是人類的虛擬化身,或是數字世界原住民

虛擬人是一類多模態技術,涉及計算機視覺、語音識別和生成、自然語言理解和生成等多種技術。根據來源的不同,虛擬人可大致分爲兩類:人類的數字化模型和虛擬世界原生虛擬人。

在建造人類的數字化模型方面,其實騰訊早在 2018 年就公佈了一個基於演員姜冰潔建模得到的虛擬人 Siren。Siren 的動作和表情的擬真度都非常高,但由於採用了業內頂尖的動作捕捉和實時渲染技術,Siren 也具有相對較高的製作成本。

2020 年 10 月,騰訊 AI Lab 提出了一種基於 RGB-D 自拍視頻創建高擬真度 3D 虛擬人的方法[1]。這項技術的核心是 3D 人臉 Mesh 估計、高清紋理貼圖及法線細節貼圖的合成算法,實現了成本極低但速度很快的 3D 人臉合成——僅需手機拍攝的視頻作爲輸入和 30 秒處理時間即可!

基於人類建模的虛擬人具有豐富的應用場景,首當其衝的是作爲人類在虛擬世界中的化身(avatar),讓用戶能以自然的形象參與虛擬世界的各種互動。另外,這項技術還能用於數字祭奠,紀念已逝之人;還能讓人類演員在動畫或遊戲中扮演角色(比如基努·李維斯在《賽博朋克2077》中扮演的 Johnny Sliverhand)等應用。

而在創造虛擬世界原生虛擬人方面,騰訊 AI Lab 開發的多模態虛擬人 AI 艾靈」已於 2020 年 5 月與公衆見面並於兒童節與青年演員歌手王俊凱和雄安孩子共同演繹了新歌《點亮》。現在,你也能在嗶哩嗶哩直播間觀看艾靈 24 小時不間斷賣力表演。

AI 艾靈是騰訊 AI Lab 多年來在視覺、語音、自然語言、人機交互等多模態方面的研究結晶。比如其採用的 DurIAN 語音合成框架[2]融合了騰訊 AI Lab 在語音領域多年深耕的經驗,其不僅能實現精準且穩健的語音合成,而且還能生成與合成語音同步的高質量人臉表情。

DurIAN 工作過程示意圖

虛擬世界原生虛擬人在虛擬偶像、虛擬助理、在線教育、數字內容生成等領域有着廣泛的應用前景。比如 AI 艾靈就是一個虛擬主播兼虛擬歌手,而且她還是一個創作型歌手,其採用的 SongNet 歌詞創作模型可以根據任意格式和模板來生成相契合的文本,結合上面的 DurIAN 模型,艾靈就能以自然動聽的聲音唱出自己寫的歌。有關 DurIAN 和 SongNet 的更多描述請參閱《唱作俱佳 騰訊AI艾靈領唱中國新兒歌》

虛擬人是虛實集成世界的重要組成部分。爲了實現虛實集成世界的長遠目標,我們還需要打造高速實時的物聯網基礎設施,構建高精度的真實世界模型和更有趣有用的虛擬世界,創造更安全高效的自動化機器。面向這一目標,騰訊正在砥礪前行。

移動機器人新突破:夯實 AI+機器人雙基礎

自 2018 年在深圳建立以來,騰訊 Robotics X 機器人實驗室一直在與騰訊 AI Lab 合作推進「AI+機器人」的發展。2020 年 11 月,兩項在移動機器人領域的新進展問世:一是讓四足機器人 Jamoca 學會了走梅花樁,二是提出了一種能讓輪式機器人自主平衡的新方法。

爲了讓 Jamoca 具備走梅花樁的能力,騰訊 Robotics X 實驗室基於自研的機器人控制技術爲 Jamoca 打造了一個能應對複雜環境的智能大腦。這個大腦讓 Jamoca 能行走、小跑和跳躍,並賦予了它自主定位和避障的能力。這是騰訊 Robotics X 實驗室在機器人感知以及運動規劃與控制這些核心技術方向的一次能力展示,也顯現了騰訊 Robotics X 實驗室在整機系統設計與搭建方面的重要能力。

騰訊Robotics X四足移動機器人Jamoca梅花樁場景演示

而在自平衡研究上,騰訊 Robotics X 研究了能自行保持平衡的兩輪式移動機器人,這是騰訊 Robotics X 實驗室的首個整機自研機器人。它在傳統輪式移動機器人的基礎上,增加了動量輪及其電機驅動系統,使得機器人可以在靜止及行進狀態下均保持平衡不倒。基於該移動機器人平臺的兩篇研究論文被機器人行業國際頂會 IROS 2020 接受爲 Oral 展示論文。該項目可以視作騰訊在機器人的機械設計和整機系統設計與搭建方向能力上的一大里程碑。

騰訊Robotics X自平衡輪式移動機器人

移動機器人是虛實集成世界框架中「智能執行體」的核心組成部分之一,也是實現通用人工智能終極目標的重要途徑。接下來,除了繼續讓移動機器人能以更高的精度理解周圍環境並能及時採取合理動作,騰訊 Robotics X 實驗室和騰訊 AI Lab 還會繼續研究如何將多模態 AI 能力與機器人相整合,從而創造出能密切參與人類生產生活,甚至可作爲人類的同事和朋友的智能機器人。

二、行業應用,科技向善

「科技向善」是騰訊整個公司層面的核心使命願景。作爲騰訊大家庭的一員,騰訊 AI Lab 也同樣秉承着這一使命。同時,作爲 AI 科技的前沿探索者,騰訊 AI Lab 深知 AI 變革世界的潛力。因此,騰訊 AI Lab 在積極探索最前沿的 AI 技術的同時,也致力於將這樣的潛力轉化爲切實可行的應用,以更好地服務用戶和造福社會。

總體而言,這些探索可歸納爲 AI+醫療、AI+醫藥、AI+遊戲、AI+農業、AI+內容幾大方向;其中包括使用 AI 助力抗擊新冠疫情的實際應用、更經濟高效的藥物發現平臺、智慧農業的進一步發展、機器翻譯服務的再度升級以及基於複雜遊戲場景攻堅真實世界難題的前沿探索成果。

AI+醫療:用AI抗擊疫情和輔助病理醫生

「AI+醫療」是騰訊 AI Lab 的核心研究方向之一,這也是一個有望造福全人類的研究課題。尤其是在新冠疫情肆虐全球一整年的背景下,AI 技術在醫療領域更是具有無可比擬的應用前景。

2020 年 7 月,鍾南山院士團隊與騰訊 AI Lab 聯合發佈了一項利用AI預測COVID-19患者病情發展至危重概率的研究成果,可分別預測5天、10天和30天內病情危重的概率,有助於合理地爲病人進行早期分診。該研究發表於國際頂級期刊 Nature 子刊 Nature Communications。同時,騰訊 AI Lab 也在第一時間開源了相關源代碼並構建了一個免費的在線查詢服務平臺,爲抗擊新冠疫情貢獻了自己的力量。

重症 COVID-19 患者早期分期的深度學習生存模型計算工具

  

而在之前的 4 月份,騰訊 AI Lab 聯合研發的智能顯微鏡獲得 NMPA 註冊證,成爲國內首個獲准進入臨牀應用的智能顯微鏡產品。該智能顯微鏡產品集成了目前病理分析與診斷方面的最新技術,並針對病理醫生工作流程和習慣進行多次產品迭代。測試表明,這款智能顯微鏡能有效提升病理醫生的工作效率、病理分析的精確度和一致性,有望緩解醫院(尤其是基層醫院)病理醫生數量短缺且經驗不足的問題,也是精準醫療從前沿研究走向落地探索的一個良好例證。

之後的 11 月 25 日,在中華醫學會病理分會細胞學組專家們的見證下,安必平、騰訊 AI  Lab 以及騰訊覓影正式啓動「科技部醫療影像國家人工智能開放創新平臺——宮頸液基細胞學AI數據庫建設」項目,共同助力宮頸液基細胞學數據庫建設與標準規範的制定,同時還將共同推進病理科數字化、病理大數據、人工智能應用等多個方向的探索。

AI+藥物:首個AI驅動的藥物發現平臺問世

2020 年 7 月,騰訊 AI Lab 重磅發佈了首個 AI 驅動的藥物發現平臺「雲深智藥」。雲深智藥整合了騰訊 AI Lab和騰訊雲在前沿算法、優化數據庫以及計算資源上的優勢,提供覆蓋臨牀前新藥發現流程的五大模塊,包括蛋白質結構預測、虛擬篩選、分子設計/優化、 ADMET 屬性預測及合成路線規劃。

雲深智藥平臺地址:drug.ai.tencent.com

在蛋白質結構預測方面,雲深智藥採用了騰訊 AI Lab 自研的冠軍級蛋白質結構預測技術,其中涵蓋兩項關鍵技術突破:一種基於自監督學習的蛋白質摺疊方法和一種基於深度學習的可迭代方法。該技術在全球唯一的蛋白質結構預測自動評估平臺 CAMEO 半年內五次奪得月度冠軍,領先衆多國際知名研究團隊。11 月,騰訊 AI Lab 在國際頂級期刊 Nature 子刊《Nature Communications》發表了一項研究,介紹了採用「從頭摺疊」的蛋白質結構預測方法幫助解析 SRD5A2 晶體結構的成果,揭示了治療脫髮和前列腺增生的藥物分子「非那雄胺」對於該酶的抑制機制。

在虛擬篩選方面,「雲深智藥」平臺的虛擬篩選模塊首次將元學習和深度神經網絡算法用於LBDD(基於配體的藥物設計)任務,通過AI「遷移」從其他靶點上面學習到的知識(如分子局部結構對靶點結合強度的影響),應用在目標靶點上來提高模型預測精度。目前該算法在數千個實驗數據集上預測精度(預測活性與實驗測量活性的相關性)的中位數從目前最高記錄0.36提升到0.42,且篩選可用模型的百分比從56%提升到60%,突破業界標準。

在分子生成方面,雲深智藥的分子生成算法通過人工智能來學習現有數據庫中小分子的各種結構信息和靶點的關係,進而能夠學習到一個分子空間。現有模型目前支持對 319 個Kinase和 52 個 GPC R靶點進行分子生成。在分子生成這一過程中,雲深智藥的算法能夠針對不同靶點在分子空間中的映射進行鍼對性採樣,從而生成新的可能對靶點有活性的分子。

而在 ADMET 屬性預測方面,雲深平臺也有出色表現,其藥物小分子 ADMET 屬性預測模塊已在多個數據集上優於學術界現有最好模型 3%~11%;在合作伙伴的反饋中,平臺的自研算法精度超過現有商業軟件 6%~37% 不等。不僅如此,雲深智藥還採用了注意力等機制來可視化分子中的子結構對結果的影響,提供模型的可解釋性。此外,平臺還可提供本地版本等靈活的部署形式,保障用戶的數據安全。

騰訊 AI Lab 還在繼續推進基於 AI 的藥物發現技術併爲雲深智藥平臺提供更多且範圍更廣的功能。除此之外,騰訊 AI Lab 還開源了一個大規模自監督分子圖預訓練模型GROVER。GROVER 是業界首個開源的基於深度圖神經網絡的圖數據的大規模預訓練模型,研究人員可以快速將其作爲基礎組件應用到需要對小分子進行編碼的藥物研發相關研究中,助力藥物研發相關應用,例如分子屬性預測、虛擬篩選等任務。

GROVER模型:https://drug.ai.tencent.com/cn/news/5

論文:https://arxiv.org/abs/2007.02835

AI+農業:iGrow 再獲豐收,農業仿真落地現實世界

農業是事關人類生存的基礎性行業。2020 年是騰訊 AI Lab 的「AI+農業」方向的又一個「豐收年」。

6 月份,騰訊 AI Lab 與世界著名農業學府荷蘭瓦赫寧根大學(WUR)聯辦的「第二屆國際智慧溫室種植挑戰賽」落幕。複賽的五支隊伍挑戰用 AI 和 IoT 物聯網等前沿技術優化種植決策,並遠程自動控制溫室種植小番茄。複賽隊的五個 AI 收成均超過有20年經驗的農業種植專家組,其中冠軍組 Automatoes 得到滿分,實現畝產資源消耗減少16%,淨利增加121%,充分展現了農業智能決策與溫室自動控制的技術價值,和爲農民減負的未來潛力。

此外,騰訊 AI Lab 還攜手騰訊TEG架構平臺部藉助在第一屆比賽中自研的 AI 算法和技術經驗打造的雲原生「騰訊AIoT智慧種植方案 iGrow在 2020 年已落地中國農業大省遼寧。第一期番茄試點迎來「小豐收」,每畝每季淨利潤增加數千元,iGrow 的商業價值得到了初步驗證。

iGrow方案在遼寧溫室試點

11 月 27 日,騰訊雲(莘縣)農業數字經濟產業基地開園,這是騰訊集團在全國佈局的首個農業數字經濟產業基地。在新的一年裏,騰訊 AI Lab 研發的 iGrow 解決方案將在該基地得到進一步的研究和應用。

繼化肥、農藥和大規模機械化種植之後,AI 和物聯網有望讓農業更進一步擺脫靠天喫飯的傳統模式。通過分析和預測天氣條件、溫溼度、二氧化碳濃度變化動態調整種植策略,可讓產量得到最優的提升。未來如果再配合自動化溫室和垂直農場等新型農業技術,農業的生產效率可望實現質的飛躍,甚至可推廣到原本不適宜農業生產的地區,助力消除人類社會仍未解決的飢餓問題。

AI+遊戲:遊戲仿真世界,「絕悟」AI 策略協作能力再升級

「AI+遊戲」也是騰訊 AI Lab 深耕的研究領域。基於圍棋、《王者榮耀》、《毀滅戰士》、《星際爭霸》等遊戲平臺,騰訊 AI Lab 已經研發許多有價值的前沿技術,並創造了中國國家隊圍棋訓練專用 AI 等真實應用。此外,基於遊戲環境開發的深度強化學習方法也在機器人等領域也有着非常重要的應用前景。

4 月份,騰訊 AI Lab 開發的圍棋 AI「絕藝」與中國國家圍棋隊續約三年。作爲「教練」,絕藝能從對弈、覆盤、拆解、分析等多個維度,爲中國圍棋事業的發展提供助力,與人類頂尖棋手一起探索圍棋的更多可能。

立足於國民手遊《王者榮耀》,騰訊 AI Lab 開發出了策略協作型 AI 「絕悟」。2020 年,通過開放挑戰和職業競技,騰訊 AI Lab 在複雜環境決策、多智能體合作與博弈以及策略預測與規劃方面的成果得到了展現:

●  2020 年 5 月 1-4 日,「絕悟」首次向玩家大規模開放。在此期間,從職業玩家到遊戲主播再到普通業餘玩家,大量不同遊戲水平的遊戲玩家向絕悟發起了挑戰,見識了絕悟在戰術規劃、玩家行爲預測、多英雄配合等方面的能力。

●   8 月 18 日,騰訊牽頭構建的 AI 多智能體與複雜決策開放研究平臺「開悟」正式對高校開放,同時開啓了首屆「開悟AI+遊戲高校大賽」。依託於騰訊 AI Lab 和「王者榮耀」在算法、數據(脫敏)、算力方面的核心優勢,向學術研究人員和算法開發者開放的開悟致力於發展成爲國內領先、國際一流的研究與應用探索平臺。

●   11 月 28 日,「絕悟完全體」進入王者峽谷並在 28-30 日間開啓了三天公衆體驗。不同於 5 月份開放的版本,完全體版本的絕悟解禁了全部英雄池,掌握了所有英雄的所有技能,同時其它多項策略也得到優化,相關已被 AI 頂級會議 NeurIPS 2020 與頂級期刊 TNNLS 收錄。

「開悟」官網鏈接:aiarena.tencent.com

爲了讓絕悟 AI 掌握全部英雄,騰訊 AI Lab 提出的一種新方法:課程自對弈學習(CSPL)。這是一種讓 AI 從易到難的漸進式學習方法:先引入「老師分身」模型,每個 AI 老師通過深度強化學習技術在單個陣容上訓練至精通;再引入一個 AI 學生模仿學習所有的 AI 老師;最終讓絕悟掌握了所有英雄的所有技能,成爲一代宗師。

CSPL流程圖
設計思想:任務由易到難,模型從簡單到複雜,知識逐層深入

《王者榮耀》等 MOBA 類遊戲具有非常的複雜度,同時還涉及到非常多樣化的合作與對抗博弈方式,因此非常適合作爲策略型 AI 的開發平臺,用於研發適用於不同場景的通用型 AI 技術。這類技術在許多真實世界場景中也有重要的應用價值,比如可以協調在路況複雜的城市道路上行駛的自動駕駛汽車以及爲快遞員或快遞無人機規劃配送區域和路線。

除此之外,2020 年 12 月,騰訊 AI Lab 絕悟團隊藉助「開悟」平臺開發的足球 AI 「絕悟-WeKick 版本」在 Google Research 與英超曼城俱樂部聯合舉辦的足球 AI Kaggle 競賽上獲得冠軍。該競賽使用 Google Brain 基於開源足球遊戲 Gameplay Football 開發的強化學習環境 Google Research Football。這場 Kaggle 競賽也是首場相關競賽。不同於《王者榮耀》,足球 AI 比賽涉及到 11 個智能體的相互配合以及與另外 11 個智能體的對抗,同時獎勵相比於 MOBA 遊戲還更稀疏。

https://www.kaggleusercontent.com/episodes/7012487.webm

即便如此,WeKick 依然以顯著優於第二名的成績獲得了冠軍。這體現了完全體「絕悟」底層技術和框架的通用性。

雖然都是 RTS (即時戰略)遊戲,星際爭霸中需要控制多種不同類型不同數量的單位,這些單位又有各自的運動和攻擊特點,因而動作空間更大、策略空間更豐富。騰訊 Robotics X 開源了首個通用的大規模多智能體博弈訓練框架TLeague[3],並據此訓練出能擊敗大師級選手的星際爭霸強AI TStarBot-X。這個星際AI只使用了AlphaStar的50分之一的算力。

AI+內容:TranSmart再升級,用AI賦能人工翻譯

騰訊交互翻譯TranSmart是目前業界唯一可實現人機交互的互聯網機器翻譯產品。經過三年積累,功能已覆蓋人工翻譯全流程,如按鍵、詞、短語、句子、翻譯記憶等。2020年,TranSmart開啓商業化探索之旅,獲得業界夥伴積極認可:

●  閱文集團:國內排名第一的正版數字閱讀平臺,將通過網文定製翻譯引擎賦能海外編輯人員,翻譯上千部出海的小說作品。

●  華泰證券:國內前五的券商,其證券分析師通過翻譯記憶融合與交互翻譯,高效發佈中英雙語研報;

●  騰訊雲官網:在國際版官網和技術文檔翻譯過程中,定製翻譯引擎準確處理Markdown、XML等標記文本,高效複用術語、雙語句對等語言資產,助力騰訊雲數百款產品出海遠航。

TranSmart繼承和發展了交互翻譯的技術概念,在保證人作爲翻譯主體的同時,量身定製的個性化機器翻譯全方位賦能人工翻譯過程:

●  自動翻譯質量:在目標場景中,通過語料增強和模型優化,自動翻譯質量穩居行業前列;

●  實時譯文建議:譯文片段智能推薦和整句補全,顯著減少用戶反覆修改錯誤譯文的困擾,大幅改善人工翻譯體驗;

●  翻譯記憶融合:動態結合用戶已完成的雙語句對,生成更符合期望的自動譯文,性能顯著優於傳統靜態和增量式訓練的機器翻譯;

●  翻譯輸入法:參照原文上下文和機器翻譯知識,實現精準組詞,加快人工翻譯過程中的輸入效率。

三、前沿研究進展

作爲國內領先、世界一流的企業級人工智能實驗室,騰訊 AI Lab 一直秉承開放合作的理念與全球高校和研究機構共同探索 AI 技術前沿。

2020 年騰訊AI Lab的高校合作項目「犀牛鳥專項研究計劃」完成第三年度閉環,共發表高水平論文 50 多篇,項目的多項成果已應用於智能語音交互產品、直播自動解說系統和視覺識別系統等。新的一年,「犀牛鳥」還將繼續飛翔,繼續發現前沿研究中的挑戰性問題並開展原創性研究,同時探索新技術的行業應用案例,打造持續共贏的產學研合作生態和科研成果轉化平臺。

此外,騰訊 AI Lab 還啓動了「開悟」AI多智能體與複雜決策開放研究平臺產學研生態建設,發起首屆王者榮耀開悟 AI 學術交流賽,邀請清華大學、北京大學、中科院等 18 所高校師生開展百人專項培訓和競賽,爲今後開悟平臺向高校的更大規模開放打下良好基礎。

在學術成果上,2020 年騰訊 AI Lab 和 Robotics X 實驗室在計算機視覺、語音、自然語言處理、多模態、知識圖譜、機器學習、機器人等更衆多 AI 領域都做出了業界領先的貢獻,並通過學術會議、期刊和公開平臺分享了這些勞動成果。在 ACL、INTERSPEECH、IROS、NeurIPS、AAAI 等主要頂級學術會議上,騰訊 AI Lab 和 Robotics X 實驗室都做出了較爲顯著的貢獻,整體發表的論文數量位居國內企業實驗室前列。

據上海交通大學 Acemap 學術地圖統計,騰訊 2020 年在 AI 領域的論文(其中相當大一部分來自騰訊 AI Lab)發表數位列全球大學與機構第 8 位,H-index 全球並列第 5 位。在中國的大學和機構排名中,騰訊的 AI 論文數量排名第 4, H-index 並列第 2,大幅領先國內其它企業。  

騰訊 2020 年在 AI 領域的論文發表情況,其中論文發表數全球第 8 位,H-index 全球並列第 5 位,來自 https://www.acemap.info/ranking

下面將分主題簡單梳理騰訊 AI Lab 在 2020 年發佈的一些重要研究成果。

1)多模態研究

多模態研究的目標是讓 AI 或機器人能通過整合多種不同來源的信號來理解環境和做出判斷,比如視覺、雷達、GPS、語音、語言和互聯網數據等。也因此,多模態研究對通用人工智能和虛實集成世界兩大長期願景而言具有極其重要的價值。雖然多模態研究非常重要,但 AI 領域目前還沒有專門面向多模態研究的頂級會議或頂級期刊,也因此騰訊 AI Lab 的多模態研究成果分散地發表在不同的學術會議和期刊上。

2020 年騰訊 AI Lab 在多模態方向上的研究主要集中於音頻/視頻/圖像與文本的多模態學習。除了前文已經介紹過的虛擬人成果,騰訊 AI Lab 還提出了一種針對視頻中時序句子定位和事件描述學習模態間交互的新方法[4],該方法能學習成對的模態交互,從而改善兩項任務的性能。

另外,騰訊 AI Lab 還研究瞭如何基於場景圖分解來生成自然語言描述[5],通過遞歸子查詢構造改善視覺和自然語言匹配[6]以及一種新的視覺-文本匹配模型[7]。

用於描述並定位視頻事件的視頻-文本多模態學習框架

除了視頻-文本多模態,騰訊 AI Lab 也在視頻-音頻多模態上取得了一些研究成果。比如在一項 INTERSPEECH 2020 研究中,騰訊 AI Lab 提出了一種利用跨域視覺生成特徵輔助障礙語音識別的方法[8]。該方法可利用大量域外的音頻-視覺數據進行訓練,從而爲那些只有有限或者沒有視覺數據的說話人生成視覺特徵。這項幫助有發音障礙的說話人,提出的語音識別技術,有望實現一些重要的「科技向善」應用。

多模態語音分離框架

 

另外,在多模態人機交互上, 騰訊 AI Lab 還提出了多模態說話人diarization [9];多模態語音分離[10]; 以及多模態語音識別方案[11]。這是融合音頻、視頻、 聲紋、空間信息等多個模態,針對「雞尾酒會」一類複雜場景的人機交互整體解決方案。

多模態語音分離和識別的聯合訓練框架

騰訊 AI Lab 還提出了一種新的深度多模融合框架:信道交換網絡(CEN) [12]。該框架通過在訓練中自我引導地、動態地交換特定通道的特徵,從而可在保持足夠的模態內自身特徵學習的同時,促進模態間的特徵交互。

2)機器學習

機器學習是 AI 的核心過程和標誌性能力,近些年的 AI 發展熱潮正是源自深度學習這種機器學習技術的突破。近段時間,機器學習領域的研究重心除了繼續優化深度學習方法和拓展其應用範圍外,也在積極探索其與其它學習範式的組合,並由此誕生了深度強化學習和生成對抗網絡的成功技術,此外,擅長梳理網絡關係的深度圖學習也已成爲領域的一大熱門研究方向。

2020 年,騰訊 AI Lab 在多個機器學習方向上都得到了重要的研究成果,也爲機器學習模型的可解釋性、魯棒性等理論分析做出了貢獻。這些研究成果可見於 NeurIPS 2020 等 AI 領域頂級會議和 Nature Communications 等頂級期刊。

在這其中,深度強化學習是騰訊 AI Lab 的一大核心研究方向。立足於圍棋和《王者榮耀》等視頻遊戲等場景,騰訊 AI Lab 在深度強化學習方面的探索已達世界前列水平。基於此技術開發的圍棋 AI 「絕藝」已在中國國家圍棋隊訓練中得到了實際應用,《王者榮耀》AI 「絕悟」也已進化爲「完全體」並通過首次大規模 MOBA AI 智能體性能測試接受了廣大玩家的檢驗。完全體絕悟的成功基於騰訊 AI Lab 對新提出的方法與成熟方法的有效組合,其中包括課程自博弈學習、多頭價值估計、策略注入、蒙特卡洛樹搜索和離策略等。

騰訊 AI Lab 在深度圖學習方面也成績斐然,其中包括前文已提到的完全基於自監督訓練的圖神經網絡框架 GROVER。通過在原子、化學鍵、分子級別的自監督任務設計,GROVER可以從海量的無標籤分子中學習到大量結構/語義信息。與此同時,爲了可以編碼分子中海量的複雜信息,GROVER 還整合了消息傳播網絡和Transformer,得到一個有更強表達能力的圖神經網絡模型 GTransformer。這對藥物研發方面具有廣闊的應用潛力。騰訊 AI Lab 還提出了一種基於狄利克雷分佈的圖變分自編碼器框架[13]並證明了該框架與經典平衡圖分割方法的等價性。另外騰訊 AI Lab 還通過分子逆合成分析探索了深度圖學習在化學領域的應用[14]。此外,在 2020 年的 ACM SIGKDD 會議上,騰訊AI Lab、清華大學、香港中文大學等機構聯合組織,通過一場爲期一天的課程系統性地講解了圖神經網絡。

騰訊 AI Lab 還有一項將深度強化學習與圖學習組合起來的研究成果,這是一種針對文字遊戲提出的基於分層堆疊注意力機制的深度強化學習算法[15]。這項研究使用了知識圖進行顯式推理以進行決策,從而通過可解釋的推理程序生成並支持智能體的決策。加上一種新提出的分層堆疊注意力機制,可通過利用知識圖的結構來構造推理過程的顯式表示。

  

分層堆疊注意力網絡架構

騰訊 AI Lab 在網絡架構搜索方面也取得了一些進展。相較於人工設計網絡架構,自動化網絡架構搜索效率更高,而且還可能找到人類難以構想出的結構,目前該技術已經在諸多領域得到了廣泛應用。在用於提升網絡架構搜索的計算效率方面,騰訊 AI Lab 提出了一種過渡性的仿射參數共享訓練策略[16],對參數共享的程度進行了量化分析,並動態地調整搜索訓練速度和備選網絡結構的可區分性,以提升網絡搜索的效率與精度。

在結合多任務學習方面,騰訊 AI Lab 採用了基於任務的結構控制器,來針對不同的任務產生針對性的網絡結構,並採用元學習的方式,使得網絡參數可以快速適應到新的任務上[17]。

此外,騰訊 AI Lab 還在相關理論分析方面做出了一些貢獻,包括一項評估神經機器翻譯的可解釋性方法[18],可幫助我們打開深度學習黑箱。另外,騰訊 AI Lab 還研究了選擇性機制對自注意網絡的改善情況[19],解釋了該機制在順序編碼和結構建模上的主要貢獻,這對於進一步改進自注意力網絡有一定的啓發和指導意義。

最後,騰訊 AI Lab 的一篇 ECCV 2020 論文也提出了一種基於神經科學研究的新式卷積:

語境門限卷積(Context-Gated Convolution)[20]。這是一種輕量級的組件,可以很好地應用在現有的卷積神經網絡中,在圖像識別、視頻理解、機器翻譯上都可以顯著提升現有模型性能。

門限卷積示意圖

 

3)自然語言處理

隨着 BERT 與 OpenAI GPT 等基於 Transformer 的大規模語言模型的出現,一些專家認爲自然語言處理領域將在未來十年內迎來重大突破。騰訊 AI Lab 正在爲推動自然語言處理技術的發展而開展研究工作。在 2020 年 7 月舉辦的自然語言處理領域頂級會議 ACL 2020 上,騰訊 AI Lab 貢獻了 20 篇論文,位列國內企業研究機構前列。

在文本理解方面,2020 年 4 月騰訊 AI Lab 開放了文本理解系統TexSmart,可對中文和英文兩種語言的文本進行詞法、句法和語義分析。與其它現有公開的文本理解工具相比,TexSmart除了支持分詞、詞性標註、粗粒度命名實體識別(NER)、句法分析、語義角色標註等常見功能外,還提供細粒度命名實體識別、語義聯想、深度語義表達等特色功能。TexSmart 系統獲得了2020 中國計算語言學大會(CCL)最佳系統演示獎。在對話理解方面,騰訊AI Lab提出了對話語義角色標註(Conversational Semantic Role Labeling)技術,該技術將對話的語義表示成多個「謂詞-論元」結構,可以同時處理對話中常見的信息缺失和指代問題,有效地提升了對話的理解和下游任務的性能,如對話改寫[21]和對話生成。同時,騰訊AI Lab將該項技術和對話理解的其他技術結合,在京東智能客服對話比賽中獲得第一名

此外,騰訊 AI Lab 還在長文本閱讀理解[22]、從高資源語言向低資源語言的泛化[23]、基於對話的關係抽取[24]等方面取得了一些研究進展。

在語言生成與對話方面,除了前文已經描述過的能生成格式可控的歌詞、詩詞文本的 SongNet[25],騰訊 AI Lab 還研究瞭如何更好地理解對話上下文、如何打造千人千面的對話機器人、如何融合常識等知識、如何在保證流暢性的同時生成符合邏輯的自然語言等課題。相關研究成果包括面向多輪對話的語義角色標註與對話改寫[26]、利用灰度數據增強多輪對話理解[27]、知識融合型對話生成[28]、基於開放領域表格的邏輯性自然語言生成[29]、提升對話一致性的三階段生成模型[30]等。

在機器翻譯方面,我們致力於改善翻譯模型的效果。我們提出的數據重生[31]和多領域通用翻譯模型[32]可更有效利用大規模多領域混合訓練數據。同時,我們繼續深耕於理解並改進Transformer模型,其中包括理解選擇性機制對自注意力網絡的重要性[33],推理置信度校準研究和評估神經機器翻譯的可解釋性方法[34]。受益於此,我們的自動翻譯(中英和英中)系統準確度繼續保持國內前列,在國際翻譯比賽WMT2020中也取得了1項第一,3項第二的成績。

4)計算機視覺

2020 年,騰訊 AI Lab 在計算機視覺方面成果頗豐。在計算機視覺領域頂級會議 CVPR 和 ECCV 上,騰訊 AI Lab 各有 11 和 18 篇論文入選,多模態學習、視頻內容理解、對抗攻擊與對抗防禦、基於生成模型的圖像編輯等多項課題。此外在 NeurIPS 2020 上也有多篇相關論文入選。

首先來看針對視覺的對抗攻擊問題,這是基於深度神經網絡的計算機視覺模型的一大核心弱點,也是很多實際計算機視覺應用的最後一道門檻。當然,這也是騰訊 AI Lab 的一大重要研究課題。2020 年,騰訊 AI Lab 提出了一些實現對抗攻擊的新策略,比如一種針對深度聚類的對抗策略可以挖掘易於使聚類層出現預測偏差,但卻不會影響深度嵌入網絡性能的樣本,這種無監督對抗聚類網絡能利用對抗攻擊與防禦訓練方法提升深度聚類網絡的魯棒性[35];另一項發表在ECCV上的研究也提出了利用擾動分解實現稀疏對抗攻擊的新思路[36]。

稀疏對坑攻擊示例

同時,騰訊 AI Lab 也提出了一些用於防禦對抗攻擊的技術,包括一種針對對抗攻擊的魯棒目標跟蹤方法[37],它能在產生輕量對抗擾動時候將時序信息納入考慮,從而提升模型魯棒性。

騰訊 AI Lab 在圖像去模糊和超分辨率方面也成果頗豐。比如在 ECCV 入選論文中,騰訊 AI Lab 有兩篇論文研究瞭如何消除視覺場景的雨滴,其中包括一種基於語義理解的雙目去雨方法[38]和一種利用雨痕和雨霧分析進行圖像去雨的技術[39]。超分辨率方面,騰訊 AI Lab 提出了一種結合3D臉部結構先驗的人臉超分辨算法[40],該算法能充分利用臉部結構及身份信息來輔助處理困難的臉部姿態變化。

當然,騰訊 AI Lab 也沒有缺席熱門的視頻研究領域,這能幫助機器理解不斷動態變化的世界,對多模態學習而言也具有重要價值。2020 年的相關研究包括一種可用於時序動作分割的邊界感知級聯網絡,這種新的級聯模式能讓模型自適應地調整感受野以及對語義模糊的視頻幀做出更加有信心的預測。此外,騰訊 AI Lab 還提出了一種新的短時序動作檢測框架——移動中心點檢測器(MOC-Detector)[41],其可將動作實例視爲運動點的軌跡,實現高質量的長時動作檢測[42]。

騰訊 AI Lab 也在手語自動翻譯上做出了一些研究進展,其提出了一種基於多粒度視頻片段的手語翻譯層次化特徵學習方法[43],該方法能自適應地利用多粒度時序信息,對視頻語義進行局部和全局的建模,從而能極大緩解對手勢分割的需要,提升翻譯質量。希望這項研究能更進一步轉化爲「科技向善」的應用成果。

5)語音

高質量語音數據識別是一個已經基本得到解決的問題,但在現實生活應用中,語音領域還面臨着雞尾酒會問題以及人們自由聊天口語化表達風格多樣的問題。而在語音合成方面,高自然度和表現力的合成語音仍舊還是需要不斷努力到達的目標。

2020 年,語音技術頂級會議 INTERSPEECH 共接收了 16 篇騰訊 AI Lab 論文,其中既有在語音前沿技術方向的進一步探索,也包含一些理論研究和分析,同時還有在科技向善與文化遺產保護等方面的應用成果。

在這其中,騰訊 AI Lab 爲解決雞尾酒會問題提出了多項潛在的解決策略。一是前面多模態學習部分已經介紹的使用視覺數據輔助識別;二是使用帶強幹擾的聲源數據來進行學習[44],這能「迫使」模型在非常糟糕的干擾條件下學習到足夠具有區分和泛化性能的表徵,三是不斷改進多通道語音增強波束形成技術,通過提出全新的基於遞歸神經網絡的波束形成方法[45],首次突破傳統波束形成技術,在PESQ等客觀指標和WER等語音識別指標上同時達到最優。四是提出了一種端到端的多通道語音分離技術[46], 比傳統的多通道技術性能提高10%。

另外,在語音識別方面,騰訊 AI Lab 着力提升複雜條件下的識別性能,通過有效結合分離和識別技術,使得在背景音樂及干擾人聲下的語音識別準確率獲得相對20% 的大幅提升,該技術正廣泛應用於信息流產品視頻內容理解、短視頻及直播視頻字幕生成中。

而在語音合成方面,DurIAN 是騰訊 AI Lab 多年研究的重要結晶,也是騰訊虛擬人語音系統的核心組件。DurIAN 不僅能合成更加自然流暢的說話語音,還能用於合成歌聲,騰訊 AI Lab 甚至還探索了其在京劇合成方面的應用[47],從技術角度爲中國傳統文化的保護和傳承提供一個方向。騰訊 AI Lab 的語音合成技術在2020 年完成端到端合成工業化落地之後,不斷朝着更高的目標演進,不但發音人音色數量大幅增加,每個音色都具有多種情感和多種不同風格的語音合成能力,可綜合不同風格和情感實現針對不同場景不同文本更自然的表達。在此基礎上,騰訊 AI Lab 還實現了韻律詞、字級別的細粒度控制能力,可以靈活地對單個字、詞的語氣情感進行調節,在一句話內部也可有豐富的變化,大幅提升了合成語音的表現力和感染力。細粒度控制的合成技術正在落地到遊戲解說和小說合成這樣對錶現力和感染力要求更高的應用場景中。

四、總結與展望

過去的 2020 年是必然會被寫入歷史書的一年,如何讓這個世界變得更好已成爲更多人積極思考和探索的問題,而科技必將在其中發揮至關重要的作用。

繼續秉承「科技向善」的信念和「Make AI Everywhere」的願景,以通用人工智能和虛實集成世界爲長期目標,騰訊 AI Lab 在這一年中做出了更多積極的應用和研究貢獻,涵蓋虛擬人、多智能體、農業、醫療、藥物研發和機器人等諸多領域。

開源項目

●   hifi3dface:高速低成本創建高擬真度 3D 虛擬人

https://github.com/tencent-ailab/hifi3dface

●   SongNet:可以根據任意格式和模板來生成相契合的文本(詩詞歌賦),該項目還發布了一個預訓練漢語模型和一個已經過微調的宋詞模型。

https://github.com/lipiji/SongNet

●  GROVER:大規模自監督分子圖預訓練模型(可用於 ADMET 分子屬性預測等任務)

https://ai.tencent.com/ailab/ml/gnnpretrain.html

●   重症COVID-19患者早期分期的深度學習生存模型

https://github.com/cojocchen/covid19_critically_ill

●   LogicNLG:基於開放領域表格的邏輯性自然語言生成

https://github.com/wenhuchen/LogicNLG

●   Graph2Tree:用於自動解數學應用題的圖到樹學習

https://github.com/2003pro/Graph2Tree

●   recurrent-transformer:用於生成更連貫視頻語言描述的記憶增強型循環Transformer

https://github.com/jayleicn/recurrent-transformer

●   InfECE:神經機器翻譯中推理階段的置信度校準研究

https://github.com/shuo-git/InfECE

●   SSAN:選擇性自注意網絡

https://github.com/xwgeng/SSAN

●   Data Rejuvenation:數據重生:讓神經機器翻譯中的不活躍樣本「復活」

https://github.com/wxjiao/Data-Rejuvenation

●   metaHypernymy:基於元學習的低資源語言上下位預測的方法

https://github.com/ccclyu/metaHypernymy

●   DialogRE:基於對話的關係抽取(RE)數據集

https://github.com/nlpdata/dialogre

與https://dataset.org/dialogre

●   AMR-multiview:圖到文本生成中的結構化信息保留

https://github.com/Soistesimmer/AMR-multiview

●   lab-zp-joint:基於多任務訓練框架的聯合零指代還原和消解訓練

https://github.com/freesunshine0316/lab-zp-joint

●   Sub-GC:基於場景圖分解的自然語言描述生成

https://github.com/YiwuZhong/Sub-GC

●   FeatherWave:一種高效的多頻帶並行式高質量語音合成器

https://wavecoder.github.io/FeatherWave/

●   TSPNet:基於時序語義金字塔的手語翻譯層次化特徵學習

https://github.com/verashira/TSPNet

●   ALRDC:基於對抗學習的魯棒性深度聚類

https://github.com/xdxuyang/ALRDC

●   ProxyGML:使用更少代理的深度圖度量學習方法

https://github.com/YuehuaZhu/ProxyGML

●   CEN:信道交換網絡

https://github.com/yikaiw/CEN

●   TStarBot-X:純機器學習的星際爭霸II強AI

https://github.com/tencent-ailab/tleague_projpage

●  TLeague:通用的大規模多智能體博弈訓練框架

https://github.com/tencent-ailab/tleague_projpage

開放項目

開悟:用遊戲探索通用人工智能,現已面向高校開放

●  https://aiarena.tencent.com/aiarena/zh/index/

重症COVID-19患者早期分期的深度學習生存模型查詢服務

●  https://aihealthcare.tencent.com/COVID19-Triage.html

AI安全攻擊矩陣:業內首個 AI 安全攻擊矩陣,一份具有高實用性的AI安全技術指導框架

●  https://share.weiyun.com/8InYhaYZ

TexSmart:開放自然語言理解系統

 

論文鏈接:

應用項目

[1]基於 RGB-D 自拍視頻創建高擬真度 3D 虛擬人

https://arxiv.org/abs/2010.05562

[2]DurIAN 語音合成框架

https://tencent-ailab.github.io/durian/

[3]通用大規模多智能體博弈訓練框架TLeague

https://github.com/tencent-ailab/tleague_projpage

[4]一種針對視頻中時序句子定位和事件描述學習模態間交互的新方法

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123490324.pdf

多模態研究

[5]基於場景圖分解來生成自然語言描述

https://www.ecva.net/papers/eccv_2020/papers_ECCV/html/2115_ECCV_2020_paper.php

[6]通過遞歸子查詢構造改善視覺和自然語言匹配

https://arxiv.org/abs/2008.01059

[7]一種新的視覺-文本匹配模型

https://arxiv.org/abs/2007.08883

[8]一種利用跨域視覺生成特徵輔助障礙語音識別的方法

https://isca-speech.org/archive/Interspeech_2020/abstracts/2282.html

[9]多模態說話人diarization

https://arxiv.org/pdf/2002.05314.pdf

[10]多模態語音分離

https://arxiv.org/pdf/2003.07032.pdf

[11]多模態語音識別方案

https://arxiv.org/abs/2005.08571

[12]一種新的深度多模融合框架:信道交換網絡(CEN)

https://proceedings.neurips.cc/paper/2020/hash/339a18def9898dd60a634b2ad8fbbd58-Abstract.html

機器學習

[13]一種基於狄利克雷分佈的圖變分自編碼器框架

https://proceedings.neurips.cc/paper/2020/hash/38a77aa456fc813af07bb428f2363c8d-Abstract.html

[14]通過分子逆合成分析探索深度圖學習在化學領域的應用

https://proceedings.neurips.cc/paper/2020/hash/819f46e52c25763a55cc642422644317-Abstract.html

[15]一種針對文字遊戲提出的基於分層堆疊注意力機制的深度強化學習算法

https://arxiv.org/abs/2010.11655

[16]一種過渡性的仿射參數共享訓練策略

https://proceedings.neurips.cc/paper/2020/hash/42cd63cb189c30ed03e42ce2c069566c-Abstract.html

[17]多任務學習-基於任務的結構控制器

https://doi.org/10.1609/aaai.v34i04.6084

[18]一項評估神經機器翻譯的可解釋性方法

https://arxiv.org/abs/2005.01672

[19]選擇性機制對自注意網絡的改善情況

https://arxiv.org/abs/2005.00979

[20]語境門限卷積(Context-Gated Convolution)

https://arxiv.org/abs/1910.05577

自然語言處理

[21]對話語義角色標註(Conversational Semantic Role Labeling)技術-對話改寫

https://arxiv.org/pdf/2010.01417.pdf)

[22]長文本閱讀理解

https://arxiv.org/abs/2005.08056

[23]從高資源語言向低資源語言的泛化

https://www.aclweb.org/anthology/2020.acl-main.336/

[24]基於對話的關係抽取

https://arxiv.org/abs/2004.08056

[25]SongNet

https://arxiv.org/abs/2004.08022

[26]面向多輪對話的語義角色標註與對話改寫

https://arxiv.org/pdf/2010.01417.pdf

[27]利用灰度數據增強多輪對話理解

https://arxiv.org/abs/2004.02421

[28]知識融合型對話生成

https://arxiv.org/abs/2005.06128

[29]基於開放領域表格的邏輯性自然語言生成

https://arxiv.org/abs/2004.10404

[30]提升對話一致性的三階段生成模型

https://arxiv.org/abs/2004.07672

[31]數據重生

https://www.aclweb.org/anthology/2020.emnlp-main.176.pdf

[32]多領域通用翻譯模型

https://arxiv.org/abs/1911.09912

[33]選擇性機制對自注意力網絡的重要性

https://arxiv.org/abs/2005.00979

[34]推理置信度校準研究和評估神經機器翻譯的可解釋性方法

https://arxiv.org/abs/2005.00963

https://arxiv.org/abs/2005.01672

計算機視覺

[35]一種針對深度聚類的對抗策略

https://proceedings.neurips.cc/paper/2020/hash/6740526b78c0b230e41ae61d8ca07cf5-Abstract.html

[36]利用擾動分解實現稀疏對抗攻擊的新思路

https://paperswithcode.com/paper/sparse-adversarial-attack-via-perturbation

[37]一種針對對抗攻擊的魯棒目標跟蹤方法

https://arxiv.org/abs/2007.09919

[38]一種基於語義理解的雙目去雨方法

https://link.springer.com/chapter/10.1007/978-3-030-58583-9_5

[39]一種利用雨痕和雨霧分析進行圖像去雨的技術

https://arxiv.org/abs/2008.00823

[40]一種結合3D臉部結構先驗的人臉超分辨算法

http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123490732.pdf

[41]一種新的短時序動作檢測框架——移動中心點檢測器(MOC-Detector)

https://arxiv.org/abs/2001.04608

[42]邊界感知級聯網絡

https://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123700035.pdf

[43]手語自動翻譯

https://proceedings.neurips.cc/paper/2020/hash/8c00dee24c9878fea090ed070b44f1ab-Abstract.html

語音

[44]使用帶強幹擾的聲源數據來進行學習

https://www.isca-speech.org/archive/Interspeech_2020/pdfs/1545.pdf

[45]全新的基於遞歸神經網絡的波束形成方法

https://arxiv.org/abs/2008.06994

[46]一種端到端的多通道語音分離技術

https://arxiv.org/pdf/2003.03927.pdf

[47]DurIAN在京劇合成方面的應用

https://arxiv.org/abs/2008.03029

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章