美圖影像實驗室10000 點人臉關鍵點技術全解讀

  日前,美圖影像實驗室(MTlab, Meitu Imaging & Vision Lab)推出「10000 點 3D 人臉關鍵點技術」——利用深度學習技術實現 10000 點的人臉五官精細定位,該項技術可以在 VR 遊戲中構建玩家人臉的 3D 遊戲角色並且驅動,也可以應用於虛擬試妝試戴和醫療美容領域等。本文爲美圖影像實驗室 MTlab 基於該技術爲雷鋒網 AI 科技評論提供的獨家解讀。正文如下:

  簡介

  在計算機視覺領域,人臉關鍵點定位在視覺和圖形中具有廣泛的應用,包括面部跟蹤、情感識別以及與多媒體相關的交互式圖像視頻編輯任務。目前行業內常用的是 2D 人臉關鍵點技術,然而,2D 人臉點定位技術由於無法獲取深度信息,不能分析用戶的立體特徵,比如蘋果肌,法令紋等更加細緻的用戶信息,也無法分析出用戶當前的姿態和表情。爲了能夠給用戶的自拍添加動畫效果,如面具、眼鏡、3D 帽子等物品,並且提供更加智能的 AI 美顏美型效果,需要一套特殊的感知技術,實時跟蹤每個用戶的微笑、眨眼等表面幾何特徵。因此,美圖影像實驗室 MTlab 研發人員研發了 10000 點人臉關鍵點技術,將面部圖像提升到三維立體空間,將用戶的姿態、臉型以及表情分解開來,實時跟蹤用戶當前的姿態、表情、五官特徵改變後的面部形態,調整後的圖像更加自然美觀。

  基於 3DMM 的人臉關鍵點定位方法

  1. 三維形變模型 (3DMM)

  1999 年,瑞士巴塞爾大學的科學家 Blanz 和 Vetter 提出了一種十分具有創新性的方法——三維形變模型 (3DMM)。三維形變模型建立在三維人臉數據庫的基礎上,以人臉形狀和人臉紋理統計爲約束,同時考慮了人臉的姿態和光照因素的影響,生成的人臉三維模型精度較高。

  3DMM

  如上圖所示 3DMM 的主要思想是:一張人臉模型可以由已有的臉部模型進行線性組合。也就是說,可以通過改變係數,在已有人臉基礎上生成不同人臉。假設建立 3D 變形的人臉模型由 m 個人臉模型組成,其中每一個人臉模型都包含相應的臉型和紋理兩種向量,這樣在表示新的 3D 人臉模型時,就可以採用以下方式:

  其中表示平均臉部形狀模型,表示 shape 的 PCA 部分,表示對應臉型係數。

  Blanz 和 Vetter 提出的 3DMM 雖然解決了人臉變形模型的表達問題,但其在人臉表情表達上依然存在明顯不足。2014 年時,FacewareHouse 這篇論文提出並公開了一個人臉表情數據庫,使得 3DMM 有了更強的表現力,人臉模型的線性表示可以擴充爲:

  在原來的臉型數據基礎上,增加了表情,表示對應的表情係數,係數讓實時表情 Tracking 成爲了可能。

  2. 美圖 MT3DMM 模型

  爲了能夠更加精細地刻畫不同人臉的 3D 形狀,並且適用於更廣泛的人種,MTlab 的研發團隊採用先進的 3D 掃描設備採集了 1200 個不同人物、每人 18 種表情的 3D 人臉數據,其中男女各半,多爲中國人,年齡分佈在 12~60 歲,模型總數超過 20000 個,基於這些數據,建立了基於深度神經網絡的 MT3DMM 模型。相比於目前主流的 3DMM 模型,MT3DMM 具有表情豐富,模型精度高,並且符合亞洲人臉分佈的特點,是目前業界精度最高的 3D 人臉模型之一。鄭州最好的婦科醫院:http://mobile.zzchxb110.com/

  3DMM 模型,代表了一個平均臉,也同時包含了與該平均臉的偏差信息。例如,一個胖臉在一個瘦臉模型基礎上,通過調整五官比例可以得到胖臉模型。利用這種相關性,計算機只需要利用用戶的臉與平均人臉的偏差信息,就能夠生成專屬於用戶的 3D 模型。不僅如此,這些偏差還包括大致的年齡、性別和臉部長度等參數。但是,這樣也存在一個問題,世界上的人臉千變萬化,要將所有人臉與平均人臉的偏差都存儲下來,3DMM 模型需要集成大量面部的信息,然而目前的開源模型在模仿不同年齡和種族人臉方面的能力十分有限。

  如下圖 BFM 的人臉數據基本都是外國人臉,跟亞洲人臉的數據分佈存在差異;Facewarehouse 的數據主要是亞洲人臉,但是用 Kinect 掃描的模型則存在精度較低的問題;SFM 開源的數據只包含了 6 種表情,並且模型的精度較低,無法滿足我們的需求;LSFM 數據包含了較多的人臉數據,但是不包含表情,無法用於用戶表情跟蹤。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章