視覺生產技術探究和應用
概念理解
定義
通過一個或一系列視覺過程,產出新的視覺表達,是人或機器能夠感知的圖像視頻,而不是標籤或特徵。
分類
-
生成:從0到1
-
拓展:從1到N
-
摘要:從N到1
-
升維:從An到An+ 1
-
增強/變換:從A到B
-
插入/合成:A+B=C
-
擦除:A-B=C
通用基礎框架
五個關鍵維度
1.可看(滿足視覺/美學表現)
2.合理(合乎語義/內容邏輯)
3.多樣(保證結果的豐富性)
4.可控(提供用戶預期的抓手)
5.可用(帶來用戶/商業價值)
精細理解
分割摳圖
- 識別:能知道圖片中物體,知道物體是什麼。
- 檢測:能識別,還要能知道在哪個區域。
- 分割:識別、檢測、並知道每一個像素是什麼,能將區域完整切割分離。
難點
-
複雜背景
-
遮擋
-
髮絲精摳(圖像中毛髮等細微處
-
邊緣反色
-
透明材質(圖像中玻璃等
-
多尺度/目標
-
數據嚴重不足,標註成本高
解題思路
Semantic Segmentation(語義分割)
Instance Segmentation(實例分割)
Image Matting(摳圖)
思路:1.複雜問題拆解:粗mask估計+精準matting
2.豐富數據樣本:設計圖像mask統一模型
模型框架
Step1:mask粗分割
Step2:mask質量統一
Step3:估計精確alpha
視覺生成
框架流程
1.理需求
2.定草圖
3.選狀態
4.調細節
5.生成圖
6.評好壞
視覺編輯
視頻植入作用
-
挖掘視頻核心價值
-
擴大植入覆蓋範圍
-
提升植入效果效率
關鍵點
(廣告等)植入位檢測與定位
動態檢測分割
視頻內容擦除
文字擦除
Logo擦除
畫幅變化(縮放
圖像尺寸變化
視覺增強
-
視頻增強
-
人臉修復增強
-
渲染圖超分
-
視頻插幀
-
HDR色彩擴展
-
風格遷移
-
顏色拓展
視覺製造
實體設計製造
缺點
-
效率低:多次打樣,多次溝通(服裝設計平均30天)
-
協同差:設計、營銷、生成脫節、倒置
-
定製難:無法實現柔性生產
核心邏輯
包裝幾何生成
服裝幾何生成
材質工藝
多樣性拓展
2D3D融合
應用平臺
鹿班
鹿班是視覺生成領域在業界落地的先行者,對外提供大規模在線的AI設計服務
AlibabaWood
AI生成商品短視頻,能做到劇本生成、智能文案生成、自動剪輯、智能音樂推薦。
阿里雲視覺開放平臺
提供高易用、普惠的視覺API服務