新智元報道
來源:arXiv
作者:張鑫,三石
【新智元導讀】密歇根大學和谷歌大腦的研究人員合作,提出了一種圖像語義分層處理框架,可以實現像素級別的圖像語義理解和操縱,在圖像中任意添加、改變、移動對象,並與原圖渾然一體,實現真正的“毫無PS痕跡”。
曾經,你以爲下面普京×容嬤嬤那張圖就稱得上“毫無PS痕跡”了。
的確,用肉眼看,效果是很不錯。但是,在專業的圖像分析軟件下,修改的痕跡一目瞭然。
你再看看這兩張圖:
不不不,這不是“找不同”,是爲了讓你感受一下“像素級語義分割和理解”帶來的修圖效果:
可能,你需要看得更清晰一點。
看好了哦,這是原圖:
發現有什麼不同/不自然的地方了嗎?(提示:一共有7處不同)。
先別急着往下拉……
答案揭曉:
實際上,找出不同是很簡單的(畢竟多了好幾個東西),關鍵是這樣像素級的改動,比原先意義上“毫無PS痕跡”增強了一大步!
無論是色調、光線還是紋理,都與原圖配合得更加自然,操作起來也十分簡單方便。
這多虧了密歇根大學和谷歌大腦的研究人員,他們提出了一種新的圖像語義處理分層框架,首先根據圖像中給定對象的邊界框,學習生成像素級語義標籤地圖(pixel-wise semantic label maps),然後根據這個地圖再生成新的圖像。
因此,用戶可以實現對象級的操縱,無論是改變顏色、移動位置、去除某個物體,增加新的東西,或者把原來在最前面的人物往後移一層或兩層,而且與原圖像自然融爲一體。
操作只需要一步即可:
圖像語義分層處理框架工作流程圖示意:輸入車道照片,輸出上面有一輛車的照片
定量和定性結果分析,該方法比當前流行的Context Encoder、Pix2PixHD等效果都要高出許多。這有望掀起計算機視覺和圖像處理界的鉅變,難怪有人看完後在Twitter留言:
“在我兩年前開始學計算機視覺時,這種技術簡直是無法想象的。”“簡直是科幻變成了現實!”
還有人疾呼:PS裏有個功能我想在就想要!
像素級分層語義處理框架,實現圖片對象自然修改
想必大家看到這個神級PS技術,對其原理應該是十分好奇了吧!接下來,小編就帶着讀者領略這款神技的技術奧祕!
正如上述所言,這個PS技術框架的核心就是分層圖像處理。
當給出新的邊界框B時,算法首先通過以B爲中心、尺寸爲S×S的裁剪平方窗口,提取標籤映射(semantic label map)M∈RS×S×C和圖像I∈RS×S×3的局部觀測值。 在M,I和B上,模型通過以下過程生成操縱圖像:
- 給定邊界框B和語義標籤映射M,結構生成器通過
預測操縱的語義標籤映射;
- 給定操縱的標籤映射M和圖像I,圖像生成器通過
預測被操縱的圖像I。
而在分層圖像處理過程中,有兩個核心的關鍵步驟:
結構生成器(Structure Generator)
結構生成器的目標是以像素級類標籤M∈RS×S×C的形式推斷由B = {b,c}指定的區域的潛在結構。
結構生成器的體系結構
給定一個masked layout M和一個binary mask B,分別用於對目標的類和位置進行編碼。該模型通過來自雙流解碼器( two-stream decoder)的輸出產生M(該雙流解碼器對應於box整個區域中對象的二進制掩碼和語義標籤映射)。
圖像生成器(Image Generator)
給定一張圖像I和從結構生成器中獲得的可操縱layout M,圖像生成器輸出區域內由B定義的、內容的像素級預測。
圖像生成器的體系結構
給定一張masked圖像I和語義layout M,該模型使用單獨的編碼路徑對對象的視覺樣式和語義結構進行編碼,併產生被操縱的圖像。
超越當前最好標準,從此修圖隨心所欲
定量評估
Ablation Study。 爲了分析所提方法的有效性,對該方法的幾種變體進行了Ablation Study。 首先考慮圖像生成器的三個基線:
- 僅限於圖像上下文(SingleStream-Image);
- 僅限於語義佈局(SingleStream-Layout);
- 對上述兩個基線的結合。
結果如下表所示:
下圖顯示了基線的定性比較:
定性分析
語義對象處理
通過將汽車的同一個邊界框移動到圖像中的不同位置來展示操作結果
從圖中可以看到,當把車的邊框從一邊移動到另一邊的時候,模型所產生的車輛外觀發生了變化。有趣的是,汽車的形狀、方向和外觀也會根據周圍區域的場景佈局和陰影而改變。
在更多樣化的上下文中生成的結果
該結果表明,模型在考慮上下文的情況下生成了合適的對象結構和外觀。除了生成與周圍環境相匹配的對象外,還可以對框架輕鬆地進行擴展,允許用戶直接控制對象樣式。
擴展式操作
用樣式向量控制對象顏色
結果表明,模型成功地合成了具有指定顏色的各種對象,同時保持圖像的其他部分不變。
交互式和數據驅動的圖像編輯
圖像編輯是該模型的關鍵點之一。通過添加、刪除和移動對象邊界框來執行交互式圖像處理。 結果如下圖所示:
在圖像中對多對象進行處理的例子
表明該方法生成合理的語義佈局和圖像,可以平滑地增加原始圖像的內容。除了交互式操作之外,還可以通過以數據驅動的方式對圖像中的邊界框進行採樣來自動化操作過程。 結果如下圖所示:
數據驅動的圖像操作示例
室內場景數據集的實驗結果
使用ADE20K數據集對臥室圖像進行定性實驗。 下圖展示了了交互式圖像處理結果。
室內圖像處理的示例
由於室內圖像中的對象涉及更多樣化的類別和外觀,因此生成與場景中的其他組件對齊的適當對象形狀和紋理比街道圖像更具挑戰性。
可以看出,該方法生成的對象與周圍環境可以保持高度一致性。
論文地址:
https://arxiv.org/pdf/1808.07535.pdf