一、前言

電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應用還存在缺乏賣點信息、難以規模化和個性化以及不利於賣點展示等問題。爲了解決上述業界難題，京東廣告部門在2023年提出了一系列創新性方法：首先提出了關係感知擴散模型將賣點信息疊加在人工製作的商品圖片上；之後提出了融合類目共性和個性化風格的背景生成模型來實現規模化和個性化的圖片自動生成；最後提出了基於規劃和渲染的海報生成模型來實現圖文創意的端到端生成。藉助以上方法，既實現了高質量廣告創意的自動生成，又帶來了平臺廣告收入的提升。

二、基於關係感知擴散模型的海報佈局生成

【2.1 技術背景】

海報佈局的生成旨在預測圖像上視覺元素的位置和類別。此任務對於海報的美學吸引力和信息傳播起到了至關重要的作用。創建一流的海報佈局需要同時考慮到佈局元素的彼此關係和圖像組成，因此這項要求很高的任務通常由專業設計師完成。但是人工設計是一件既耗時又費財的事情。爲了以低成本生成高質量的海報佈局，自動佈局生成在學術界和工業界越來越流行。

隨着深度學習的出現，一些內容無關的方法被提出用於學習佈局元素之間的關係。但這些方法更關注元素之間的圖形關係而忽略視覺內容對海報佈局的影響，直接將這些方法用於海報佈局生成可能會產生負面影響。爲了解決這些問題，一些內容有關的方法被提出用於佈局生成。儘管這些方法考慮了圖像本身的內容信息，甚至額外引入了圖片的空間信息，但是兩個重要的因素仍該被考慮進去。一方面，文字在海報的信息傳遞中扮演了重要的作用；另一方面，一個好的佈局不僅要考慮單個元素的座標是否準確，也要考慮到元素之間的座標關係。

針對上述問題，我們提出了一個關係感知擴散模型用於海報佈局生成領域，該模型同時考慮了視覺-文本和幾何關係因素。由於擴散模型有在許多生成任務中取得了巨大成功，我們遵循噪聲到佈局的範式，通過學習去噪模型逐漸調整噪聲來生成海報佈局。在每個採樣步驟中，給定一組以高斯採樣的框分佈或最後一個採樣步驟的估計框爲輸入，我們通過圖像編碼器提取RoI特徵作爲生成的特徵圖。然後是圖文關係感知模塊（VTRAM）被提出用於建模視覺和文本特徵之間的關係，這使得佈局結果由圖像和文本內容同時決定。與此同時，我們設計一個幾何關係感知模塊 (GRAM)基於RoI彼此的相對位置關係增強每個 RoI 的特徵表達，這使得模型能夠更好地理解佈局元素之間的上下文信息。受益於新提出的VTRAM和GRAM模塊，用戶可以通過預定義佈局或改變文本內容以控制佈局生成過程。

【2.2 基於擴散模型的海報佈局生成】

擴散模型是一類使用馬爾可夫鏈將噪聲轉換爲數據樣本的概率生成模型。如上圖所示，我們將海報佈局生成問題作爲一個噪聲到佈局的生成過程，通過學習去噪模型以逐步調整噪聲佈局。因此擴散模型生成的海報佈局也同樣包括兩個過程：擴散過程和去噪過程。給定一個海報佈局，我們逐漸添加高斯噪聲以破壞確定性的佈局結果，我們稱這個操作爲擴散過程。相反給定初始隨機佈局，我們通過逐步去噪的方式獲得最終海報佈局稱爲去噪過程。

【2.3 圖文關係感知】

相較於直接將視覺特徵和文本特徵簡單拼接，我們設計了一個能夠識別視覺-文本關聯的模塊（VTRAM）來對齊圖像與文本的特徵域。這個模塊能夠意識到視覺元素和文本元素之間的關係，並能從圖像和文本中優化特徵的利用，這樣使得對內容的理解更加全面。上圖展示了VTRAM的流程，它通過兩步實現了第i個RoI特徵𝑉𝑖和語言特徵𝐿的多模態融合。首先，爲了在視覺特徵中添加明確的位置信息，將RoI特徵𝑉𝑖及其對應的位置嵌入進行拼接，以獲取視覺位置特徵。之後，我們將加入位置信息的視覺特徵作爲query，語言特徵作爲key和value，進行cross attention計算來得到最終的多模態特徵Mi。

【2.4 幾何關係感知】

爲了加強 RoI特徵感知彼此的位置關係，我們設計了幾何關係感知模塊（GRAM）讓模型更好的學習佈局元素之間的內容信息。具體細節如下：首先，給定 𝑁 個 RoIs，兩個RoI 𝑙𝑖 和 𝑙𝑗 (𝑖, 𝑗 ∈ {1, 2, . . . , 𝑁})的相對位置特徵 𝑅𝑖𝑗 計算方式如下：

然後，4 維embedding向量通過sin-cos編碼方法被embedding爲幾何權重係數

。最後通過 softmax 函數對幾何權重係數進行歸一化以突出起到主要作用的部分，

需要強調的是不同類型元素應該有不同的定位策略，例如襯底應覆蓋在文本類型元素上但是其他種類的元素之間應避免重疊，因此我們提取RoI 特徵作爲元素的類別信息。爲了合併位置和類別信息，提取視覺特徵𝑉被展開並且被投影函數

轉換爲𝑑𝑡維度的向量。最後，視覺embedding乘以幾何權重進而得到最終的幾何特徵𝑇：

其中，

是

的展開形式。

三、融合類目共性和個性化風格的商品背景生成

【3.1 技術背景】

商品廣告背景生成旨在爲商品透底圖生成自然、逼真的背景，以構造高質量的廣告圖片，從而提升圖片點擊率。現有的背景生成方法主要分爲兩種方式，即“文生圖”模式和“圖生圖”模式。“文生圖”模式指的是向擴散大模型（如Stable Diffusion，ControlNet）輸入一段描述圖片的提示詞和一張商品透底圖，由大模型根據提示詞的內容填充商品周圍的背景區域。“圖生圖”模式指的是在“文生圖”模式的基礎上，額外引入一張參考圖像，並將該參考圖像添加一定強度的噪聲，作爲擴散大模型的初始噪聲，使得生成的背景區域與參考圖像具備一定的相似性。

現有的背景生成方法採用“文生圖”模式和“圖生圖”模式。其中“文生圖”模式的缺點在於兩方面：第一，需要花費大量時間設計和修正提示詞；第二，提示詞在描述圖片的空間位置佈局或抽象風格時效果較差，給精細化定製背景帶來了較大挑戰。“圖生圖”模式雖然額外引入了參考圖像作爲參考，但是它依然存在一定的侷限性：參考圖像上疊加的噪聲模糊了圖像中原有的的佈局、組成元素等信息使得生成的圖片只能保證在整體場景上與參考圖像相似，無法進行更細粒度、更精確的控制。

爲了解決上述問題，我們提出了一種基於參考圖像的商品廣告背景生成方法，該方法可以在給定原始商品透底圖、原始商品所屬類別和任一其他商品的廣告圖（參考圖片）時，爲原始商品生成與參考圖片佈局、組成元素、色彩、風格等相似的背景圖。本發明的方法框架如下圖所示，包含三個模塊，預訓練的擴散大模型Stable Diffusion（SD），基於類目共性的生成器CG，基於個性化信息的生成器PG。其中，類目共性生成器的作用是提取商品透底圖中包含的信息，如商品位置、商品類別等；PG的作用是提取參考圖片中的佈局、組成元素、色彩、風格等個性化信息。CG和PG提取的特徵將合併進入SD的解碼器中，用於生成最終的背景。因此，我們設計了一個可以模仿參考圖像生成背景的模型，從而無需設計複雜的提示詞來描述佈局、風格等細粒度信息。

【3.2 基於類目共性的生成】

該步驟的目的是利用CG提取商品透底圖中的信息，用於生成適配該商品所屬類別的通用背景。CG的輸入包含三部分，即商品透底圖，商品提示詞和背景提示詞。其中，商品提示詞爲”A photo of C”，背景提示詞爲”in the background of D”，其中D表示特定字符串”sks”與C對應的類目編碼的拼接。CG的具體結構與ControlNet基本相同，它們的區別在於我們將CG中的注意力模塊替換爲基於商品掩膜的注意力模塊。給定透底圖中的商品掩膜M（可由透底圖直接得到），基於商品掩膜的注意力模塊可以表示爲：

其中，Xin與Xout分別表示注意力模塊的輸入、輸出模塊，CA()表示常規的注意力模塊，•表示點乘符號。經過訓練後，每個類目的背景風格被映射且僅被映射到到對應的D中。因此，在推理時，給定類目名稱C，模型可以通過固定的映射關係得到其對應的D，並將D作爲提示詞用來生成符合該類別背景通性的背景，從而減少複雜的提示詞設計。

【3.3 基於個性化風格的生成】

該步驟的目的是，在類別通用背景的基礎上，利用PG疊加參考圖片的個性化信息。PG的輸入包含兩部分，即參考圖片和參考圖片中原有的商品的掩膜。PG的具體結構與ControlNet相同，其輸入爲參考圖片的背景區域。注意，PG不需要提示詞輸入，即提示詞爲””。特別地，由於參考圖像的個性化信息應當僅作用於生成的背景區域，因此我們利用商品透底圖M對PG的輸出進行了過濾。具體地，與ControlNet相同，PG輸出五個不同分辨率的特徵圖，則對於第i個特徵圖來說，我們令其與M相乘，其中M表示商品透底圖的掩膜。

四、基於規劃和渲染的商品海報生成

【4.1 技術背景】

商品海報對於商品宣傳起着關鍵作用。一張精美的海報不僅應該包含合理的元素佈局，例如襯底、文案、商品等元素，還應該具有和商品和諧的背景。因此，這項挑戰性的任務通常由人類設計師完成。然而，依賴人類設計師會使成本提升和效率低下，需要端到端商品海報生成技術來將給定的商品和文本，生成一張可傳遞商品信息的海報圖像。

目前尚無端到端商品海報生成技術，與其較爲相關的兩個領域爲圖像填充以及商品海報佈局生成。如下圖（a）所示，圖像填充技術可以根據已有的商品圖像，自動生成商品的背景區域。如下圖（b）所示，商品海報佈局生成技術可以在人類設計師產出的海報上，尋找可放置視覺元素的位置。因此，簡單的將兩個任務串聯起來可被視作一種實現端到端商品海報生成的基礎方案。

如上圖（c）所示，雖然將圖像填充和商品海報佈局生成聯合可看作一種實現商品海報生成的方案，這種技術方案的缺陷有兩點：第一，由圖像填充技術生成的背景雖然具備真實感，然而由於該背景的內容複雜度過高，導致佈局模型找不到合適的位置擺放視覺元素；第二，由於圖像填充技術需要提前確定商品的位置，這使得佈局模型只能控制文案和襯底的位置，降低了佈局結果的多樣性。由於上述缺陷，現有技術難以生成美觀且多樣的商品海報。爲了解決現有技術的弊端，我們拆解借鑑了人類設計師設計海報的流程。如上圖（d）所示，該流程通常包含兩個步驟：規劃和渲染。在規劃階段，設計師通常用紙和筆大致規劃所有視覺元素的位置，因此其他視覺元素的位置不會被預定的商品位置所約束。在渲染階段，設計師使用電腦將整體佈局渲染成一幅精美的海報圖像。由於渲染背景時會同時考慮文案等元素的位置，這使得渲染的背景益於文字信息的傳遞。

【4.2 基於規劃網絡的佈局生成】

受上述分析啓發，我們提出了一種基於規劃和渲染的端到端商品海報生成方法，借鑑了人類設計師的工作流程來完成海報生成任務。所提出的方法框架如上圖所示，其中包含一個規劃網絡PlanNet和一個渲染網絡RenderNet。對於PlanNet，它首先編碼商品圖像和文本內容，之後使用佈局解碼器（Layout Decoder）將二者融合來產生更合理的佈局結果，最終它預測了商品和其他視覺元素的位置。對於RenderNet，它將PlanNet生成的佈局還有商品圖像共同作爲生成過程的控制條件。首先它利用了一個空間融合模塊來學習不同視覺元素的空間位置關係；之後對商品外觀進行編碼，使得生成的背景和商品是和諧的；最後它將兩個控制條件輸入給ControlNet，用於指導Stable Diffusion的生成過程。結合上述技術優勢，我們實現了一個圖片質量較高且多樣化的商品海報生成方法。

其中，規劃網絡的目的是將輸入的隨機佈局，經過多步的迭代去噪，採用佈局解碼器轉化成最終視覺元素的佈局位置。如下圖所示，對於第t步來說，佈局解碼器的輸入包含三部分：t時刻的佈局結果zt，提取好的視覺和語言特徵；輸出爲t-1時刻的佈局結果z(t-1)。它的詳細結構包含兩個全聯接層（FC）和N個transformer模塊。首先，zt被一個FC層映射爲一個元素表徵et；之後經過N個transformer模塊，處理後的元素表徵被另一個FC層解碼爲zt-1。在每一個transformer模塊，時間步t和元素表徵et被一個自適應歸一化層（AdaLN）和一個自注意力層（SA）處理。之後，交叉注意力層（CA）被用於計算自注意力層的輸出，以及視覺和語言特徵。

【4.3 基於渲染網絡的背景生成】

在獲得規劃網絡輸出的佈局結果後，渲染網絡將其與商品的圖像共同作爲輸入，輸出一張最終的海報圖像。具體來說，它包含一個佈局分支、一個視覺分支、Stable Diffusion（SD）、ControlNet和一個文字渲染模塊。其中，佈局分支的目的是將各個視覺元素的佈局進行編碼。爲了更好的表示佈局的空間信息，我們將規劃網絡輸出的佈局座標轉換爲佈局的掩碼圖像{Lm}，m的範圍是從1到M，M爲視覺元素的類別數。對於Lm來說，第m類佈局元素的位置被填充成1，其餘位置填充爲0。爲了更好的探索M個佈局的空間關係，我們提出了一個空間融合模塊。

如上圖所示，該模塊首先使用三層卷積網絡將{Lm}編碼，編碼後的特徵形狀爲C×H×W。之後將編碼後的{Lm}融合爲一個統一的佈局表達L’。具體來說，編碼後的{Lm}被切分成多個切塊{lm,j}，其形狀爲C×P×P，j是塊的序號，它的範圍是1到W×H/P/P。爲了得到L’的第j個切塊，我們對編碼後的{Lm}的第j個切塊進行融合。融合後的特徵被輸入到S層視覺transformer中。最終，一個三層卷積網絡被用於得到最終的佈局表徵ZL。

視覺分支的目的是編碼商品的視覺和空間信息。本發明首先根據規劃網絡的輸出，對商品圖像進行縮放和平移，從而得到重定位的商品圖像V。之後使用一個六層的卷積網絡來提取V的視覺表徵ZV。最終，視覺和佈局表徵被相加，來送入到ControlNet中，用於指導SD的生成過程。

五、總結&展望

【5.1 技術路線總結】

爲了解決廣告圖片AIGC中缺乏賣點信息、難以規模化和個性化以及不利於賣點展示等問題，京東廣告部門提出了以下技術方案：

首先，我們構建了一個關係感知擴散模型用於佈局海報生成，其中一個圖文關係感知模塊用於對齊視覺和文本之間的模態，一個幾何關係感知模塊用於綜合考慮元素之間上下文信息進而學習元素之間的幾何關係；

其次，我們將類別共性和個性化風格整合到擴散模型中。提出了類別生成器實現大規模背景生成，並使用個性化生成器從參考圖像學習個性化風格；

最後，我們提出了一種名爲P&R的圖文創意生成框架，包括兩個階段：規劃和渲染。在規劃階段，我們提出了一個PlanNet網絡來考慮產品的外觀特徵和文本的語義特徵，生成產品和其他視覺組件的佈局。在渲染階段，我們提出了一個RenderNet網絡來生成產品的背景，並考慮到所生成的佈局，在此過程中引入了一個空間融合模塊來融合不同視覺組件的佈局。

【5.2 未來技術展望】

儘管AIGC技術在圖像生成領域有較爲廣泛的應用，但仍存在諸多待解決的問題，未來我們將在以下方向開展技術探索：

可控性：由於對商品內容和外形的理解欠缺，業界生成的素材在可控性上存在劣勢，使其應用於廣告領域存在用戶投訴風險。

多模態：優化技術在處理和整合不同模態的內容上的能力，如如何將文字、圖像、視頻等元素有效融合，以創造一致性和內在邏輯性強的創意產品。

個性化：針對不同的目標用戶羣體，利用用戶數據和行爲分析，生成符合特定用戶口味和偏好的個性化廣告創意。

參考文獻

【1】 Relation-aware diffusion model for controllable poster layout generation. In Proceedings of the 32nd ACM International Conference on Information and Knowledge Management.

【2】Generate E-commerce Product Background by Integrating Category Commonality and Personalized Style. arXiv:2312.13309.

【3】Planning and Rendering: Towards End-to-End Product Poster Generation. arXiv:2312.08822.

京東廣告研發——AIGC在京東廣告創意的技術應用