【白話科普】10分鐘從零看懂AI繪畫原理

圖片

圖片

👉騰小云導讀

計算機如何生成和真實圖片相似的圖畫?模型是如何聽懂我們想要它生成什麼並給出對應結果?AIGC 熱潮中的 Stable Diffusion、NovelAI、Latent upscale、ControlNet、LoRA等等是什麼以及有什麼亮點?本篇不涉及任何一個數學公式、不涉及晦澀文獻解析,而是通過儘可能直白的解釋,讓沒有太多AIGC背景知識的人也可以快速理解 AI 畫畫背後的技術原理和發展歷史。歡迎閱讀和分享。

👉看目錄點收藏,隨時漲技術

1. 計算機如何生成圖畫?

2. 如何控制畫面內容?

2.1 如何理解文本?

2.2 如何控制生成的結果?

3. 爲什麼 AI 畫畫效果如此驚人?

4. ControlNet:讓我們控制擴散模型

5. 潛在上限

6. LoRA:大型語言模型的低秩自適應

7. mov2mov

AI 畫畫這個領域發展太快了,要知道去年的 AI 畫畫還是這個畫風:

圖片

現在的 AI 畫畫已經迅速進化到這個程度,我們舉個例子:

施法咒語長這樣——

film still, [film grain], large crowds, cyberpunk street, street level photograph, Chinese neon signs, time square advertisements, Dark atmospheric city by Jeremy Mann, Nathan Neven, James Gilleard, James Gurney, Makoto Shinkai, Antoine Blanchard, Carl Gustav Carus, Gregory Crewdson, Victor Enrich, Ian McQue, Canaletto, oil painting, brush hard, high quality, (brush stroke), matte painting, (very highly detailed)

生成結果長這樣——

圖片

關於近期各個效果驚人的模型,目前市面上已經有不少介紹文章,但大部分比較晦澀難懂。所以本文將盡可能通俗、直白地解釋 AI 繪畫的原理,歡迎各位閱讀。開發者朋友們在閱讀完本篇後,可以進一步閱讀本公衆號今日推送的次條文章,跟隨騰訊工程師的教程快速部署 Stable Diffusion Web UI,以及《給想玩AIGC的小白:教你從0搭一個圖文視頻生成網站(附插件&源碼)》一文,上手打造AI繪畫網站~

點下方關注並星標騰訊雲開發者,回覆**「AIGC」,一鍵領取0基礎AI繪畫**網站搭建教程、模型源件、工具插件、網站源碼和部署模型所需GPU服務器限量優惠券。

01、計算機如何生成圖畫

這章我們會提到幾個大家耳熟的概念:VAE、auto-encoder、GAN、Diffusion model 等等。閱讀完這章,你將能有更清晰認知。言歸正傳,AI 是怎麼學會畫圖的呢?

這就要涉及到兩個方面了。一個是能生成像真實圖片一樣的數據,一個是要聽得懂我們想要它生成什麼,並給出對應的結果。

首先來看看如何生成像真實圖片一樣的數據。這涉及到機器學習中的一個重要分支——生成模型(generative model)。對於生成圖像這個任務來說,通常一個生成模型需要先吞進大量的訓練數據(巨量的人類真實圖片),然後再學習這些數據的分佈,去模仿着生成一樣的結果。機器學習的核心無非就是這麼回事,難點終究是在如何設計模型、讓模型能更好的學到這樣的分佈上。

要講生成模型,有一個不得不提的技術就是 VAE(變分自編碼器,即 variational auto-encoder)。這其中的 auto-encoder,雖然叫 auto-encoder ,但是其實包含了編碼器 encoder 和解碼器 decoder,是一個對稱的網絡結構。對於一系列類似的數據例如圖片,雖然數據量很大,但是符合一定分佈規律的,信息量遠小於數據量。編碼器的目的就是把數據量爲 n 維的數據壓縮成更小的 k 維特徵。這 k 維特徵儘可能包含了原始數據裏的所有信息,只需要用對應的解碼器,就可以轉換回原來的數據。在訓練的過程中,數據通過編碼器壓縮,再通過解碼器解壓,然後最小化重建後數據和原始數據的差。訓練好了以後,就只有編碼器被用作特徵提取的工具,用於進一步的工作,例如圖像分類等應用中。故,稱爲 autoencoder。

圖片

這時候有人想到:既然 auto-encoder 可以從 k 維特徵向量恢復出一整張圖片,那給你一個隨機生成的 k 維特徵向量,是否也可以隨機生成什麼畫面呢?

然而實際結果顯示,autoencoder 雖然可以「記住」見過的照片,但是生成新圖像的能力很差。於是就有了 variational auto-encoder。VAE 令 k 維特徵中的每個值變成了符合高斯分佈的概率值,於是概率的改變可以讓圖片信息也有相應的平滑的改變,例如某個控制性別的維度,從 0 到 1 可以從一個男性的人臉開始,生成越來越女性化的人臉。

圖片

通過控制特徵變量來操控人臉生成結果。

VAE 其實還是有很多統計假設的,而且我們要判斷它生成的效果如何,也需要評估它生成的數據和原始數據的差距大不大。於是有人丟掉所有統計假設,並且把這個評估真(原始數據)假(生成數據)差異的判別器也放進來一起訓練、創造了 GAN,生成對抗神經網絡。

GAN 有兩個部分——生成器和判別器。生成器從一些隨機的 k 維向量出發,用採樣網絡合成大很多的 n 維數據,判別器就負責判斷合成出來的圖片是真是假。

一開始合成出來的都是意義不明的無規律結果,很簡單的判別器就可以分辨出來。生成器發現一些生成的方向,例如有成塊的色塊可以騙過判別器,它就會往這個方向合成更多的圖片。而判別器發現被騙過去了,就會找到更復雜的特徵來區分真假。如此反覆,直到生成器生成的結果,判別器已經判斷不出真假了,這就算是訓練好了。這樣訓練出來的生成器可以生成非常逼真的、即使是人眼也很難分辨的圖片,但是是不存在的。到了這時候,計算機已經能學會生成相當逼真的畫面了,例如下面這張人臉:

圖片

雖然 GAN 因爲引進了判別器,能生成非常逼真的圖片,但是它由於要訓練對抗網絡,實在是太不穩定了,面對吞噬了網絡巨量數據的超大規模網絡來說非常難以控制。這時候另一個更好的選擇出現了。也是現在的 AI 畫畫普遍使用的生成模型——Diffusion model(擴散模型)。

Diffusion model 生成圖片的過程看似很簡單,其實背後有一套非常複雜的數學理論支撐。複雜的理論先放一邊,我們先通俗地聊聊 Diffusion model 是怎麼運行的。

圖片

上圖是 Diffusion model 運行的兩個過程。右邊是一個正常的圖片,從右到左(Forward Diffusion)做的事情是在逐次疊加符合正態分佈的噪聲,最後得到一個看起來完全是噪聲的圖片,這就是所謂的“擴散(diffusion)”過程。你可以不嚴謹地想象成你有一塊牛排,你一遍一遍地往上撒椒鹽,一直到整塊牛排都被椒鹽覆蓋到看不清原來的紋路。由於每次加噪聲只和上一次的狀態有關,所以是一個馬爾科夫鏈模型,其中的轉換矩陣可以用神經網絡預測。

從左到右(Reverse Diffusion)做的事情是一步步去除噪聲、試圖還原圖片,這就是 diffusion model 生成數據的過程。

爲了達到去噪的目的,Diffusion model 的訓練過程實際上就是要從高斯噪聲中還原圖片,學習馬爾科夫鏈的概率分佈、逆轉圖片噪聲,使得最後還原出來的圖片符合訓練集的分佈。

這個去噪的網絡是如何設計的呢? 我們可以從疊加噪聲的過程中發現,原圖和加噪聲後的圖片尺寸是完全一樣的!於是很自然能想到用一個 U-net 結構(如下圖)來學習。

圖片

U-net 是一個類似 auto-encoder 的漏斗狀網絡,但在相同尺寸的 decoder 和 encoder 層增加了直接的連接,以便於圖片相同位置的信息可以更好通過網絡傳遞。在去噪任務中,U-net 的輸入是一張帶噪聲的圖片,需要輸出的是網絡預測的噪聲,groundtruth 是實際疊加上的噪聲。有了這樣一個網絡,就可以預測噪聲,從而去除掉它,還原圖片。因爲帶噪聲的圖片=噪聲+圖片。這也是爲什麼 Diffusion model 會比其他方法生成圖片更慢,因爲它是需要一輪一輪去噪的,而不是網絡可以一次性推理出結果。

以上就是 Diffusion model 生成圖片的原理,是不是很簡單呢!

02、如何控制畫面內容

上面解釋了計算機如何生成和真實圖片相似的圖畫。接下來解釋一下模型是如何理解我們想要它生成什麼,並給出對應的結果的。

2.1如何理解文本?

玩過 AI 畫畫的人應該都知道,AI 畫畫最主流的模式是在網頁輸入框中輸入一長串吟唱咒語。其中包括想要生成的內容主體、風格、藝術家、一些 buff 等,點擊生成後就可以得到一張非常 amazing 的結果(也可能很嚇人)。

文字控制模型生成畫面最早的做法,其實更像是讓生成模型生成一大堆符合常理的圖片之後,再配合一個分類器來得到符合條件的結果。在海量的數據面前這顯然是不夠用的。這個領域的開山之作——DALL·E 中最值得一提的是引入了 CLIP 來連接文字和圖片。

CLIP 模型其實就是用了巨量的文本+圖片數據對,把圖片和文本編碼後的特徵計算相似性矩陣,通過最大化對角線元素同時最小化非對角線元素,來優化兩個編碼器,讓最後的文本和圖片編碼器的語義可以強對應起來。

圖片

如果不能理解 CLIP 的原理,只要記住 CLIP 把文字和圖片對應起來了就可以了。它最大的成功之處不是用了多複雜的方法,而是用了巨量的數據。這樣帶來的好處是,很多現有的圖像模型可以很容易擴展成文本控制的圖像模型。原本需要大量人工標註的很多任務,現在只需要用集大成的 CLIP 就可以了,甚至還可能生成新數據,例如在 StyleCLIP 裏用文本交互控制生成的人臉:

圖片

最開始圖片的文字信息大多是以打標籤的形式通過大量人工標註來完成,有了CLIP 以後可以說是徹底打通了文字和圖片之間的橋樑,使得圖像相關的任務得到大大的擴展。說是 AI 畫畫的基石也不過分。有了這個 CLIP 模型,就可以計算任意圖片和文本之間的關聯度(即 CLIP-score),拿來指導模型的生成了。

這一步其實還分了幾個發展階段。最開始用的方法(Guided Diffusion)很naive:每次降噪後的圖片,都計算一次和輸入文本之間的 CLIP-score。原本的網絡只需要預測噪聲,現在網絡不但要預測噪聲還需要讓去噪後的結果圖儘可能和文本接近(也就是 CLIP-loss 儘量小)。這樣在不斷去噪的過程中,模型就會傾向於生成和文本相近的圖片。由於 CLIP 是在無噪聲的圖片上進行訓練的,這邊還有一個小細節是要對 CLIP 模型用加噪聲的圖片進行 finetune,這樣 CLIP 才能“看出”加噪聲後的牛排還是一塊牛排。

圖片

這樣做的好處是 CLIP 和 Diffusion model 都是現成的,只需要在生成過程中結合到一起。但缺點是本來就已經很慢的 Diffusion model 生成過程變得更慢了,而且這兩個模型是獨立、沒法聯合訓練,得到更進一步的提升。

於是就有了 Classifier-Free Diffusion Guidence,模型同時支持無條件和有條件的噪聲估計,在訓練 Diffusion model 時就加入文本的引導。這樣的模型當然也離不開很多很多的數據和很多很多的卡,除了網絡爬取,還有通過商業圖庫構造出巨量的圖片和文本對,最後做爲成品的 GLIDE 在生成效果上又達到了一次飛躍。雖然現在看有點簡陋,但是在當時來說已經很驚人了,恭喜大家,看到這裏已經追上了AI繪畫 21 年末的進度!

圖片

2.2如何控制生成的結果?

再衍生一下:如果你試過用 AI 給你畫頭像,這時候輸入條件就變成了圖片,那麼這樣要怎麼控制生成的結果呢? 這裏有幾種不同的方法,其實算是不同流派了。這裏我們將介紹3種:

第一種是直接提取圖片的 CLIP 特徵。 就像文字特徵一樣去引導圖片。這樣生成出來的圖片的內容比較相近,但結構不一定相同。例如下圖,模型生成了相似的內容但是畫風略微怪誕!

圖片

第二種特別好理解,現在主流的 AI 畫畫 webui 裏的 img2img 都是採用這個方法。 就是對輸入的原圖增加幾層噪聲,再以這個爲基礎進行常規的去噪。使用你希望的畫風相應的「咒語」,就可以生成和你原圖結構類似但畫風完全不同的圖片。

疊加的噪聲的強度越高,生成的圖片和原圖就差距越大,AI 畫畫的發揮空間就越大。

圖片

上圖是用這個方法生成的二次元形象,你把屏幕放遠點看這兩張圖的色塊是相近的。因爲右邊的圖片就是基於左邊疊加了厚厚的“椒鹽”來作爲基礎生成的,大致的色塊結構依然保留了,但模型也加上了自己的想象(通過文本引導)。

第三種方法是用對應的圖片去 finetune 生成網絡(Dreambooth),如下圖。給模型看很多很多小狗狗的圖,讓模型學到這隻小狗狗的樣子,這樣只需要再加上一些簡單的詞彙就可以生成各種各樣的小狗狗。

圖片

03、爲什麼 AI 畫畫效果如此驚人——幾個里程碑級模型

上面解釋了計算機如何生成和真實圖片相似的圖畫,以及模型是如何聽懂我們想要它生成什麼並給出對應結果的。到此,AI 畫畫的基本原理已經介紹得差不多了。我們可以發現,其實大部分都是「改進」的工作,但是效果是真的很驚人!在這期間,涉及到很多訓練網絡的 tricks。

現在最火熱的模型就是 Stable Diffusion,因爲開源且效果好,得到了衆多人喜愛。另外基於此,吸收了巨量二次元插畫的 NovelAI 也在二次元畫風上異軍突起,甚至在火熱程度上和 Stable Diffusion 相比,有過之而無不及。

講 Stable Diffusion 爲什麼這麼好,要先從 Latent Diffusion Model 談起。

讓我們來複習一下 diffusion model 的原理:

圖片

對一個帶噪聲的輸入圖片,訓練一個噪聲預測 U-net 網絡,讓它能預測噪聲,然後再從輸入中減去,得到去噪後的圖片。

一般的 diffusion model 是對原始圖片進行加噪去噪,噪聲圖片和原始圖片尺寸是一樣的。爲了節約訓練資源和生成時間,通常會用較小的圖片尺寸訓練,再接一個超分辨率模型。

圖片

而在 Latent Diffusion Model 中,diffusion 模塊被用於生成 VAE 的隱編碼。於是整個流程變成了這樣:

圖片

圖片先用訓練好的 VAE 的 encoder 得到一個維度小得多的圖片隱編碼(可以理解爲將圖片信息壓縮到一個尺度更小的空間中),diffusion model 不再直接處理原圖而是處理這些隱編碼,最後生成的新的隱編碼再用對應的 decoder 還原成圖片。相較於直接生成圖片像素,大幅度減少計算量與顯存。

第二個改進是增加了更多的訓練數據,並且還多了一個美學評分的過濾指標——只選好看的圖片。這就像是如果想要學會畫漂亮的畫,就要多看看大藝術家們的 masterpieces 一樣。

訓練集裏都是漂亮的圖片,例如這樣的:

圖片

或者這樣的:

圖片

模糊的圖、有水印的圖都被 pass 了,讓機器只從漂亮圖片裏學畫畫。

最後相比 Latent Diffusion Model 的改進,是用上文提到的 CLIP 來讓文本控制圖片的生成方向。

這裏也提一下二次元畫風的 NovelAI。其實在技術上沒有非常新的內容,就是拿巨量二次元圖片去 finetune 原始 Stable Diffusion 模型。主要一些改進是 CLIP 用了倒數第二層更貼近文本內容的特徵、把訓練數據擴展爲長寬比不限(爲了能容納下完整的人像)、增加了可支持文本輸入長度從而讓咒語變得更靈活也更復雜。筆者個人認爲效果好還是因爲吞了巨量的圖片,外加用戶的熱情讓這個模型迅速發揚光大,甚至還有《元素法典》、《參同真解》等衆多咒語書,更衍生出了衆多輔助繪製工具~

04、ControlNet:讓我們控制擴散模型

由於 diffusion 超強的學習能力,理論上網絡是可以還原出訓練集裏的每一張數據的。所以只要數據足夠多、足夠好,模型就可以生成非常好的圖片。和人學畫畫不同,如果人的難點是畫不出來,那麼模型就不知道該往哪個方向畫。所以控制模型生成其實就是想辦法讓模型聽話,按照你的指示生成結果。

在上文中,簡單展示過 AI 畫畫中 img2img 的效果。原理是把左圖加一些高斯噪聲(撒撒黑胡椒)然後作爲底圖來基於它生成。所以基本上色塊分佈是接近的,但是很難控制的更細節。

圖片

今年引起爆炸性話題的 ControlNet,則是可以通過任何的條件控制網絡生成。原來模型只能得到一個文本的生成引導,現在它可以聽懂任何基於圖片提取的信號了,只要你拿一組成對的圖片去訓練!

這個方式出來以後極大地擴展了可玩性,而且官方已經提供了非常多常用的訓練好的控制網絡。你可以用 depth 控制結構生成各種場景:

圖片

可以直接拿線稿上色:

圖片

可以隨便塗幾筆就生成複雜的圖片:

圖片

還可以通過姿態檢測生成很好的多人結果:

圖片

圖片

只要你想,你甚至可以自己訓練。比如說就有人訓練了手腳的控制器,解決了 ai 不會畫手的問題:

圖片

圖片

這些控制結果還可以一起用,例如結合人體姿態和深度圖:

圖片

甚至不需要來自同一張圖:

圖片

效果是真的非常驚豔,但原理上其實實現得比較簡單。爲了給原始模型增加額外的條件輸入,把整個網絡複製了一份,固定原始網絡來保證輸出的穩定性。原始的網絡輸入依然是噪聲,而複製的 control 網絡的輸入是控制條件(深度、姿態等)。把兩個輸入和輸出加起來,用成對的數據集(輸入是深度圖,輸出是原圖這種感覺)去訓練控制網絡,達到控制條件能夠很好控制生成結果的程度,就訓練好啦!並且這個訓練本質上還是在做 finetune,所以耗時也不算很大,和直接 finetune 網絡差不多。

圖片

05、潛在上限

ControlNet 解決了多人的姿態控制以後,模型已經可以很好地生成非常合理的結構了。這時候就會面臨另一個問題,模型的細節要如何生成得更好?

想要得到高質量的圖片,最直接的方式就是調大輸出的分辨率。分辨率越大,細節畫得就越好(尤其是人臉)。但是實際上高分辨率的結果非常容易崩掉,例如出現兩個身體時因爲訓練模型裏如此高分辨率的圖片較少。並且分辨率高了以後計算成本飆升,會算得很慢。

圖片

於是一種常見的做法是先生成較小分辨率的結果,然後對圖片做超分(就是把圖片放大還要保證清晰度),流程如下。

圖片

這麼做可以保證結構的合理性,而且速度快非常多。但是超分模型對細節的補完不一定能做得很自然,而且容易有過於銳化的結果。除了傳統超分模型,還有同樣基於 diffusion 模型的超分算法。由於 diffusion 相當於重繪了,所以可以得到更好的細節效果。但是圖片尺寸非常大,跑起來更慢了。

另一個現在被廣泛使用的方法是 latent upscale(webui自帶的Hires.fix即可實現),流程如下。

圖片

之前寫到過,stable diffusion 的結構優勢之一是它是由壓縮圖片信息的 VAE 和對 latent 進行去噪的 U-net 網絡組成,所以它天然適合基於 latent 的超分方法。

Latent upscale 就是在圖片經過 VAE 壓縮後,直接對 latent 進行超分,然後再餵給 VAE,就能得到 x2 的圖片了。如果和 stable diffusion 結合,那就是 SD 的U-net 輸出 latent 以後,先過一遍 latent upscale,再餵給 VAE 解碼。

當然,對 latent 做 upscale 也有基於 diffusion 的方法並且效果應該是最好的。當然於此而來的代價就是耗時也增加了。對圖片做普通超分和對 latent 做基於 diffusion 的超分結果對比如下。

圖片

個人認爲效果好主要是因爲 diffusion,基於圖片做 diffusion 超分應該也可以達到這個質量,只不過耗時更久。放一張 latent upscale + controlnet 得到的高清美圖。

圖片

06、LoRA:大型語言模型的低秩自適應

除了 ControlNet,近期 AI 畫畫領域另一個不得不提的就是 LoRA,前面的水墨畫美少女就是融合 LoRA 模型生成的。

要講 LoRA 就要先解釋模型的 finetune(微調)。模型的 finetune 指的是什麼呢?其實就是當你有一個現成的,很厲害的大模型(pre-trained model),你想要讓它學一些新知識,或者完成一些更面向具體應用的子任務,或者只是爲了適配你的數據分佈時,就需要拿你的小樣本數據去對模型進行重新訓練。這個訓練不能訓太久,否則模型就會過擬合到你的小樣本數據上,喪失掉大模型的泛用性。

Pre-train + finetune 是機器學習中非常常見的組合,在應用上有很大價值。但是其中有一個問題就是“遺忘”:模型會在 finetune 過程中不斷忘記之前已經記住的內容。

常見的解決方案有兩個:

  • replay:就是也把原始知識過一遍;
  • 正則化:通過正則項控制模型參數和原始參數儘量一致,不要變太多;還有一個是Parameter isolation(參數孤立化),這個是通過獨立出一個模塊來做 finetune,原有的模型不再更新權重。

參數孤立化是最有效的一種方式,具體有好幾種實現方式。例如 Adaptor 就是在原模型中增加一個子模塊、固定原模型,只訓練子模塊。是不是聽起來很熟悉?是的,ControlNet 就是一種類似 Adaptor 的方法,同理還有 T2I-Adapter,也是通過增加子模塊來引入新的條件輸入控制。

圖片

LoRA 則是另一種參數孤立化策略,也在 AI 畫畫找到了用武之地。它利用低秩矩陣來替代原來全量參數進行訓練,從而提升 finetune 的效率。

圖片

可以和之前最常用的 finetune 方法 DreamBooth 對比一下。

圖片

對於 DreamBooth 來說,它是直接更新整個大模型的權重來讓模型學習新概念的。雖然可以通過正則項避免遺忘,但是 finetune 後的模型依然非常大(和原模型一樣大)。

圖片

而使用 LoRA 後,LoRA 影響的只是其中一小部分(通過低秩矩陣疊加到大模型網絡上的)權重,所以 finetune 起來更快,更不喫資源,而且得到的 finetune 模型非常小,使用起來方便很多。

由於 LoRA 在結構上是獨立於大模型的,所以它有一個額外的好處是替換大模型可以得到不同的、令人驚喜的結果。例如用水墨畫訓練的一個很好看的 LoRA 模型“墨心”,結合國風美女的基礎大模型,可以生成穿着中式服裝的水墨畫美少女:

圖片

在網友寫的《AI 形象生成指南》中,提出的方法就是利用可以生成亞裔女性的真人大模型,疊加從二次元大模型 finetune 出來的二次元女性形象LoRA,來生成帶有角色特徵的真人 coser 照片:

圖片

而且 LoRA 也非常方便進行模型融合。例如說增加另一個韓國偶像 LoRA,得到的結果就融合了兩者的特色:

圖片

在使用上來說,LoRA 很像是模型的“插件”,可以在基礎模型上疊加想要的效果,或者把各種想要的效果加權組合疊在一起,可以產生很多令人驚喜的結果。

當然 LoRA 由於是 finetune 模型,所以畫風會趨於單一,是好是壞見仁見智,在需要固定畫風 orID 的時候能發揮令人驚喜的用處。但是,使用現實中的真人照片訓練 LoRA 並公開模型非常缺德,請各位讀者不要這麼做。

07、mov2mov

講完 LoRA 和 ControlNet 了再順便提一嘴它們的結合產物—— mov2mov,其實原理上就是組合了之前的各種技術。例如 img2img 來保證背景和主體的連續性,controlnet 提供更多控制條件來增強對應性,還需要 LoRA 來保證輸出的結果能儘量一致。

除此之外,傳統的視頻防抖算法如窗口平滑、插幀,這些 buff 全部疊加上去,纔可能得到一個依然很抖的效果。但是其中最重要的是,你需要一個高質量的驅動視頻。感興趣的可以自行搜索瞭解。幾乎算是重繪 MMD 的情況下(簡單中的簡單模式了)視頻效果依然不算理想,想要有更好的視頻生成效果還是有一段距離的。

以上是本次分享全部內容,歡迎大家在評論區分享交流。如果覺得內容有用,歡迎轉發~閱讀完本篇後,推薦各位進一步閱讀本公衆號今日推送的次條,跟隨騰訊工程師的教程快速上手部署 Stable Diffusion Web UI,以及《給想玩AIGC的小白:教你從0搭一個圖文視頻生成網站(附插件&源碼)》一文,上手建設你的 AI 繪畫網站~

點下方關注並星標騰訊雲開發者,回覆**「AIGC」,一鍵領取0基礎AI繪畫**網站搭建教程、模型源件、工具插件、網站源碼和部署模型所需GPU服務器限量優惠券。

-End-

原創作者|周藝超

技術責編|周藝超

圖片

程序員用現有 AIGC 代表產品(如GPT-4等)開放的 API 接口,可以做哪些自研工具?有哪些新奇/實用的使用方式?

歡迎在公衆號評論區聊一聊你的創想。在4月17日前將你的評論記錄截圖,發送給騰訊雲開發者公衆號後臺,可領取騰訊雲「開發者春季限定紅包封面」一個,數量有限先到先得😄。我們還將選取點贊量最高的1位朋友,送出騰訊QQ公仔1個。4月17日中午12點開獎。快邀請你的開發者朋友們一起來參與吧!

點下方關注並星標騰訊雲開發者

公衆號回覆 「AIGC」

一鍵領取0基礎AI繪畫網站搭建教程、模型源件、工具插件、網站源碼和部署模型所需GPU服務器限量優惠券

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章