Stable Diffusion工作原理（How does Stable Diffusion work?中文版）

jovi

0 137 小于1分钟

翻译自How does Stable Diffusion work?

1. SD能做什么

最基本的功能是：文生图（text-to-image）

SD以文字提示为输入，输出与提示相配的图像

2. 扩散模型

SD属于扩散模型。扩散模型是一类生成式模型，它们被设计用于生成与训练数据类似的新数据。

扩散模型为什么叫“扩散”模型呢？因为模型生成数据的过程类似物理上的扩散。下面以训练生成🐱🐕图片的扩散模型为例，介绍训练过程。

2.1 正向扩散

正向扩散（Forward Diffusion）是🐱/🐕图片转为无特点的噪声图的过程，从噪声图是看不出最初是🐱还是🐕的。
像一滴墨掉进一杯水，不一会儿就会慢慢扩散，将自己随机分布到水中，就难以辨认出最初墨滴在边缘、中心还是别的哪里了。

一张🐱图经过正向扩散，变成随机噪声

2.2 逆向扩散

而逆向扩散（Reverse Diffusion）则从无意义的噪声图中复原出🐱或🐕，是正向扩散的“倒放”。
技术上，每次扩散包括两步：漂移（drift）和随机运动（random motion）。逆向扩散的漂移要么朝着复原出🐱的方向要么朝着复原出🐕的方向，而不会是一个中间值。

3. 逆向扩散怎么实现

逆向扩散这个idea无疑是聪明优雅的。但价值千金的难题是：它怎么实现？

3.1 训练noise predictor

为了将扩散过程逆过来，我们需要知道一张图被添加了多少噪声。这可以通过训练一个模型预测图上的噪声程度来实现，noise predictor在SD中是由一个U-Net模型（一种全卷积神经网络）实现的。训练过程分4步：

取一张训练图，比如一张🐱图
生成一张噪声图
将噪声图以不同强度叠加到训练图上来破坏训练图像。
教噪声预测器告诉我们添加了多少噪声
这是通过调整强度并显示正确数值来实现的。

每一步中叠加更多噪声，让noise predictor估计每一步图像中的噪声

经过训练，我们得到了能预测图中添加噪声量多少的noise predictor。

3.2 逆向扩散步骤

有了noise predictor，我们用它实现逆向扩散。

生成一个完全随机的图像，并要求noise predictor告诉我们噪声
从原始图像中减去预测的噪声

重复1.和2.几次，就获得🐱或🐕的图像。
我们暂时还不能控制复原出的图片是🐱还是🐕，控制输出可以通过加条件来实现。

4. Stable Diffusion

现在有一个坏消息。刚刚所说的不是SD的工作方式。扩散过程是在图像空间进行的。这在计算上慢到难以接受，而且在任何单个的GPU上都跑不了。512*512的RGB图在786,432维的空间。我们需要为一张图指定的值太太太多。
Google的Imagen和Open AI的DALL-E是像素级的扩散模型，它们有一些加速的技巧但还不够。
而Stable Diffusion正是为解决图像扩散模型的速度难题而设计的。

4.1 表征（Latent）扩散模型

Stable Diffusion是一个表征扩散模型。它首先把图像压缩到表征空间，以避免在高维的图像空间进行操作。这就快多了。

4.2 图像表征和复原

图像到表征和表征到图像的转换是通过VAE（Variational Autoencoder）来实现的。
VAE包括encoder和decoder两部分。
encoder将图片压缩为较低维度的表征，decoder从表征中复原图片。

VAE实现图像与表征的相互转换

为什么使用表征是可行的
VAE为何可以将图像压缩为表征而不会丢失信息？这是因为是自然图像不是随机的。他们的规律性很高：比如脸遵循眼睛，鼻子，脸颊和嘴巴之间的特定空间关系。狗有四条腿，有特殊的形态。
换句话说，图像的高维度是人为的，有很多冗余信息。自然图像可以轻松地压缩到较小的潜在空间中，而不会丢失任何信息。这称为机器学习中的manifold hypothesis。

4.3 SD的训练

Stable Diffusion中对512*512的RGB图像的表征是4*64*64的。得到表征后，之前说的扩散过程都在表征空间进行。所以训练时，我们生成的噪声不是噪声图而是一个表征空间的随机tensor，这个tersor再和图像的表征进行不同程度的叠加，以训练noise predictor并进行逆向扩散（逆向扩散sampling和samplers: 详见link）。逆向扩散步骤如下：

生成一个随机矩阵作为图像表征。
noise predictor估计这个矩阵的噪声，从图像表征中减去估计的噪声。
（重复2.直到特定的采样步骤）
VAE的解码器将图像表征转换为最终图像

4.4 图像分辨率

图像分辨率在图像表征的shape上有体现，这也是生成大图会耗费更多显存和时间的原因。表征的大小是图片大小的1/48（768*512的RGB图像的表征是4*96*64的）。
StableDiffusion v1是在512*512的图像上微调的，因此生成比512*512的更大的图会出现重复的物体（比如，两个脑袋（with solution）)）。

生成大图
如果一定要生成大图，需要至少保证宽/高中的一个是512，再用AI upscaler提高分辨率。

4.5 VAE file

VAE file用于Stable Diffusion v1中，以改善眼睛和面部。它们是经过进一步微调的VAE decoder，该模型可以绘制更精细的细节。
（之前提到的假说并非完全正确。将图像压入潜在空间确实会丢失信息，因为原始VAE没有恢复细节。取而代之的是，VAE file中的decoder负责绘制精美的细节。）

5. 条件控制（Conditioning）

上述对Stable Diffusion的理解还不完整。怎么通过文本提示来控制出图呢？
这就需要Conditioning，其目的是引导noise predictor，以便预测的噪声从图像中减掉后能得出我们想要的东西。

5.1 文本条件（text-to-image）

下图是文本提示（text prompt）被处理并喂给noise predictor的过程。Tokenizer先把提示中的每个词切分出来作为token。每个token会被转化为一个768维的embedding。随后embedding被送入

将文本提示特征化，并送入noise predictor以控制文本生成

jovi

0 137 小于1分钟

Stable Diffusion工作原理（How does Stable Diffusion work?中文版）

1. SD能做什么

2. 扩散模型

2.1 正向扩散

2.2 逆向扩散

3. 逆向扩散怎么实现

3.1 训练noise predictor

3.2 逆向扩散步骤

4. Stable Diffusion

4.1 表征（Latent）扩散模型

4.2 图像表征和复原

4.3 SD的训练

4.4 图像分辨率

4.5 VAE file

5. 条件控制（Conditioning）

5.1 文本条件（text-to-image）

jovi

发表回复取消回复

AI 设计，关注 AI 知识共创

新手必看！Stable Diffusion 模型推荐，强烈建议收藏！

【点开即用】AI绘画 Stable Diffusion 云端使用指南

局部重绘｜Midjourney VS Ps beta

如何用Midjourney轻松获取独立元素

Midjourney做出参考图风格的绘画教程

1. SD能做什么

2. 扩散模型

2.1 正向扩散

2.2 逆向扩散

3. 逆向扩散怎么实现

3.1 训练noise predictor

3.2 逆向扩散步骤

4. Stable Diffusion

4.1 表征（Latent）扩散模型

4.2 图像表征和复原

4.3 SD的训练

4.4 图像分辨率

4.5 VAE file

5. 条件控制（Conditioning）

5.1 文本条件（text-to-image）

jovi

我生成的图为啥糊的一批？（插件篇）

年营收 1 亿美元的 Midjourney：仅 11 名全职员工，其中 4 名本科在读

发表回复 取消回复

相似文章

AI生成图片著作权侵权第一案判决书

“大模型本质就是两个文件！”特斯拉前AI总监爆火LLM科普，时长1小时，面向普通大众

OpenAI Qstar项目解密进度95%？合成数据让GPT4后时代模型突破现实世界限制！

AI进化的新纪元：AI Agents时代（9/20）——生产力Agent案例盘点

AI 设计，关注 AI 知识共创

新手必看！Stable Diffusion 模型推荐，强烈建议收藏！

【点开即用】AI绘画 Stable Diffusion 云端使用指南

局部重绘｜Midjourney VS Ps beta

如何用Midjourney轻松获取独立元素

Midjourney做出参考图风格的绘画教程

发表回复取消回复