VAE解读-创新互联

VAE

VAE(Variational AutoEncoder)变分自编码器
到底什么是生成模型
VAE核心
参考文献

创新互联公司是一家专注于成都做网站、成都网站建设与策划设计,海原网站建设哪家好?创新互联公司做网站,专注于网站建设10多年,网设计领域的专业建站公司;建站业务涵盖:海原等地区。海原做网站价格咨询:028-86922220VAE(Variational AutoEncoder)变分自编码器

要讲扩散模型，不得不提VAE。VAE和GAN一样，都是从隐变量 Z Z Z生成目标数据 X X X。
它们假设隐变量服从某种常见的概率分布（比如正态分布），然后希望训练一个模型 X = g ( Z ) X=g(Z) X=g(Z)，这个模型将原来的概率分布映射到训练集的概率分布，也就是分布的变换。注意，VAE和GAN的本质都是概率分布的映射。
tip:关于隐变量解释：
- 在统计里，隐变量是不可观测的随机变量，我们通常通过可观测变量的样本对隐变量作出推断。
- 举例1：
  - 高斯混合模型中，GMM中隐变量指的是每个observation对应的高斯component，由于产生过程是不可观测的（或者说隐藏的），故得名隐变量。我们可以通过收集样本对隐变量的后验概率进行推断，然后用估计的后验概率来对数据进行聚类。
- 举例2：
  - 一个人拿着n个袋子，里面有m种颜色不同的球。现在这个人随机地抓球，规则如下：1. 先随机挑一个袋子2. 从这个袋子中随机挑一个球如果你站在这个人旁边，你目睹了整个过程：这个人选了哪个袋子、抓出来的球是什么颜色的。然后你把每次选择的袋子和抓出来的球的颜色都记录下来（样本观察值），那个人不停地抓，你不停地记。最终你就可以通过你的记录，推测出每个袋子里每种球颜色的大致比例。并且你记录的越多，推测的就越准（中心极限定理）。然而，抓球的人觉得这样很不爽，于是决定不告诉你他从哪个袋子里抓的球，只告诉你抓出来的球的颜色是什么。这时候，“选袋子”的过程由于你看不见，其实就相当于是一个隐变量。隐变量在很多地方都是能够出现的。现在我们经常说的隐变量主要强调它的“latent”。所以广义上的隐变量主要就是指“不能被直接观察到，但是对系统的状态和能观察到的输出存在影响的一种东西”。所以说，很多人在研究隐变量。以及设计出各种更优(比如如可解释、可计算距离、可定义运算等性质)的隐变量的表示。
换句话说，大致意思就是先用某种分布随机生成一组隐变量，然后这个隐变量会经过一个生成器生成一组目标数据。VAE和GAN都希望这组数据的分布 X ^ \hat{X} X^和目标分布 X X X尽量接近。
但是这种方法本质上是难以实现，因为“尽量接近”并没有一个确定的关于 X ^ \hat{X} X^和 X X X的相似度的评判标准。换句话说，这种方法的难度就在于，必须去猜测“它们的分布相等吗”这个问题，而缺少真正interpretable的价值判断。
- `为什么用KL散度不行？
- KL散度的公式: D K L ( A ∣ ∣ B ) = ∑ i P A ( x i ) log ⁡ ( P A ( X i ) P B ( x i ) ) = ∑ i [ P A ( x i ) log ⁡ ( P A ( x i ) ) − P A ( x i ) log ⁡ ( P B ( x i ) ) ] D_{KL}(A||B)=\sum_iP_A(x_i)\log(\frac{P_A(X_i)}{P_B(x_i)})=\sum_i[P_A(x_i)\log(P_A(x_i))-P_A(x_i)\log(P_B(x_i))] DKL(A∣∣B)=i∑PA(xi)log(PB(xi)PA(Xi))=i∑[PA(xi)log(PA(xi))−PA(xi)log(PB(xi))]
- 从公式可以一目了然，因为KL散度是针对两个已知的概率分布求相似度的，而 X ^ \hat{X} X^和 X X X的概率分布目前都是未知。
GAN的做法就是直接把这个度量标准也学过来就行，相当生猛。但是这样做的问题在于依然不interpretable，非常不优雅。VAE的做法就优雅很多了，我们先来看VAE是怎么做的，理解了VAE以后再去理解Diffussion就很自然了。

到底什么是生成模型

拿到一批sample（称为 X X X），想要用 X X X学到它的分布 P ( X ) P(X) P(X) ，这样就能同时学到没被sample到的数据了，用这个分布 P ( X ) P(X) P(X)就能随意采样，然后获得生成结果。但是这个分布很难实现。所以绕个弯，整一个隐变量 Z Z Z，这东西可以生成 Z Z Z。不妨假设 Z Z Z满足正态分布，那就可以先从正态分布里面随便取一个 Z Z Z，，然后用 Z Z Z和 X X X的关系算出 P ( X ) P(X) P(X)，公式： P ( X ) = ∑ Z P ( X ∣ Z ) P ( Z ) P(X)=\sum_ZP(X|Z)P(Z) P(X)=Z∑P(X∣Z)P(Z)
公式中 X X X是结果， Z Z Z是因，所以 P ( X ∣ Z ) P(X|Z) P(X∣Z)为似然估计， P ( Z ) P(Z) P(Z)是先验
换句话说，就是不直接求 P ( X ) P(X) P(X)，而是造一个别的变量（好听的名字叫“隐变量”），获得这个隐变量和 X X X的关系，也能得到 P ( X ) P(X) P(X)，这样也可以得到一个很棒的生成模型。
接下来就是结合自编码器来实现重构，保证有效信息没有丢失，再加上一系列的推导，最后把模型实现。

VAE核心

在整个 VAE 模型中，我们并没有去使用 P ( Z ) P(Z) P(Z)（先验分布,隐变量空间的分布）是正态分布的假设，我们用的是假设 P ( Z ∣ X ) P(Z|X) P(Z∣X)（后验分布）是正态分布。
具体来说，给定一个真实样本 X k X_k Xk，我们假设存在一个专属于 X k X_k Xk的分布 P ( Z ∣ X k ) P(Z|X_k) P(Z∣Xk)（后验分布），并进一步假设这个分布是（独立的、多元的）正态分布。
为什么要强调“专属”呢？
- 因为我们后面要训练一个生成器 X = g ( Z ) X=g(Z) X=g(Z)，希望能够把从分布 P ( Z ∣ X k ) P(Z|X_k) P(Z∣Xk) 采样出来的一个 Z k Z_k Zk 还原为 X k X_k Xk。
- 如果假设 P ( Z ) P(Z) P(Z)是正态分布，然后从 p ( Z ) p(Z) p(Z)中采样一个 Z Z Z，那么我们怎么知道这个 Z Z Z对应于哪个真实的 X X X呢？
- 现在 p ( Z ∣ X k ) p(Z|X_k) p(Z∣Xk)专属于 X k X_k Xk，我们有理由说从这个分布采样出来的 Z Z Z应该要还原到 X k X_k Xk中去。
这时，每一个 X k X_k Xk都配上了一个专属的正态分布，，才方便后面的生成器做还原。但这样有多少个 X X X就有多少个正态分布了（ k k k个 X X Xsample，就有 k k k个正态分布 P ( X k ∣ Z ) P(X_k|Z) P(Xk∣Z)）。
我们知道正态分布有两组参数：均值 μ μ μ和方差 σ 2 σ_2 σ2（多元的话，它们都是向量），那怎么找出专属于 X k X_k Xk的正态分布 P ( Z ∣ X k ) P(Z|X_k) P(Z∣Xk)的均值和方差呢？好像并没有什么直接的思路。那好吧，那我就用神经网络来拟合出来吧！这就是神经网络时代的哲学：难算的我们都用神经网络来拟合。
- 这里的拟合与GAN不同，本质上是在学习 X k X_k Xk和 Z Z Z的关系，而非学习比较 X X X与 X ^ \hat{X} X^的标准
于是我们构建两个神经网络 μ k = f 1 ( X k ) , log ⁡ σ k 2 = f 2 ( X k ) μ_k=f_1(X_k),\logσ^2_k=f_2(X_k) μk=f1(Xk),logσk2=f2(Xk)来算它们了，。我们选择拟合 log ⁡ σ k 2 \logσ^2_k logσk2而不是直接拟合 σ k 2 σ^2_k σk2，是因为 σ k 2 σ^2_k σk2总是非负的，需要加激活函数处理，而拟合 log ⁡ σ k 2 \logσ^2_k logσk2不需要加激活函数，因为它可正可负。
到这里，就能知道专属于 X k X_k Xk的均值和方差了，也就知道它的正态分布长什么样了，然后从这个专属分布中采样一个 Z k Z_k Zk出来，然后经过一个生成器得到 X ^ k = g ( Z k ) \hat{X}_k=g(Z_k) X^k=g(Zk)，现在我们可以放心地最小化 D ( X ^ k , X k ) 2 D(\hat{X}_k,X_k)^2 D(X^k,Xk)2，因为 Z k Z_k Zk是从专属 X k X_k Xk的分布中采样出来的，这个生成器应该要把开始的 X k X_k Xk还原回来。
图中均值方差计算模块就是两个神经网络： μ k = f 1 ( X k ) , log ⁡ σ k 2 = f 2 ( X k ) μ_k=f_1(X_k),\logσ^2_k=f_2(X_k) μk=f1(Xk),logσk2=f2(Xk)
均值和方差的计算本质上都是encoder，VAE其实利用了两个encoder去分别学习均值和方差
生成器是通过最小化 D ( X ^ k , X k ) 2 D(\hat{X}_k,X_k)^2 D(X^k,Xk)2来训练的，最终会使得 X k X_k Xk和 X ^ k \hat{X}_k X^k趋向一致
因为 Z k Z_k Zk是通过重新采样过的，，而不是直接通过均值和方差encoder算出来的，所以这个生成器的输入 Z Z Z是有噪声的，也就是重构过程受噪声影响
显然噪声会增加重构的难度，不过好在这个噪声强度（也就是方差决定的）通过一个神经网络算出来的，所以最终模型为了重构得更好(也就是最终会使得 X k X_k Xk和 X ^ k \hat{X}_k X^k趋向一致)，肯定会想尽办法让方差为 0 0 0。而方差为 0 0 0的话，也就没有随机性了，所以不管怎么采样其实都只是得到确定的结果（也就是均值，根据方差公式就可以得出每个采样都是均值），只拟合一个当然比拟合多个要容易，而均值是通过另外一个神经网络算出来的，模型则会慢慢退化成普通的AutoEncoder，噪声不再起作用，VAE就变成AE了
VAE就是让所有的 P ( Z ∣ X ) P(Z|X) P(Z∣X)趋于标准的正态分布 N ( 0 , I ) N(0,I) N(0,I)，这样就防止了噪声为零，同时保证了模型具有生成能力。
怎么理解“保证了生成能力”呢？
- 根据定义： P ( Z ) = ∑ X P ( Z ∣ X ) P ( X ) = ∑ X N ( 0 , I ) P ( X ) = N ( 0 , I ) ∑ X P ( X ) = N ( 0 , I ) P(Z)=\sum_X P(Z|X)P(X)=\sum_X N(0,I)P(X)=N(0,I)\sum_X P(X)=N(0,I) P(Z)=X∑P(Z∣X)P(X)=X∑N(0,I)P(X)=N(0,I)X∑P(X)=N(0,I)
- 其中 ∑ X P ( X ) = 1 \sum_X P(X)=1 ∑XP(X)=1， P ( Z ∣ X ) ∼ N ( 0 , I ) P(Z|X)\sim N(0,I) P(Z∣X)∼N(0,I)
这样我们的先验假设得证： P ( Z ) P(Z) P(Z)是标准的正态分布。然后就可以从 N ( 0 , I ) N(0,I) N(0,I)中采样来生成图像了
那怎么让所有的 p ( Z ∣ X ) p(Z|X) p(Z∣X)都向 N ( 0 , I ) N(0,I) N(0,I)看齐呢？
- 最直接的方法应该是在重构误差的基础上中加入额外的loss： L μ = ∥ f 1 ( X k ) ∥ 2 L_μ=∥f_1(X_k)∥^2 Lμ=∥f1(Xk)∥2 L σ 2 = ∥ f 2 ( X k ) ∥ 2 L_{σ^2}=∥f2_(X_k)∥^2 Lσ2=∥f2(Xk)∥2
- 因为它们分别代表了均值 μ k μ_k μk和方差的对数 log ⁡ σ k 2 \log σ_k^2 logσk2，达到 N ( 0 , I ) N(0,I) N(0,I)就是希望二者尽量接近于 0 0 0。
不过，这又会面临着这两个损失的比例要怎么选取的问题，选取得不好，生成的图像会比较模糊。所以，原论文直接算了一般（各分量独立的）正态分布与标准正态分布的KL散度 K L ( N ( μ , σ 2 ) ∥ N ( 0 , I ) ) KL(N(μ,σ^2)∥N(0,I)) KL(N(μ,σ2)∥N(0,I))作为这个额外的loss，计算结果为:
KaTeX parse error: No such environment: equation at position 7: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ \begin{aligned…
下面分别里面的三项：
- 第一项： − ∑ i d P ( x ) log ⁡ σ 2 -\sum_i^d P(x)\log \sigma^2 −∑idP(x)logσ2实际上就是 log ⁡ μ 2 \log \mu^2 logμ2乘以概率密度求和为1，所以就是 − l o g σ 2 -log \sigma^2 −logσ2
- 第二项：正态分布的二阶矩，正态分布的二阶矩为 μ 2 + σ 2 μ^2+σ^2 μ2+σ2
- 第三项：-方差除以方差，所以等与 − 1 -1 −1
- 所以 K L ( N ( μ , σ 2 ) ∥ N ( 0 , 1 ) ) = 1 2 ( − log ⁡ σ 2 + μ 2 + σ 2 − 1 ) KL(N(μ,σ^2)∥N(0,1))=\frac{1}{2} (-\log \sigma^2 + \mu^2 + \sigma^2-1) KL(N(μ,σ2)∥N(0,1))=21(−logσ2+μ2+σ2−1)
即 L o s s μ , σ 2 = 1 2 ∑ i = 1 d ( − log ⁡ σ i 2 + μ i 2 + σ i 2 − 1 ) Loss_{μ,σ^2} = \frac{1}{2} \sum_{i=1}^{d}(-\log \sigma_i^2 + \mu_i^2 + \sigma_i^2-1) Lossμ,σ2=21i=1∑d(−logσi2+μi2+σi2−1)
这里的 d d d是隐变量 Z Z Z的维度，而 μ i μ_i μi和 σ i 2 σ^2_i σi2分别代表一般正态分布的均值向量和方差向量的第 i i i个分量。直接用这个式子做补充 l o s s loss loss，就不用考虑均值损失和方差损失的相对比例问题了。显然，这个 l o s s loss loss也可以分两部分理解：
L o s s μ , σ 2 = L μ + L σ 2 Loss_{μ,σ^2}= L_\mu +L_\sigma^2 Lossμ,σ2=Lμ+Lσ2
L μ = 1 2 ∑ i = 1 d = 1 2 ∥ f 1 ( X ) ∥ 2 L_\mu=\frac{1}{2}\sum_{i=1}^{d}=\frac{1}{2}∥f_1(X)∥^2 Lμ=21i=1∑d=21∥f1(X)∥2
L σ 2 = 1 2 ∑ i = 1 d ( − log ⁡ σ i 2 + σ i 2 − 1 ) L_\sigma^2=\frac{1}{2}\sum_{i=1}^{d}\left(-\log \sigma_i^2 + \sigma_i^2-1\right) Lσ2=21i=1∑d(−logσi2+σi2−1)
VAE的本质是什么？
在VAE中，它的Encoder有两个，一个用来计算均值，一个用来计算方差，这已经让人意外了：Encoder不是用来Encode的，是用来算均值和方差的，还是用神经网络计算的
它本质上就是在我们常规的自编码器的基础上，对encoder的结果（在VAE中对应着计算均值的网络）加上了“高斯噪声”（正态分布的随机采样），使得结果decoder能够对噪声有鲁棒性；而那个额外的KL loss（目的是让均值为0，方差为1），事实上就是相当于对encoder的一个正则项，希望encoder出来的东西均有零均值，为了防止噪声消失，将所有$P(Z|X)$趋近于标准正态分布，将encoder的均值尽量降为 0，而将方差尽量保持住。这样一来，当decoder训练的不好的时候，整个体系就可以降低噪声；当decoder逐渐拟合的时候，就会增加噪声。
那另外一个encoder（对应着计算方差的网络）的作用呢？它是用来动态调节噪声的强度的。直觉上来想，当decoder还没有训练好时（重构误差远大于KL loss），就会适当降低噪声（KL loss增加），使得拟合起来容易一些（重构误差开始下降）；反之，如果decoder训练得还不错时（重构误差小于KL loss），这时候噪声就会增加（KL loss减少），使得拟合更加困难了（重构误差又开始增加），这时候decoder就要想办法提高它的生成能力了。

在这里插入图片描述

我们希望X经过编码后，Z的分布都具有零均值和单位方差，这个“希望”是通过加入了KL loss来实现的,如果现在多了类别信息Y，我们可以希望同一个类的样本都有一个专属的均值 μ Y μ^Y μY（方差不变，还是单位方差），这个 μ Y μ^Y μY让模型自己训练出来。这样的话，有多少个类就有多少个正态分布，而在生成的时候，我们就可以通过控制均值来控制生成图像的类别。事实上，这样可能也是在VAE的基础上加入最少的代码来实现CVAE的方案了，因为这个“新希望”也只需通过修改KL loss实现:
L o s s μ , σ 2 = 1 2 ∑ i = 1 d ( − log ⁡ σ i 2 + ( μ i − μ i Y ) 2 + σ i 2 − 1 ) Loss_{μ,σ^2} = \frac{1}{2} \sum_{i=1}^{d}(-\log \sigma_i^2 + (\mu_i-\mu_i^Y)^2 + \sigma_i^2-1) Lossμ,σ2=21i=1∑d(−logσi2+(μi−μiY)2+σi2−1)

参考文献

苏剑林

你是否还在寻找稳定的海外服务器提供商？创新互联www.cdcxhl.cn海外机房具备T级流量清洗系统配攻击溯源，准确流量调度确保服务器高可用性，企业级服务器适合批量采购，新人活动首月15元起，快前往官网查看详情吧

名称栏目：VAE解读-创新互联
文章网址：http://bjjierui.cn/article/dhgdpi.html

定制建站费用3500元

品牌网站建设费用6000元

商城网站建设费用8000元

手机微信网站建站3000元

建站知识

VAE解读-创新互联

其他资讯