焦点手艺: 以原创手艺系统为基本，，，，，SenseCore商汤AI大装置为焦点基座，，，，，结构多领域、多偏向前沿研究，，，，，
快速买通AI在各个笔直场景中的应用，，，，，向行业赋能。。。。。。。。

CVPR 2021 Oral | GLEAN: 基于隐式天生库的高倍率图像超区分率

2021-09-14

在VPR 2021上, 南洋理工大学S-Lab和商汤科技等提出的隐式天生库(Generative Latent Bank), 针对高倍率图像超区分中的质量和保真度问题提出了一个新的思绪。。。。。。。。GLEAN通过使用预训练的GAN中富厚多样的先验知识，，，，，获得有用的超分效果。。。。。。。。与现有要领相比，，，，，由GLEAN放大的图像在保真度和纹理真实度方面显示出显着的刷新。。。。。。。。

论文名称: GLEAN: Generative Latent Bank for Large-Factor Image Super-Resolution

Part 1 问题与挑战

Generative Adversarial Network(GAN)已在超区分率使命中被普遍使用，，，，，其目的是富厚回复图像中的纹理细节。。。。。。。。现有要领一样平常可以分为两种:

1）第一种要领（如ESRGAN [1]）训练天生器以处置惩罚放大使命，，，，，其中通过使用判别器将真实图像与天生器天生的放大图像区脱离来举行对抗训练。。。。。。。。在这种设置下，，，，，天生器既认真捕获自然图像特征，，，，，又认真坚持对GT 的保真度。。。。。。。。这不可阻止地限制了迫近自然图像流形的能力。。。。。。。。因此, 这些要领经常爆发伪像和不自然的纹理。。。。。。。。

2）第二种要领（如PULSE [2]）通过优化来更好地使用GAN的潜在空间来解决上述问题。。。。。。。。可是，，，，，由于低维隐码(latent code)和图像空间中的约束缺乏以指导恢复历程，，，，，这些要领通常�；；；；崽焐捅Ｕ娑鹊耐枷瘛�。。。。。。。

如下图所示，，，，，虽然ESRGAN能够恢复猫的结构（例如，，，，，姿势，，，，，耳朵的形状），，，，，但仍难以爆发逼真的纹理。。。。。。。。另一方面，，，，，只管PULSE的输出是真实的，，，，，但其保真度很是低, 未能恢复物体的结构。。。。。。。。

图片 1.png

Part 2 要领先容

在大规模自然图像上训练的GAN模子可捕获富厚的纹理和形状先验。。。。。。。。先前的研究批注，，，，，可以通过GAN Inversion来获取此类先验信息，，，，，以使种种图像恢复使命受益。。。。。。。。可是，，，，，怎样使用先验而不举行反演历程中的重大优化仍然是一个没有被充分研究的问题。。。。。。。。

在这项研究中，，，，，我们在一种新颖的encoder-bank-decoder结构中设计了GLEAN，，，，，该系统结构允许人们只需要一个forward-pass就可以使用天生先验。。。。。。。。如下图所示，，，，，给定严重降采样的图像，，，，，GLEAN应用encoder提取潜在矢量(latent vector)和多区分率卷积特征，，，，，这些特征捕获了主要的高层线索以及LR图像的空间结构，，，，，可以用于调理latent bank，，，，，为decoder爆发了另一组多区分率特征。。。。。。。。

最后, decoder通过集成来自encoder和latent bank的特征来天生最终输出。。。。。。。。在这项事情中，，，，，我们接纳 StyleGAN [3,4]作为latent bank。。。。。。。。这里要强调的是这个看法可以扩展到其他网络，，，，，例如BigGAN[5]。。。。。。。。

1. Encoder

为了爆发latent vector，，，，，我们首先使用RRDBNet [1]（体现为E0）从输入LR图像中提取特征f0。。。。。。。。然后，，，，，我们通过以下要领逐渐降低特征的区分率：

其中Ei (i =1, 2, …, N)体现一个stride-2卷积和stride-1卷积的客栈。。。。。。。。最后，，，，，使用卷积和全毗连层来天生latent vector：

其中C是一个矩阵，，，，，其列体现StyleGAN需要的latent vector。。。。。。。。C中的latent vector捕获图像的压缩体现，，，，，为latent bank(StyleGAN) 提供high-level信息。。。。。。。。为了进一步获得LR图像的局部结构并为结构恢复提供其他指导，，，，，我们还将多区分率卷积特征fi嵌入到latent bank。。。。。。。。

2. Generative Latent Bank

给定卷积特征fi和latent vector C，，，，，我们使用预训练的天生器(StyleGAN)作为latent bank来提供纹理和细节天生的先验。。。。。。。。由于 StyleGAN是为图像天生使命而设计的，，，，，因此无法直接集成到建议的encoder-bank-decoder框架中。。。。。。。。在这项事情中，，，，，我们举行了三处修改，，，，，使StyleGAN更能配合哈哈(haha)体育超分网络：

1/天生器的每个块都接纳一个差别的latent vector来提高表达能力，，，，，而不是将一个latent vector作为输入。。。。。。。。更详细地说，，，，，假设StyleGAN有k个块，，，，，那C=(c0, c1, …, ck-1)，，，，，其中每个ci代表一个latent vector。。。。。。。。我们发明这种修改导致输出的伪像更少。。。。。。。。在以前的事情中[6,7]也可以看到这种修改。。。。。。。。

2/为了允许使用encoder的特征，，，，，我们在每个块中使用了一个附加的卷积来举行特征融合：

其中Si体现具有附加卷积的块，，，，，而gi代表第i个块的输出特征。。。。。。。。

3/我们不是直接从StyleGAN天生输出，，，，，而是输出特征gi并将它们转达给decoder，，，，，以更好地融合latent bank和encode r中的特征。。。。。。。。

优点:哈哈(haha)体育Generative Latent Bank与Reference-Based SR[8,9]有着类似的想法。。。。。。。。在Reference-Based SR中, 虽然使用外部HR信息作为图像字典可带来显着改善，，，，，但其网络性能对输入和参考之间的相似性很敏感。。。。。。。。

当参考图像某人脸部位（如眼睛、鼻子、嘴）选择不当时，，，，，不匹配的字典可能导致效果变差。。。。。。。。另外，，，，，这些要领经常需要盘算量大的全局匹配某人脸部位检测/选择来从参考中群集适当的信息，，，，，阻碍了对具有严酷盘算约束的场景的应用。。。。。。。。

相反地，，，，，GLEAN并未构建图像字典，，，，，而是接纳了GAN-based字典。。。。。。。。哈哈(haha)体育字典不依赖于任何特定的参考图像块。。。。。。。。取而代之的是，，，，，它捕获图像的漫衍，，，，，并且可能具有无限的巨细和多样性。。。。。。。。别的，，，，，GLEAN的盘算效率很高，，，，，无需全局匹配和参考图像块选择。。。。。。。。

3. Decoder

GLEAN使用附加的具有渐进融合功效的decoder来集成encoder和latent bank中的特征以天生输出图像。。。。。。。。它以RRDBNet特征作为输入，，，，，并将特征与latent bank中的多区分率特征逐步融合：

其中Di和di划分体现3x3卷积及其输出。。。。。。。。除最终输出层外，，，，，每个卷积后面都有一个pixel-shuffle层。。。。。。。。通过 decoder和encoder之间的跳过毗连，，，，，可以增强encoder捕获的信息，，，，，因此latent bank可以将更多的精神集中在纹理和细节天生上。。。。。。。。

Part 3 实验效果

上图展示了16x SR上的定性较量。。。。。。。。在低维向量和LR空间中的约束的指导下，，，，，GAN Iinversion要领的输出无法坚持优异的保真度: PULSE[2]和mGANprior[6]无法还原相同身份的人脸。。。。。。。。另外，，，，，在它们的输出中视察到伪像。。。。。。。。

通过在优化历程中微调天生器，，，，，DGP[10]的效果在质量和保真度方面获得显着提升。。。。。。。。可是，，，，，仍然可以视察到输出和GT之间的差别。。。。。。。。例如，，，，，眼睛和嘴唇显示出显着的差别。。。。。。。。

经由对抗性损失训练的要领（SinGAN [11]，，，，，ESRGAN+（具有与GLEAN相似的FLOPs的ESRGAN[1]）可以保存局部结构，，，，，但无法合成令人信服的纹理和细节。。。。。。。。详细而言，，，，，SinGAN无法捕获自然图像样式，，，，，从而爆发类似绘画的图像。。。。。。。。

只管ESRGAN+能够天生逼真的图像，，，，，但仍难以合成细腻的细节，，，，，并在细节区域引入不自然的伪像。。。。。。。。值得强调的是，，，，，只管ESRGAN+在人脸方面取得不错的效果，，，，，但它在其他种别上的体现却不太好，，，，，如下图所示：

通过latent bank提供的自然图像先验，，，，，GLEAN在保真度和自然度方面都取得了乐成。。。。。。。。为了进一步验证哈哈(haha)体育要领在保真度的优越性，，，，，我们盘算了ArcFace[12]特征的cosine similarity。。。。。。。。从下表可以看到哈哈(haha)体育要领胜过其他要领，，，，，证实晰我们要领在坚持身份一致性上的优越性。。。。。。。。

我们将GLEAN扩展到更高的放大倍率。。。。。。。。GLEAN乐成地天生了真实并且靠近GT的图像，，，，，最多可举行64x的放大。。。。。。。。

以下是更多例子，，，，，GLEAN在照片写实和身份生涯方面具有显着优势:

Part 4 结语

在本文中，，，，，我们提出了一种新要领，，，，，可以使用经由预训练的GAN来举行大规模超区分率使命，，，，，最高的放大倍率为64x。。。。。。。。从实验效果可以得出，，，，，预训练的GAN可以用作encoder-bank-decoder系统结构中的latent bank。。。。。。。。

相比之前GAN Inversion的要领，，，，，GLEAN仅需举行一次网络向前撒播来调理和检索latent bank中的先验信息，，，，，从而重修高清图像。。。。。。。。GAN-based字典的普遍性使GLEAN不但可以扩展到种种系统结构，，，，，并且可以扩展到其他图像回复使命上，，，，，如图像去噪，，，，，去模糊和着色等。。。。。。。。

另外, 我们CVPR21的另一篇中稿文章(https://ckkelvinchan.github.io/projects/BasicVSR/) 关于视频超分作出剖析并提出两个新算法(BasicVSR和IconVSR )。。。。。。。。我们基于这两个算法作出刷新, 在NTIRE21角逐中取得2个冠军。。。。。。。。BasicVSR和IconVSR的代码已开源到MMEditing，，，，，接待各人关注:)

论文地点

https://arxiv.org/abs/2012.00739

作者先容

陳焯杰(Kelvin C.K. Chan) | 南洋理工大学S-Lab和MMLab@NTU三年级博士生。。。。。。。。在顶级聚会上揭晓过五篇论文，，，，，在NTIRE视频回复角逐中共获得六个冠军。。。。。。。。导师是吕健勤(Chen Change Loy)副教授。。。。。。。。目今主要研究兴趣为图像和视频回复，，，，，主要包括超区分率和去模糊等。。。。。。。。

小我私家主页：https://ckkelvinchan.github.io/

实验室主页：mmlab-ntu.github.io

References

1.Xintao Wang et al. "ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks" In ECCVW 2018.

2.Sachit Menon et al. "PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models." In CVPR 2020.

3.Tero Karras, Samuli Laine, and Timo Aila. "A Style-Based Generator Architecture for Generative Adversarial Networks." In CVPR 2019.

4.Tero Karras et al. "Analyzing and Improving the Image Quality of StyleGAN." In CVPR 2020.

5.Andrew Brock, Jeff Donahue, and Karen Simonyan. "Large scale GAN Training for High Fidelity Natural Image Synthesis." In ICLR 2019.

6.Jinjin Gu, Yujun Shen, and Bolei Zhou. "Image Processing Using Multi-Code GAN Prior." In CVPR 2020.

7.Jiapeng Zhu et al. "In-Domain GAN Inversion for Real Image Editing." In ECCV 2020.

8.Xiaoming Li et al. "Blind Face Restoration via Deep Multi-Scale Component Dictionaries." In ECCV 2020.

9.Zhifei Zhang et al. "Image Super-Resolution by Neural Texture Transfer." In CVPR 2019.

10.Xingang Pan et al. "Exploiting Deep Generative Prior for Versatile Image Restoration and Manipulation." In ECCV 2020.

11.Tamar Rott Shaham, Tali Dekel, and Tomer Michaeli. "SinGAN: Learning a Generative Model from a Single Natural Image." In ICCV 2019.

12.Jiankang Deng et al. "ArcFace: Additive Angular Margin Loss for Deep Face Recognition." In CVPR 2019.

您尚未完善信息

完善信息后，，，，，即可下载资料

完善信息跳过，，，，，继续浏览

您尚未登录

您还未登录，，，，，登录方可继续

登录跳过，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭

产品试用

填写此简朴表格，，，，，我们将尽快联系您！

把您的需求发给我们相识所有产品

商务相助

400 900 5986

周一至周五 9:00-12:00，，，，，13:00-18:00

business@sensetime.com

相助同伴招募

成为相助同伴