哈哈(haha)体育

哈哈体育.(HAHA)十年运营,信誉无忧

返回新闻中心

? ? ?

手艺能力

以原创手艺系统为基本，，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，，结构多领域、多偏向前沿研究，，，，，，，快速买通AI在各个笔直场景中的应用，，，，，，，向行业赋能。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤研究

商汤研究始终坚持原创，，，，，，，一直突破立异。。。。。具有人工智能领域深挚的学术积累，，，，，，，具备健全的人才作育机制，，，，，，，已与海内外五十余所一流高校和科研院所建设了深度相助关系，，，，，，，并与众多行业同仁同心共建AI生态圈。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤大装置AI云 SenseCore

建设高效率、低本钱、规�；；；；；� AI 云基础设施，，，，，，，打造专业的深度学习平台及算法模子系统，，，，，，，引领AI立异，，，，，，，助力工业界及学术界探索 AI 界线。。。。。

申请试用

相识所有案例

相识所有产品效劳

商汤日日新大模子 SenseNova

商汤日日新大模子 SenseNova，，，，，，，可以提供自然语言处置惩罚、图片天生、自动化数据标注、自界说模子训练等多种大模子及能力。。。。。

申请试用

相识所有案例

相识所有产品效劳

水星智能移动终端平台 SenseME

哈哈(haha)体育SenseME 水星智能移动终端平台提供包括SDK、AI传感器和ISP芯片等全套产品，，，，，，，能够支持诸多物联网装备，，，，，，，以增进感知智能和内容增强

申请试用

相识所有案例

相识所有产品效劳

火星混淆现实平台 SenseMARS

SenseMARS平台通过对物理天下的数字重修、虚拟化身和软件智能体，，，，，，，创立全新的陶醉式和交互式的元宇宙体验

申请试用

相识所有案例

相识所有产品效劳

晶识智能零售平台 SenseGalaxy

基于商汤SKU商品识别大模子，，，，，，，用AI赋能智能结算、库存盘货、纯净度审核等营业场景并快速拓展至智慧商流与智慧物流领域。。。。。

申请试用

相识所有案例

相识所有产品效劳

焦点手艺: 以原创手艺系统为基本，，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，，结构多领域、多偏向前沿研究，，，，，，，
快速买通AI在各个笔直场景中的应用，，，，，，，向行业赋能。。。。。

< 返回论文解读

ICCV 2021 _ Talk-to-Edit：通过对话实现高细粒度人脸编辑

2022-02-22

Talk-to-Edit: Fine-Grained Facial Editing via Dialog

Yuming Jiang¹ Ziqi Huang¹ Xingang pan² Chen Change Loy¹ Ziwei Liu¹ ¹S-Lab Nanyang Technological University ²The Chinese University of Hong Kong

{yuming002, hu0007qi, ccloy, ziwei.liu}@ntu.edu.sg px117@ie.cuhk.edu.hk

Part 1 话未几说，，，，，，，先看图

用户通过和系统的对话完成人脸编辑：

图片1.jpg

对人脸的各个特征举行编辑：

图片2.jpg

编辑列位帅哥玉人（用到了GAN inversion）：

图片3.jpg

Part 2: 要领及效果

以上是怎样实现的呢？？？？？？Talk-to-Edit的pipeline如下图所示：

图片4.jpg

我们用 Semantic Field 来实现对人脸特征一连且高细粒度可控的编辑。。。。。对话功效则由 Language Encoder和Talk模浚�？？？？槔词迪�。。。。。接下来我们诠释各个模浚�？？？？榈氖虑樵砗托Ч�。。。。。

2.1 Semantic Field

配景：GAN[1, 2]可以基于隐空间中差别的隐向量天生差别的图片。。。。�；；；；；谝占涞耐计嗉靃3, 4, 5, 6, 7]使用预训练的GAN及其隐空间，，，，，，，有控制地改变一张图片对应的隐向量，，，，，，，从而间接实现对图片的编辑。。。。。然而这些要领假设在隐空间中沿着某个偏向“走直线”就可以实现对一张人脸的某一特征的编辑 (如下图(b)中棕色路径(1))。。。。。

图片5.jpg

哈哈(haha)体育要领抛开了“走直线”这一假设，，，，，，，在“走动”历程中一直凭证现在的隐向量寻找目今最优的前进偏向 (如上图(b)中玄色路径(2))。。。。。于是，，，，，，，我们在隐空间中构建一个向量场来体现每个隐向量的最佳“前进偏向”，，，，，，，沿着目今隐向量的最佳“前进偏向”移动隐向量，，，，，，，从而改变图片的某一个语义特征。。。。。我们称这个向量场为语义场，，，，，，，即Semantic Field。。。。。哈哈(haha)体育编辑方法等价于沿着向量场的场线(field line)，，，，，，，向势(potential)增添得最快的偏向移动。。。。。这里的势指的就是某一特征的水平，，，，，，，好比在编辑“刘海”这一特征时，，，，，，，隐向量沿着场线，，，，，，，向刘海变长最快的偏向移动(如上图(b)中玄色路径(2))。。。。。

Semantic Field具有两个特征：1) 对统一小我私家来说，，，，，，，一直改变某一个属性，，，，，，，需要的“最佳前进偏向”是一直转变的。。。。。2）在编辑统一个属性时，，，，，，，关于差别人，，，，，，，对应的“最佳前进偏向”也是差别的。。。。。我们用一个神经网络来模拟 Semantic Field，，，，，，，用如上图(a)所示的要领训练 Semantic Field。。。。。更多实现细节请参考论文和代码。。。。。

如下表，，，，，，，实验效果批注，，，，，，，相关于用“走直线”假设的baselines，，，，，，，哈哈(haha)体育要领可以在人脸编辑的历程中更好的保存这小我私家的身份特征，，，，，，，并且在编辑某一个语义特征时镌汰对其他无关语义特征的改变。。。。。

图片6.jpg

看看图，，，，，，，比照也很显着：

图片7.jpg

2.2 Language Encoder 和 Talk Module

为了给用户提供更便捷直观的交互方法，，，，，，，我们使用对话的方法让用户实现编辑。。。。。Talk-to-Edit用一个基于LSTM的Language Encoder来明确用户的编辑要求，，，，，，，并将编码后的编辑要求转达给Semantic Field从而指导编辑。。。。。Talk模浚�？？？？榭梢栽诿柯直嗉笙蛴没啡舷噶６鹊谋嗉�，，，，，，，好比向用户确认现在的笑容是否恰恰合适，，，，，，，是否需要再多一档。。。。。Talk 模浚�？？？？橐部梢晕没峁┢渌嗉ㄒ�，，，，，，，好比系统发明用户从未实验过编辑眼镜这个特征，，，，，，，于是询问用户是否想试一试给照片加个眼镜。。。。。

Part 3: CelebA-Dialog数据集

图片8.jpg

基于CelebA [8] 数据集，，，，，，，我们为研究社区提供了CelebA-Dialog数据集：

（1）我们提供了每张图片的高细粒度特征标注。。。。。如上图所示，，，，，，，凭证笑容的绚烂水平，，，，，，，“笑容”这个语义特征被分为6档。。。。。CelebA-Dialog准确地标注了每张图片中的“笑”属于6个品级中的哪一个。。。。。

（2）我们提供富厚的的自然语言形貌，，，，，，，包括每张图片各个语义特征的高细粒度自然语言说明 (image captions)，，，，，，，以及一句图片编辑的用户要求（user request）。。。。。

CelebA-Dialog可以为多种使命提供监视，，，，，，，例如高细粒度人脸特征识别，，，，，，，基于自然语言的人脸天生和编辑等。。。。。

在Talk-to-Edit这个事情中，，，，，，，我们使用CelebA-Dialog的高细粒度特征标注训练了一个高细粒度到人脸特征展望器，，，，，，，从而为Semantic Field的训练提供高细粒度的监视。。。。。

Part 4: 总结

(1) 本事情提出了一个基于对话的，，，，，，，高细粒度的人脸编辑系统: Talk-to-Edit。。。。。

(2) 我们提出了 “Semantic Field”，，，，，，，即在GAN隐空间中学习一个语义场，，，，，，，通过在隐空间中沿着场线“行走”，，，，，，，从而实现一连且细粒的人脸特征编辑。。。。。

(3) 我们为研究社区孝顺了一个大规模的数据集 CelebA-Dialog。。。。。我们信托它可以很好地资助到未来高细粒度人脸编辑的使命以及自然语言驱动的视觉使命。。。。。

再来看看Talk-to-Edit的更多优异体现吧：

图片9.jpg

图片10.jpg

图片11.jpg

Reference:

[1] Tero Karras, Samuli Laine, and Timo Aila. A style-based generator architecture for generative adversarial networks. In CVPR, pages 4401–4410, 2019. 1, 2

[2] Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. In CVPR, pages 8110–8119, 2020. 1, 2

[3] Yujun Shen, Ceyuan Yang, Xiaoou Tang, and Bolei Zhou. Interfacegan: Interpreting the disentangled face representation learned by gans. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020. 2, 4, 6

[4] Yujun Shen, Jinjin Gu, Xiaoou Tang, and Bolei Zhou. Interpreting the latent space of gans for semantic face editing. In CVPR, pages 9243–9252, 2020. 2, 4, 15

[5] Yujun Shen and Bolei Zhou. Closed-form factorization of latent semantics in gans. arXiv preprint arXiv:2007.06600, 2020. 2

[6] Erik Ha ?rko ?nen, Aaron Hertzmann, Jaakko Lehtinen, and Sylvain Paris. Ganspace: Discovering interpretable gan ctrols. arXiv preprint arXiv:2004.02546, 2020. 2

[7] Andrey Voynov and Artem Babenko. Unsupervised discovery of interpretable directions in the gan latent space. In ICML, pages 9786–9796. PMLR, 2020. 2

[8] Ziwei Liu, Ping Luo, Xiaogang Wang, and Xiaoou Tang. Deep learning face attributes in the wild. In ICCV, pages 3730–3738, 2015. 3, 6, 14, 15, 16

您尚未完善信息

完善信息后，，，，，，，即可下载资料

完善信息跳过，，，，，，，继续浏览

您尚未登录

您还未登录，，，，，，，登录方可继续

登录跳过，，，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？？

1
2
3
4
5
6
7
8
9
10

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭

产品试用

填写此简朴表格，，，，，，，我们将尽快联系您！

把您的需求发给我们相识所有产品

商务相助

400 900 5986

周一至周五 9:00-12:00，，，，，，，13:00-18:00

business@sensetime.com

相助同伴招募

成为相助同伴

您还未登录，，，，，，，登录方可继续

登录跳过，，，，，，，继续浏览

您尚未完善信息

完善信息后，，，，，，，即可下载资料

完善信息跳过，，，，，，，继续浏览

商务相助

400 900 5986
( 周一至周五 9:00-12:00, 13:00-18:00 )
business@sensetime.com
媒体相同: pr@sensetime.com
投资者关系联络: ir@sensetime.com

社交媒体

微信公众号

【网站地图】【sitemap】