焦点手艺: 以原创手艺系统为基本，，，，，，，SenseCore商汤AI大装置为焦点基座，，，，，，，结构多领域、多偏向前沿研究，，，，，，，
快速买通AI在各个笔直场景中的应用，，，，，，，向行业赋能。。。。。。

CVPR 2021 | “以音感人”：姿态可控的语音驱动语言人脸

2021-08-10

本文不使用任何人为界说的结构信息（人脸要害点或者3D人脸模子），，，，，，，乐成实现了人头姿态可控的语音驱动恣意语言人脸天生。。。。。。本文的要害在于，，，，，，，隐式地在潜空间（latent space）中界说了一个12维的姿态编码，，，，，，，用于头部运动控制。。。。。。

本文相比于之前的要领，，，，，，，阻止了要害点或者3D模子盘算禁绝确带来的懊恼，，，，，，，又坚持了自由度和鲁棒性。。。。。。实现了在语音控制准确嘴型的同时，，，，，，，用另一段视频控制头部运动。。。。。。在这一框架下，，，，，，，我们可以让任何人说出马先生经典的“不讲武德”讲话，，，，，，，彩蛋在我们demo video的最后！

本文由香港中文-商汤团结实验室，，，，，，，商汤科技和南洋理工大学S-Lab等相助完成。。。。。。

图片 1.png

天生图像的嘴型由音频控制，，，，，，，与音频源视频同步；；；；；；；；

天生图像头部运动由姿态源控制，，，，，，，与下方视频同步。。。。。。

Part 1 使命配景

语音驱动的语言人脸天生（Talking face, Talking head generation）这一课题自己有多种差别的实验设置。。。。。。此偏向的综述可以参考 Lele Chen 的 What comprises a good talking-head video generation? : A Survey and Benchmark [1]。。。。。。在这里本文Focus的偏向为基于单张图像（One-shot），，，，，，，面向恣意人脸，，，，，，，语音驱动setting下的语言人脸天生问题。。。。。。详细来说，，，，，，，我们希望基于一张图片，，，，，，，天生与语音同步的语言人脸视频。。。。。。

这一setting下的事情包括 VGG 组的You said that? [2] ，，，，，，，CUHK（笔者自己）的DAVS [3]，，，，，，，乐乐的ATVG [4] 以及Adobe周洋和李丁博士的MakeitTalk [5]等等。。。。。。整体来讲，，，，，，，之前的事情[2][3][4]更多的关注于嘴型的准确性和ID的生涯上，，，，，，，从而忽略了头部的自然运动。。。。。。在本文中我们所试图解决的，，，，，，，是之前语言人脸天生中人头pose难以控制这一问题。。。。。。

图片 1.png

ATVG Paper中的比照图

最近的Makeittalk[5]和乐乐的Rhythmic Head[6] 则关注于和小我私家ID信息有关的自然头部运动。。。。。。可是他们的要领都依赖于3D的结构化信息。。。。。。

想自力控制头部运动，，，，，，，就需要对Head pose和facial expression，，，，，，，identity做一个解耦。。。。。。通过思索我们可以意识到，，，，，，，这种解耦在2D图像和2D landmark的表征中都很难实现。。。。。。而在我们语音驱动的大条件下，，，，，，，嘴型要和audio对齐，，，，，，，头部运动又要自然，，，，，，，可以说是难上加难。。。。。。另一方面，，，，，，，3D的人脸表征中，，，，，，，head pose和facial expression可以自然地用差别的参数控制，，，，，，，可以说是最佳选择。。。。。。

因此之前的事情，，，，，，，Makeittalk[5]选择了3D的人脸要害点，，，，，，，而Rhythmic Head[6]则直接依赖于完整地3D重修。。。。。。可是基于3D的人脸建模，，，，，，，尤其是在极端场景下，，，，，，，开源要领的准确度并无法包管。。。。。。而基于优化算法的3D fitting还会带来大宗的预处置惩罚肩负。。。。。。以是本文不使用3D或结构化数据，，，，，，，重新从2D入手解决问题。。。。。。

Part 2 要领先容

哈哈(haha)体育要领Pose-Controllable Audio-Visual System (PC-AVS)直接在特征学习和图像重修的框架下，，，，，，，实现了对人头pose的自由控制。。。。。。哈哈(haha)体育焦点在于隐式地在潜空间（latent space）中界说了一个12维的姿态编码，，，，，，，而这一设计源于对去年CVPR使用styleGAN实现Face Reeanctment[7]的事情（如下图）的参考。。。。。。

图片 1.png

但他们事情中只说明晰styleGAN可以使用augmented frame举行图像到图像的控制。。。。。。而在语音驱动的语言人脸问题中，，，，，，，condition现实来自audio的场景下，，，，，，，直接暴力借用这一框架将难以举行训练，，，，，，，由于语音并不可提供人脸姿态信息。。。。。。

基于对语言人脸的视察，，，，，，，我们在文中把augmented图像的潜空间，，，，，，，界说为无ID空间（Non-Identity Space）。。。。。。直观上讲，，，，，，，在此空间中，，，，，，，我们可以重新寻找嘴型与语音关联的语言内容空间（Speech Contant Space），，，，，，，和体现头部运动的姿态空间（Pose Space）。。。。。。

图片 1.png

我们事情的完整pipeline如下图所示，，，，，，，训练数据使用的是大宗的含语音视频。。。。。。我们使用恣意的一帧作为ID参考输入，，，，，，，变形另一帧为，，，，，，，并将与对齐的语音的频谱作为condition，，，，，，，试图使用网络恢复。。。。。。

图片 1.png

使用数据集的ID约束，，，，，，，我们可以通过ID encoder 获得Identity Space；；；；；；；；借助之前的augmentation，，，，，，，我们通过encder ,获得Non-Identity Space。。。。。。接下来的问题是怎样施展audio的作用，，，，，，，以及怎样让图像只约束Pose而不控制嘴型。。。。。。

Learning Speech Content Space. 我们希望Non-Identity Space的feature经由一个mapping 映射至speech content space中。。。。。。而这一latent space的学习，，，，，，，主要依赖音频和视频之间自然的对齐、同步信息（alignment）。。。。。。在之前的事情中这已经被证实是audio-visual领域用处最普遍的自监视之一[8]。。。。。。在这里我们使用语音与人脸序列之间的对齐构建contrastive loss举行对齐的约束；；；；；；；；对齐的人脸序列和语音特征是正样本，，，，，，，非对齐的为负样本。。。。。。界说两个feature之间的cos距离为，，，，，，，这一约束可以表达为：

Devising Pose Code. 另一方面，，，，，，，我们借助3D表征中的piror knowledge。。。。。。一个12维度的向量着实已经足以表达人头的姿态，，，，，，，包括一个9维的旋转矩阵，，，，，，，2维的平移和1维的标准。。。。。。以是我们使用一个特另外mapping，，，，，，，从Non-Identity Space中映射一个12维的Pose Code。。。。。。这个维度上的设计很是主要，，，，，，，怎样维度过大，，，，，，，这一latent code所表达的就可能凌驾pose信息，，，，，，，导致嘴型收到影响。。。。。。

最后我们把 Identity Space，，，，，，，Speech Content Space 和 Pose code 团结起来，，，，，，，送入基于StyleGAN2[9]刷新的Generator。。。。。。这三者的信息在Generator中通过图像重修训练举行平衡，，，，，，，loss形式使用了pix2pixHD的重修训练loss。。。。。。在训练中，，，，，，，pose code起作用的原理是，，，，，，，在ID和pose信息都显式地被约束的条件下，，，，，，，Pose Code最容易学到的信息是改变人头的姿态，，，，，，，以镌汰重修的loss。。。。。。在这一目的下，，，，，，，由于姿态逐渐与哈哈(haha)体育目的贴合，，，，，，，嘴型的重修约束也会反过来资助audio feature的学习，，，，，，，从而抵达平衡。。。。。。

Part 3 实验效果

我们在数值上和质量上与之前SOTA的恣意语音驱感人脸的要领举行了比照。。。。。。在数值上，，，，，，，我们比照了LRW和VoxCeleb2两个数据集，，，，，，，重点关注于天生图像还原度（SSIM），，，，，，，图像清晰度（CPDB），，，，，，，天生嘴型landmark的准确度（LMD）和天生嘴型与音频的同步性，，，，，，，使用SyncNet[8]的confidence score评价（）。。。。。。

图片 1.png

我们与之前要领的比照图如下所示：

图片 1.png

更多的Ablation和效果可以参考哈哈(haha)体育paper和demo video，，，，，，，这边展示了在极端情形（大角度，，，，，，，低区分率）的天生效果。。。。。。展示了若是我们把pose code置0，，，，，，，可以实现转正的语言人脸效果。。。。。。

图片 1.png

Part 4 总结

在这个事情中，，，，，，，我们提出了Pose-Controllable Audio-Visual System (PC-AVS)，，，，，，，乐成在语音恣意语言人的setting下，，，，，，，天生了姿态可控的效果。。。。。。综合来看哈哈(haha)体育要领有以下几个特质值得关注：

哈哈(haha)体育要领不借助预界说的结构信息，，，，，，，仅使用一个图像重修的pipeline，，，，，，，乐成界说了一个对人脸pose的表征。。。。。。
由style-based generator平衡的训练模式让唇形天生收到更契合的重修约束，，，，，，，从而提升了唇形对齐的准确度。。。。。。
我们实现了恣意语言人脸下的自由人头姿态控制，，，，，，，使天生的效果越发真实。。。。。。
哈哈(haha)体育模子在极端情形下有很好的鲁棒性，，，，，，，并且实现了转正的语言人脸天生。。。。。。

相关链接

Paper 地点：https://arxiv.org/abs/2104.11116

Github：https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

Project Page：https://hangz-nju-cuhk.github.io/projects/PC-AVS

References

1.#What comprises a good talking-head video generation?: A Survey and Benchmark https://arxiv.org/abs/2005.03201

2. #Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? In BMVC, 2017. https://arxiv.org/abs/1705.02966

3. #Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI ConConference on Artificial Intelligence (AAAI), 2019. https://arxiv.org/abs/1807.07860

4. #Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. https://www.cs.rochester.edu/u/lchen63/cvpr2019.pdf

5. #Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makeittalk: Speaker-aware talking head animation. SIGGRAPH ASIA, 2020. https://arxiv.org/abs/2004.12992

6. #Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. European Conference on Computer Vision (ECCV), 2020. https://www.cs.rochester.edu/u/lchen63/eccv2020-arxiv.pdf

7. #Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lem-pitsky. Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Burkov_Neural_Head_Reenactment_with_Latent_Pose_Descriptors_CVPR_2020_paper.pdf

8. #Joon Son Chung and Andrew Zisserman. Out of time: auto-mated lip sync in the wild. In ACCV Workshop, 2016. https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf

9.#Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. InProceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf

您尚未完善信息

完善信息后，，，，，，，即可下载资料

完善信息跳过，，，，，，，继续浏览

您尚未登录

您还未登录，，，，，，，登录方可继续

登录跳过，，，，，，，继续浏览

请选择您以为需要刷新的地方：

导航欠好用，，，，，，，不利便找到感兴趣的内容
产品先容信息不敷周全
产品先容信息禁止易懂
页面翻开速率烦懑，，，，，，，页面浏览不流通/有卡顿
页面不敷雅观
售后效劳欠好找，，，，，，，体验欠好

跳过下一个

您是否能够抵达本次网站的会见目的？？？？？？

是
否
仍在举行中

下一个

您对商汤官网的知足度怎样？？？？？？

很是不知足很是知足

提交

已收到您对商汤官网的评价和建议！

谢谢您的耐心反响~

关闭

产品试用

填写此简朴表格，，，，，，，我们将尽快联系您！

把您的需求发给我们相识所有产品

商务相助

400 900 5986

周一至周五 9:00-12:00，，，，，，，13:00-18:00

business@sensetime.com

相助同伴招募

成为相助同伴