编码机

会说话的头像GoogleAI新框架Li

发布时间:2022/11/21 16:16:39   
北京看手足癣最好医院 https://m.39.net/baidianfeng/a_8833423.html

谷歌联合印度团队开发出新的框架LipSync3D,实现根据音频创造「会说话的头像」视频。

谷歌人工智能研究人员和印度卡哈拉格普尔理工学院(IndianInstituteofTechnologyKharagpur)一起合作开发了一个新的框架,可以从音频内容中综合有声头像。

该项目的目的是开发出经过优化且资源合理的方法,实现根据音频创造「会说话的头像」视频,在交互式应用程序和其他实时环境中实现同步口型动作的配音或机器翻译的音频,并添加到头像。

机器学习模型LipSync3D

在这个过程中训练的机器学习模型LipSync3D,只需要一个目标人脸识别的视频作为输入数据。

数据准备管道将面部几何的提取与输入视频的灯光和其他方面的评估分离开来,允许更经济合算和更集中的训练。

事实上,LipSync3D对这一领域研究工作最显著的贡献可能是其照明归一化算法(lightingnormalizationalgorithm),该算法将训练和推断照明解耦。

从一般几何解耦照明数据有助于LipSync3D在具有挑战性的条件下产生更真实的口型变化。最近几年的其他方法已经将自己限制在「固定」的照明条件下,这样就不会暴露出它们在这方面的有限。

在输入数据帧的预处理过程中,系统必须识别和删除镜像点,因为这些镜像点是特定于拍摄视频光照条件的,否则会干扰重现过程。

LipSync3D,顾名思义,不仅仅是对它评估的面孔进行像素分析,而是积极地使用已确定的面部标志来生成运动的CGI风格的网格,以及通过传统CGI管道包裹在它们周围的「展开」(unfolded)纹理。

除了这种新颖的照明重现方法,研究人员声称,LipSync3D在以前的工作中提供了三个主要创新:将几何、光照、姿态和纹理分离到规范化空间中的离散数据流中;一个易于训练的自回归纹理预测模型,可以生成时间上一致的视频合成;以及通过人类评级和客观度量来增加真实感。

通过分析语音的音素和其他方面,LipSync3D可以直接从音频中推导出适当的唇部几何运动,并将其转化为嘴部周围已知的相应肌肉姿势。

这个过程使用一个联合预测管道,其中推断的几何形状和纹理在自动编码器设置中有专门的编码器,但与打算施加在模型上的语音共享一个音频编码器:

LipSync3D的动作合成也助力提升程式化的CGI头像,实际上它们只是和真实世界的图像一样的网格和纹理信息:

研究人员还希望使用更加真实的头像:

在GeForceGTX上使用TensorFlow、Python和C++的管道中,视频的示例训练时间从2-5分钟的视频所需3-5小时不等。训练课程使用了一批大小为帧超过-epoch,每个epoch代表一个完整的视频评估。

未来:动态的口型再同步

过去几年,口型再同步适应新的音轨已经在计算机视觉研究中吸引了大量的

转载请注明:http://www.aideyishus.com/lkjg/2401.html

------分隔线----------------------------