当前位置: 编码机 >> 编码机资源 >> 与Transformer结合,东南
选自arXiv
作者:ZhouyongLiu等
机器之心编译
机器之心编辑部
研究者表示,这是卷积神经网络与Transformer首度结合用于视频帧合成。
深度卷积神经网络(CNN)是功能非常强大的模型,在一些困难的计算机视觉任务上性能也很卓越。尽管卷积神经网络只要有大量已标记的训练样本就能够执行,但是由于物体的变形与移动、场景照明变化以及视频序列中摄像头位置的变化,卷积神经网络在视频帧合成方面的表现并不出色。
近日,来自东南大学的研究者提出了一种新型的端到端架构,称为卷积Transformer(ConvTransformer),用于视频帧序列学习和视频帧合成。ConvTransformer的核心组件是文中所提出的注意力层,即学习视频序列序列依赖性的多头卷积自注意力。ConvTransformer使用基于多头卷积自注意力层的编码器将输入序列映射到特征图序列,然后使用另一个包含多头卷积自注意层的深度网络从特征图序列中对目标合成帧进行解码。
在实验阶段的未来帧推断任务中,ConvTransformer推断出的未来帧质量媲美当前的SOTA算法。研究者称这是ConvTransformer架构首次被提出,并应用于视频帧合成。