当前位置: 编码机 >> 编码机发展 >> ConvNeXtV2来了,仅用最简单的卷
机器之心报道
编辑:赵阳
ConvNeXt模型更新了!
经过几十年的基础研究,视觉识别领域已经迎来了大规模视觉表征学习的新时代。预训练的大规模视觉模型已经成为特征学习(featurelearning)和视觉应用的基本工具。视觉表征学习系统的性能在很大程度上受到三个主要因素的影响:模型的神经网络架构、训练网络的方法以及训练数据。每个因素的改进都有助于模型整体性能的提高。
神经网络架构设计的创新在表征学习领域一直发挥着重要作用。卷积神经网络架构(ConvNet)对计算机视觉研究产生了重大影响,使得各种视觉识别任务中能够使用通用的特征学习方法,无需依赖人工实现的特征工程。近年来,最初为自然语言处理而开发的transformer架构因其适用于不同规模的模型和数据集,在其他深度学习领域中也开始被广泛使用。
ConvNeXt架构的出现使传统的ConvNet更加现代化,证明了纯卷积模型也可以适应模型和数据集的规模变化。然而,要想对神经网络架构的设计空间进行探索,最常见方法仍然是在ImageNet上进行监督学习的性能基准测试。
另一种思路是将视觉表征学习的重点从有标签的监督学习转向自监督预训练。自监督算法将掩码语言建模引入视觉领域,并迅速成为视觉表征学习的一种流行方法。然而,自监督学习通常会使用为监督学习设计的架构,并假定该架构是固定的。例如,掩码自编码器(MAE)使用了视觉transformer架构。
有一种方法是将这些架构和自监督学习框架结合起来,但会面临一些具体问题。例如,将ConvNeXt与MAE结合起来时就会出现如下问题:MAE有一个特定的编码-解码器设计,该设计针对transformer的序列处理能力进行了优化,这使得计算量大的编码器专注于那些可见的patch,从而降低了预训练成本。但是这种设计可能与标准的ConvNet不兼容,因为后者使用了密集的滑动窗口。此外,如果不考虑架构和训练目标之间的关系,那么也就不清楚是否能达到最佳性能。事实上,已有研究表明用基于掩码的自监督学习来训练ConvNet是很困难的,而且实验证据表明,transformer和ConvNet可能在特征学习方面存在分歧,会影响到最终表征的质量。
为此,来自KAIST、Meta、纽约大学的研究者(包括ConvNeXt一作刘壮、ResNeXt一作谢赛宁)提出在同一框架下共同设计网络架构和掩码自编码器,这样做的目的是使基于掩码的自监督学习能够适用于ConvNeXt模型,并获得可与transformer媲美的结果。