编码机

带掩码的自编码器MAE在各领域中的应用总

发布时间:2024/8/9 12:19:49   
中科白癜风医院微信 http://www.pfzhiliao.com/

机器学习算法应该理解数据从中提取有用的特征才能够解决复杂的任务。通常训练泛化模型需要大量带注释的数据。这个是非常费时费力的,并且一般情况下都很难进行。

所以各种基于带掩码的自编码器技术就出现了,这种技术允许在未标记的数据上训练模型,并且获得的特征能够适应常见下游任务

BERT—最早的遮蔽模型,用于文本任务.

MAE—图像,可以说它将BERT的辉煌延伸到了视觉.

M3MAE—图像+文字.

MAEthatlisten—音频.

VideoMAE—视频.

TSFormer—时间序列.

GraphMAE—图.

从上面我们可以看到MaskedAutoencoder几乎覆盖了大部分的主要研究领域是一种强大而简单的技术,它使用基于transformer的模型进行预训练得到高水平的数据表示,这对在任何下游任务(迁移学习,微调)上采用该模型都很有帮助。

自监督学习是一种不需要任何标签就能获得数据信息表示的方法。标准的自监督学习技术通常使用高级数据增强策略。但是对于文本、音频、大脑信号等形式来说,如何选择增强策略并且保证策略的合理性是一个非常棘手的问题

而MaskedAutoencoder不使用这种策略。我们只需要有数据,并且是大量的数据还有必要的计算资源即可。它使用重建的方式根据被部分遮蔽的样本来预测完整的数据。如果遮蔽了大约70%的数据,模型还能够恢复数据的话,则说明模型学习到了数据的良好的高级表示

MAE是如何工作的?

MAE的工作原理非常简单。看看下面的图片:

训练前需要屏蔽一半以上的Patch(比如75%)。编码器接收可见的Patch块。在编码器之后,引入掩码标记,用一个小(相对于编码器小)解码器对全部编码的Patch和掩码标记进行解码,重建原始图像。下游的任务中,编码器的输出作为特征,下游任务不需要进行遮蔽。

一般流程如下:

获取数据样本(图像)。

对样本进行区域划分(patchesforimage,wordfortext等)

应用高比率的随机遮蔽(论文中使用75%)

只保留可见的部分,并将它们输入编码器。

使用上面的掩码进行填充,将编码器的输出和遮蔽进行合并并且保留原始顺序,作为解码器的输入。

解码器来负责重建遮蔽。

就是这么一个简单的流程就能够从数据中提取有意义的特征

对于下游的任务,只使用预训练的编码器,因为它学习数据的有用表示。

这里需要说明的是,因为由transformer不依赖于数据的长度,所以在下游使用时可以将完整的样本输入到模型中,也就是说下游的任务不需要进行掩码遮蔽了。

MAE为什么可以在不同的领域中使用?

MAEs可以很容易地适应不同的数据模式。下面图是在视频和音频领域中使用MAE的流程。如果你是这个方向的从业者,试试它吧。

音频的频谱图的MAE

下面的说明来自论文

我们探索了将MAE简单扩展到音频数据的方法。我们的audio-mae学习从音频录音中重建隐藏的声谱图Patch,并在6个音频和语音分类任务中实现了最先进的性能。得出了一些有趣的观察结果:1、一个简单的MAE方法对音频谱图的效果出奇的好。2、在解码器中学习具有局部自我注意的更强的表示是可能的。3、掩蔽可以应用于训练前和微调,提高精度和减少训练计算

视频的MAE

为了进行视频自监督学习,VideoMAE使用了一个遮蔽的自编码器和一个普通的ViT主干。与对比学习方法相比,VideoMAE有更短的训练时间(3.2倍加速)。在未来关于自监督视频训练的研究中,VideoMAE可能是一个很好的起点。

结果展示

最值得

转载请注明:http://www.aideyishus.com/lkzp/6479.html

------分隔线----------------------------