当前位置: 编码机 >> 编码机优势 >> 振兴CNN骨干网络,港大腾讯视觉
机器之心报道
机器之心编辑部
来自港大、腾讯AILab、牛津大学的研究者用Transformer振兴CNN注意力。
自监督表征学习近两年十分火热。机器学习界的三位泰斗GeoffroyHinton、YannLecun、YoshuaBengio一致认为自监督学习有望使AI产生类人的推理能力,其中Hinton与Lecun近两年也在ICML/NeurIPS中发表自监督表征学习的研究工作。
可以说在机器学习顶会发表自监督表征学习的文章,是与Hinton和Lecun站到了同一赛道上。而今年的NeurIPS,Lecun刚发推感叹他与另外一位CV泰斗JeanPonce的自监督投稿VICReg被拒掉了,可见在机器学习领域,自监督学习的竞争激烈程度。另外一方面,最近热门的Transformer给计算机视觉算法带来了全面的升级。那么Transformer跟自监督表征学习在一起会迸发出怎样的火花?
来自港大、腾讯AILab、牛津大学的学者在NeurIPS发表的文章会带来一个启发性的答案。
该研究受现有自监督表征学习架构BYOL的启示,结合前沿的Transformer,提出利用Transfomer来提升CNN注意力的自监督表征学习算法。本文将现有的架构归为C-stream,另提出T-stream。在CNN骨干网络的输出并行接入T-stream。将Transformer置于T-stream中提升CNN输出的注意力,并以此结果来监督CNN自身的输出,从而达到提升CNN骨干网络注意力的效果。在现有的标准数据集中,也进一步提升了CNN骨干网络在下游识别任务的各类性能。