中科治白癜风疗效更显著 http://www.bdfyy999.com/guanyuzhongke/zhongkejianjie/选自arXiv作者:ZhendaXie等机器之心编译机器之心编辑部来自清华大学、西安交大、微软亚研的研究者提出了一种称为MoBY的自监督学习方法,其中以VisionTransformer作为其主干架构,将MoCov2和BYOL结合,并在ImageNet-1K线性评估中获得相当高的准确率,性能优于MoCov3、DINO等网络。近两年来,计算机视觉领域经历了两次重大转变,第一次是由MoCo(MomentumContrast)开创的自监督视觉表征学习,其预训练模型经过微调可以迁移到不同的任务上;第二次是基于Transformer的主干架构,近年来在自然语言处理中取得巨大成功的Transformer又在计算机视觉领域得到了探索,进而产生了从CNN到Transformer的建模转变。不久前,微软亚研的研究者提出了一种通过移动窗口(shiftedwindows)计算的分层视觉SwinTransformer,它可以用作计算机视觉的通用主干网络。在各类回归任务、图像分类、目标检测、语义分割等方面具有极强性能。而在近日,来自清华大学、西安交通大学以及微软亚洲研究院的研究者也在计算机视觉领域发力,提出了名为MoBY自监督学习方法,以VisionTransformers作为其主干架构,将MoCov2和BYOL结合在一起,在ImageNet-1K线性评估中获得相当高的准确率:通过-epoch训练,分别在DeiT-S和Swin-T获得72.8%和75.0%的top-1准确率。与使用DeiT作为主干的MoCov3和DINO相比,性能略好,但trick要轻得多。更重要的是,使用SwinTransformer作为主干架构,还能够评估下游任务中(目标检测和语义分割等)的学习表征,其与最近的ViT/DeiT方法相比,由于ViT/DeiT不适合这些密集的预测任务,因此仅在ImageNet-1K上报告线性评估结果。研究者希望该结果可以促进对Transformer架构设计的自监督学习方法进行更全面的评估。论文
转载请注明:
http://www.aideyishus.com/lktp/6891.html