编码机

美团提出基于隐式条件位置编码,性能优于V

发布时间:2024/8/30 15:34:40   
北京中科白癜风 http://www.pfzhiliao.com/
之心发布机器之心编辑部Transformer跨界计算机视觉的热潮之下,有一个问题需要解决:如何像CNN一样直接处理不同尺寸的输入?对此,美团提出了一种新型隐式条件位置编码方法,基于该方法的CPVT模型性能优于ViT和DeiT。随着Facebook的DETR(ECCV)[2]和谷歌的ViT(ICLR)[3]的提出,Transformer在视觉领域的应用开始迅速升温,成为当下视觉研究的第一热点。但视觉Transformer受限于固定长度的位置编码,不能像CNN一样直接处理不同的输入尺寸,这在很大程度上限制了视觉Transformer的应用,因为很多视觉任务,如检测,需要在测试时动态改变输入大小。一种解决方案是对ViT中位置编码进行插值,使其适应不同的图片大小,但这种方案需要重新fine-tune模型,否则结果会变差。最近,美团提出了一种用于视觉Transformer的隐式条件位置编码CPE[1],放宽了显式位置编码给输入尺寸带来的限制,使得Transformer便于处理不同尺寸的输入。实验表明,应用了CPE的Transformer性能优于ViT和DeiT。论文

转载请注明:http://www.aideyishus.com/lkzp/6713.html
------分隔线----------------------------