运用注意力机制的Transformer模型近几年在NLP领域获得了广泛应用。然而,由于参数量和计算量巨大,Transformer模型难以在存储和算力有限的边缘硬件设备上高效部署。为了解决Transformer的低效问题,来自MIT的研究人员提出了HAT:Hardware-AwareTransformers,针对不同的硬件设备的特性,为每个硬件搜索出一个高效的Transformer模型,从而在保持精确度的前提下大幅降低内存消耗。在同样的精度下,相比于基线Transformer,HAT可以获得3倍加速,3.7倍模型压缩。该论文已被自然语言处理顶会ACL收录。此外,HAT的所有代码和模型已经在GitHub上开源,作者也将在7月8日/9日的ACL大会上线上宣讲他们的工作。论文链接:
转载请注明:
http://www.aideyishus.com/lkgx/6746.html