当前位置: 编码机 >> 编码机发展 >> 用于ImageCaptioning的变分
在生成自然且语义正确的字幕时,准确度和多样性是两个基本的可度量表现。目前已经做出了许多努力,以加强其中一个,而另一个由于权衡差距而衰退。然而,妥协并没有取得进展。衰减的多样性使captioner成为一个重复机器,衰减的准确性使其成为一个假的描述机器。在这项工作中,作者开发了一种新的变分Transformer(VariationalTransformer)框架,以同时提高精度和多样性。为了保证准确性,作者引入了“不可见信息先验”和“自动选择GMM”来指导编码器在不同场景中学习精确的语言信息和对象关系。为了确保多样性,作者提出了“范围中值奖励”baseline,以在基于RL的训练过程中保留更多多样性的候选句子,并获得更高的奖励。实验表明,与baseline相比,本文的方法实现了准确度(CIDEr)和多样性(self-CIDEr)的同时提升,分别提高了1.1%和4.8%。此外,在新提出的权衡差距衡量标准下,本文的方法优于其他方法,至少有.55%的提升。
1.论文和代码地址
VariationalTransformer:AFrameworkBeyondtheTrade-offbetweenAccuracyandDiversityforImageCaptioning