中科医院专家微信 http://www.jk100f.com/baidianfengzixun/jiankangbaiwen/42627.html选自machinelearningmastery机器之心编译参与:Panda对图像搜索和帮助视觉障碍者「查看」世界等应用而言,让图像带有文本描述是非常有价值的。使用人力标注显然不现实,而随着深度学习技术的发展,使用机器为图像自动生成准确的文本描述成为了可能。JasonBrownlee博士的这篇文章对使用深度学习的图像描述进行了介绍,机器之心对本文进行了编译。图像描述涉及到为给定图像(比如照片)生成人类可读的文本描述。这个问题对人类而言非常简单,但对机器来说却非常困难,因为它既涉及到理解图像的内容,还涉及到将理解到的内容翻译成自然语言。最近,在为图像自动生成描述(称为「字幕」)的问题上,深度学习方法已经替代了经典方法并实现了当前最佳的结果。在这篇文章中,你将了解可以如何使用深度神经网络模型为照片等图像自动生成描述。读完本文之后,你将了解:为图像生成文本描述的难点以及将计算机视觉和自然语言处理领域的突破结合起来的必要性。神经特征描述模型(即特征提取器和语言模型)的组成元素。可以如何将这些模型元素组合到编码器-解码器(Encoder-Decoder)中,也许还会用到注意机制。概述这篇文章分为三部分,分别是:1.使用文本描述图像2.神经描述模型3.编码器-解码器结构使用文本描述图像描述图像是指为图像(比如某个物体或场景的照片)生成人类可读的文本描述。这个问题有时候也被称为「自动图像标注」或「图像标注」。这个问题对人类而言轻而易举,但对机器来说却非常困难。快速一瞥足以让人类指出和描述一个视觉场景的丰富细节。但事实证明,我们的视觉识别模型难以掌握这样出色的能力。——《用于生成图像描述的深度视觉-语义对齐》,要解决这个问题,既需要理解图像的内容,也需要将其中的含义用词语表达出来,并且所表达出的词语必须以正确的方式串接起来才能被理解。这需要将计算机视觉和自然语言处理结合起来,是广义的人工智能领域的一大难题。自动描述图像内容是人工智能领域的一个基本问题,该问题将计算机视觉和自然语言处理连接到了一起。——《ShowandTell:一种神经图像描述生成器》,此外,这个问题也有不同的难度;让我们通过例子看看这个问题的三种不同变体。1.分类图像从数百个或数千个已知分类中为图像分配一个类别标签。将图像分类到已知类别的示例;来自《检测鳄梨到西葫芦:我们已经实现了什么与我们将会实现什么?》,.描述图像生成图像内容的文本描述。为照片生成描述的示例;来自《用于视觉识别和描述的长期循环卷积网络》,3.标注图像为图像中的特定区域生成文本描述。用描述标注图像区域的示例;来自《用于生成图像描述的深度视觉-语义对齐》,这个问题还可以延伸到随时间描述视频中的图像。在这篇文章中,我们
转载请注明:
http://www.aideyishus.com/lkyy/6729.html