目录了解问题要求技能数据获取结构化数据准备文本数据-自然语言处理获取图像特征-迁移学习输入管道-数据生成器编-解码器模型-训练,贪婪搜索,束搜索,BLEU注意机制-训练,贪婪搜索,束搜索,BLEU摘要未来工作引用1.了解问题图像字幕是一个具有挑战性的人工智能问题,它是指根据图像内容从图像中生成文本描述的过程。例如,请看下图:一个常见的答案是“一个弹吉他的女人”。作为人类,我们可以用适当的语言,看着一幅图画,描述其中的一切。这很简单。我再给你看一个:好吧,你怎么形容这个?对于我们所有的“非放射科医生”,一个常见的答案是“胸部x光”。对于放射科医生,他们撰写文本报告,叙述在影像学检查中身体各个部位的检查结果,特别是每个部位是正常、异常还是潜在异常。他们可以从一张这样的图像中获得有价值的信息并做出医疗报告。对于经验不足的放射科医生和病理学家,尤其是那些在医疗质量相对较低的农村地区工作的人来说,撰写医学影像报告是很困难的,而另一方面,对于有经验的放射科医生和病理学家来说,写成像报告可能是乏味和耗时的。所以,为了解决所有这些问题,如果一台计算机可以像上面这样的胸部x光片作为输入,并像放射科医生那样以文本形式输出结果,那岂不是很棒?2.基本技能本文假设你对神经网络、cnn、RNNs、迁移学习、Python编程和Keras库等主题有一定的了解。下面提到的两个模型将用于我们的问题,稍后将在本博客中简要解释:编解码器模型注意机制对它们有足够的了解会帮助你更好地理解模型。3.数据你可以从以下链接获取此问题所需的数据:图像-包含所有的胸部X光片:
转载请注明:
http://www.aideyishus.com/lkcf/8201.html