机器之心分析师网络作者:周宇编辑:H4O本文对多个版本的胶囊网络进行了详细的介绍。本文以综述的形式,尽可能详细的向读者介绍胶囊网络的诞生,发展过程与应用前景。本文的内容以Hinton的标志性文章为基础,结合近年来发表在顶会顶刊的文章为补充,力图详细的让读者们了解胶囊网络的各种版本,熟悉它在不同领域的革命性突破,以及它在目前所存在的不足。深度学习和人工神经网络已经被证明在计算机视觉和自然语言处理等领域有很优异的表现,不过随着越来越多相关任务的提出,例如图像识别,物体检测,物体分割和语言翻译等,研究者们仍然需要更多有效的方法来解决其计算量和精度的问题。在已有的深度学习方法中,卷积神经网络(ConvolutionalNeuralNetworks)是应用最为广泛的一种模型。卷积神经网络通常简称为CNN,一般的CNN模型由卷积层(convolutionallayer),池化层(poolinglayer)和全连接层(fully-connectedlayer)叠加构成。在卷积的过程中,卷积层中的卷积核依次与输入图像的像素做卷积运算来自动提取图像中的特征。卷积核的尺寸一般小于图像并且以一定的步长(stride)在图像上移动着得到特征图。步长设置的越大,特征图的尺寸就越小,但是过大的步长会损失部分图像中的特征。此外,池化层也通常被作用于产生的特征图上,它能保证CNN模型在不同形式的图像中能识别出相同的物体,同时也减少了模型对图像的内存需求,它最大的特点是为CNN模型引入了空间不变性(spatialinvariance)。虽然CNN模型的提出取得了显著的成果并解决了许多问题,但是它在某些方面还是存在许多缺陷。CNN最大的缺陷就是它不能从整幅图像和部分图像识别出姿势,纹理和变化。具体来说,由于CNN中的池化操作使得模型具有了空间不变性,因此模型就不具备等变(equivariant).如下图所示,CNN会把第一和第二幅图都识别为人脸,而把第三幅方向翻转的图识别为不是人脸。另外,池化操作使得特征图丢失了很多信息,它们因此需要更多训练数据来补偿这些损失。就特点上而言,CNN模型更适合那些像素扰动极大的图像分类,但是对某些不同视角的图像识别能力相对较差。图1.识别示意图。图源:
转载请注明:
http://www.aideyishus.com/lkzp/6796.html