当前位置: 编码机 >> 编码机发展 >> 基于改进卷积自编码机的油茶果图像识别研究
油茶主要生长在我国南方亚热带湿润气候地区的天然无污染的高山及丘陵地带,目前主要产区在我国的湖南、江西、广西等省(区)。
油茶俗称山茶、野茶、白花茶,是中国特有的一种优质食用油料植物,被誉为“东方橄榄油”的油茶全身都是宝。
基于优质食用油以及清洁能源的需求,油茶已成为我国产油量最大的木本油料植物。
由于人工采摘工作量大,劳动负担重,因此,智能化自动化采摘油茶果的需求极大。实现油茶果的有效识别,对油茶果的智能化采摘具有重大意义。
油茶果图像颜色不均匀,重叠遮挡严重,环境背景复杂,对目标识别造成极大阻碍。近年来,深度学习理论在图像识别中应用广泛,而卷积神经网络(convolutionalneuralnetwork,CNN)是应用最为广泛的深度学习理论,可以直接在像素层级上实现图像特征学习。AlexNet、VGGNET、ResNet、GoogLeNet与FasterR-CNN等卷积网络模型在病虫害识别、叶片检测、果实识别等方面均有较大进展。
自编码机
自编码机(autoencoder,AE)是一种自监督的数据压缩算法,通过神经网络实现数据的压缩与解压。由于自编码机具有训练样本数目小、训练速度快、鲁棒性强等特点,在特征学习、图像去噪、图像还原、网络预训练等领域均有较多的应用。
为实现油茶果实图像的快速识别,中南林业科技大学张习之,李立君等借鉴了InceptionV3的分解卷积核思想对卷积自编码机进行了结构改良;并参照残差网络的思想,采用直连的训练方式,直接由输出端重构输入端信息,提出一种基于改进卷积自编码机的油茶果识别方法。该方法利用改进后的卷积自编码机对不同颜色通道的图像分别进行特征学习,随后利用空间金字塔池化(spatialpyramidpooling,SPP)算法融合特征,利用softmax分类器实现果实图像的分类;同时,利用selectivesearch(SS)算法在待识别图像上生成检测区域并进行初筛,随后输入至训练好的识别网络,实现对实际环境下油茶果图像的检测识别以验证算法的实用性。
1数据与样本选择
1.1 数据采集与预处理图像
数据采集自湖南某油茶果种植基地,采集时间为年10月,采集设备为尼康D数码相机,采集天气为晴天。主要采集油茶果的果实与枝叶图像,颜色通道为RGB通道,图像格式为JEPG格式。在采集的图像上手动提取区域图像并设置标签构建图像训练集。试验采用RGB色彩空间下的R、G、B3个通道图像作为输入。为减轻噪声对特征提取的干扰,使用中值滤波的方式对图像进行降噪处理。为规避网络过拟合,增大样本数据容量,提高样本多样性,应用数据增广技术对数据集进行随机角度旋转、水平与垂直翻转、亮度对比度调节等操作,以表征样本形态与位姿的多样性,抵消外部光照环境的影响。
1.2 正负样本选择
将采集到的各种位姿与不同遮挡状态的油茶果图像作为输入的正样本(图1a),并将光照、遮挡与周边环境类似的图像作为输入的负样本(图1b)。尽可能地保证正负样本之间的区别为油茶果的真实特征,从而使识别网络可以有效、充分地学习到油茶果的特征,以提高算法学习能力、降低误识别的概率与算法的训练难度。
2油茶果识别网络的搭建
2.1 卷积自编码机识别网络
自编码机数据的压缩与解压缩是与数据相关的、有损的、自样本中自动学习的。网络的输入与输出具有相同的维数,将特征输入网络,通过非线性网络到达中间层,随后再通过反向网络重构数据,得到输出。卷积神经网络在图像识别中有更好的效果,进行多层卷积滤波可以使提取的特征(convolutionalautoencoder,CAE)提取图片特征。传统的栈式卷积自编码网络优化每层网络参数,以上层的输出作为下层自编码机的输入依次训练,链接起来形成网络。InceptionV3架构利用分解的思想,使用非对称的多层分解卷积核代替原始的单层卷积核。增加卷积网络的层数,使得特征维度的提升较为平缓,规避了表达瓶颈,增加了网络的非线性度。同时,非对称的卷积核极大地减少了计算量,使更多的运算资源可以投入到加深网络深度上。识别网络总体结构如下:输入的多图像经过自编码机训练后,自隐藏层输出得到高阶特征图,特征图随后经由空间金字塔池化操作完成特征矩阵的融合,最后利用softmax分类器实现分类。
2.2 卷积核结构
借鉴InceptionV3模型的非对称分解卷积核思想,改进了深度自编码机的网络结构,相关的网络结构参数见表1,网络结构图见图2。
网络共16层,其中,卷积与池化为编码操作,反卷积与上采样为解码操作。为了保证数据信息提取的完整度,对边界处理(padding)设置模式为SAME,使卷积前后数据大小相同。除了最后一层反卷积层采用sigmoid激活函数以外,其余的卷积与反卷积层均采用ReLU函数作为激活函数,以避免在反向传播过程中sigmoid函数出现梯度消失的问题,缓解过拟合现象,加速训练。
2.3 网络训练原则
对图像进行预处理后分为若干单独通道图像,随后按各自通道训练对应的卷积自编码机。为保证在训练过程中网络的整体性,防止信息的丢失,参照残差网络的思想,直接由输出端重构输入端信息,最小化整体网络的重构误差来指导参数更新。相比传统的栈式CAE网络,这样的训练方式考虑了网络的整体性,获取的特征代表性更强。网络损失函数如下:
式中:W和B为卷积网络的卷积参数与偏置,n为输入图像总个数,L为训练批次,XiL与XoL分别为第L批次的输入与输出图像。在训练过程中,为了避免手动设置学习率,增强网络的更新与学习能力,采用adadelta策略对网络进行更新。计算公式如下:
式中:gt为第t批次的梯度值,Δx为权值的变化值,Wt、Bt、Wt+1和Bt+1分别为第t批次图像输入网络后,初始与更新后的权重与偏置,RMS代表均方根,Ut和Vt为上一批输入更新的权重与偏置,ΔWt和Bt为梯度方向,β与α为初始化设定的系数。
2.4 高阶特征融合
在对对应通道的图像特征进行提取后,需要对特征进行合并融合,以得到联合特征。合并过程如下:
式中:p为通道总数,H为当前通道特征图像的参数矩阵,T为转置。假设单通道特征输出大小为m*m*n的三维矩阵,则联合特征为m*m*(p*n)的三维矩阵,特征数量庞大。为了简化分类器计算量,同时有效地提取高维特征向量,采用空间金字塔池化算法对联合特征进行处理,提取抽象的空间平移不变特征。以输入的联合特征为基层,第n层将数据均分为n*n个子区域。假设每个区域c包括a个点,每个点的特征维度为b=p*n个,则这个区块为一个a*b维的矩阵。对于特征的每一行,取最大值作为最终特征值。则区块c最后简化为一个b维向量:
式中:i为区块序号,a为区块中点的序号,F(c)为最终得到的b维向量。对于同一个输出数据,选取不同的层值,假设图片共分为r个块,则最终的特征结果为r*b维的二维矩阵。因此,将特征矩阵由三维降为二维,减少了计算量。
3识别网络性能分析
3.1 试验平台与参数设置
试验软件环境为Windows7操作系统(64位),软件平台为Pycharm,采用Keras深度学习开源框架,选用Tensorflow做后端,用python作为编程语言、计算机内存为16GB,搭载Inteli5-CPU。数据集中3个通道共张图像,含油茶果的目标项与不含油茶果的对比项各为张。以其中的张图像为训练集,余下的张图像为测试集,图像大小统一为*(像素数),格式为JPEG。试验参数为:卷积核为不同大小的分解卷积核,池化方式为平方根池化,池化尺寸e=2。采用adadelta法对网络进行训练,初始学习率为1.0,浮点数为0.95,小浮点数为1e-6,每一批量样本数量为,训练次数为次。为了有效地实现本研究的算法性能分析,以10次训练的平均训练时间、准确率与召回率作为算法性能评价指标:
式中:P为准确率,R为召回率,TP表示将正类预测为正类(即准确识别),FP表示将负类预测为正类(即误识别),FN表示将正类预测为负类(即漏识别)。
3.2 卷积核类型对算法性能的影响
在相同的数据集构型上,引入不同大小的分解与未分解卷积核进行对比试验,试验数据如表2所示。由表2可知,从总体上看,使用分解卷积核的模型训练速度与识别精度高于使用未分解卷积核的模型;算法的训练时间与识别精度随着卷积核的增大而增大。这是因为使用非对称的分解卷积核进行卷积运算,其计算量远小于未分解卷积核;同时,对卷积核的分解加深了网络的层数,使得数据的维度提升较为平缓,避免了表达瓶颈的出现,提高了计算速度,降低了误差,训练速度与精度均得到了提升。此外,不同大小的卷积核对不同特征的学习能力不同:小卷积核对细粒度特征响应充分,提取的纹理特征信息更丰富;较大尺寸卷积核易于提取整体信息(如颜色与轮廓特征)。对于背景复杂的油茶果图像,需要对各类特征进行综合学习。为了在保证识别精度的前提下尽量提高训练速度,将卷积核尺寸确定为3?3的分解卷积核。
3.3 收敛效果分析
在3*3的分解卷积核模型上进行准确率与迭代次数的比较,分析算法的收敛性能,关系图见图3。由图3可知,由于改变了网络的训练方式,相比逐层训练的栈式自编码机,改进后的算法响应更为迅速。其收敛时间较栈式自编码机更短,在10次迭代后即可达到85%的准确率;在30次迭代后,基本达到了最佳的准确率,然而准确率波动较大;在50次迭代后,准确率趋于稳定。这说明改进后的算法可以进行进一步改良,以增强收敛性能。
3.4 小数据集性能分析
为验证算法在小数据集上的有效性,在扩充后的数据集内提取张图片构成小数据集进行试验,试验结果如表3所示。可以发现,相比其他算法,由于自编码机是一种自监督的数据压缩算法,可以自行学习数据内的特征。因此,在小数据集上具有较强的学习能力,可以特异性地表征同类图片的特征,准确率较高,栈式自编码机的准确率可达77%。而由于采用了分解卷积核以及直连式的训练方式,改进的模型网络更深,信息损失更少,在小样本上具有更强的学习能力,准确率可达82%。
3.5 与同类算法对比
为验证改进算法的有效性,同时在栈式卷积自编码机、VGG-16、InceptionV3等算法上利用相同的数据集进行对照试验,试验结果见表4。
本研究提出的改进算法性能高于传统的栈式自编码机,试验证明分解式的卷积核极为有效地提升了训练速度;同时,空间金字塔池化有效地减少了识别时的计算量,从而有效地减小了算法运算所需的时间;而直连式的训练方法有效地降低了训练过程中的损失,提高了识别准确度。由于网络深度与多卷积核并联的缘故,本研究中的算法识别精度接近TP,明显低于InceptionV3。但是两者庞大的训练参数与复杂的网络结构显著地拖累了训练速度;尤其是采用了多尺寸卷积核并联的InceptionV3构型,其复杂的结构使得网络学习能力极强,有较高的识别准确率,但是训练时间达到了本研究中的算法训练时间的4倍。因此,相比以上2种网络结构,本研究提出的算法仍具有一定的可比性,可以通过加深网络深度等方式进一步提高识别的准确率。
3.6 与其他果实识别算法的对比
以相同的数据集,利用文献中改进的凸壳理论算法、文献中的多目标蜂群算法、文献中的VGG识别网络进行油茶果的识别测试,结果如表5所示。由表5可知,改进凸壳理论与多目标蜂群等识别算法,其特征的学习多基于阈值分割、色差变换等提取过的特征;相比在像素层级上直接进行特征提取的CNN网络,识别能力较差。而文献中采用的改进VGG算法并未对深层网络的性能下降现象进行优化,因此准确率反而不及本研究中的算法。
4识别网络实用性验证
本研究设计的识别网络只能对划分的输入图像进行分类识别,实用性能存疑。为验证识别算法的有效性,本研究设计了对应的油茶果检测器以验证算法的识别性能,并实现油茶果的图像检测。
4.1 候选区域生成
在实际运用中,一般采用滑动窗技术实现对候选区域(即boundingbox)的提取,然而滑动窗算法生成的候选区域数量大,检测过程中计算量大,算法性能并不理想。因此,采用SS算法对输入图像进行候选区域的生成。SS算法在生成指定数量的候选区域后,由于生成的区域大小、形状不一,需要对生成的区域进行筛选以提高候选区域的质量。筛选通过以下几个方面进行:剔除重复区域、剔除面积过大与过小的候选区域、剔除形状不符合要求的区域、剔除大区域中的小区域。SS算法生成及筛选后的候选区域见图4。由图4可知,经过初筛后,候选区域的数目从个降至75个,在保证候选区域质量的同时,大大减少了输入至识别网络的区域数量,可以有效减小识别过程中所需的计算量。
4.2 油茶果识别检测器
首先利用SS算法对实时采集的输入图像进行划分,生成预定数目的候选区域;随后对其进行初筛,将初筛后的候选区域调整为固定大小,输入至识别网络进行分类。以sofemax分类器对油茶果类别的输出为判断依据,以此实现对图像中油茶果的检测。
4.3 检测器测试与分析
为验证本研究设计检测器的有效性,以采集的20张油茶果植株图像(大小为0?0像素左右)作为检测器的输入,设置SS算法生成的候选区域数量为个。检测结果示例如图5所示。候选区域生成时间为10s,区域检测时间为2s,平均识别准确率为87%,可以满足实际条件下的识别要求。由图5可知,由于果实颜色不均匀且易受光照环境影响,且互相重叠使得形状特征不明显,因此,当油茶果处于暗处或被遮挡面积过大时,识别网络无法有效地提取特征,使得检测器出现漏识别的现象。这表明应丰富数据集的多样性,并对上述识别算法进行进一步的改进,增强算法的学习能力。同时,10s的筛选时间过长,不能完全满足实际要求,应对筛选候选区域的算法进行进一步的优化,以压缩检测时间。
结论
1)对卷积自编码机在油茶果图像的识别应用方面进行了试验研究与分析。在传统的栈式卷积自编码网络上进行改进,同时基于训练好的识别网络与selectivesearch算法为基础构建油茶果果实检测器,实现实际图像中对油茶果的目标识别,验证算法的实用性。
2)在改进卷积核结构与训练方式后,算法性能提升显著,次迭代所需时间仅为s,平均准确识别率可达90.4%。模型收敛速度快,经过10次迭代后即可达到85%的准确率。同时,模型的学习能力较强,对小数据集有较好的适应性,可以达到82%的准确率。与其他几种常用的卷积神经网络相比,本研究改进的算法在训练时间上优势明显,识别精度较好,且对数据集依赖程度低。与对应的果实识别算法的比对结果也验证了本研究算法的有效性。
3)利用油茶果检测器对实际图像的检测结果显示,单张图片生成候选区域的时间为10s,识别时间为2s,平均识别准确率为87%,基本满足实际条件下的识别要求,证明本研究算法具有一定的实用性。
4)试验结果证明,算法能够有效地对油茶果的图像进行识别与检测,可为油茶果智能采摘、抚育装置的研制提供理论参考。
该文发表于《林业工程学报》年第3期。
引文格式:
张习之,李立君.基于改进卷积自编码机的油茶果图像识别研究[J].林业工程学报,,4(3):-.
ZHANGXZ,LILJ.ResearchofimagerecognitionofCamelliaoleiferafruitbasedonimprovedconvolutionalauto-encoder[J].JournalofForestryEngineering,,4(3):-.
▼更多精彩推荐,请