分类筛选
分类筛选:

关于自动类论文参考文献范文 跟基于深度学习的自动图像标注和实现相关在职研究生论文范文

版权:原创标记原创 主题:自动范文 类别:毕业论文 2024-04-14

《基于深度学习的自动图像标注和实现》

本文是关于自动类研究生毕业论文范文和图像和深度和标注方面论文范例。

基于深度学习的自动图像标注研究与实现

何炳金1 宋海玉1 孙东洋1 侯建新1 牛军海2

(1.大连民族大学计算机科学与工程学院,辽宁 大连 116650;

2.河南安彩高科有限公司浮法玻璃事业部,河南 安阳 455000)

摘 要:由于图像数据具有无结构、语义层次低的特点,使得计算机对图像数据的检索、管理变得十分困难.解决这一难题的根本在于对图像进行有效的标注,因此图像标注成为了当今图像研究领域的热门.文章研究了深度学习中的卷积神经网络模型并用于自动图像标注,实验结果表明能够取得较好的标注效果.

关键词:图像数据;图像标注;深度学习;卷积神经网络模型;自动标注  文献标识码:A

中图分类号:TP39  文章编号:1009-2374(2017)03-0007-03  DOI:10.13535/j.cnki.11-4406/n.2017.03.004

1 概述

近年来,由于互联网的全覆盖以及数码相机、智能手机等可成像设备的越来越平民化.拍摄照片后通过、微信等软件进行图片分享,已经成为了这一个时代的潮流.这也就使得每天有海量的图片在网络上传播.因此,当前迫切需要解决的一大问题就是,如何使这些含有大量信息的图像数据得到充分管理和利用.

自动图像标注是解决该问题的有效方法.自动图像标注不仅可以改善图像检索系统,同时也可以给计算机的图像管理领域带来革命性的改变.同样也会对商业的应用、医学的应用、教育的应用、军事的应用等应用领域做出巨大的贡献.

尽管相关学者提出了很多经典模型和算法,如CMRM、MBRM等,但并没有取得较理想的效果,本文重点研究深度学习中的卷积神经网络模型,并把卷积神经网络模型用于自动图像标注.

2 CMRM模型

在诸多的图像标注模型中,CMRM(跨媒体相关模型)是影响最大的图像标注模型,Google学术中,CMRM是所有自动图像标注模型中被引频次长期排名第一.今天很多著名的模型也不同程度地受到了CMRM模型的影响,因此CMRM是自动图像标注模型领域影响最大的模型.

CMRM模型的图像信息是由斑点表示的,对于任意训练图像T,可以表示为T={b1,...,bm,w1,...,wn},其中{b1,...,bm}代表的是图像的视觉信息,而{w1,...,wn}表示的是图像的标注信息.CMRM模型认为斑点集与标注词集之间是存在关联的,每个标注词都与标注集内的每个标注词都存在关联,同样每个标注词也都与斑点集内的每个斑点存在关联.斑点与标注词不再是一一对应的关系,相反标注词与斑点集之间是多对多的关系.

对于输入的测试图像I来说,I只有一个视觉信息即{b1,...,bm},CMRM要做的就是根据训练图像得到的斑点与标注词的关联关系,根据输入图像I的斑点信息找出一组{w1,...,wn}对测试图像进行标注.CMRM假设对于输入图像I存在一个概率函数P(*|I),通过这个函数可以得出I的标注信息{w1,...,wn}.P(*|I)就是采样n个词汇,也就是求出标注词汇库中的每个词汇wi对应的P(wi|I),取概率最大的n个词汇作为标注词.因为图像I可以表示为{b1,...,bm},因此词汇wi是图像I的标注词的概率可以近似表示为:

P(wi|I)≈P(wi|b1,...,bm) (1)由于图像的斑点不包含任何信息,所以式(1)无法进行计算,因此要通过训练集的数据来估测wi与{b1,...,bm}同时出现的概率.因此式(1)又可以转换为:

P ( w i , b 1 , . . . , b m) = Σ.T J P ( w i | J ) P(b1,...,bn|J) (2)

式中:J为训练图像;T为训练图像集.对于训练图像J,图像J有标注词wi,与J中有斑点b1,...,bm是相互独立的,因此式(2)

又可以转换为:P(wi,b1,...,bm)=Σ.T JP(J)P(wi|J)Π等于mj 1P(bj|J) (3)

式中:P(wi|J)表示图像的标注文本信息;Π等于mj 1P(bj|J)表示图像的视觉信息.CMRM利用平滑最大似然方法,使得每幅训练图像J的标注集与斑点集都存在着多对多的关系.计算P(wi,b1,...,bm),只需知道P(J)、P(wi|J)、P(bj|J)这三个变量即可.P(J)只与数据集有关,不随图像的变化而变化.其他两个参数的平滑处理公式如下所示:P(w|J)=(1-αj) | |#( , )Jw J+αj | |#( , )Tw T(4)

P(b|J)=(1-βj) | |#( , )Jb J+βj | |#( , )Tb T(5)

式中:#(w,J)代表标注词w是否是图像J的标注词,当w是图像J的标注词时#(w,J)等于1,否则#(w,J)等于0;#(w,T)标注词w在整个图像训练集中出现的个数;#(b,J)代表斑点b是否存在于图像J中,当斑点b是存在与图像J时#(b,J)等于1,否则#(b,J)等于0;#(b,T)为斑点b在整个训练集中出现的次数;|J|为图像J中所包含的斑点个数与标注词个数的和;|T|为训练集T中所包含的斑点个数与标注词个数的和.

3 深度学习理论

深度学习作为机器学习领域新崛起的热门研究方向,经过网络上大肆宣传以及人们对未来无限遐想,使得深度学习具有了一种神话的感觉.深度学习算法的核心思想是通过算法使计算机模拟人脑处理事务的流程,最终使计算机和人一样具有自己辨别事务的能力.可见这一技术具有无限的发展前景,正因如此深度学习才变成了当今学者争相研究的热门.

深度学习算法是研究者们不断对传统神经网络进行改进,而产生的一种具有深层次的一种神经网络结构.经过研究者们对深度学习的探索,深度学习已经具有了许多表现形式,这些形式适用于不同的研究领域,且都取得了较好的效果.例如常见的深度学习的表现形式有自动编码器(Auto Encoder)、卷积神经网络(Convolutional Neural Networks)、深信度网络(Deep Belief Networks)等.

卷积神经网络是一种多层网络结构,这种网络结构对图像的旋转、平移以及按比例缩放等形变不敏感,因此卷积神经网络具有很强的抗干扰能力.卷积神经网络创新性地将权值共享这一理念引入到深度学习算法中,权值共享的引入有效地降低了网络中参数的个数,这在一定程度上降低了网络的复杂程度.卷积神经网络包含1个输入层、2个卷基层、2个子采样层和1个全连接层.C层为卷积层,也被称为特征提取层,用于提取局部特征.C层中可以包含多个特征图,每个特征图对应有自己专属的卷积核,用于提取不同的局部特征信息.在进行特征提取时,同一个特征图在进行特征提取时的权值是共享的,而不同的特征图在进行特征提取时权值是不同的.经过C层提取的局部特征信息将作为S层的输入信息,S层对输入的局部特征信息进行亚采样,以保证图像进行缩放时不影响图像的特征信息.

图1 卷积神经网络的网络结构

4 基于深度学习的自动图像标注

卷积神经网络的网络结构设置非常灵活,设置不同的网络结构对实验结果会产生一定的影响,一般情况下针对不同的实验数据往往会选择不同的网络结构.因此,为数据集选择一个好的网络结构是至关重要的.通过对相关知识的学习以及对一些已经取得较好结果的网络结构进行研究与分析,发现卷积神经网络算法具有如下特点:(1)实验所用的数据集内包含图像的种类越多,相应的卷积神经网络需要的网络层数越多;(2)卷积层所包含的特征图的个数与其所在的层数成正比.即在网络结构中所处的层数越深,这一层内相应的特征图个数也就相对越多;(3)通常情况下在同一网络结构下输入的图像的分辨率越大,网络结构的运算规模也就越大,响应者模型迭代一次所需要的时间也就越长.

通过对卷积神经网络的研究与分析,本文决定采用一个由1个输入层、2个卷基层(卷积核大小为5×5)、2个亚采样层以及1个全连接层所组成的卷积神经网络模型作为进行图像分类的网络模型.卷基层的激活函数选取sigmoid函数作为激活函数.基于卷积神经网络的图像分类流程如图2所示:

图2 卷积神经网络图像分类流程图

下面简要描述一下本文所用的卷积神经网络的特征提取过程,首先灰度化处理数据集中所有的彩片,灰度处理后采用双线性插值算法将输入的图片进行缩放,将图像转换为100×100大小.C1层进行卷积,C1层使用6个尺寸为5×5大小的卷积核对图像进行卷积,卷积后的每个特征图的大小为(100-5+1)×(100-5+1)=96×96.将卷积后的数据输入到S1层,利用亚采样层S1层对C1层的特征图进行采样,S1层的池化矩阵大小为4×4,共有6个特征图,每个特征图的大小为(96/4)×(96/4)=24×24.C2层继续卷积,卷积核尺寸依然为5×5,C2层有12个特征图,每个特征图的大小为(24-5+1)×(24-5+1)=20×20.S2层进行亚采样,S2层的池化矩阵依然为4×4,S2层有12个特征图,特征图大小为(20/4)×(20/4)=5×5.

5 实验结果与结论

我们从Core1k数据集中选取了七类图片,作为实验的数据集.其中每类图片随机选取80张图片,七类共560张图片作为图像分类模型的训练数据集,每类图像剩余的20张图像组成了一个具有140张图像的测试数据集.卷积神经网络中的权值会随着模型迭代次数的增加而改变,并最终会趋近于一个理想的数值.不同迭代次数情况下,图像分类模型的实验结果如表1所示:

表1 不同迭代次数实验结果表

卷积神经网络是近年来新兴起的人工神经网络结构,在图片和语言识别方面能给出更优秀的测试结果,但其需要调参,数据量大,计算量也很大.不过,随着并行计算、云计算以 及神经网络算法的改进,今后效率、性能效果会更好.

参考文献

[1] 张强,王正林.精通MATLAB图像处理(第二版)[M].北京:电子工业出版社,2013.

[2] 陈明.MATLAB神经网络原理与实例精解[M].北京:清华大学版社,2013.

[3] A.Makadia,V.Plovic,S.Kumar.Baselines for ImageAnnotation [J].International Journal of ComputerVision,2010,90(1).

[4] F.Monay and D.Gatica-Perez.On image autoannotationwith latent space models[A].In Proceedingsof the eleventh ACM international conference onMultimedia[C].2003.

[5] Lrenko V,Manmatha R,Jeon J.A model for learningt h e s e m a n t i c s o f p i c t u r e s [ A ] . I n S e b a s t i a n T,LawrenceKS,Bernhard S,eds.Proc.of the NeuralInformation Processing Systems[C].2004.

[6] Feng SL,Manmatha R,Lrenko V.Multiple Bernoullirelevance models for image and video annotation[A].In Proc.of the IEEE Conf.Computer Vision and PatternRecognition.Washington[C].2004.

[7] J.Jeon,V.Lrenko and R.Manmatha.Automatic ImageAnnotation and Retrieval using CrossMedia RelevanceModels[A].In Proceedings of ACM SIGIR ConfenceResearch and Development in Information Retrieval[C].2003.

基金项目:大连民族大学2016年大学生创新创业训练计划项目(省级项目,项目编号:S201612026025)资助.

作者简介:何炳金(1996-),男,广西南宁人,大连民族大学计算机科学与工程学院在读本科生;宋海玉(1971-),男,河南安阳人,大连民族大学计算机科学与工程学院副教授,硕士研究生导师,博士,研究方向:图像理解、机器学习;孙东洋(1994-),男,内蒙古赤峰人,大连民族大学计算机科学与工程学院在读硕士研究生,研究方向:图像理解、机器学习;侯建新(1997-),男,内蒙古赤峰人,大连民族大学计算机科学与工程学院在读本科生;牛军海(1974-),男,河南安阳人,河南安彩高科有限公司浮法玻璃事业部工程师.

(责任编辑:黄银芳)

自动论文参考资料:

论文如何自动生成目录

论文目录怎样自动生成

论文目录如何自动生成

参考文献自动生成

word参考文献自动排序

论文的目录怎么自动生成

汇总,这是一篇关于图像和深度和标注方面的相关大学硕士和自动本科毕业论文以及相关自动论文开题报告范文和职称论文写作参考文献资料。

和你相关的