分类筛选
分类筛选:

文字有关硕士论文范文 与基于文字识别并拓展多种功能的app设计类硕士论文范文

版权:原创标记原创 主题:文字范文 类别:毕业论文 2024-02-08

《基于文字识别并拓展多种功能的app设计》

该文是有关文字硕士论文范文跟app设计和拓展和识别类硕士论文范文。

侯铮云 瑞泉中学

【摘 要】 随着信息技术水平的不断提升,信息的数量和形式正突飞猛进.如何对这些信息进行处理,使其能够方便被识别,成为计算机研究领域的一大重点.图像现在是一种重要的信息媒介,对信息内容的诠释具有特殊意义.文字具有高级语言特征,对信息储存、内容提取、检索等具有重要作用,且在占很大比重的图像中都有文字的存在,所以对图片中文字的提取便意义非凡.光学字符识别系统(OCR)就是通过计算机检测纸上的印刷字符,通过判断亮、暗的模式确定其形状并处理的一种高度智能化技术.本文详细阐述了一个在手机端使用 OCR 技术对图像中的文字进行识别,以文档的形式保存并拓展多种功能的手机 app 设计.

【关键词】 光学字符识别 OCR 图像预处理 分类器

一、绪论

步入现代社会后,文字和图像以更加丰富的形式出现,填充着整个世界.其中文字是人类文化、信息交流的主要载体,而图像有着直观的事物表现和形象思维的呈现.光学字符识别是通过光电装置将字符信息转换成电信号的过程.经过这一过程后,由计算机自动“浏览”.运用这种技术来提取图像中的文字信息可以满足人们对信息高速处理的要求,因此如何更加灵活的使用光学字符识别技术便成了计算机领域的一大热点.本文提出了在手机端使用 app 进行文字提取的技术.

1.1 文字识别技术的意义和发展

人类步入了信息化社会,信息数量呈现出几何级的增长趋势.就在我们所能接触到的领域,每天都在变化着,再将这个范围扩大到全世界,巨大的数据量是我们无法想象的.如此巨大的数据增长使人们渴望信息处理方式的变革.为了把海量的信息通过计算机进行处理,在 20 世纪 60 年代左右,世界上各个国家相继展开了对光学字符识别技术(OCR)的研究.在 1965 至 1970 年间开始有简单的产品问世,并在许多领域进行了应用.1970 年代初,日本学者开始研究对汉字的光学识别,并研制出了识别率达到 99%,能识别出 2000到 4000 个印刷体汉字的设备.

1.2 汉字识别的困难

(1)数量大.翻开汉字字典,我们便能深深的感受到汉字量的庞大,我们生活中常用的汉字也至少有 3000-4000个.在 OCR 系统中识别汉字时,逐个使用单个分类器是低效的.而采用多级分类器,虽可以提高速度,但在每个级别上都存在不同的分类错误,导致错误率的叠加,从而降低识别率.

(2)字体多.汉字的字体千变万化,有的苍劲有力,有的圆滑细腻,有的古朴厚实.不同偏旁、结构的汉字之间有着大小比例和笔画位置的差异,就连同一个汉字用不同的字体写出来都能使汉字的笔画截然不同.

(3)结构复杂.汉字中笔画多的可达 30 多划,平均下来也有 11 划,笔段数大于 7 的占汉字总量的 97%.

(4)字形相似.汉字中还存在大量的相似字,这就要求 OCR 系统所提取的特征必须能区分这些相似字.为了能够成功的将汉字区分开来就需要找到不同类汉字间差距大的识别特征.但是这些特征在匹配上又需要花较多的时间,会导致识别速度下降.满足识别速度和识别率的共同要求是一大挑战.

1.3 目前 OCR 软件的不足

(1)现有的 OCR 软件虽然在识别准确率和速度上都已经可以满足使用者的需求,但使用起来却受很多限制;

(2)大多数软件只提供 PDF 和 JPG 格式的图像识别,用户有格式转换问题;

(3)目前的 OCR 软件只能在 PC 端进行操作,受地点限制,不能随时随地的操作,缺乏灵活性;

(4)大多数 OCR 软件较贵,且安装程序较大,需要下载大量的补丁.

1.4 汉字识别流程

通过二值化将图像变成灰度图像,再使用图像滤波去除噪声,然后使用归一化统一字符大小,用细化提取出汉字骨架.接下来分别用粗分类和粗识别缩小检索范围,最后用单字识别逐字匹配.

二、图像处理

为了提高文字识别的准确性和高效性,本 app 设计还为使用者提供一些相关的图像处理操作.这些图像处理操作将在使用者通过手机录入图像后自动使用,能够对图像进行极大的优化,从而提高了文字识别的准确率.

2.1 图像二值化

由于本 app 是在移动手机端,通过识别手机拍摄的图像来提取文字信息,所以其中必然存在一个把彩像变成灰度图像的过程.

彩像常用 RGB 三色模式, 每个像素用 3D 矢量表示.灰度图像是给每个像素自己的灰度值,这是在 0~255 之间获得的.分析待处理的灰度图像,在一定范围内找到合适的阈值,以确认该范围内的每个像素是背景或目标点,并最终生成二值图像,这是一个二值过程.

假设图像 f(x,y)在某区域内的灰度至范围为 G,t 为选取的阈值(t ∈ G),则二值化可表示为:

要实现经过二值化处理后,目标和背景完全分离的理想状态,必须减少信息的丢失.

2.2 图像滤波

由于成像系统、传输介质和记录设备的技术不完善,数字图像极其“脆弱”,保护措施非常简单,容易受到噪声的污染.这些噪声在图像上通常表现为一些引起较强视觉效果的孤立像素点或像素块,用一个比喻来描述,就像是人脸上起了一个痘.噪声与我们所要研究的对象毫不相关,是无用的干扰内容,对我们要研究的对象本身产生了不良影响.

将图像滤波分为两大类是学者们多年总结得出的结论.一类是线性滤波,其原理是使用滤波器模板,针对图像中所有的像素点的邻域像素进行线性加权求和.第二类是非线性滤波,是使用某种逻辑关系的非线性方法,对图像中像素点进行处理.

通过对比筛选,本文在图像滤波时,采用非线性滤波器中的中值滤波器,它可以最有效的去除图像中的噪声,并最大程度保留图像原细节.

2.3 归一化

在对文字提取时,由于字体大小的不同对一些特征提取造成了干扰,如方向线素特征、四周面积编码等.因为受到了这些特征的影响,我们有必要对汉字进行一定的统一.在仔细考虑之后,本文选择了归一化方法来统一字符的大小.归一化分为两类:非线性和线性.

本 app 所用的线性归一化法可以理解为汉字整体的平移和缩放.这种方法使用起来较为简单并且失真较小,缺点是无法调节笔画的密度.

非线性归一化和线性归一化是互补的,可以弥补线性归一化的不足,并且可以改变汉字的特征,如汉字的重心、笔画的厚度等.

2.4 细化

汉字的骨架是汉字的中心轴.汉字的细化只能提取汉字的骨架.它不仅保留了完整汉字的拓扑结构,而且去除了不利于识别的点.汉字的细化减少了信息的存储量,加快了识别速度,有利于汉字的提取.

人们对汉字细化做出了大量的研究,提出了许多细化算法:串行算法一般采用m×n的窗口对字符像素点依次判断,删除满足条件者;并行算法则更加大刀阔斧,对所有可能删除的像素点进行标记后全部删除.

对细化后的效果一般有四点要求:不能使笔画断裂;笔画的宽度只能是一个像素;细化后的笔画应尽量是原笔画中轴线;细化要保证保留原字符的拓扑结构,不能丢失和增加信息.

三、分类器

当我们完成了汉字信息的录入后就面临着对汉字的识别问题.为了解决这一关键问题,本 app 采用了分类器技术.分类器可以狭义的理解为一个“信息库”,将录入的文字进行特征分析,并与“信息库”中的信息进行匹配.通常使用的单分类器识别方法有神经网络法、判别函数法和 SVM 法.分类器性能的好坏直接影响着识别的准确率,所以本文使用了识别性能更好的多分类器.

3.1 粗分类

由于粗分类是一级分类,因此有必要尽可能提高识别速度.因此,我们应该使用抗干扰能力强、特征提取速度快的特征.因为是初步的粗分类,对分类能力的要求不高,本app 使用了封闭区域个数特征来提取.封闭区域个数为零的汉字最多,随着封闭区域个数的增加,该特征的汉字数量逐渐减小. 数据库中存储了不同封闭区域特征汉字的集合数据,通过把需要识别的汉字的封闭区域与数据库中的集合一一对应就缩小了匹配的范围.考虑到我们通过手机提取的文字信息可能存在结构粘连问题,可能会影响到识别率,但这毕竟只是识别过程中的第一步,所以这些不完美的地方是可以允许的.

3.2 粗识别

粗分类后的集合是不够详尽准确的,我们需要进行再次的粗识别分类.这一级分类能弥补汉字结构粘连的问题,对粗分类起到了一定的完善作用.

四周编码特征是指文字周围的编码排布,而笔画穿透特征则是指汉字笔画相互交叉点的个数.四周编码特征的抗干扰性好,不受识别质量的影响,但对位置的变换较为敏感;笔画穿透特征虽然可以忽视位置的变换,但若是识别质量较差则会使笔画穿透特征的识别准确率大打折扣.

四周编码特征和笔画穿透特征具有一定的互补性,将两者结合起来利用是一种有效的方法.在经过这一步识别后便将需要识别的文字匹配到了一个更小的集合里,为之后的单字识别打下了基础.

3.3 单字识别

整个识别过程中最重要也是最需要准确率的一步是单字识别.方向线性单元的特性是本 app 所选择的方法.将粗识别完成后所得到的汉字集合与方向线素特征进行对比,并根据情况的不同合理对汉字的横笔段和竖笔段进行加权:如果特征相近则加大其相似度权重;如果水平和垂直笔划是完全不同的,则增加的权重将被适当地减小.这样我们成功的拉大了字与字之间的差异,提高了匹配准确性.通过这种方法将被识别的汉字和信息库中的汉字信息一一对应了起来,成功的完成了整个识别的过程.也正是因为采用了这种三步依次细化检索范围的方法,整个识别过程可谓是迅速准确.

四、 可实现的功能

(1)本 app 设计通过提取文本信息的图像,并使用OCR 技术提取文本信息并将其转换成文档格式.这种功能极大的缩短了人工的时间,并有极高的准确率,在很大程度上提高了工作效率.

(2)本 app 提取文本信息后,直接进行智能排版,为用户提供方便.本 app 还提供编辑功能,使用者可以手动进行修改、删节或补充.文档编辑完成后,可以进行共享、转发等操作,并提供一键打印功能.

(3)本 app 还提供图像处理功能.app 智能化的对图像进行预处理,并对空间域、频率域进行增强和对色彩进行调整,使图像的质量有所增强,提高了文字提取的准确性.

(4)本 app 可以对录入后的文字进行翻译.在对图像进行了录入之后,app 中提供与有道词典、金山词霸等权威翻译软件的链接功能.使用者可以按照自己的需求对录入的文字进行语种翻译.

(5)本 app 还提供智能语音功能,在完成录入后可以进行语音朗读操作. 这一功能在当今时代有很高的使用价值,例如随着电子产品的蓬勃发展,人们对纸质书籍的阅读量日益减少,语音朗读功能为阅读提供了便利.将想阅读的书籍录入后使用这个功能,使读书变成了“听书”,既提高效率又增加了阅读量.

五、总结

去年发生的一件小事激发了我设计这款 app 的灵感.当时我因为忘记带周末的卷子回家,便请同学把卷子拍成照片发给我.但是在我打印出来之后,发现那份打印效果很差:整个图片都被灰色的背景所覆盖,使得题目变的模糊不清.我当时就想如果有一款手机 app 能够将这份卷子识别成 word文档的格式再打印出来效果一定会很好.在这件事的启发下我有了这个创意, 并设计了这款 app. 为了使识别更加成功,增加了图像处理和分类器.我还在这款 app 中拓展了智能排版、 智能翻译、 语音朗读等功能, 致力于提高人们的工作效率.

文字论文参考资料:

小结:这是适合app设计和拓展和识别论文写作的大学硕士及关于文字本科毕业论文,相关文字开题报告范文和学术职称论文参考文献。

和你相关的