安全检测:瑞星:安全 诺顿:安全 卡巴:安全
毕业设计-光学字符识别技术研究,共60页,33037字,附外文翻译、答辩PPT
摘要
光学字符识别技术是计算机自动、高速地辨别纸上的文字,并将其转化为可编辑的文本的一项实用技术。它通过扫描和摄像等光学输入方式获取纸张上的文字图像信息,利用各种模式识别算法分析文字形态特征,判断出汉字的标准编码,并按通用格式存储在文本文件中。它是新一代计算机智能接口的一个重要组成部分,也是目前世界前沿研究课题模式识别领域的一个重要分支。文字识别技术的研究涉及图像处理、人工智能、形式语言、自动机、统计决策理论、模糊数学、信息论、计算机科学、语言文字学等学科,它是介于基础研究和应用研究之间的一门综合性科学技术。
本文首先研究了图像输入和预处理,将采集的图片进行二值化、为了能够分析图片中的内容,研究了投影法、连通域法、膨胀算法来分析版面内容,接下来进行了字符切割的研究,将图片中的字逐字进行切分,最后通过提取字符特征,将图片中的文字识别出来。
本文的研究对于自动化识别文字、牌照识别等具有一定的指导意义。
关键字:光学字符识别,模式识别,文字识别
Abstract
Optical character recognition technology is computer automated, high-speed discern words on paper, and turn it into a practical technology to editable text. It is obtained through scanning and imaging optical input text image and other information on the paper, the use of pattern recognition algorithms morphological text analysis to determine the standard encoding of Chinese characters, and then stored in a common text file format. It is a new generation of intelligent an important part of a computer interface, is currently an important branch of the world's cutting-edge research in the field of pattern recognition. Character recognition technology research involving image processing, artificial intelligence, formal languages, automata, statistical decision theory, fuzzy mathematics, information theory, computer science, languages and other subjects, it is between a basic and applied research between comprehensive science and technology.
This paper first studied theimage input and pretreatment, the collected picture values of two, in order to analyze the imagein the content, the projection, connected domain method, to analyze the content of algorithm are studied next expansion, character segmentation, the words in the picture word for word segmentation, the extraction of character features, the image text recognition in the.
This study has a guiding significance for the automatic recognition of text, license plate recognition.
Keywords: optical character recognition, pattern recognition, text recognition
目录
第一章 绪论 1
1.1 文字识别技术的历史与应用 1
1.1.1 文字识别技术历史 1
1.1.2 文字识别技术的应用 2
1.2 文字识别系统的构成 2
1.3 文字识别技术 4
1.3.1 统计模式识别方法 4
1.3.2 结构模式识别方法 5
1.3.3 人工神经网络 5
1.4 存在的问题 6
1.5 本文的组织结构 6
第二章 图像输入和预处理 8
2.1 图像输入 8
2.1.1 图像输入技巧 8
2.2 文字预处理 10
2.2.1 二值化 10
2.2.2 去除噪音 13
2.2.3 倾斜矫正 13
第三章 版面分析 15
3.1 版面分析方法 15
3.1.1 投影法 16
3.1.2 连通域法 18
3.2 版面块分析 21
3.3 基于膨胀算法的版面分析 24
3.3.1 膨胀运算 24
3.3.2 算法过程 25
3.3.3 膨胀尺寸的选择 27
第四章 字符分割 29
4.1 双语混排名片识别系统 29
4.2 混排字符切分算法分析 30
4.2.1 文本块粗切分 30
4.2.2 字符类型判定 32
4.3 基于字间距周期和反馈的字符切分算法 33
4.3.1 中英文字符的周期性 34
4.3.2 中文字符连通区域的分离 35
4.3.3 汉字部件的分离与合并 36
第五章 特征提取 41
5.1 特征提取 41
5.1.1 字符特征提取的方法 41
5.1.2 基于字符骨架的两级初分类 42
5.2 单字识别 46
5.3 后处理 47
第六章 全文总结 48
参考文献 49
致谢 52
毕业设计小结 53
本文的组织结构
在本文的撰写过程中,始终是按照图1.1系统中名片识别的流程来进行一步一步的展开叙述的,下面是本文的组织结构:
第一章 绪论,分析课题的研究背景、研究现状并对识别技术的相关概念进行介绍。
第二章 识别技术中预处理的一些常用方法,提出相应的改进方案,并重点研究了二值化的改进及倾斜校正。
第三章 详尽探讨识别技术中版面分析算法,提出了基于膨胀算法的版面分析技术及其在名片识别中的应用。
第四章 详尽分析识别技术中的字符分割方法。
第五章 总结本文工作。