安全检测:瑞星:安全 诺顿:安全 卡巴:安全
毕业论文-OCR地址识别后处理方法的研究与应用,共页,23441字
摘要
OCR (Optical Character Recognition,光学字符识别技术)作为方便有效
的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重
要的作用。在 OCR 识别的过程中,由于文字和图像结构复杂多变,单字的识别
率受到了一定程度的影响。为了提高识别率,需要利用其它信息对 OCR 识别的
结果进行后处理工作。
语言模型在 OCR 后处理,特别是在中文的文字识别后处理方面有着广泛的
应用。本文详细分析了前期工作中采用的语言模型以及相关算法,分别讨论了
基于字和基于词的语言模型,分析了它们各自的优点和缺点。经过详细的分析,
采用了基于词的语言模型取代基于字的语言模型,接着提出了基于多信息的分
词方法。在图的搜索中,采用了 N-best 搜索算法取代 Viterbi 算法。
本文的测试数据分为两类:第一类为无分割错误测试数据(一个测试集),
总共 15000 条中文手写地址;第二类为含分割错误测试数据(三个测试集),总
共 58269 条中文手写地址。经过改进,在无分割错误测试集上,手写地址的整
体识别率由原来的 83.73%上升到了 96.84% ,错误率下降了 80.58%;在含分割
错误测试集上,手写地址的整体识别率由原来的 28.56%上升到了 74.15% ,错
误率下降了 63.82%,大大提高了系统的性能。
关键词: OCR,后处理, 语言模型, 基于词的语言模型,分词算法
目录
第一章 引言 1
1.1 OCR概况 .....1
1.2 OCR后处理 ...4
1.3 OCR地址识别后处理 ...4
1.4 前期任务简述 4
1.5 研究目的 ....5
1.6 本文内容 ....6
1.7 本章小结 ....6
第二章 OCR后处理方法概述 ...7
2.1 OCR后处理常用的方法 .7
2.1.1 构建词表 ......7
2.1.2 统计语言模型 ..8
2.2 OCR地址识别的模型与实现方法 10
2.2.1 手写体地址识别简述 ....10
2.2.2 无切分错误模型 .......11
2.2.3 含切分错误模型 .......13
2.3 本章小结 ...15
第三章 基于多信息的OCR后处理方法 ..16
3.1 基于字的统计语言模型 .......16
3.1.1 基于字的语言模型的基本理论 ....16
3.1.2 基于字的语言模型的优点及缺点 ..16
3.2 基于词的统计语言模型 .......16
3.2.1 基于词的语言模型的基本理论 ...16
3.2.2 基于词的语言模型的优点及缺点 .17
3.3 基于多种信息的OCR分词方法 ..18
3.3.1 地址的树形表示 .......18
3.3.2 基于关键字的分词方法 .19
3.3.3 不依赖关键词的分词方法 20
3.3.4 基于多种信息的分词方法 .......23
3.4 候选距离归一化 .....24
3.5 图搜索算法 .26
3.5.1 搜索图的变换 .26
3.5.2 Viterbi算法 ..27
3.5.3 N-Best搜索算法 .......29
3.6 系统流程 ...29
3.7 本章小结 ...31
第四章 实验结果及分析 .....32
4.1评价标准 ...32
4.2地址库及训练数据 ...32
4.3测试数据 ...33
4.4参照系统 ...33
4.5测试结果 ...33
4.5.1 无分割错误的测试结果 .33
4.5.2 含分割错误的测试结果 .34
4.5.3 测试结果小结 .35
4.6 样例分析 ...36
4.6.1 系统优点 .....36
4.6.2 错误分析 .....41
4.6.3 样例分析小结 .45
4.7 本章小结 ...46
第五章 结论与展望 .47
5.1 论文工作总结 .......47
5.2 后续工作展望 .......47
参考文献 ..49
附录:英文资料调研报告 .....1