毕业论文-OCR地址识别后处理方法的研究与应用下载_计算机_论文

您现在正在浏览：首页 > 论文 > 计算机 > 毕业论文-OCR地址识别后处理方法的研究与应用

毕业论文-OCR地址识别后处理方法的研究与应用

资源类别：论文
资源分类：计算机
适用专业：计算机科学与技术
适用年级：大学
上传用户：xuehi

文件格式：word
文件大小：1.94MB
上传时间：2013/1/23 22:49:13
下载次数：0 次
浏览次数：515 次

资料简介

毕业论文-OCR地址识别后处理方法的研究与应用，共页，23441字
摘要
OCR (Optical Character Recognition，光学字符识别技术)作为方便有效
的字体识别技术，在办公自动化、信息恢复、数字图书馆等方面发挥着日益重
要的作用。在 OCR 识别的过程中，由于文字和图像结构复杂多变，单字的识别
率受到了一定程度的影响。为了提高识别率，需要利用其它信息对 OCR 识别的
结果进行后处理工作。
语言模型在 OCR 后处理，特别是在中文的文字识别后处理方面有着广泛的
应用。本文详细分析了前期工作中采用的语言模型以及相关算法，分别讨论了
基于字和基于词的语言模型，分析了它们各自的优点和缺点。经过详细的分析，
采用了基于词的语言模型取代基于字的语言模型，接着提出了基于多信息的分
词方法。在图的搜索中，采用了 N-best 搜索算法取代 Viterbi 算法。
本文的测试数据分为两类：第一类为无分割错误测试数据(一个测试集)，
总共 15000 条中文手写地址；第二类为含分割错误测试数据（三个测试集），总
共 58269 条中文手写地址。经过改进，在无分割错误测试集上，手写地址的整
体识别率由原来的 83.73%上升到了 96.84% ，错误率下降了 80.58%；在含分割
错误测试集上，手写地址的整体识别率由原来的 28.56%上升到了 74.15% ，错
误率下降了 63.82%，大大提高了系统的性能。
关键词： OCR，后处理, 语言模型, 基于词的语言模型，分词算法

目录
第一章引言 1
1.1 OCR概况 .....1
1.2 OCR后处理 ...4
1.3 OCR地址识别后处理 ...4
1.4 前期任务简述 4
1.5 研究目的 ....5
1.6 本文内容 ....6
1.7 本章小结 ....6
第二章 OCR后处理方法概述 ...7
2.1 OCR后处理常用的方法 .7
2.1.1 构建词表 ......7
2.1.2 统计语言模型 ..8
2.2 OCR地址识别的模型与实现方法 10
2.2.1 手写体地址识别简述 ....10
2.2.2 无切分错误模型 .......11
2.2.3 含切分错误模型 .......13
2.3 本章小结 ...15
第三章基于多信息的OCR后处理方法 ..16
3.1 基于字的统计语言模型 .......16
3.1.1 基于字的语言模型的基本理论 ....16
3.1.2 基于字的语言模型的优点及缺点 ..16
3.2 基于词的统计语言模型 .......16
3.2.1 基于词的语言模型的基本理论 ...16
3.2.2 基于词的语言模型的优点及缺点 .17
3.3 基于多种信息的OCR分词方法 ..18
3.3.1 地址的树形表示 .......18
3.3.2 基于关键字的分词方法 .19
3.3.3 不依赖关键词的分词方法 20
3.3.4 基于多种信息的分词方法 .......23
3.4 候选距离归一化 .....24
3.5 图搜索算法 .26
3.5.1 搜索图的变换 .26
3.5.2 Viterbi算法 ..27
3.5.3 N-Best搜索算法 .......29
3.6 系统流程 ...29
3.7 本章小结 ...31
第四章实验结果及分析 .....32
4.1评价标准 ...32
4.2地址库及训练数据 ...32
4.3测试数据 ...33
4.4参照系统 ...33
4.5测试结果 ...33
4.5.1 无分割错误的测试结果 .33
4.5.2 含分割错误的测试结果 .34
4.5.3 测试结果小结 .35
4.6 样例分析 ...36
4.6.1 系统优点 .....36
4.6.2 错误分析 .....41
4.6.3 样例分析小结 .45
4.7 本章小结 ...46
第五章结论与展望 .47
5.1 论文工作总结 .......47
5.2 后续工作展望 .......47
参考文献 ..49
附录：英文资料调研报告 .....1

资料文件预览

共1文件夹，1个文件，文件总大小：5.20MB，压缩后大小：1.94MB

毕业论文-OCR地址识别后处理方法的研究与应用

毕业论文-OCR地址识别后处理方法的研究与应用.doc [5.20MB]

下载地址

[ 毕业论文-OCR地址识别后处理方法的研究与应用下载 ] （需要: 99 个学海币）如何赚学海币

资料评论

注意事项

下载FAQ:
Q: 为什么我下载的文件打不开？
A: 本站所有资源如无特殊说明，解压密码都是www.xuehai.net，如果无法解压，请下载最新的WinRAR软件。
Q: 我的学海币不多了，如何获取学海币？
A: 上传优质资源可以获取学海币，详细见学海币规则。
Q: 为什么我下载不了,但学海币却被扣了？
A: 由于下载人数众多，下载服务器做了并发的限制。请稍后再试，48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台，并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

学海网