您现在正在浏览:首页 > 论文 > 计算机 > 毕业论文-基于XML技术的版面复原研究

免费下载毕业论文-基于XML技术的版面复原研究

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:电子信息工程
  • 适用年级:大学
  • 上传用户:xuehi
  • 文件格式:word
  • 文件大小:1.49MB
  • 上传时间:2014-10-15 3:21:39
  • 下载次数:0
  • 浏览次数:0

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
毕业论文-基于XML技术的版面复原研究,共54页,26602字
版面复原技术是文档数字化过程中一个重要的步骤。本文利用XML(eXtensible Markup Language)支持结构化标签组织文档的优点,实现了文档的多层次,高保真的版式复原。主要的工作有:
1,针对目前文档版面复原尚未得以解决的问题,尤其是字体识别问题进行了研究。在字体识别方面,实现了一种基于纹理的字体识别方法,并与一种基于单字小波特征的字体识别算法进行对比实验,选定后者为基础实现了字体识别模块用于字体信息的提取,可以识别7种中文字体和2种日文字体。
2,将文档的全部内容,包括物理版式信息,逻辑结构信息等以XML格式进行表达。提出了将文档版面元素包含的复杂信息按一系列XML标签及其属性方式进行组织的方案,实现了支持中日英等多语种的全信息结构化XML文档格式定义。并开发了表格逻辑结构组装等提取版面信息的相关技术。
3,研制了还原显示版面的XSL脚本。脚本利用HTML 4技术控制浏览器的显示,在IE浏览器中能够获得很好的显示效果。
利用以上技术,我们实现了一个版面复原系统。该系统以THOCR软件的输出结果为基本依据,补充识别其遗漏的部分版式信息,以结构化的组织方式存放所有版面信息,并能够准确还原显示。该系统在数字图书馆建设,文档自动数字化,跨平台应用等方面都具有广阔的应用前景。
Layout reconstruction is an important procedure in document digitalization. In this thesis, a hiberarchy hi-fi layout reconstruction system is realized with the help of structured-tab organization supporting of XML (eXtensible Markup Language). The main results are listed as follows:
(1) An investigation has been carried out in order to solve the problem in the layout reconstruction area, especially the font recognition problem. A algorithm to identify the font through texture feature of multiple characters is realized, and is compared with a algorithm based on wavelet feature of single character. The later one is applied in the layout reconstruction system with the capability of identifying 7 Chinese fonts and 2 Japanese fonts.
(2) All the information within the layout, including both physical layout info and logical layout info is described in an XML format. A format of recording all the info by a series of XML tabs and their attributes is proposed, which can describe a multi language holography structured document.
(3) A XSL script used to show the page in browser is developed. The script can gain a perfect visual effect through HTML 4 in IE.
We realized a system through all the technology mentioned above. The system can reconstruct the layout correctly by using not only the output of THOCR but also some additional info. The system may be widely used in digital library, automatic digitalization of documents, etc.
目录
摘要.............................................................. I
Abstract ......................................................... II
第一章 引言 ....................................................... 1
1.1 版面复原的意义 ..............................................1
1.2 版面复原技术现状 ............................................2
1.2.1 字体识别技术现状 ......................................2
1.2.2 版面信息复原技术现状 ..................................3
1.3 本文主要工作概述 ............................................5
1.4 论文的安排 ..................................................6
第二章 字体识别 ................................................... 7
2.1 基于多个字符纹理特征算法分析 ................................7
2.2 基于单个字符小波特征算法分析 ................................8
2.3 方案对比 ....................................................9
2.3.1 样本集介绍 .............................................9
2.3.2 对比实验 ..............................................13
2.3.3 噪声实验 ..............................................17
2.4 结论 .......................................................18
第三章 XML 版面复原文档格式的设计与实现 ........................... 20
3.1 区域属性介绍 ...............................................20
3.1.1 文字区域 ..............................................20
3.1.2 行属性 ................................................21
3.1.3 单字属性 ..............................................21
3.1.4 表格区域 ..............................................21
3.1.5 图片区域属性 ..........................................22
3.2 XML 格式设计 ...............................................22
3.3 整体流程 ...................................................23
3.4 XML 文档的实现 .............................................24
3.4.1 表格组装 ..............................................26
3.4.2 彩色文本区域的处理 ....................................29
第四章 版式重现 .................................................. 34
4.1 文字区域 ...................................................35
4.1.1 行定位方案 ............................................36
4.1.2 字定位方案 ............................................37
4.2 图片区域 ...................................................38
4.3 表格区域 ...................................................38
4.3.1 方案一 ................................................38
4.3.2 方案二 ................................................39
第五章 结束语 .................................................... 41
5.1 本文的研究成果 .............................................41
5.2 展望 .......................................................42
参考文献 ......................................................... 43
致谢与声明 ....................................................... 44
外文资料的调研阅读报告 ........................................... 45
资料文件预览
共1文件夹,1个文件,文件总大小:4.33MB,压缩后大小:1.49MB
  • 毕业论文-基于XML技术的版面复原研究
    • Microsoft Word文档毕业论文-基于XML技术的版面复原研究.doc  [4.33MB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部