您现在正在浏览:首页 > 论文 > 计算机 > 毕业论文-倒排索引中位置信息的压缩方法研究

免费下载毕业论文-倒排索引中位置信息的压缩方法研究

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:计算机科学与技术
  • 适用年级:大学
  • 上传用户:xuehai
  • 文件格式:word
  • 文件大小:529.52KB
  • 上传时间:2013-6-11 1:54:08
  • 下载次数:0
  • 浏览次数:0

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介

毕业论文-倒排索引中位置信息的压缩方法研究,共42页,16851字
摘 要
大型搜索引擎系统每秒都在响应着数量巨大的用户请求。用户希望能够在上百亿的网页中找到相关的信息。但伴随着检索信息量的膨胀,搜索引擎在底层数据存储上的负担日益增加。同时,用户对检索返回结果的精确度要求也越来越高,这就要求搜索引擎对底层数据采取更细致的处理。
搜索引擎的底层数据结构是倒排索引。在搜索引擎的不断发展及优化下,倒排索引的位置信息越来越重要。存储倒排索引位置信息的空间几乎等同于倒排索引文档信息以及频率信息的总和,其I/O开销对总体性能有很大影响。
本文主要探讨倒排索引位置信息的压缩算法,减少其在存储空间上的代价,从而降低I/O开销来保证查询检索的效率。本文选取了一些典型的整数列表压缩算法对数据集倒排索引位置信息进行测试,结果表明Simple-16算法不仅有着不错的压缩效果,更在解压速度上有着明显的优势。之后本文又对Simple-16算法进行了符合数据集特征的改进,使其效果得到了进一步的提升。
关键词: 搜索引擎; 倒排索引位置信息; Simple-16编码;

目 录
摘 要 I
Abstract II
目 录 III
1. 绪论 1
1.1研究背景 1
1.2本文主要工作 2
1.3本文组织结构 2
2. 背景知识介绍 4
2.1倒排索引简介 4
2.2倒排索引的存储 5
2.3倒排索引压缩算法简介 7
2.3.1 无参压缩算法 8
2.3.2 带参压缩算法 11
2.3.3 字/字节对齐压缩算法 12
2.3.4 文本相关的压缩算法 13
2.4压缩效果与解压效率 14
3. 压缩算法的分析与优化 15
3.1 Simple-16算法简介 15
3.2 Simple-16针对位置信息的改造 16
3.2.1 倒排索引位置信息特征 16
3.2.2 数据集结构整理 17
3.2.3 数据集位置信息分析和利用 19
3.3.4 改进的Simple-16算法NewSimple-16 23
3.3 压缩算法的比较 27
4. 实验验证 28
4.1 实验环境 28
4.1.1 程序环境 28
4.1.2 数据集介绍 28
4.2 实验结果 28
4.3 实验分析 30
5. 总结和展望 32
参考文献 33
致谢 35

本文主要工作
本文首先研究了现有的倒排索引压缩算法,以及它们在压缩效果、解压效率上的特点。包括无参的Elias code,带参的Golomb(Rice) code,文本相关算法,以及字/字节对齐的压缩算法,VByte,PForDelta,Simple-16等。
在了解了各算法特性之后,根据压缩效果与解压效率的均衡,选择符合要求的算法对数据集倒排索引信息进行压缩解压测试。其中按字/字节压缩算法在压缩效果与解压效率的均衡上有十分好的优势。
本文通过反复试验,测试了Rice code等常用算法,最终选择了按字/字节压缩算法中的Simple-16算法,对数据集中倒排索引位置信息进行压缩。实验获得了较好的压缩效果的同时也获得了很高的解压速率。之后,又根据数据集倒排索引位置信息的特点对Simple-16算法进行了有针对性的改进,取得了较之前更好的压缩效果。

本文组织结构
本文组织结构如下:
第一章:绪论。本章介绍了研究背景和本文的主要工作,并展示本文的层次结构。
第二章:背景知识介绍。本章介绍了倒排索引其数据结构特性,第二节中,展示倒排索引的存储特点。在第三节中,介绍了现有的适用于倒排索引的压缩算法。并在最后一节展示了倒排索引压缩效果与解压效率之间的关系。
第三章:压缩算法的分析与优化。本章首先介绍了现有压缩算法压缩效果与解压效率的关系特性对实际数据集处理的影响。接下来,本章选择了一种Simple-16算法作为数据集的压缩算法对数据集进行处理,同时对Simple-16算法进行了进一步的介绍与分析。在第二节中,展示了Simple-16算法针对数据集倒排索引位置信息的优化与改进方案。
第四章:本章通过实验,对所选出并且改进的算法进行了测试与评估,同时对实验结果进行了具体的分析与解释。
第五章:工作总结与展望。总结整个探究过程的经验,对倒排索引的压缩方法进行更深一步的探究与展望。

资料文件预览
共1文件夹,1个文件,文件总大小:611.08KB,压缩后大小:529.52KB
  • 毕业论文-倒排索引中位置信息的压缩方法研究
    • Office 2007以上版本的Microsoft Word文档毕业论文-倒排索引中位置信息的压缩方法研究.docx  [611.08KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部