您现在正在浏览:首页 > 论文 > 计算机 > 毕业设计-基于数据检索的热点事件发展规律分析

免费下载毕业设计-基于数据检索的热点事件发展规律分析

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:软件工程
  • 适用年级:大学
  • 上传用户:yimoerchu
  • 文件格式:word+pdf+java
  • 文件大小:16.61MB
  • 上传时间:2013-10-17 23:38:33
  • 下载次数:0
  • 浏览次数:21

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介

毕业设计-基于数据检索的热点事件发展规律分析,共31页,12338字,附完整java源代码、开题报告等
主要内容
第一章 引言
1.1 信息时代中的数据
1.2 数据检索的概念及现状
1.3 基于数据检索的热点事件分析
第二章 以热点词语作为关键字的搜索
2.1 关键字搜索的设计要求
2.2 关键字的搜索中面临的技术障碍
2.3 关键字搜索的程序实现
第三章 热点词频的数据分析
3.1 高频词汇的研究意义
3.2 热点词语的特点分析
3.3 热点词频特征分析的程序实现
3.4 热点词语关注度及变化规律

摘要
随着信息数字化技术、多媒体技术的广泛应用和计算机网络的飞速发展,各行各业的大量信息都在以多媒体信息的方式被数字化。信息数字化,使信息能够被广泛地使用、方便地存取以及快速地检索。
今后互联网的飞快发展,信息的更迭频率越来越快,每天我们都要面对数以千计的数据信息,如何从中筛选出我们所需要的信息,并对其中有用的数据进行分析则成为了我们面临的关键问题。
为了更好地分析数据,选取热点事件或者热点问题作为研究对象。
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络爬虫、搜索引擎、Web服务器三个方面进行详细的说明。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。
关键词:信息管理;java;网络爬虫;分析;索引

目 录
第一章 数据信息检索的结构 - 1 -
1.1 信息时代中的数据 - 1 -
1.2 数据检索与搜索引擎的概念 - 1 -
1.3 基于数据检索的热点事件分析 - 1 -
1.4 网络爬虫 - 2 -
1.5索引与搜索 - 2 -
1.6 WEB服务器 - 2 -
1.7 系统的流程图 - 3 -
1.8 检索引擎的指标 - 3 -
第二章web网络爬虫 - 4 -
2.1 什么是网络爬虫 - 4 -
2.2 Heritrix爬虫的组件 - 4 -
2.2.1 Heritrix的流程图 - 5 -
2.2.2 Heritrix的处理队列 - 6 -
第三章 以热点词语作为关键字的搜索 - 7 -
3.1关键字搜索的原理 - 7 -
3.2 Lucene全文搜索 - 7 -
3.3 Lucene的原理分析 - 7 -
3.3.1 全文检索的实现机制 - 7 -
3.3.2 Lucene的索引效率 - 8 -
第四章 多种方法实现数据检索 - 10 -
4.1 倒排索引 - 10 -
4.2 正则表达式 关键字匹配 - 12 -
4.2.1 基本模式匹配 - 12 -
4.2.2 字符簇 - 13 -
4.2.3 确定重复出现 - 14 -
4.3 哈希函数法 - 15 -
4.3.1哈希表的概念及作用 - 15 -
4.3.2哈希函数的冲突 - 16 -
第五章 程序设计 - 17 -
5.1 公共类设计 - 17 -
5.2 垂直搜索引擎构建 - 17 -
第六章 开发工具的介绍 - 21 -
6.1 Tomcat服务器 - 21 -
6.2 MYSQL数据库 - 21 -
6.2 开发环境 - 21 -
第七章 程序的调试与运行 - 22 -
7.1 系统的测试 - 22 -
总结 - 24 -
参考文献 - 25 -

资料文件预览
共7文件夹,27个文件,文件总大小:18.11MB,压缩后大小:16.61MB
  • 毕业设计-基于数据检索的热点事件发展规律分析
    • 基于数据检索的热点事件发展规律分析
      • 检索系统
        • jar包
          • Java档案文件filterbuilder.jar  [68.16KB]
          • Java档案文件fontbox-0.8.0-incubating.jar  [72.40KB]
          • Java档案文件htmllexer.jar  [70.27KB]
          • Java档案文件htmlparser.jar  [135.58KB]
          • Java档案文件lucene-core-3.0.2.jar  [1008.75KB]
          • Java档案文件lucene-demos-3.0.2.jar  [55.75KB]
          • Java档案文件pdfbox-0.8.0-incubating.jar  [4.44MB]
          • Java档案文件poi-3.5-FINAL-20090928.jar  [1.45MB]
          • Java档案文件poi-contrib-3.5-FINAL-20090928.jar  [67.42KB]
          • Java档案文件poi-ooxml-3.5-FINAL-20090928.jar  [382.08KB]
          • Java档案文件poi-scratchpad-3.0.2-FINAL-20080204.jar  [868.03KB]
          • Java档案文件sitecapturer.jar  [15.24KB]
          • Java档案文件thumbelina.jar  [41.81KB]
        • 检索系统 (1)
          • 检索系统
            • [非法语句]志文件Retrieve.log  [0.00B]
            • 可执行文件(程序)检索系统.exe  [8.84MB]
            • 文本文档说明.txt  [583.00B]
        • 源代码
          • Java源文件FileDocument.java  [9.51KB]
          • Java源文件IndexFiles.java  [2.30KB]
          • Java源文件LuceneProc.java  [3.97KB]
          • Java源文件MainFrame.java  [17.26KB]
          • Java源文件MyTable.java  [1.04KB]
      • Microsoft Word文档基于数据检索的热点事件发展规律分析.doc  [615.00KB]
      • Adobe Acrobat可导出文档格式文件中期检查表.pdf  [4.45KB]
      • Adobe Acrobat可导出文档格式文件开题报告.pdf  [5.03KB]
      • Adobe Acrobat可导出文档格式文件成绩单.pdf  [2.26KB]
      • Adobe Acrobat可导出文档格式文件答辩记录单.pdf  [2.40KB]
      • Adobe Acrobat可导出文档格式文件进度报告.pdf  [7.05KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部