毕业设计-基于数据检索的热点事件发展规律分析,共31页,12338字,附完整java源代码、开题报告等
主要内容
第一章 引言
1.1 信息时代中的数据
1.2 数据检索的概念及现状
1.3 基于数据检索的热点事件分析
第二章 以热点词语作为关键字的搜索
2.1 关键字搜索的设计要求
2.2 关键字的搜索中面临的技术障碍
2.3 关键字搜索的程序实现
第三章 热点词频的数据分析
3.1 高频词汇的研究意义
3.2 热点词语的特点分析
3.3 热点词频特征分析的程序实现
3.4 热点词语关注度及变化规律
摘要
随着信息数字化技术、多媒体技术的广泛应用和计算机网络的飞速发展,各行各业的大量信息都在以多媒体信息的方式被数字化。信息数字化,使信息能够被广泛地使用、方便地存取以及快速地检索。
今后互联网的飞快发展,信息的更迭频率越来越快,每天我们都要面对数以千计的数据信息,如何从中筛选出我们所需要的信息,并对其中有用的数据进行分析则成为了我们面临的关键问题。
为了更好地分析数据,选取热点事件或者热点问题作为研究对象。
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络爬虫、搜索引擎、Web服务器三个方面进行详细的说明。它是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条信息进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。
关键词:信息管理;java;网络爬虫;分析;索引
目 录
第一章 数据信息检索的结构 - 1 -
1.1 信息时代中的数据 - 1 -
1.2 数据检索与搜索引擎的概念 - 1 -
1.3 基于数据检索的热点事件分析 - 1 -
1.4 网络爬虫 - 2 -
1.5索引与搜索 - 2 -
1.6 WEB服务器 - 2 -
1.7 系统的流程图 - 3 -
1.8 检索引擎的指标 - 3 -
第二章web网络爬虫 - 4 -
2.1 什么是网络爬虫 - 4 -
2.2 Heritrix爬虫的组件 - 4 -
2.2.1 Heritrix的流程图 - 5 -
2.2.2 Heritrix的处理队列 - 6 -
第三章 以热点词语作为关键字的搜索 - 7 -
3.1关键字搜索的原理 - 7 -
3.2 Lucene全文搜索 - 7 -
3.3 Lucene的原理分析 - 7 -
3.3.1 全文检索的实现机制 - 7 -
3.3.2 Lucene的索引效率 - 8 -
第四章 多种方法实现数据检索 - 10 -
4.1 倒排索引 - 10 -
4.2 正则表达式 关键字匹配 - 12 -
4.2.1 基本模式匹配 - 12 -
4.2.2 字符簇 - 13 -
4.2.3 确定重复出现 - 14 -
4.3 哈希函数法 - 15 -
4.3.1哈希表的概念及作用 - 15 -
4.3.2哈希函数的冲突 - 16 -
第五章 程序设计 - 17 -
5.1 公共类设计 - 17 -
5.2 垂直搜索引擎构建 - 17 -
第六章 开发工具的介绍 - 21 -
6.1 Tomcat服务器 - 21 -
6.2 MYSQL数据库 - 21 -
6.2 开发环境 - 21 -
第七章 程序的调试与运行 - 22 -
7.1 系统的测试 - 22 -
总结 - 24 -
参考文献 - 25 -