安全检测:瑞星:安全 诺顿:安全 卡巴:安全
毕业设计-基于Nutch的农业资源搜索引擎的设计与实现,共21页,8436字,附源代码、任务书、开题报告等
主要内容:
搜索引擎(Search engine)是一个信息处理系统[1],能从大量信息中找到所需的信息,提供给 用户。搜索引擎指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统[2]。搜索引擎主要分为三个类型:全文索引[3]、目录索引、元搜索引擎(META Search Engine)。全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果[4]; 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索; 元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo[5]。
农业资源的搜索引擎主要分为三个大的模块:搜索器、索引器[6]、检索器。搜索器的功能是在互联网中获取信息[7];索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制[8]。搜索引擎的主要指标有响应时间、召回率、准确率、相关度等[9]。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障[10]。
要求:
1.农业资源搜索, 按照用户的需求在互联网上搜索相关有用信息,并建立相应的数据库。
2.农业资源索引,对数据库的信息建立相应的索引库。
3.农业资源检索,根据用户的查询要求,在索引库中快速检索出相关的信息。
4.网站资源导航,是农业相关资源搜索的辅助工具,涉及分类包括农业综合网站、农业报刊/杂志/图书、绿化/草业、各地农业类网站、花卉(木)/园艺、果树/蔬菜、机关/协会/组织/团体/研究机构、粮油食品、林业苗木、农业相关论坛/社区、农业相关大学院校、农药/化工/肥料、农业机械、农业类人才信息、生物技术、兽医/兽药/防疫、饲料工业、农业相关信息技术、畜牧养殖、渔业水产、农作物种植等。
摘 要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从Nutch、索引引擎、Web服务器三个方面进行详细的说明。
农业搜索引擎是从指定的Web页面中按照超连接进行解析、搜索。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。
关键词:农业;搜索引擎;索引;查询
目 录
摘 要 1
关键词 1
1 前言 2
2 搜索引擎简介 2
2.1 搜索引擎介绍 2
2.1.1 搜索引擎的分类 2
2.1.2 搜索引擎的工作原理 3
2.2 开发背景 3
2.3 开发环境及运行环境 4
2.3.1 开发环境 4
2.3.2 运行环境 4
3 搜索引擎的结构 4
3.1 搜索引擎系统概述 4
3.2 搜索引擎的构成 4
3.2.1 网络爬虫 4
3.2.2 索引与搜索 5
3.2.3 Web服务器 5
3.3 搜索引擎的主要指标及分析 5
4 数据采集 6
4.1 Nutch简介及工作原理 6
4.1.1 Nutch介绍 6
4.1.2 Nutch的安装 6
4.1.3 Nutch的运行 8
5 索引 8
5.1 Lucene介绍 8
5.2.1 全文检索系统的结构与功能 9
5.2.2 Lucene的索引效率 9
5.2.3 中文切分词机制 11
6 搜索 12
6.1 将项目布置到Tomcat 12
6.2 搜索的界面 12
7 农业资源搜索引擎的特点 14
7.1 农业资源搜索引擎的介绍 14
7.2 农业资源搜索引擎与其他搜索引擎对比 14
8 结束语 15
参考文献 15