您现在正在浏览:首页 > 论文 > 计算机 > 毕业设计-基于Nutch的农业资源搜索引擎的设计与实现

免费下载毕业设计-基于Nutch的农业资源搜索引擎的设计与实现

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:程序设计
  • 适用年级:大学
  • 上传用户:xuehai
  • 文件格式:word+jsp
  • 文件大小:3.84MB
  • 上传时间:2012-8-25 23:41:34
  • 下载次数:0
  • 浏览次数:0

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介

毕业设计-基于Nutch的农业资源搜索引擎的设计与实现,共21页,8436字,附源代码、任务书、开题报告等
主要内容:
搜索引擎(Search engine)是一个信息处理系统[1],能从大量信息中找到所需的信息,提供给 用户。搜索引擎指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统[2]。搜索引擎主要分为三个类型:全文索引[3]、目录索引、元搜索引擎(META Search Engine)。全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果[4]; 目录索引虽然有搜索功能,但严格意义上不能称为真正的搜索引擎,只是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息,不依靠关键词(Keywords)进行查询。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo、新浪分类目录搜索; 元搜索引擎(META Search Engine)接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索结果排列方面,有的直接按来源排列搜索结果,如Dogpile;有的则按自定的规则将结果重新排列组合,如Vivisimo[5]。
农业资源的搜索引擎主要分为三个大的模块:搜索器、索引器[6]、检索器。搜索器的功能是在互联网中获取信息[7];索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表; 检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制[8]。搜索引擎的主要指标有响应时间、召回率、准确率、相关度等[9]。这些指标决定了搜索引擎的技术指标。搜索引擎的技术指标决定了搜索引擎的评价指标。好的搜索引擎应该是具有较快的反应速度和高召回率、准确率的,当然这些都需要搜索引擎技术指标来保障[10]。
要求:
1.农业资源搜索, 按照用户的需求在互联网上搜索相关有用信息,并建立相应的数据库。
2.农业资源索引,对数据库的信息建立相应的索引库。
3.农业资源检索,根据用户的查询要求,在索引库中快速检索出相关的信息。
4.网站资源导航,是农业相关资源搜索的辅助工具,涉及分类包括农业综合网站、农业报刊/杂志/图书、绿化/草业、各地农业类网站、花卉(木)/园艺、果树/蔬菜、机关/协会/组织/团体/研究机构、粮油食品、林业苗木、农业相关论坛/社区、农业相关大学院校、农药/化工/肥料、农业机械、农业类人才信息、生物技术、兽医/兽药/防疫、饲料工业、农业相关信息技术、畜牧养殖、渔业水产、农作物种植等。

摘 要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从Nutch、索引引擎、Web服务器三个方面进行详细的说明。
农业搜索引擎是从指定的Web页面中按照超连接进行解析、搜索。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的信息。
关键词:农业;搜索引擎;索引;查询

目 录
摘 要 1
关键词 1
1 前言 2
2 搜索引擎简介 2
2.1 搜索引擎介绍 2
2.1.1 搜索引擎的分类 2
2.1.2 搜索引擎的工作原理 3
2.2 开发背景 3
2.3 开发环境及运行环境 4
2.3.1 开发环境 4
2.3.2 运行环境 4
3 搜索引擎的结构 4
3.1 搜索引擎系统概述 4
3.2 搜索引擎的构成 4
3.2.1 网络爬虫 4
3.2.2 索引与搜索 5
3.2.3 Web服务器 5
3.3 搜索引擎的主要指标及分析 5
4 数据采集 6
4.1 Nutch简介及工作原理 6
4.1.1 Nutch介绍 6
4.1.2 Nutch的安装 6
4.1.3 Nutch的运行 8
5 索引 8
5.1 Lucene介绍 8
5.2.1 全文检索系统的结构与功能 9
5.2.2 Lucene的索引效率 9
5.2.3 中文切分词机制 11
6 搜索 12
6.1 将项目布置到Tomcat 12
6.2 搜索的界面 12
7 农业资源搜索引擎的特点 14
7.1 农业资源搜索引擎的介绍 14
7.2 农业资源搜索引擎与其他搜索引擎对比 14
8 结束语 15
参考文献 15

资料文件预览
共15文件夹,90个文件,文件总大小:4.66MB,压缩后大小:3.84MB
  • 毕业设计-基于Nutch的农业资源搜索引擎的设计与实现
    • 200841903323 王祥
      • Search Engine
        • mydir
        • search-engine
          • META-INF
            • mfMANIFEST.MF  [106.00B]
          • WEB-INF
            • classes
              • org
                • nutch
                  • jsp
                    • propertiesanchors.properties  [83.00B]
                    • propertiesanchors_de.properties  [88.00B]
                    • propertiesanchors_en.properties  [83.00B]
                    • propertiesanchors_pl.properties  [112.00B]
                    • propertiescached.properties  [117.00B]
                    • propertiescached_de.properties  [126.00B]
                    • propertiescached_en.properties  [117.00B]
                    • propertiescached_pl.properties  [115.00B]
                    • propertiesexplain.properties  [84.00B]
                    • propertiesexplain_de.properties  [161.00B]
                    • propertiesexplain_en.properties  [84.00B]
                    • propertiesexplain_pl.properties  [96.00B]
                    • propertiessearch.properties  [281.00B]
                    • propertiessearch_ca.properties  [251.00B]
                    • propertiessearch_de.properties  [290.00B]
                    • propertiessearch_en.properties  [281.00B]
                    • propertiessearch_es.properties  [253.00B]
                    • propertiessearch_fi.properties  [335.00B]
                    • propertiessearch_fr.properties  [239.00B]
                    • propertiessearch_hu.properties  [219.00B]
                    • propertiessearch_ms.properties  [277.00B]
                    • propertiessearch_nl.properties  [239.00B]
                    • propertiessearch_pl.properties  [340.00B]
                    • propertiessearch_pt.properties  [249.00B]
                    • propertiessearch_sv.properties  [281.00B]
                    • propertiessearch_th.properties  [567.00B]
                    • propertiessearch_zh.properties  [310.00B]
                    • propertiestext.properties  [164.00B]
                    • propertiestext_de.properties  [148.00B]
                    • propertiestext_en.properties  [164.00B]
              • slaves  [10.00B]
              • 文本文档automaton-urlfilter.txt  [599.00B]
              • utf8common-terms.utf8  [990.00B]
              • xslconfiguration.xsl  [1.28KB]
              • xslcontext.xsl  [2.89KB]
              • xmlcrawl-tool.xml  [2.06KB]
              • 文本文档crawl-urlfilter.txt  [868.00B]
              • shhadoop-env.sh  [1.21KB]
              • xmlhadoop-site.xml  [178.00B]
              • propertieslog4j.properties  [297.00B]
              • SGML文档类型定义(DTD)文件mime-types.dtd  [339.00B]
              • xmlmime-types.xml  [33.40KB]
              • xslnutch-conf.xsl  [511.00B]
              • xmlnutch-default.xml  [32.75KB]
              • xmlnutch-site.xml  [268.00B]
              • SGML文档类型定义(DTD)文件parse-plugins.dtd  [347.00B]
              • xmlparse-plugins.xml  [5.99KB]
              • xmlregex-normalize.xml  [870.00B]
              • 文本文档regex-urlfilter.txt  [721.00B]
              • xmlsubcollections.xml  [268.00B]
              • 文本文档suffix-urlfilter.txt  [577.00B]
            • lib
              • Java档案文件commons-cli-2.0-SNAPSHOT.jar  [123.00KB]
              • Java档案文件commons-lang-2.1.jar  [202.85KB]
              • Java档案文件commons-logging-1.0.4.jar  [33.44KB]
              • Java档案文件commons-logging-api-1.0.4.jar  [25.59KB]
              • Java档案文件hadoop-0.12.2-core.jar  [1.04MB]
              • Java档案文件log4j-1.2.13.jar  [349.79KB]
              • Java档案文件lucene-core-2.1.0.jar  [452.71KB]
              • Java档案文件lucene-misc-2.1.0.jar  [42.86KB]
              • Java档案文件nutch-0.9.jar  [466.73KB]
              • Java档案文件taglibs-i18n.jar  [28.87KB]
              • Java档案文件xerces-2_6_2.jar  [986.99KB]
              • Java档案文件xerces-2_6_2-apis.jar  [121.80KB]
            • tldtaglibs-i18n.tld  [10.98KB]
            • xmlweb.xml  [1.80KB]
          • include
            • 超文本文档footer.html  [0.00B]
            • 超文本文档style.html  [1.03KB]
          • zh
            • include
              • 超文本文档header.html  [190.00B]
            • 超文本文档search.html  [1.66KB]
          • HTML网页,其中包含有对一个Java servlet的参考anchors.jsp  [3.00KB]
          • HTML网页,其中包含有对一个Java servlet的参考cached.jsp  [3.79KB]
          • HTML网页,其中包含有对一个Java servlet的参考cluster.jsp  [3.85KB]
          • HTML网页,其中包含有对一个Java servlet的参考explain.jsp  [3.05KB]
          • HTML网页,其中包含有对一个Java servlet的参考index.jsp  [1.14KB]
          • HTML网页,其中包含有对一个Java servlet的参考more.jsp  [2.44KB]
          • HTML网页,其中包含有对一个Java servlet的参考refine-query.jsp  [1.65KB]
          • HTML网页,其中包含有对一个Java servlet的参考refine-query-init.jsp  [1.68KB]
          • HTML网页,其中包含有对一个Java servlet的参考search.jsp  [11.04KB]
          • HTML网页,其中包含有对一个Java servlet的参考text.jsp  [2.26KB]
        • 文本文档系统运行环境配置说明书.txt  [270.00B]
      • Microsoft Word文档01任务书.doc  [50.00KB]
      • Microsoft Word文档02开题论证审批表.doc  [47.50KB]
      • Microsoft Word文档03中期检查表.doc  [35.00KB]
      • Microsoft Word文档04答辩记录.doc  [35.00KB]
      • Microsoft Word文档05开题论证记录.doc  [34.50KB]
      • Microsoft Word文档06工作情况表.doc  [36.00KB]
      • Microsoft Word文档07论文初稿.doc  [217.50KB]
      • Microsoft Word文档08论文正稿.doc  [242.50KB]
      • Microsoft Word文档09选题审批表.doc  [33.50KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部