您现在正在浏览:首页 > 论文 > 计算机 > 搜索引擎——原理、技术与系统电子书

免费下载搜索引擎——原理、技术与系统电子书

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:计算机技术
  • 适用年级:大学
  • 上传用户:赵胜楠12
  • 文件格式:pdf
  • 文件大小:2.90MB
  • 上传时间:2009-9-20 20:50:51
  • 下载次数:0
  • 浏览次数:137

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
搜索引擎——原理、技术与系统电子书
前言
第一章 引论................................................................................................................. 1
第一节 搜索引擎的概念................................................................................................ 2
第二节 搜索引擎的发展历史........................................................................................ 3
第三节 一些著名的搜索引擎........................................................................................ 7
上篇 WEB搜索引擎基本原理和技术.................................................................... 16
第二章 WEB搜索引擎工作原理和体系结构.......................................................... 17
第一节 基本要求.......................................................................................................... 17
第二节 网页搜集.......................................................................................................... 18
第三节 预处理.............................................................................................................. 20
第四节 查询服务.......................................................................................................... 22
第五节 体系结构.......................................................................................................... 25
第三章 WEB信息的搜集.......................................................................................... 29
第一节 引言.................................................................................................................. 29
一、 超文本传输协议.............................................................................................. 29
二、 一个小型搜索引擎系统.................................................................................. 31
第二节 网页搜集.......................................................................................................... 33
一、 定义URL类和Page类...................................................................................... 34
二、 与服务器建立连接.......................................................................................... 39
三、 发送请求和接收数据...................................................................................... 41
四、 网页信息存储的天网格式.............................................................................. 42
第三节 多道搜集程序并行工作.................................................................................. 45
一、 多线程并发工作.............................................................................................. 46
二、 控制对一个站点并发搜集线程的数目.......................................................... 47
第四节 如何避免网页的重复搜集.............................................................................. 47
一、 记录未访问、已访问URL和网页内容摘要信息.......................................... 47
二、 域名与IP的对应问题...................................................................................... 48
第五节 如何首先搜集重要的网页.............................................................................. 49
第六节 搜集信息的类型.............................................................................................. 52
第七节 本章小结.......................................................................................................... 54
iii
第四章 对搜集信息的预处理................................................................................... 55
第一节 信息预处理的系统结构.................................................................................. 55
第二节 索引网页库...................................................................................................... 56
第三节 中文自动分词.................................................................................................. 58
第四节 分析网页和建立倒排文件.............................................................................. 64
第五节 本章小结.......................................................................................................... 66
第五章 信息查询服务............................................................................................... 67
第一节 查询服务的系统结构...................................................................................... 67
第二节 检索的定义...................................................................................................... 68
第三节 查询服务的实现.............................................................................................. 69
一、 结果集合的形成.............................................................................................. 69
二、 查询结果显示................................................................................................. 70
第四节 本章小结.......................................................................................................... 72
中篇 对质量和性能的追求..................................................................................... 73
第六章 可扩展搜集子系统....................................................................................... 75
第一节 天网系统概述和集中式搜集系统结构........................................................... 75
一、 天网系统结构................................................................................................. 75
二、 集中式搜集系统.............................................................................................. 76
第二节 利用并行处理技术高效搜集网页的一种方案............................................... 82
一、 节点间URL的划分策略.................................................................................. 83
二、 关于性能的讨论.............................................................................................. 86
三、 性能测试和评价.............................................................................................. 88
四、 系统的动态可配置性设计.............................................................................. 91
第三节 本章小结.......................................................................................................... 93
第七章 网页净化与消重........................................................................................... 95
第一节 网页净化与元数据提取.................................................................................. 95
一、 引言................................................................................................................. 95
二、 DocView模型.................................................................................................. 98
三、 网页的表示..................................................................................................... 99
四、 提取DocView模型要素的方法..................................................................... 103
五、 模型应用及实验研究.................................................................................... 108
第二节 网页消重算法................................................................................................ 112
一、 消重算法....................................................................................................... 112
iv
二、 算法评测....................................................................................................... 115
第八章 高性能检索子系统...................
资料文件预览
共1文件夹,1个文件,文件总大小:3.45MB,压缩后大小:2.90MB
  • 搜索引擎——原理、技术与系统电子书
    • Adobe Acrobat可导出文档格式文件《搜索引擎——原理、技术与系统》[李晓明、闫宏飞、王继民著].pdf  [3.45MB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部