安全检测:瑞星:安全 诺顿:安全 卡巴:安全
毕业论文-基于主题关系挖掘的搜索导航,共58页,28824字
中文摘要
网络技术的发展极大地降低了信息流动成本,但同时也给互联网时代的人们提
出了全新的挑战:如何在海量的信息当中快速准确地锁定目标。在这一需求的驱
使下,分类导航应用和搜索查询应用相继产生,对信息检索产生巨大影响。导航
和搜索分别从系统索引和用户查询的角度进行了建模。能否通过结合导航和搜索
的特性以提升信息检索效率,是值得研究的一个问题。
本文以面向文本的主题关系模型——日本弹球盘分配模型(PAM 模型)为基
础,将主题关系引入到搜索导航模式中。主要工作有:
按照将主题关系与搜索结果排序算法相结合的思路,通过设计以用户查询
为核心的主题选择算法,对传统搜索排序算法进行改进;
以主题关系挖掘的结果为基础,设计并实现了一个动态导航模式;
设计并实现了一个以八个新闻网站文本数据为基础的新闻搜索导航系统;
借助这一系统的结果,比较了将主题关系引入搜索结果排序前后的不同,
并对此进行了分析讨论。
关键词:主题关系模型;搜索导航机制;PAM
ABSTRACT
The development of network technology decreases the cost of information
transmission significantly, which brings a new challenge: how to search and lock target
in an efficient and effective way among the mass information. Motivated by this
demand, applications of navigation and search engine emerged successively, both
exerting huge impact on information retrieval. It is worth further studying whether or
not the efficiency of information retrieval can be moved up by integrating the features
of navigation and search.
Based on the correlated topic model, Pachinko Allocation Model (PAM), we
introduce topic relations into the search result sorting algorithm to improve the sorting
results. A dynamic navigation schema on the basis of user query is established by topic
selection algorithm. Finally, based on the notions above, a News Search and Navigation
System is implemented which data from eight news websites is included in. The search
results with and without the topic relations are compared empirically on the data.
Keywords: correlated topic model; search and navigation mode; PAM
目 录
第 1 章
1.1
1.2
引言 .. 1
研究背景 .. 1
研究现状 .. 2
1.2.1
1.2.2
主题模型 2
搜索结果相关度算法 4
1.3
第 2 章
2.1
论文组织 .. 4
基于主题关系的搜索导航算法的设计与实现 .. 6
日本弹球盘分配模型 .. 6
2.1.1
2.1.2
2.1.3
主题关系模型的选择思路 6
日本弹球盘分配模型原理 7
日本弹球盘分配模型实现 9
2.2
2.3
计算单词出现频率在亚主题分布上的期望 .11
基于 2.2 中选择的超主题实现动态导航 . 12
2.3.1
2.3.2
基于《知网》的词语语义相似度的计算 .. 12
根据词语相似度选择亚主题及其主题词 .. 13
2.4
第 3 章
3.1
3.2
3.3
基于 2.2 中选择的超主题实现搜索结果排序 . 14
新闻搜索导航系统的设计与实现 16
应用背景 16
系统设计 17
系统概述 18
3.3.1
3.3.2
开发环境 .. 18
运行环境 .. 18
3.4
爬虫模块 18
3.4.1
3.4.2
3.4.3
数据来源 .. 18
模块结构 .. 18
数据存储 .. 19
3.5
文本处理模块 20
3.5.1
分词处理 .. 20
3.5.2
统计处理 .. 21
3.6
3.7
3.8
3.9
3.10
主题关系模块 21
文件索引模块 23
词语相似度模块 24
查询处理模块 25
用户交互模块 .. 25
3.10.1
3.10.2
搜索子模块 25
动态导航子模块 26
第 4 章
4.1
实验结果与讨论 28
实验数据及参数设置 28
4.1.1
4.1.2
实验数据 .. 28
参数设置 .. 28
4.2
将主题关系模型引入搜索结果排序算法前后的结果对比 28
4.2.1
4.2.2
4.2.3
传统搜索结果排序算法的结果 .. 28
引入主题关系模型后的结果 .. 30
对比分析 .. 31
4.3
4.4
将主题关系模型引入动态导航的结果分析 32
数据集及参数设置对实验结果的影响 34
4.4.1
4.4.2
数据集对实验结果的影响 .. 34
参数设置对实验结果的影响 .. 34
第 5 章
5.1
结论和展望 37
所完成的工作及结论 37
5.1.1
5.1.2
主题模型的研究和基于主题关系的搜索导航算法的实现 .. 37
新闻搜索导航系统的实现 .. 37
5.2
展望 38
插图索引 39
表格索引 40
参考文献 41
致 谢 .. 43
声 明 .. 44
附录 A 外文资料的调研阅读报告或书面翻译 .. 45