毕业论文-基于主动用户交互的同名排歧,共64页,27048
中文摘要
同名排歧一直以来在众多的应用中都被认为是一个非常具有挑战性的问题,
比如科学文献检索,人名检索以及社交网络分析。当我们在这些系统中搜索一
个人名的时候,很多包括这个人名的文件(包括论文、网页)都会被返回。我
们很难确定哪些文件是属于我们真正要查找的这个人的。尽管已经有很多的相
关工作,但这个问题仍然没有被很好地解决,当今网络信息成倍快速增长的现
状又增加了这个问题的难度。
在这篇论文中,我们从一个新的角度来研究这个问题,并且提出了一
个ADANA (Actively Disambiguating Person Names With User Interaction,基于主
动交互的同名排歧) 的方法来通过主动的用户交互来进行同名排歧。首先我们
介绍如何用Pairwise Factor Graph (PFG) 模型来解决同名排歧的问题。这个模型
有两大优点:能够自动决定不同实体的个数以及能够方便地进行扩展并结合新
的特征。在PFG模型的基础上,我们提出一个主动同名排歧的算法,目标是最
大程度地利用用户的修改来提高排歧的准确率。在不同数据集上的实验结果表
明利用很少次数的用户修改,同名排歧的平均错误率可以减少到3.1%。另外,
我们还开发了一个基于此方法的网上实际系统。
关键词:同名排歧
目 录
第 1 章 引言 ....1
1.1 同名排歧问题 ..1
1.2 本文的主要贡献3
1.3 论文的组织结构3
第 2 章 相关工作研究 .....4
2.1 现有同名排歧算法的类别 4
基于有监督学习的同名排歧4
基于无监督学习的同名排歧5
基于约束条件的同名排歧 ..7
2.2 结合图信息或外部信息的同名排歧 .8
结合图信息的同名排歧 .....8
结合外部信息的同名排歧 ..9
2.3 不同排歧方法的综合 9
2.4 考虑用户交互的同名排歧 .... 10
2.5 考虑主动学习的同名排歧 .... 11
第 3 章 形式化的问题及特征定义 . 12
3.1 形式化的问题定义 . 12
3.2 实验数据集 ... 13
3.3 特征定义 14
3.3.1 Citation .... 14
3.3.2 CoAuthor.. 15
3.3.3 CoVenue... 15
3.3.4 CoA?liation .... 16
3.3.5 CoContent . 16
3.3.6 TitleSim ... 16
3.3.7 CoHomepage.... 17
特征总结.. 17
第 4 章 解决同名排歧问题的成对因子图模型 ..... 18
4.1 模型定义 18
4.2 模型学习 20
第 5 章 基于主动用户交互的同名排歧 .. 22
5.1 主动选择 22
基于不确定性的主动选择(Uncertainty-based Active Selection, UB) .. 22
基于最大化影响的主动选择(In?uence Maximization-based Active
Selection, IM) ... 23
5.2 模型改进 23
5.3 利用原子集合提高效率 . 24
第 6 章 实验部分 ... 27
6.1 实验设定 27
数据集 .... 27
评价标准和基准方法比较 28
6.2 同名排歧的结果.... 29
在论文数据集上的结果 ... 29
在CALO数据集上的结果 . 31
在新闻数据集上的结果 ... 31
6.3 基于主动用户交互的同名排歧的结果... 32
6.4 在线系统 33
第 7 章 结论和进一步的工作 . 36
插图索引 .. 37
表格索引 .. 38
公式索引 .. 39
致 谢 ..... 43
声 明 ..... 44
附录 A
外文资料的调研阅读报告 . 45
在学期间参加课题的研究成果 . 54