安全检测:瑞星:安全 诺顿:安全 卡巴:安全
毕业论文-文本评论相似概念检测,共65页,34247字,附外文翻译
中文摘要
随着 Web 2.0 时代的来临,交互式网络蓬勃发展,越来越多的用户通过互联
网发表自己的观点和看法。互联网自由评论信息量的增加使得用户获取所需信息
的时间增长。为提高用户获取信息的效率,评论的结构化总结成为国际学术领域
上的研究热点。
对评论进行结构化总结的基础就是提取评论对象的相关概念。本文通过对中
文网络文本评论进行分词及词性标注、频繁项提取和概念提取等步骤,设计并实
现了提取评论对象热点概念的系统。通过在实验数据集上的测试,该系统可以有
效提取评论对象的热点概念。
然而,由于评论者对于相同或者相似的概念使用不同的描述方式,从而影响
评论总结的效率。因此,本文针对这一问题研究并实现了三种流行的相似概念聚
类算法:基于 K 均值算法、基于期望最大化算法和基于 LDA 主题模型算法。为
了提高相似概念聚类的准确率,本文还采用两项自然语言背景知识作为限制条
件,整合到算法实现中。实验结果表明,三种算法都在一定程度上可以实现相似
概念的分类,而以先验知识作为限定条件可以提高聚类准确率。
关键词:文本评论;观点挖掘;特征提取;相似概念;聚类算法
目录
第 1 章 引 言 ..1
1.1 研究背景与意义 1
1.2 文本评论相似概念检测问题定义 ....1
1.2.1 概念提取 ..2
1.2.2 相似概念聚类 ....2
1.3 本文主要工作 ....3
1.4 本文组织安排 ....3
第 2 章 文本评论相似概念检测研究现状 ....5
2.1 本章概述 .5
2.2 文本评论概念提取 .5
2.3 文本评论相似概念聚类 ....6
2.3.1 基于 K 均值聚类算法的聚类 .7
2.3.2 基于期望最大化聚类算法的聚类 ....7
2.3.3 基于 LDA 主题模型的聚类 ....7
2.4 本文的研究思路和流程 ....8
2.5 本章小结 .9
第 3 章 文本评论概念提取 ....10
3.1 本章概述 ....10
3.2 分词及词性标注 ...10
3.3 名词性短语提取 ...10
3.4 频繁项集提取 ..11
3.5 概念提取 ....13
3.5.1 单字剪枝 13
3.5.2 紧密度剪枝 .13
3.5.3 冗余项剪枝 .14
3.6 概念上下文提取 ...15
3.7 文本数据结构化 ...16
3.8 本章小结 ....17
第 4 章 文本评论相似概念聚类 ..18
4.1 本章概述 ....18
4.2 无监督算法 .18
4.2.1 基于 K 均值算法的无监督聚类 18
4.2.2 基于 LDA 主题模型的无监督聚类 19
4.3 半监督算法 .20
4.3.1 作为限定条件的背景知识 ....20
4.3.2 基于 K 均值算法的半监督聚类 22
4.3.3 基于期望最大化算法的半监督聚类 ....22
4.3.4 基于 LDA 主题模型的半监督聚类 25
4.4 本章小结 ....26
第 5 章 实验结果分析 ..27
5.1 本章概述 ....27
5.2 实验数据 ....27
5.3 概念提取结果分析 ....28
5.3.1 频繁项集提取结果 28
5.3.2 概念集提取结果 ...28
5.4 相似概念聚类结果分析 ..30
5.4.1 标注数据与评测标准 .30
5.4.2 无监督方式聚类结果 .31
5.4.3 半监督方式聚类结果 .31
5.5 本章小结 ....33
第 6 章 总结与展望 .35
6.1 论文工作总结 ..35
6.2 进一步工作展望 ...35
插图索引 ....37
表格索引 ....38
参考文献 ....39
致 谢 ……….. ..41
声 明 …….. .42
附录 A 外文资料的调研阅读报告或书面翻译 ...43
在学期间参加课题的研究成果 .58