硕士论文-基于加速近端梯度法和文本语义的垃圾评论信息分类方法,共56页,19863字。附实践报告书、答辩文稿。
摘要
随着Web2.0的蓬勃发展,许多消费者养成在网上购物的习惯。一些用户针对一些感兴趣的产品会发表评论,在这些评论中故意的叫好或贬低某些产品,这些评论称之为垃圾评论,客户如果阅读了这些价值受到混淆的评论,就容易受到误导,从而做出错误的判断。如何识别出有效信息,从审查的评论中找到垃圾评论并删除,本文分别从评论者和评论文本两个角度,分类出垃圾评论信息,留下真实的产品评论。 首先,本文提出了一种基于加速近端梯度法的垃圾评论发送者的分类方法。因为垃圾评论者的评论留言是垃圾评论,根据垃圾评论者留下的评论,就能够很容易识别出垃圾评论信息。本文总结了垃圾评论者的行为目的,例如用户评分偏差行为模式,本文以此为垃圾评论者的分类准则。本文从Amazon网站获取800条记录,以不同的评论者对不同的商品的评分构成一个二维矩阵,通过加速近端梯度法找出偏差评分,从而找到最有可能的垃圾评论者,找出他们发布的评论信息,为进一步检测做铺垫。和传统的基于评分的检测方法相比,能更准确的找出潜在的垃圾评论发送者。 一般的检测手段就到此结束,判断他们发布的信息为垃圾评论,但这个有局限性而且不太准确,根据评分发现的评论者不可能百分之百的就是垃圾评论者,因此,本文又增加了一个基于文本语义的垃圾评论检测系统,相比传统的检测系统,只是根据文本的相似性来判断是否是垃圾评论,本文在基于文本相似度的基础上增加了基于评论和商品的关联程度以及单个词语的评论内容检测方法,而且还考虑买入时间、评论时间、用户等级、用户评分等因素,经过实验的验证,本文提出的方法比传统的基于文本相似度的检测方法更好的识别出垃圾评论信息。
关键词: 加速近端梯度法,垃圾评论,最优化,朴素贝叶斯,自然语言处理
目录
第一章 绪论 1
11 选题背景及意义 1
111 时代背景 1
112 社会背景 1
12 国内外研究现状 2
121 商品评论的挖掘 2
122 Opinion mining 的系统研究 5
13 本文主要工作与创新 8
14 本文组织结构 9
第二章 垃圾评论检测技术概要 10
21 垃圾评论知识介绍 10
211 产品评论的特点 10
212 垃圾评论的特点 10
22 欺骗性的评论检测技术 11
23 其他评论信息检测技术 11
24 本章小结 14
第三章 基于加速近端梯度法的垃圾评论检测方法 15
31 加速近端梯度法简介 15
32 基于加速近端梯度法的检测模型 16
33 实验设计 18
331 数据采集 18
332 实验方案 20
333 实验结果分析 23
34 本章小结 24
第四章 基于文本语义的垃圾评论检测方法 25
41 引言 25
42 文本相似度介绍 25
421 基于空间向量的余弦算法 26
43 垃圾评论系统的设计 27
431 总体流程 27
432 相关知识介绍 28
433 预处理评论 29
434 提取关键词 29
435 分析评论内容 31
436 根据其他特征再分析内容 32
44 朴素贝叶斯分类器 33
45 实验结果 34
451 实验数据 34
452 评价指标 34
453 实验结果 35
46 本章小结 37
第五章 总结与展望 38
51 总结 38
52 展望 38
参考文献40
附录2 攻读硕士学位期间撰写的论文44
附录3 攻读硕士学位期间申请的专利45
致谢46
资料预览图片: