您现在正在浏览:首页 > 论文 > 计算机 > 毕业设计-Web信息抽取中的文本分类

免费下载毕业设计-Web信息抽取中的文本分类

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:网络技术
  • 适用年级:大学
  • 上传用户:麽路下雪天
  • 文件格式:word
  • 文件大小:691.17KB
  • 上传时间:2009-6-26 23:17:09
  • 下载次数:0
  • 浏览次数:51

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
毕业设计 Web信息抽取中的文本分类 共72页,25713字
摘 要
在机器学习理论中支持向量机(SVM)有着重要的地位,无论是求解分类问题还是求解回归问题,SVM都有着广泛的应用。本文简单的介绍了SVM的基本原理,讨论了SVM在文本分类中的应用,并详细的分析了如何利用SVM构造文本分类器。这里说明了文本分类的详细处理过程,并介绍了这些过程中的关键技术,如:分词技术、向量空间模型(VSM)、特征选取技术和SVM的交叉验证技术等等。结合着分析和讨论又概略的说明了利用Microsoft Visual C++ 6.0创建文本分类系统的过程,介绍了重要的类和关键处理函数的实现和优化,以及如何利用动态链接库来实现C++到Java的迁移。最后给出了由本系统得到的实验数据和结论。
关键字: 机器学习 文本分类 支持向量机(SVM)

目 录
第一章 引言 1
1.1 总体项目背景 1
1.1.1 基于Web的信息集成系统 1
1.1.2 基于Web的信息集成系统的需求和系统结构 2
1.2 文本分类系统的任务和目标 3
1.3 本文主要研究内容 4
第二章 相关理论 7
2.1 文本自动分类 7
2.3 支持向量机(SVM) 8
2.4 SVM的原理 9
2.4.1 线性支持向量机 9
2.4.2 非线性支持向量机 11
2.5 SVM文本分类 13
第三章 需求分析 15
3.1 SVM的两个阶段 15
3.2 训练阶段目标 16
3.3 测试阶段目标 18
3.4 外部接口 18
第四章 总体设计与实现工具的选择 21
4.1 总体结构 21
4.2 训练阶段 21
4.2.1 分词及词频统计 21
4.2.2 文本向量空间模型(VSM)及文本特征选取 27
4.2.3 文本向量化 31
4.2.4 文本分类器 32
4.3 测试阶段 36
4.3.1 分词及词频统计 36
4.3.2 文本向量化 36
4.3.3 分类处理 37
4.4 实现工具的选择与跨语言迁移 37
第五章 详细设计与实现 39
5.1 界面设计 39
5.2 配置文件config.xml 40
5.3 LIST类 40
5.4 Frequency类 42
5.5 partition函数 43
5.6 SORT类 46
5.7 预处理与文本特征的选择策略的设计 47
5.8 scale方法与Matrix.txt文件的生成 49
5.9 libsvm调用 51
5.10 动态链接库SVMDLL.dll的实现和接口定义 54
第六章 测试及结果 57
6.1 二分测试 57
6.2 多分测试 59
6.3 测试总结 61
6.3.1 二分情况 61
6.3.2 多分情况 62
致谢 63
参考文献 65
资料文件预览
共1文件夹,1个文件,文件总大小:1.93MB,压缩后大小:691.17KB
  • 毕业设计-Web信息抽取中的文本分类
    • Microsoft Word文档Web信息抽取中的文本分类.doc  [1.93MB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部