您现在正在浏览:首页 > 论文 > 计算机 > 河海大学现代信息检索课程设计报告

免费下载河海大学现代信息检索课程设计报告

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:信息检索
  • 适用年级:本科
  • 上传用户:zigzaga
  • 文件格式:word
  • 文件大小:213.62KB
  • 上传时间:2010-7-11 10:11:47
  • 下载次数:0
  • 浏览次数:300

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
两道题,有算法思想解析、源代码(附详细注释)、和运行效果截图
题1.试按tf-idf在剔除一些常用词后给出文本中术语的统计算法和程序,并按降序进行排序。
【算法介绍】
TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
。。。。。。。。。
【算法思想】
要计算tf和idf的值,需要知道文档总数、文档中每个词汇出现的次数、每个文档的总词数和包含某个词的文档个数。
本程序使用二叉树的数据结构定义:
struct BinTree
{
char term[20]; //存放词汇数组
double weight; //该词汇的权重
double num; //一篇文献中的某一索引词出现的次数
。。。。。。
};

【程序代码】
// tf_idf.cpp : Defines the entry point for the console application.
//
#include "stdafx.h"
#include﹤stdio.h﹥
#include﹤string.h﹥
#include﹤malloc.h﹥
#include﹤math.h﹥
#define FileNum 6
。。。。。。。。。。。。。
题2. 试编制首先对文档建立inverted file,然后进行检索的算法和程序。
资料文件预览
共1文件夹,1个文件,文件总大小:270.00KB,压缩后大小:213.62KB
  • 河海大学现代信息检索课程设计报告
    • Microsoft Word文档河海大学现代信息检索课程设计报告.doc  [270.00KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部