您现在正在浏览:首页 > 论文 > 计算机 > 建立倒排索引文档源代码

免费下载建立倒排索引文档源代码

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:信息检索
  • 适用年级:本科
  • 上传用户:wasdasdf
  • 文件格式:txt
  • 文件大小:12.63KB
  • 上传时间:2010-7-11 10:02:37
  • 下载次数:2
  • 浏览次数:281

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
*本程序试验更新和建立倒排索引,该程序添加了英文索引处理,
在索引目录下存储$curfile.txt文件,记录当前写的索引文件
2006_10_4 程序重新复查内存情况,主要为了解决倒排索引中可能存在的内存泄漏问题,另外去掉内存中不相关的函数
2006_10_8写更新倒排程序,其中idx.txt文件每生成多篇文档后写一次idx.txt文件。
对于$curfile.txt文件,第一行记录当前写的倒排文件的名字,第二行记录已经更新过的文件的名字,
下一次更新时从该文件开始更新
基于以上要求,修改程序思路如下:
1、去掉建立倒排索引时对idx.txt文件写的操作,idx.txt文件只在更新时生成
2、写独立的更新函数,该函数是对当前目录下的所有大于$update.txt中记录的文件(除idx.txt和$curfile.txt)文件内容
进行重新整理的过程,重整主要是将相同的词放在一起。
建倒排索引时不写idx.txt
*/
#include "stdio.h"
#include "seng.h"
#include "string.h"
#include "math.h"
#include "malloc.h"
#include "stdlib.h"
#include "assert.h"
#include "direct.h"

#define MALCSIZE 100 /*一次分配的内存大小*/
#define RELCSIZE 100 /*当一次分配的内存不够时,二次分配时的加数*/
#define SHORTSIZE 20 /*一个词的最大词长10*/
#define INDEXNUMBER 6768 /*简体中文字的个数*/
#define GBLWBTMNUM 161 /*简体中文国标码低位最小值*/
#define GBLWTOPNUM 254 /*简体中文国标码低位最大值*/
#define GBHTBTMNUM 176 /*简体中文国标码高位最小值*/
#define GBHTTOPNUM 247 /*简体中文国标码高位最大值*/
#define MAXPATHL 50 /*最大路径*/
#define MAXPATH 50 /*最大路径*/
#define MAXWORD 80 /*最长的词长为40,一篇文档中最多出现的相同的字头的词的个数*/
#define MAXWORDONE 50 /*以某一个字开头的可能有的词数*/
#define MAXLINEFILE 3 /*倒排索引文件的最大行数*/
/* #define MAXWORDLEN 50 最大词长*/
#define MAXNUMBER 50 /*最大文档数*/
#define MAXFILENAME 20 /*最大文档数*/
#define MAXPOS 400 /*一个词在一篇文章中最多出现的次数*/
#define LOWERA 97 /*字母a所对应的的ASCII码*/
#define DIFLOWHIGA 32 /*大写字母和小写字母ASCII码的差值*/

#define MAXLINELEN 1000 /*倒排文档中每行最多出现的字符个数*/


#define MAXBUFFER 2000 /*最大缓存区, 要注意大小*/
int realloccount = 10;
资料文件预览
共1文件夹,1个文件,文件总大小:46.69KB,压缩后大小:12.63KB
  • 建立倒排索引文档源代码
    • C代码文件建立倒排索引文档源代码.c  [46.69KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部