您现在正在浏览:首页 > 职教文章 > 职教论文 > 基于知识发现的高校科研决策支持系统

基于知识发现的高校科研决策支持系统

日期: 2011-6-29 16:05:12 浏览: 0 来源: 学海网收集整理 作者: 佚名

摘 要:科研管理是高校的重要工作. 如何从大量的科研数据中挖掘出支持科研决策的知识成了当务之急. 讨论基于知识发现的高校科研决策支持系统. 该系统通过对数据进行分类分析、聚类分析和关联分析发现知识,为学校科研决策者提供决策支持.
   关键词:科研决策支持系统;知识发现;数据库;关联规则.
  
   随着计算机硬件和软件技术的发展,尤其是数据库技术的发展,以数据库技术为基础的管理信息系统在各行各业广泛应用. 很多高等学校都陆续建立了自己的管理信息系统,其中包括教学管理、人事管理、科研管理和财务管理等. 但是传统的管理信息系统只能完成相关数据的基本管理工作,向管理者提供直观的数据内容,如数据的录入、删除、修改、查询等,无法找到数据间深层次的联系. 而高等学校管理者更需要的是能提供决策支持的管理信息系统. 为适应这一发展趋势,满足高等学校科研管理者的需要,我们研究开发了基于知识发现的高校科研决策支持系统.
   1  系统简介
   1. 1  功能
   决策支持系统主要分为3 大模型块1 :网上录入:各院系在因特网上凭借用户名和密码登陆校园网站,进行数据录入.网上查询:通过因特网,凭借院系的用户名和密码登陆校园网站,对学校的论文、著作等科研成果进行浏览、下载和打印等.决策支持:通过对数据进行分类分析、聚类分析和关联分析发现知识,为学校科研决策者提供决策支持. 这是系统的核心模块,是研究的重点,也是本文的主要讨论内容.
   1. 2  开发工具
   由于本决策支持系统在进行决策支持时对数据管理和处理上的要求比较高,因此我们采用了
   SQL SERVER 作为后台数据库,它提供了强大的数据管理、存储与检索功能.本系统用Visual J ++ 6. 0 作为前台管理工具. Visual J ++ 6. 0 是J ava 最新的可视化开发工具,它对基本的Windows 控件与数据库的连接、本地代码调用和动态网页生成等方面都提供了良好的支持工具. 使用Visual J ++ 6. 0 作为前台开发工具,增加了系统的可视性,减少了系统开发的
   难度.网上输入和查询部分用ASP(内含VBScript)完成. ASP 具有强大的数据库访问功能,使得网上查询功能的实现简单化,另外VBScript 语言可以很好的设计令人满意的网页界面和完成一些计算功能.
   2  知识发现
   在信息科学中,数据是事物、概念或指令的一种形式化的表示形式,以适合于同学通讯、解释或处理. 信息是数据所表达的客观事实. 信息经过加工和改造形成知识. 知识是人类在实践的基础上产生又经过实践检验的对客观实际的可靠的反映. 知识是人脑创新的成果,是人类智慧的结晶.知识一般可分为陈述性知识、过程性知识和控制性知识. 陈述性知识提供概念和事实,描述系统状态、环境和条件,是认识世界的知识. 过程性知识提供有关状态的变化、问题求解过程的操作的知识. 控制性知识包含有关处理过程、策略和结构的知识,用于控制系统向希望的方向发展.知识发现KDD ( Knowledge Discovery inDatabase) 是20 世纪80 年代后期兴起的学科,知识发现是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则. 这是一个年轻的跨学科领域.知识发现与数据挖掘(开采) (Data Mining)在学术领域有很大的重合度. 大部分学者认为知识发现和数据开采是等价的概念,人工智能领域习惯称知识发现,而数据库领域习惯称数据挖掘.知识发现的任务主要有:数据分类分析、聚类分析、关联规则挖掘、预测分析、趋势分析和偏差分析等. 知识发现的方法主要有:统计方法、机器学习方法和神经网络方法等. 本文主要介绍关联规则挖掘在系统中的应用.
   3  关联规则挖掘
   3. 1  关联规则相关概念
   关联规则的概念是由Agrawal 、Imielinski 和Swami 提出的[3 ] ,是数据之间一种简单实用的规则. 关联规则模式属于陈述性知识,发现关联规则的算法属于无监督学习的方法. 设R = { I1 , I2 ,⋯, Im} 是一组物品集, W 是一组事务集. W 中的每个事物T 是一组物品, T ﹤ R . 假设有一个物品集A ,一个事务T ,如果A ﹤ T ,则称事务T 支持事务集A . 关联规则是一种蕴涵: A →B ,其中A 、B 是两组物品, A ﹤ I , B ﹤ I ,且A ∩B = Φ. 一般采用下边的参数来描述关联规则的属性:(1) 置信度(confidence) :全体事务集D 中支持物品集X 的事务中,有c %的事务同时也支持物品集Y , c %称为关联规则X →Y 的置信度,置信度表示规则的强度, 用. confidence ( X → Y ) 表示. 其中,最小置信度用minconf 表示.(2) 支持度(support) :全体事务集D 中有s %的事务同时支持物品集X 和Y , 则称s %为关联规则X → Y 的支持度, 支持度表示规则的频度.用support ( X) 表示. 其中, 最小支持度用minsup表示.(3) 频繁项集: 物品集X 的支持度support( X) 不小于最小支持度minsup ,则称X 为繁项集,简称频集.关联规则的挖掘问题就是在事物数据库D中找出具有用户给定的满足一定条件的支持最小
   度minsup 和最小置信度minconf 的关联规则. 关联规则的挖掘一般分为以下两个步骤:
   (1)  找出存在于事务数据库中的所有频繁项集。
   (2)  用频繁项集生成关联规则,即对于每个频繁项集X , 若Y A X , Y ≠Φ, 且confidence ( Y] ( X - Y) ) ≥minconf ,构成关联规则Y ] ( X -Y) .可以看出,如果找到频繁项集,通过第二步很容易得出相应的关联规则, 因此第一步中如何找频繁项集是关联规则挖掘的关键. 下边介绍关联规则挖掘算法中著名的Apriori 算法.
   3. 2  Apriori 算法
   Apriori 算法的基本思想是利用频繁项集的向下封闭性(即频繁项集的子集也是频繁项集) 寻找频繁项集. 在Apriori 算法中先计算所有12物品集C1 ( k2物品集是含有k 个物品的2物品集) , 即候选12物品集,找出所有的频繁12物品集L 1 ,然后根据频繁12物品集确定候选22物品集C2 , 从候选22物品集中找出频繁22物品集L 2 , 依次下去,直到不再有候选物品集为止.
   Apriori 算法:
   Input DB , minsup.
   Output : Result = {所有的频繁项集和它们的支持度}.
   Result = { } ;
   k : = 1 ;
   C1 : = 所有的12项集
   While ( Ck ≠Φ) do
    begin
    为每个Ck 中的项集生成一个计数器Com pk [ i ] : = 0 ;
    for ( i = 1 ; i ≤| DB| ; i + + )
      begin
     if 第i 个记录( TID = i) 支持Ck 中的第j 个k2项集
     then Com pk [ j ] : = Com pk [ j ] + 1 ;
     end
    L k : = { Ck 中满足支持度大于minsup 的全体项集}
    L k 中频繁项集的支持度保留;
    Result : = Result ∪L k ;
    Ck + 1 : = { 所有的( k + 1) 2项集中满足其子集都在L k 里的全体项集}
    k = k + 1 ;
   enddo
   3. 3  关联规则挖掘在高校科研决策支持系统中的应用
   我们把关联规则的挖掘算法应用科研决策支持系统中,利用沈阳师范大学的包含5 条相关记
   录数据表,采用Apriori 算法教师的职称、学历及论文级别三个属性间的关联规则进行数据挖掘,选择minsup = 15 %. 得频繁32项集L 3 为:{教授,博士,国家AB} ,支持度为16 %.于是得频繁项集:{教授,博士,国家AB}. 由这个频繁项集进行第二步挖掘,可得6 个关联规则,计算它们的置信度分别为:
   confidence (教授→博士,国家AB) = 36. 4 %
   confidence (博士→教授,国家AB) = 46. 2 %
   confidence (国家AB →教授,博士) = 42. 9 %
   confidence (教授,博士→国家AB) = 66. 7 %
   confidence (教授,国家AB →博士) = 70. 6 %
   confidence (博士,国家AB →教授) = 66. 7 %
   若设minconf = 70 % ,则可得关联规则(教授,国家AB →博士,支持度= 16 % ,置信度= 70 %) ,该关联规则的数据说明:教师中职称是教授,最高学历是博士且发表论文级别是国家AB 的教师人数占总人数的16 %;而且该人数占教师中职称是教授且论文级别为国家AB 的总人数的70 %.这些属性间的内在关联说明:职称越高,学历越高,论文级别越高;教师发表论文的水平与其学历及职称有很大关系,而且职称也受学历和论文水平的影响. 通过这些关联,既可以帮助学校领导作出提高整体科研水平的决策,如引进高学历人才,或将本校已有教职员工送出去进一步培训等措施,也可以鼓励教师主动进修或攻读学位,发表高质量的论文. 我们可以感受到用关联规则的挖掘方法可以从大量数据中挖掘出表面上无法发现的数据间的关联性,有利于领导者根据这些规则对本单位的科研管理进行控制.
   参考文献:
   [1 ]  高洪深. 决策支持系统DSS 理论方法案例[M] . 北京:清华大学出版社,广西科技大学出版社,1998 ,7.1 —269.
   [2 ]  史忠植. 知识发现[ M] . 北京: 清华大学出版社,2002 ,57 —84.
   [3 ]  Agrawal R , Imielinski T ,Swami A. Mining associationrules between sets of items in large database [J ] . Procof A ACM SIGMOD Intl on Management of Data(SIMOD’93) ,1993 ,207 - 216.
   [4 ]  周 绪,等. SQL Server7. 0 入门与提高[M] . 北京:清华大学出版社,2002 ,4. 32 —334.
   [5 ]  赖宇阳,顾义华. Visual J + + 6. 0 入门与提高[M] .北京:清华大学出版社,2000 ,10. 12 —400.
   [6 ]  陈峰棋,咨询教育小组. ASP 与SQL 网站数据库程序设计[M] . 北京:科学出版社,2002 ,1. 303 —345

返回顶部