基于决策树分类的水电机组故障诊断的分析研究
基于决策树分类的水电机组故障诊断的分析研究
董惠珍 殷争社
(陕西黄河集团有限公司,陕西,西安 710043)
摘要:由于引起水电机组振动的原因复杂,监测数据量大,运行检修人员往往很难全面把握故障征兆确定故障原因。对此本文对C4.5决策树分类算法进行研究,应用决策树分类的方法对水电机组故障征兆进行分类。该方法利用典型水电机组故障特征向量建立故障诊断决策树,从而实现对水电机组振动故障的诊断。
关键词:水电机组,故障分类,决策树,数据挖掘
Base on Decision Tree Classification for Fault Diagnosis of Hydro-turbine Generating Unit
Dong Huizhen Yin Zhengshe
(SHAANXI HUANGHE GROUP CO., LTD.,Shanxi,Xi’an 710043)
Abstract—Due to the complexity of the causes of hydropower unit vibration, large amount of monitoring data, the maintenance staff it is often difficult to fully grasp the fault symptoms to determine the cause of the problem. This paper focuses on the C4.5 decision tree learning algorithm, application of decision tree classification method to fault diagnosis of hydroelectric units. The party through the typical fault characteristics to establish fault diagnosis decision tree, and finally implement the classification of the fault features of hydropower unit vector.
HYPERLINK "dict://key.0895DFE8DB67F9409DB285590D870EDD/keyword" \o "查找: keyword" keyword:Hydroelectric units, Fault classification, Tree Classification,Datamining
0引言
数据挖掘技术[1-2]是由统计学和人工智能产生的新兴交叉学科,其主要目的是从海量数据中提取隐含的有用信息。数据挖掘中的数据分类方法是通过学习训练构造一个分类模型,该模型可把数据记录映射到特定类别中,从而对数据进行分类。分类模型常用的构造方法主要有统计方法、机器学习方法(如决策树方法)和粗糙集等[3],其中的决策树方法可对海量数据进行有目的地分类,从中找出有价值的信息供决策者进行决策[4]。水电机组振动信号包含了许多机组状态信息,据统计,约有80%的故障及事故均可在振动信号中得到反映[5],而机组在线监测中,振动信号数据量非常庞大,这就需要选用一种简单实用的数据进行分类的方法,本文拟将决策树分类方法应用于水电机组故障诊断中,实现对水电机组故障特征向量的分类。
1决策树分类算法
决策树也称为判定树,是生成一种与程序流程图类似树形结构的分类方法。其基本思想就是通过信息论中信息增益来寻找训练数据中最大信息节点的过程,通过此过程在不同属性中选取值来建立决策树的一个分支,在此基础上反复操作,最终形成一个完整的决策树[6]。目前较为通用的分类方法有ID3和C4.5两种方法。
C4.5算法原理
C4.5算法是在ID3的基础上改进而得来的,它包含了ID3的全部优点的同时进行了一定的改进,基本原理如下。假设事件归纳的数据训练样本为,首先计算其熵,公式如下:
式中:表示训练集合中类别中样本的个数,其中是整个训练集合中的样本个数。按照此公式可以计算出一个分类规则的熵,如果通过非类别特征属性将集合分成子集合,,…,,这就要对不同子集的熵进行加权求得,公式如下:
式中:是通过特征属性分类的子集。这里通过计算分类前集合的熵和分类后熵的增益来说明其熵的大小,取较大增益点作为分类节点,其公式如下:
在测试过程中个,由于信息增益会产生很多的决策树分枝,使得决策树分枝过多,这样会使最后分类效果不理想。为了解决此问题,通常通过信息增益率来取舍有用和无用分枝。信息的增益率是对每一个分枝节点个数和子集大小进行考虑的,这样就不用考虑分类所包含的信息量,信息增益率公式定义为:
式中:信息量是对应于的值,其中是由以的取值分割产生的子集。
C4.5算法步骤
(1)进行采集数据源预处理,将连续变量转化为离散型;
(2)通过计算属性的信息增益与信息增益率确定节点值;
(3)划分不同节点对应的子集,对其执行第2步骤,反复循环直到找到数据集中所有类型,生成决策树;
(4)通过建立的决策树产生分类规则,生成分类器。
2基于决策树分类的水电机组故障推理
引起机组振动的原因基本上可分为机械、水力和电气三个方面,根据经验,机组振动故障的征兆大多可以由频域特征来表达,因此可利用频率分量作为特征向量进行分类。通过对监测的振动信号进行FFT变化后得到其频谱特性,通常选择(1/5~1/2)x、1x、2x、3x、50Hz、100Hz(其中x为转频)等频率分量的幅值归一化处理后作为特征向量的属性进行分析[7]。目前,已有许多学者进行了水电机组振动故障机理的分析和试验研究,得到了大量有关机组振动的典型故障特征[8],总结如表1所示。
表1 典型样本表
Tab.1 The typical samples table
根据典型机组故障样本创建决策树的基本过程如下:首先在训练样本集合中选一个特征属性当作根节点,通过最大信息增益选取节点中某一个值作为分类条件进行划分,得到多个子集;其次对每个子集运用同样的方式进行划分,经过多次划分后当子集中所有元素属于同一类时,则停止划分。通过计算得到的不同属性节点创建决策树,得到一个完整的决策树图形,如图1所示。
图1 决策树结构
Fig. 1 Decision tree
将图1所产生的决策树转化为分类需要的规则进行表示为:
规则1:if x1<0.56 then node 2 else node 3;
规则2:if x2<0.38 then node 4 else node 5;
规则3:if x3<0.51 then node class1 else node class5;
规则4:if x5<0.52 then node class6 else node class4;
规则5:if x2<0.79 then node class2 else node class3;
通过模拟一组转子不平衡故障的特征向量对其进行验证,模拟特征向量为(0.10,0.96,0.19,0.01,0.01,0.01,0.02)。根据规则对其进行分类,得到类别标示为class3,参照典型故障特征表1说明其表示的故障为转子不平衡,这与模拟类型相同,由此可以说明本方法可以有效对机组故障特征进行分类。
3 结语
本文将数据挖掘技术应用水电机组故障诊断中,通过决策树分类方法对故障特征向量进行分类,该方法原理简单,计算速度较快,对水电机组大数据量监测具有重要的实用意义。
参考文献:
[1]Han J, KamberM. Data mining: concept and techniques[M].Higher Education Press. San Fransisco:2001.
[2]Tan Pang ning, SreinbachM,KumarV.数据挖掘导论[M]. 北京大学出版社.北京:2006.
[3]栾丽华,吉根林. 决策树分类技术研究[J]. 计算机工程,2004,30,(9):94-97
[4]刘同明. 数据挖掘技术及其应用[M].国防工业出版社,北京:2001
[5]赵道利,马薇,梁武科等. 水电机组振动故障的信息融合诊断与仿真研究[J]. 中国电机工程学报,2005,25(20):137-142
[6]刘继清,黄金花. 基于改进决策树算法的设备故障智能诊断模型[J]. 制造业自动化,2011,33(4):30-33
[7]白亮,王瀚,李辉等. 基于时间序列相似性挖掘的水电机组振动故障诊断研究[J].水力发电学报. 2010,29(6):229-236
[8]张利平,孙美凤,王铁生.新型的RBF神经网络在水轮发电机组故障诊断中的应用[J]. 水力发电学报. 2009,28(6):219-223
-----
基于决策树分类的水电机组故障诊断的分析研究.doc