工业变电站运维系统异常数据入侵检测互信息实现
工业变电站运维系统异常数据入侵检测互信息实现
王子杰,潘啸天国网江苏省电力有限公司句容市供电分公司,江苏句容 212400
摘要:工业变电站运维系统在运行的过程中经常受到不同类型的数据侵入,严重影响到变电站的安全,进而造成很大的经济损失。为了进一步提高运维系统的安全,设计了一种面向互信息技术的工业变电站运维系统异常数据入侵检测方法,并开展测试分析,证明了本文方法的准确性。研究结果表明:相对于PCA算法,互信息(MI)算法获得更高的特征提取精度,检测率也明显提升,降低了误报率。当数据量快速增加后,分布式模型表现出了更短的入侵检测时间。。该研究对提高运维系统异常数据入侵检测稳定性具有一定的实践指导意义,但在小概率攻击类型中该算法存在导致检测率为零结果,期待后续进一步的加强。
关键词:工业变电站;运维系统;互信息法;入侵检测
中图分类号:TH17 文献标志码: A
Implementation of mutual information of abnormal data intrusion detection in intelligent substation operation and maintenance system
Wang Zijie, Pan Xiaotian
Jurong Power Supply Branch of State Grid Jiangsu Electric Power Co., LTD., Jurong 212400, China
Abstract: The operation and maintenance system of industrial substation is often subjected to different types of data intrusion during operation, which seriously affects the safety of substation and causes great economic losses. In order to further improve the security of operation and maintenance system, a mutual information technology-oriented abnormal data intrusion detection method for industrial substation operation and maintenance system is designed and tested, and the accuracy of this method is proved. The results show that the mutual information (MI) algorithm achieves higher feature extraction accuracy, significantly improves detection rate and reduces false positive rate compared with PCA algorithm. When the amount of data increases rapidly, the distributed model shows a shorter intrusion detection time. This research has a certain practical guiding significance for improving the stability of abnormal data intrusion detection in operation and maintenance systems. However, in small-probability attack types, the detection rate of this algorithm is zero, and further strengthening is expected.
Key words: industrial substation; Operation and maintenance system; Mutual information method; Intrusion detection
0 引言
当前,网络应用技术与数据传输技术都获得了快速发展,人们逐渐进入大数据时代,尤其是随着工业变电站运维系统的不断推广产生了大量数据,也因此形成了持续增加的数据维度。这就要求使用新的特征选择方式来满足高维度数据的需求[1-4]。现阶段依然还有一定缺陷需要克服,处理高维数据时还需进一步开发更加高效的分布式特征选择技术[5-6]。入侵检测是对可能发生的未授权访问数据、操作信息与系统运行错误、不可靠、无法使用情况进行监测的过程[7-8]。目前已有许多研究人员针对大数据运行环境开发出了相应的机器学习库。崔巨勇等[6]提出基于自适应共振理论的入侵检测模型, 在数据预处理时对特征量降维,完成对入侵检测数据分类,并仿真实验结果表明了模型可以改善变电站的入侵检测效率。侯连全等[7]提出变电站过程层与采样测量值)安全传输攻击检测策略,用于过程层及电站内传输的网络攻击检测,分析代理认证加密网关及检测可行性。刘姜涛等[8]提出基于工控系统特征指纹库的网络入侵检测方法,实现网络入侵行为检测和定位, 匹配模型能根据流量特征库有效辨别入侵并定位出网络,实现变电站工控系统入侵行为检测和定位。
虽然可以通过Spark平台来实现机器学习算法与大数据分布处理相结合的技术,但将Spark与特征选择算法进行结合的文献报道则较少[9]。为了进一步提高运维系统的安全,本文在前人设计的基础上,设计了一种面向互信息技术的工业变电站运维系统异常数据入侵检测方法,并开展测试分析。
1 互信息法
互信息已成为信息论的一项重要信息度量,代表一个随机变量所包含的关于另一变量的信息量,也可将其理解成掌握另一个变量后而减小随机变量不确定性[10]。
杨晓晖等[11]提出将基于互信息度量方法集成到种群聚类特征选择中,实现所选特征与目标类的最大相关,有效地避免数据过早收敛,提高入侵检测的准确率和检测率。本文在其基础上,开展互信息计算。以下为互信息计算式:
(1)
式中:A与B为二个随机变量,p(a, b)为A与B联合概率分布,p(a)与p(b)对应a与b概率分布函数。
互信息(MI)可通过以下ABC三个随机变量进行表示:
(2)
(3)
式中:C为随机变量,将其边缘概率分布函数表示成p()。
互信息特征选择方法也属于一种Filter方法,需根据定量指标选择Filter特征,通过评价特征相关性来完成特征排序。互信息标准判断后丢弃的冗余特征如下式:
(4)
式中:β为权重因子。将惩罚比例加入冗余,此比例由所选特征和候选特征共同决定。
互信息属于一种主动防御的模式,入侵检测技也逐渐成为防火墙防御后关键技术方法,从计算机网络关键节点进行参数收集,在保证网络运行性能正常的条件下,判断是否存在恶意攻击的情况,以此达到保护网络内部与外部环境的作用[12]。
2 实验设计
因为Spark在内存中具备较强计算性能,可以实现快速迭代的作用,这使得建立在Spark平台上的开发算法被广泛应用于业界。UNSW-NB15数据集的单条记录总共含有49个特征,各特征对应的属性也存在较大差异。
以Spark平台进行实验设计并完成测试过程。将70%作为训练集,剩余30%作为测试集。在Spark平台上开展测试,并比较本文设计的分布式互信息开展入侵检测;最后选择具备高精度、误报率低的评价方法对本结果实施了评价。表1给出了入侵检测统计结果。
表1 入侵检测统计结果
对测试数据进行分析可知,相对于PCA算法,互信息(MI)算法可以获得更高的特征提取精度,同时检测率也明显提升,降低了误报率。由于总体攻击类型中占比最大的是Generic类型,这使得该类型具备较高精确度与检测率。
表2给出了运行时间结果统计。可以看到,虽然互信息算法具备较高精度,但也因此消耗较长时间,这是由于在Spark计算框架内构建分布式模型时需使用大量map与partition操作,从而在大量数据下形成了高达近万个分区,需要消耗大量时间。
表2 运行时间结果统计
图1给出了运行时间对数据量的变化。由图1可知,逐渐增加数据量的过程中,分布式模型形成的时间消耗曲线。通过对比可知,当数据量快速增加后,分布式模型表现出了更短的入侵检测时间。
图1 运行时间对数据量的变化
3 结论
本文开展工业变电站运维系统异常数据入侵检测互信息实现分析,取得如下有益结果:
相对于PCA算法,互信息(MI)算法可以获得更高的特征提取精度,检测率也明显提升,降低了误报率。
虽然互信息算法具备较高精度,但也因此消耗较长时间。当数据量快速增加后,分布式模型表现出了更短的入侵检测时间。
该研究有助于提高工业变电站运维的安全性,但在面对突发的情况时候存在计算时间过长的问题,期待后续引入一定的深度学习算法对其运算效率进行加强。
参考文献
[1]郭慧, 刘明艳.基于遗传算法和随机森林的入侵检测方法研究[J]. 计算机应用与软件, 2024, 41(01): 304-309+314.
[2]刘晋钢, 刘晋霞, 曹小凤.深度学习下增量式网络入侵实时检测算法仿真[J]. 计算机仿真, 2023, 40(11): 375-378.
[3]肖曾翔, 徐启峰.基于改进卷积神经网络的变电站异物入侵识别[J]. 科学技术与工程, 2022, 22(04): 1465-1471.
[4] 江峰, 王凯郦, 于旭, 等.基于粗糙熵的离群点检测方法及其在无监督入侵检测中的应用[J]. 控制与决策, 2020, 35(5): 1199-1204.
[5] 石乐义, 朱红强, 刘祎豪, 等.基于相关信息熵和 CNN-BiLSTM 的工业控制系统异常数据入侵检测[J]. 计算机 研究与发展, 2019, 56(11): 2330-2338.
[6]崔巨勇, 于同伟, 黄旭, 等.工业变电站入侵检测数据降维方法的研究[J]. 电气应用, 2014, 33(21): 106-110.
[7]侯连全, 章坚民, 金乃正, 等.变电站过程层与SMV安全传输的网络攻击检测与取证设计[J]. 电力系统自动化, 2016, 40(17): 87-92+155.
[8]刘姜涛, 邓其军, 董文恒.基于流量特征指纹的工控系统网络入侵检测[J]. 武汉大学学报(工学版), 2019, 52(07): 642-650.
[9] 刘金平, 何捷舟, 天雨, 等.基于 KELM 选择性集成的复杂网络环境入侵检测[J]. 电子学报, 2019, 47(5): 1070-1078.
[10]胡健, 苏永东, 黄文载, 等.基于互信息加权集成迁移学习的入侵检测方法[J]. 计算机应用, 2019, 39(11): 3310-3315.
[11]杨晓晖, 豆晓菲.基于种群聚类和互信息的入侵检测方法[J]. 燕山大学学报, 2023, 47(02): 137-143.
[12]庄夏.基于互信息特征选择和LSSVM的网络入侵检测系统[J]. 中国测试, 2017, 43(11): 134-139.
作者简介:王子杰,男,1997,助理工程师,硕士研究生,主要从事变电站运维相关工作。
工业变电站运维系统异常数据入侵检测互信息实现.doc