浅谈SPSS软件在化工中的应用
浅谈SPSS软件在化工中的应用
摘要:SPSS软件为社会科学而设计,已经被广泛运用于经济学、心理学、医学以及其他各个领域。同时,在与化学化工相关的一些领域中,SPSS软件也有很多的应用。分析了SPSS软件在化学化工及相关领域的应用前景,探讨了SPSS软件中如正交试验设计、相关分析、主成分分析和回归分析等功能的应用。
前言
SPSS(Statistics Package for the Social Science)软件,即社会科学统计软件包,是世界著名的权威统计分析软件之一。1966年由美国斯坦福大学采用Fortran语言研制成功。1975年斯坦福大学成立专门研发和经营该软件的SPSS公司,1977年SPSS软件实现商业化。2000年由于产品升级及业务拓展的需要,SPSS公司将产品正式更名为SPSS(Statistical Product and Service Solution),即统计产品与服务解决方案[1]。从最初的DOS发展到目前最新的SPSS17.0,经历了十几个版本,随着版次的发展,SPSS软件的功能逐渐增强,用户界面不断得到改善,使用也越来越简便,且完全摆脱了命令行的操作方式,不再需要编程,完全采用菜单和对话框的操作方式,简单易学,使用者不用记住复杂的过程和选择项,只需通过鼠标的点取和选择,就可以完成在其他程序中需要调用若干过程,输入许多语句才能完成的任务,而且不用担心会犯语法错误,对非统计专业的人士来说,是一个功能强大、容易上手的统计分析利器,这是该软件最大的优点[2]。
SPSS软件已经被广泛运用于经济学、心理学、医学以及其他各个领域。该软件为社会科学而设计,但是在自然科学领域也得到了广泛的应用,无疑已成为目前非统计专业应用最多的软件之一[3]。在与化学化工相关的一些领域中,SPSS软件也有很多的应用。例如:在有机合成工艺试验中,利用SPSS软件强大的试验设计和数据统计分析功能,可以迅速简捷分析出有机合成工艺中的优化条件,是有机合成试验设计和分析的得力助手,具有推广的现实意义[3];在分析化学中利用SPSS软件可以快速、准确地绘制出散点图、标准曲线、建立回归方程,并且可以对回归方程进行检验[4];在生物化学实验中,利用SPSS软件采集数据进行单因素方差分析,根据SPSS输出的结果就可以分析组群间的差异显著性[5];在试验和实际工业生产,都可以用SPSS软件的主成分分析功能,找寻试验或生产的控制点,并可以用SPSS软件计算出线性回归方程[6-7]。
1 应用SPSS软件进行正交试验设计
正交试验设计(Orthogonal experimental design)是研究多因素多水平试验的一种设计方法,它是根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均匀分散,齐整可比”的特点,正交试验设计是分式析因设计的主要方法。是一种高效率、快速、经济的实验设计方法[8]。正交法就是这样一种优选的试验方法,能够大幅度减少试验次数而又不会降低试验可信度的方法。这种方法有一系列可供选用的正交试验表,这些表是数学家根据各种可能的因素和水平设计好了的。这种正交试验表,也就是一套经过周密计算得出的现成的试验方案,这套方案的总试验次数是远小于每种情况都考虑到的全因子法的试验次数的,而且因素水平越多,试验的精简程度会越高[9]。但是查找正交试验表较为繁琐,而用SPSS软件进行设计就比较的方便,而且更方便对试验数据的分析。下面以一个四因素三水平的有机合成试验为例讨论正交试验的设计。
打开SPSS软件,在任务栏中选中数据→正交设计→生成,打开生成正交设计对话框→创建新建数据文件,输入因子名称和因子标签→添加,然后选中因素→定义值,再填写该因素的3个水平值和标签。同样输入其他三个因素的相关数据。点击确定即可得到正交试验表表格表2(SPSS上截取的图片)。
用SPSS软件简单调整处理一下就得到如下正交试验表3(SPSS上截取的图片):
调整后的正交表输入yield以后,就可以用SPSS软件在分析菜单中进行方差分析[3]。
2 基于SPSS的相关分析和主成分分析
2.1 相关分析
相关分析是研究一个变量与另一个变量间的相互关系, 研究变量间相互关系的性质和紧密程度。换句话讲,相关分析的任务就是对相关关系给予定量的描述。在统计学上,一般来说,反映相关关系的相关系数若在0.40以下为低相关; 0.40~0.70为较显著相关;0.70~0.90 为显著相关;0.90~1则为最高相关。二元相关分析是指研究两个变量之间的单相关关系[10]。在SPSS中通过Analyze菜单进行相关分析(correlate):打开数据库后,单击Analyze→Correlate→Bivariate或Partial,打开Bivariate对话框或Partial对话框,就可以进行简单相关分析或偏相关分析。
2.2 主成分分析
主成分分析方法是一种将多个指标化为少数几个不相关的综合指标的方法。主成分分析是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。通常数学上的处理就是将原来P个指标作线性组合,作为新的综合指标。最经典的做法就是用F1(选取的第一个线性组合,即第一个综合指标)的方差来表达,即Var(F1)越大,表示F1包含的信息越多。因此在所有的线性组合中选取的F1应该是方差最大的,故称F1为第一主成分。如果第一主成分不足以代表原来P个指标的信息,再考虑选取F2即选第二个线性组合,为了有效地反映原来信息,F1已有的信息就不需要再出现再F2中,用数学语言表达就是要求Cov(F1,F2)=0,则称F2为第二主成分,依此类推可以构造出第三、第四,……,第P个主成分[11]。
主成分的整个分析过程在SPSS软件中实现的主要步骤为:①指标的正向化。②指标数据标准化。③指标之间的相关性判定: 用SPSS软件中表“Correlation Matrix(相关系数矩阵)”判定。④确定主成分个数m:用SPSS软件中表“Total Variance Explained (总方差解释)”的主成分方差累计贡献率≥85%、结合表“Component Matrix( 初始因子荷载矩阵)”中变量不出现丢失确定主成分个数m。⑤主成分Fi表达式: 将SPSS 软件中表“ComponentMatrix”中的第i列向量除以第i个特征根的开根后就得到第i个主成分Fi的变量系数向量(在“transform→compute”中进行计算),由此写出主成分Fi表达式。用Fm = A′m X 的A′m A m =I m检验。⑥ 主成分Fi命名:用SPSS软件中表“Component Matrix”中的第i列中系数绝对值大的对应变量对Fi命名。⑦主成分与综合主成分(评价)值: 综合主成分(评价)公式F综=( 在“transform→compute”中进行计算),在SPSS软件中表“Total Variance Explaine” 下“Initial Eigrnvalues(主成分方差)”栏的“% of Variance(方差率)”中。Var F综= 。⑧检验:综合主成分(评价) 值用实际结果、经验与原始数据做分析进行检验[12]。
确定主成分的个数可以综合考虑三方面因素。一是取所有特征值大于某一确定值的成分为主成分。二是根据累计贡献率达到的百分比值确定。选取85%,即累计贡献率达到85%以上,其含义是此前L个主成分所包含的信息占原始变量包含的总信息的85%,其余M~L个新变量对方差影响很小,是可以接受的,取前L个成分为主成分。三是根据运行SPSS 软件所生成的碎石图( Scree Plot) 判断,Scree Plot 是以按照特征值排列的大小序号为横轴,以特征值为纵轴的碎石图,典型的碎石图有明显的拐点,在拐点之前是与大因子连接的陡峭的折线,之后是与小因子相连的缓坡折线。一般取拐点前所有的因子及拐点后的第一个因子作为主成分。
2.3 SPSS软件的相关分析和主成分分析应用实例
通过主成分分析将多个指标化为少数几个不相关的综合指标的方法,在化工中应该有非常大的应用前景。在化工生产工艺控制过程和试验数据处理中,主成分分析的思想被广泛的应用,而且有非常好的应用前景和研究价值。下面是用SPSS软件中的主成分分析法对年南宁市条主要内河的水质进行综合评价的一个实例[12]。
2.3.1 建立原始变量矩阵X
本文选取了年南宁市个内河个主要水质指标(BOD5、CODcr、石油类、挥发酚、NH3-N、总磷)的监测数据建立原始变量矩阵X。操作:新建一数据文件,在“Variable View ”中定义好水质指标后,在“Data View”中输入相应的水质监测数据。
2.3.2 对原始变量矩阵X进行标准化处理
SPSS操作: Analyze→ Descriptive Statistics→Descriptive,弹出对话框后选择所要标准化的变量,并将标准化数值保存为变量(Z),按确定进行输出。于是就得到标准化矩阵ZX(略)。
2.3.3 求出标准化矩阵ZX的相关系数矩阵及其特征根和特征向量
SPSS操作:Analyze → Data Reduction→Fatctor Analysis ,弹出对话框后选择标准化后的新变量,然后在“Descriptives”对话框中选择输出“Correlation Matrix” , 再从“Extraction” 对话框中选择“Principal components”,按“Continue”返回“Fatctor Analysis”对话框,点“OK”。于是就得到以下输出结果:
从表南宁市各内河年的水质监测数据相关性分析结果来看,因子BOD5和CODcr具有较强的相关联系,相关系数达到0.971,另外CODcr和石油类、挥发酚也有着较紧密的联系,相关系数分别达到0.838和0.919;表4中BOD5、CODcr、石油类、挥发酚在第一主成分中有较高载荷,说明第一主成分基本反映了这些因子的信息;第二主成分主要反映的是NH3-N和总磷的信息。
2.3.4 确定主成分个数
由表6可得,当主成分个数取2时,其累积方差贡献率为93.72%≥85% ,说明了这两个主成分反映了原始变量提供的93.72%的信息,所以确定主成分个数为2。
2.3.5 确定主成分Fi(i=1、…、p)的表达式
将表7中因子载荷矩阵中的前两列数据粘贴到数据编辑窗口(为变量B1、B2), 然后利用“Transform→Compute Variable”。在“Compute Variable”对话框中输入“A1=B1/SQR(3.868) ,即可得到特征向量A1。同理,可得到特征向量A2。将得到的特征向量与标准化后的数据相乘,然后就可以得出主成分表达式:
2.3.6 确定综合评价函数
2.3.7 评价结果
将2006年南宁市城市各内河的水质进行主成分评价,结果如表8所示。从表8可看出,2006年南宁市各内河的水质污染程度排序为:亭子冲>二坑>凤凰江>朝阳溪>竹排冲>水塘江>心圩江>马巢河>可利江>八尺江。从各内河水质的主成分得分来看,亭子冲和二坑的第一主成分得分相对较高,说明这两个内河的水质因BOD5、CODcr、石油类、挥发酚污染相对严重,回归其水质监测数据作分析,证实主成分分析的结果较真实地反映了实际情况;从第二主成分的得分看,二坑的最高,说明其或总磷超标严重,从水质监测数据来看,而二坑的总磷浓度达到了31.87mg/L,总磷污染最为严重。
该实例充分说明SPSS软件在分析化学、化工生产中的参数分析以及化学实验的数据分析处理中有重要的作用。
3 回归分析与方差分析
回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析[13]。
下面以简单的一元线性回归分析为例子讨论SPSS软件的回归分析在化学化工中的应用。考察某种化工原料在水中的溶解度与温度的关系,共作了9组试验数据如下。
建立线性回归模型的具体操作步骤如下:打开数据文件,单击Analyze→Regression→Linear打开Linear对话框。从左边框中选择因变量Y进入DePendent框内,选择一个(在多元线性回归分析中可选择多个)自变量进入Independent框内,输入其它设置点击确定,输出结果如下(SPSS输出的原表):
表12 某物质溶解度相对于温度的线性回归结果由以上的SPSS输出的原表分析可知Y=0.499X+11.6,置信度为98.7%,符合统计学的要求,图1是由SPSSS软件作的线性回归估计图形(原图):
韦汉昌、梁锦叶、李芳良等[14],在一异丙醇胺与环氧丙烷的摩尔比为2:1,反应温度分别为303,313,323,333K时,定时测定环氧丙烷和二异丙醇胺的浓度,运用SPSS数据统计分析系统对实验数据进行拟合回归分析,得出由一异丙醇胺和环氧丙烷合成二异丙醇胺的反应动力学模型。经验算,由该动力学模型计算所得的数据与实验数据较为吻合。
结语
SPSS软件包集数据整理、分析过程、结果输出等功能为一体,采用窗口操作界面,统计分析方法涵盖面广,用户操作使用方便,输出数据表格图文并貌。SPSS应用内容包括描述统计、列联分析、总体的均值比较、相关分析、回归模型分析、主成份分析、聚类分析、时间序列分析和非参数检验等多个大类,其中很多类型适合于应用在化学化工中大量数据的处理和分析中,操作方便简单,可以有数据直接作出各类图行,SPSS软件在化工中的应用值得推广和更深入的研究。
参考文献
[1]孙建军. 应用数理统计[M]. 南京:东南大学出版社,2007.265-267
[2]覃承仁. SPSS软件的一些应用技巧[J]. 广西师范学院学报(哲学社会科学版),2008,29(7), 228-231
[3]刘瑞江等. SPSS16.0在有机合成工艺优化中的应用[J]. 计算机与应用化学,2009,26(3),379-381
[4]谢炎福等. SPSS软件用于分光光度法的数据处理[J]. 理化检验(化学分册), 2009,45(8),916-921
[5]刘加妹等. 利用SPSS处理生物实验数据[J]. 生殖医学杂志,2008,17(2),130-134
[6]李朝峰. SPSS主成分分析中的特征向量计算问题[J]. 统计教育,2007,90(3),10-11
[7]梁红等. SPSS统计软件在日化产品质量改进中的应用[J]. 牙膏工业,2009,19(2),35-36
[8]中国电镀网:http://www.zgdiandu.com.cn/technology/Techqa/Techqaview.aspx? id=640
[9]百度百科:http://baike.baidu.com/view/2075408.htm?fr=ala0_1
[10]胡盛强等. SPSS相关分析与线性回归分析在我国物流业增加值分析中的应用[J]. 物流科技,2009,(7),92-95
[11]百度百科:http://baike.baidu.com/view/45376.htm?fr=ala0_1
[12]何志云. SPSS软件在南宁市内河水质综合评价中的应用[J]. 硅谷,2008,(14),106-107
[13]百度百科:http://baike.baidu.com/view/145440.htm?fr=ala0_1_1
[14]韦汉昌,梁锦叶,李芳良等. 二异丙醇胺合成反应动力学模型研究[J]. 桂林工学院学报,2004,24(4),483-485
浅谈SPSS软件在化工中的应用.doc