特征向量的归一化比较性研究
2009,45(22)
1 前言
归一化处理在模式识别中应用十分广泛,其用途主要分为
两类:一类是归一化作为特征提取前的预处理技术;另一类是
归一化对特征提取后的特征向量进行特征变换。归一化作为数
据预处理技术常用于特征的产生和提取,如人脸识别、虹膜识
别、车牌识别和手写字体识别等,其主要作用为统一识别对象
的大小和尺寸[1-2]。由于归一化预处理的好坏直接影响特征生成
和提取的效果,所以归一化预处理技术始终是研究者讨论的热
点。从广义上讲,特征向量的特征归一化是一种特征变换。由于
识别对象的不同,其特征向量的特征分量在数量级上有较大的
差别。在代价函数中,大值特征分量比小值特征分量的影响更
大,但并不能反映大值特征分量更重要,所以需要对特征进行
数量级统一,即特征归一化。由于未采用特征归一化的特征向
量能得到较为满意的结果,所以特征归一化往往容易被忽视,
讨论特征归一化对识别率影响的研究相对较少。但从提高识别
率的角度看,特征归一化是值得讨论的。归一化后的特征向量
在特征空间中的分布将发生相应的改变,一方面,不同的分类
器对该变化都有不同的响应,即分类器的识别准确率发生不同
程度的变化,另一方面,相关分类器的参数优化范围也发生改
变,这也将影响寻优时间。
对 14 个分类问题进行特征归一化,讨论其对三种常用分
类器的分类准确率的影响。对于多类分类问题采用一对多的分
类策略。为减小数据分组对分类准确率的影响,采用了 5 次交
叉验证的测试方法。
2 归一化方法
设训练样本集为{xi},测试样本集为{xi′},训练样本集所有
样本各分量的最大值、最小值和平均值分别构成向量 xmax、xmin
和 x。对训练样本集中的任一样本 xi 进行如式(1)或式(1’)归
一化,测试集样本 xi′的归一化和 xi 相同。
xi= 2xi-xmax-xmin
xmax-xmin
(1)
特征向量的归一化比较性研究
肖汉光 1,蔡从中 2
XIAO Han-guang1,CAI Cong-zhong2
1.重庆工学院 数理学院,重庆 400054
2.重庆大学 数理学院,重庆 400044
1.School of Mathematics and Physics,Chongqing Institute of Technology,Chongqing 400054,China
2.School of Mathematics and Physics,Chongqing University,Chongqing 400044,China
E-mail:simenxiao1211@163.com
XIAO Han -guang,CAI Cong -zhong.Comparison study of normalization of feature vector.Computer Engineering and
Applications,2009,45(22):117-119.
Abstract: Feature extraction and the parameter optimization of classifiers are two key methods for the improvement of the
classification accuracy.The paper uses normalization method for the feature transformation based on the public database UCI.
KNN,PNN and SVM are employed for classification.The effects of normalization on the accuracy of classification and parameter
optimization are discussed.The results of experiment show normalization improved effectively the accuracies of classifiers,especially
for SVM,reduce the searching range of the parameters of classifiers and the training periods.
Key words:normalization;feature vector;parameter optimization;Support Vector Machine(SVM)
摘 要:特征提取和分类器的参数优化是提高分类准确率的主要途径,对公用数据库 UCI 的相关数据进行特征向量的归一化处
理,采用 KNN、PNN 和 SVM 进行分类。讨论了特征归一化对分类准确率和分类器参数的影响。实验结果表明:归一化能有效提高
分类器的分类准确率,SVM 尤为明显,且参数的寻优范围缩小,缩短训练周期。
关键词:归一化;特征向量;参数优化;支持向量机
DOI:10.3778/j.issn.1002-8331.2009.22.038 文章编号:1002-8331(2009)22-0117-03 文献标识码:A 中图分类号:TP18
基金项目:国家教育部新世纪人才支持计划(the New Century Excellent Talent Foundation from MOE of China under Grant No.NCET-07-0903);重
庆市自然科学基金(the Natural Science Foundation of Chongqing City of China under Grant No.2006BB5240);重庆工学院青年教师科
研基金(the Young Teacher Scientific Research Foundation of Chongqing Institute of Technology under Grant No.20062D39)。
作者简介:肖汉光(1980-),男,硕士,新加坡国立大学访问学者,主要研究方向:机器学习、模式识别等;蔡从中(1966-),男,博士,研究员,博士生
导师,主要研究方向:人工智能和机器学习、计算物理学、计算生物信息学等。
收稿日期:2008-04-28 修回日期:2008-09-16
Computer Engineering and Applications 计算机工程与应用 117
Computer Engineering and Applications 计算机工程与应用2009,45(22)
或 xi= N(xi-x軈)
N
i
Σ(xi-x軈)
(1’)
其中,N 为训练(或测试)样本个数归一化后,训练和测试样
本的分量值介于-1 和+1 之间。或采用式(2)将数据归一化到
[0,1]。
xi= |xi-xmin|
|xmax-xmin| (2)
3 分类原理
3.1 KNN 的分类原理
KNN 和其他分类方法相比是最简单但准确率较高的分类
器。该方法遵从的假设为:同类样本在特征空间中距离相近,
而异类的样本距离较远。若给定一待分类的 L 维样本 x′=
(x1′,x2′,…,xL′),计算其与训练样本{xi}(即已知类别的样本)
的相似度或距离,如式(1)为待测样本与测试集中第 i 个样本
欧氏距离。
Si=‖x′-xi‖ (3)
由 K 个最相似或接近的样本根据自身类别进行少数服从多数
的投票决定待识别样本的类别。一般 K 取 1 到 N(N 为训练样
本的样本数)。
3.2 PNN 的分类原理
PNN 是根据贝叶斯最优决策规则而设计的分类方法,由
输入层、径向基层、比较层和输出层组成[3]。当待测样本输入到
输入层,和径向基层的所有神经元进行运算,计算其与神经元
的距离,神经元一般设定为训练集中的各样本。在比较层中进
行距离比较,计算待测样本与所有正和负样本神经元的平均距
离,若与正样本神经元的平均距离小于负样本神经元的平均距
离,则输出为正类别,反之为负类别。实际 PNN 相当 K 为 N(N
为训练集的样本数)时的 KNN,但计算距离的表达式略有不
同。式(2)为径向基层中计算待测样本与神经元的距离公式。
Si=exp(- ‖x′-xi‖
2σ2
) (4)
其中 g=-1/2σ2 为伽玛参数,在训练 PNN 时,需进行该参数优
化,一般采用网格搜索法。
3.3 SVM 的分类原理
支持向量机(Support Vector Machine,SVM)建立在统计学
习理论的 VC 维(Vapnik Chervonenks Dimension)理论和结构
风险最小原理(Structural Risk Minimization)基础上,根据有限
的样本信息在模型的复杂性(即对特定训练样本的学习精
度)和学习能力(即无错误地识别任意样本的能力)之间寻求最
佳折衷,以期获得最好的推广能力[4-5]。
以两类(正样本和负样本)分类问题为例,在线性可分的情
况下,SVM 构建一个超平面 H:
w·x+b=0 (5)
式中,w 为权重向量,x 为特征向量,b 为一参数。该超平面以最
大边界的形式将正负样本区分开。该超平面的构建是通过寻找
向量 w 和参数 b,使其在满足条件
w·xi+b≥0,(对正样本,y=+1) (6)
w·xi+b<0,(对负样本,y=-1) (7)
时,‖w‖2 达到最小。式中 xi 代表第 i 个训练样本的特征向量,
‖w‖2 代表权重向量 w 的欧几里德范数,y 为样本类别标记。
在求出 w 和 b 后,通过决策函数
yi=sign[w·xi+b] (8)
判断向量 xi 所对应测试样本的类别。若决策函数值为+1,该样
本属于正样本;否则,属于负样本。
在线性不可分的情况下,SVM 利用核函数 K(xi,xj)将特征
向量映射到一个高维空间。在此高维空间中,线性不可分问题
被转化为线性可分问题,其决策函数为:
yj=sign[
l
i=1
Σαi yi K(xi,xj)+b] (9)
上式中,l 为训练样本数,系数 αi 和 b 应使拉格朗日表达式:
l
i
Σαi- 1
2
l
i=1
Σ l
j=1
Σαi αj yi yj K(xi,xj) (10)
达到最大值,且应满足:
C>αi≥0 和
l
j=1
Σαi yi=0 (11)
其中,C 为错误惩罚参数,它控制对错误分类样本的惩罚程度,
C 越大支持向量的个数越多,最优超平面越复杂。
核函数 K(xi,xj)一般取径向基函数:
K(xi,xj)=exp(-‖xi,xj‖2
2σ2
) (12)
一般训练过程中需要对径向基函数中的参数 g=-1/2σ2 进
行优化,大多采用的方法为网格搜索法。
4 实验及分析
本实验数据来自公用数据库 UCI(http://archive.ics.uci.edu/
ml),选择了具有代表性的 14 个分类问题,如表 1 所示,其中二
类和多类分类问题分别为 5 个和 9 个。本实验归一化采用式
(1)。对于多类分类问题采用一对多的方法,即轮流选择其中一
类样本为正样本,其他类别作为负样本。每次训练和测试采用
5 次交叉验证,即将正负样本分为 5 等份,轮流选择其中一份
作为测试集,其他 4 份作为训练集,每等份中均有适量的正负
样本。
在 KNN 的测试中,选择 K 为 3,距离公式采用欧氏距离。
在 PNN 和 SVM 的 训 练 中 ,g 搜 索 值 为 :[0.000 1:0.000 1:
0.001,0.002:0.001:0.01,0.02:0.01:0.1,0.2:0.1:1],即不同数量
级上等公差搜索,其中 SVM 训练中 C 取 10 000。
在每次交叉验证中,设 TP(True Positive)代表在测试集中
被判断正确的正样本个数;FN(False Negative)代表在测试集
中被错判为正样本的个数;TN(True Negative)代表在测试集中
被判断正确的负样本个数;FP(False Positive)代表在测试集中
被错判为负样本的个数。
第 j 个分类问题的 5 次交叉验证中第 i 次交叉验证的测试
准确率公式为:
Qi
j = TP+TN
TP+FN+TN+FP (13)
分类器对第 j 个分类问题的测试准确率为:
Q= 1
C×5
C
j=1
Σ 5
i=1
ΣQi
j (14)
其中,C 为第 j 个分类问题的类别数。
归一化前后,KNN、PNN 和 SVM 对不同分类问题的 5 次交
叉验证的测试准确率如表 1 所示。从表 1 可以看出特征归一化
118
2009,45(22)
后 KNN 和 PNN 对除少数分类问题的测试准确率略有下降外,
其他分类问题的测试准确率都有一定的提高。相比之下,特征
归一化后 SVM 对所有分类问题的测试准确率均高于特征归一
化前,平均提高 3.8%。另外,对同一分类问题,SVM 得到了绝大
多数的最高准确率,除 breast-w 外。表 2 为扩大 g 参数的搜索
范围前后,归一化前后 PNN 和 SVM 对各分类问题的平均测试
准确率。从表 2 的 △Q 可以看出 g 参数的搜索范围改变对特征
归一化前后的 PNN 的分类准确率影响较 SVM 小。另外从表 2
中 SVM 的 Q 可以看出 g 参数搜索范围的改变对特征归一化
前的分类准确率影响加大,而对归一化后的分类准确率影响
较小。
归一化前后,PNN 和 SVM 的 g 参数在各次交叉验证的训
练中最优值概率分布如图 1 所示。从图中可以看出,经过归一
化后,SVM 和 PNN 的 g 参数分布较归一化前 g 参数的搜索范
围得到了减小。对 SVM 而言,在归一化前 g 参数的最优值搜索
范围很大,约 43%的最优值处在搜索边界上,归一化后约 32%
的最优值处在搜索边界上。但是,在特征归一化后,扩大 g 参数
的搜索范围对 SVM 的分类准确率提高并不太大,从表 2 中可
以得出该结果。
5 结论
通过对 14 个分类问题的研究表明:在特征归一化后,相对
KNN 和 PNN 能提高大部分分类问题的识别率而言,SVM 识别
率提高更为普遍和明显,并且 SVM 获得了绝大多数分类问题
的最高准确率。在分类器的识别率改善的同时,特征归一化使
得 SVM 和 PNN 的最优参数搜索范围变小,大大缩减了分类器
的训练时间。
参考文献:
[1] 王先梅,王宏,王粉花.基于归一化背景方向特征的脱机手写汉字识
别[J].计算机工程与应用,2007,43(30):190-192.
[2] 刘小平,赖剑煌,张智斌.基于小波子带图像的人脸光照归一化方
法[J].中山大学学报:自然科学版,2007,46(5):25-28.
[3] Specht D F.Probabilistic neural networks[J].Neural Networks,1990,
3:109-118.
[4] Vapnik V.The nature of statistical learning theory[M].New York:
Springer,1995.
[5] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2000,26
(1):32-42.
Database
auto-mpg
breast-w
clear1
diabetes
flag
glass
hayes-roth
heart-cleveland
heart-statlog
iris
segment
sonar
vehicle
wine
Num
398
699
476
768
194
214
132
303
270
150
2 310
208
846
178
Dim
8
10
167
9
28
10
5
14
14
5
20
61
19
14
Class
3
2
2
2
6
6
3
5
2
3
7
2
4
3
Q1/(%)
81.6
96.6
85.1
70.4
81.1
89.1
74.2
81.3
66.7
97.3
98.7
82.7
83.1
80.1
Q2/(%)
83.2
96.6
83.0
72.9
82.8
89.5
71.4
83.6
78.9
96.9
98.8
83.1
85.4
97.4
Q1/(%)
82.7
97.4
87.0
73.6
78.4
91.9
84.8
78.5
68.9
98.2
99.0
88.9
82.8
85.0
Q2/(%)
85.6
97.4
88.0
77.2
82.9
90.4
84.3
82.5
83.7
98.0
99.2
90.9
85.3
98.5
Q1/(%)
84.2
97.1
85.1
74.8
86.7
92.1
90.4
85.3
73.7
98.0
99.0
92.3
89.5
91.9
Q2/(%)
90.4
97.3
96.2
78.5
88.4
92.3
90.6
87.9
84.8
98.4
99.4
92.8
92.9
99.2
KNN PNN SVM
表 1 归一化前后 KNN、PNN 和 SVM 对 5 次交叉验证的平均准确率
注:Num、Dim 和 Class 分别代表样本总数、向量维数和类别数,Q1 和 Q2 分别代表分类器归一化
前和归一化后的分类准确率。
g
[0.000 1,1]
[0.000 01,10]
Normalization
NO
YES
NO
YES
Q/(%)
85.5
88.9
85.8
89.1
△Q/(%)
3.4
3.3
Q/(%)
88.3
92.1
90.1
92.2
△Q/(%)
3.8
1.7
PNN SVM
表 2 不同 g 参数搜索范围下,归一化前后 PNN 和 SVM 的分类
平均准确率和归一化对平均准确率
图 1 归一化前后,PNN 和 SVM 的 g 参数在各次交叉验证的
训练中最优值的概率分布
0.00001
0.00004
0.00007
0.00010
0.00040
0.00070
0.00100
0.00400
0.00700
0.01000
0.04000
0.07000
0.10000
0.40000
0.70000
1.00000
4.00000
7.00000
10.00000
50.0
40.0
30.0
20.0
10.0
0
SVM_normalized
SVM_nonormalized
PNN_normalized
PNN_nonormalized
g
(%)
肖汉光,蔡从中:特征向量的归一化比较性研究 119
特征向量的归一化比较性研究.pdf