基于支持向量机的乳腺癌预后状态预测和疗效评估
第26卷第4期
2007年8月
北京生物医学工程
Beijing Biomedical Engineering
V01.26 No.4
August 2007
基于支持向量机的乳腺癌预后状态预测
和疗效评估
袁前飞Ⅵ蔡从中1,2 肖汉光1’2 刘兴华1 孔春阳3
摘要 乳腺癌是危害妇女健康的主要恶性肿瘤。目前基因与疾病关系的研究取得了一系列的成果,使得
利用乳腺癌患者的基因信息来预测预后状态和评估治疗效果成为了可能。支持向量机(support vector machine,
SVM)分类方法在实际二类分类问题的应用中显示出良好的学习和泛化能力,已被广泛地应用于诸多研究领域。
本文采用支持向量机SVM、K一近邻法(K-nearest neighbor,K-NN)、概率神经网络(probabilistic neural network,
PNN)、决策树(decision tree,DT)分类器,结合乳腺癌患者基因数据来预测患者的预后状态和评估治疗效果。结果
表明:当使用高斯径向基核函数时,SVM通过5次交叉验证的最佳平均分类准确率达到了88.44%,优于K—NN
(81.69%)、PNN(80.68%)和DT(71.19%)等分类器,表明该方法有望成为一种有效、实用的乳腺癌预后状态预测
和治疗效果客观评价的工具。
关键词支持向量机;乳腺癌;预后;评估
中图分类号R318.04 文献标识码A 文章编号1002—3208(2007)04—0372—05
The prediction of prognosis and evaluation of curative effect for breast cancer based on support vector machine
YUAN Qianfeil”,CAl Congzhon91”,XIA0 Hanguan91”,LIU Xinghual,KONG Chunyan93 1 Department of Appl如d
Physics,Chongqing University,Chongqing 400044;2 Department of Pharmacy,National University of Singapore,
Singapore 1 17543,Singapore;3 College of Physics and Information Technology,Chongqing Normal University,Chongqing
400047
【Abstract】 Breast cancer is mainly malignant tumour of endangering woman health.The investigation of the
relationship between gene and disease has been achieved a sel.ies of outcolnes,which afford a warranty for utilizing the
genome information of breast cancer patient to predict the prognosis and evaluate the curative effect.The Support Vector
Machine(SVM)has shown its excellent learning and generalization ability in the practice problems of binary classification,
and has been extensively employed in many fields.In this paper,based on the gene data of breast cancer patient,the
SVM,K-Nearest Neighbor(K-NN),Probabilistic Neural Network(PNN)and Decision Tree(DT)were applied to predict
the prognosis and evaluate the curative effect of breast cancer patient.The best overall accuracy reached 88.44%via SVM
with RBF kernel function by using 5一fold cross validation,which is superior to those of other classifiers based on K—NN
(81.69%),PNN(80.68%)and DT(71.19%).This study suggests that SVM is capable of being used as a potential
application and efficiency tool for predicting the prognosis and objective evaluating the curative effect of breast cancer.
【Key words】 support vector machine(SVM);breast cancer;prognosis;evaluation
女性的乳房不仅仅是生命与哺育的符号,同时
也承载着疾病与死亡的威胁。乳腺癌(mammary
基金项目:重庆大学与新加坡国立大学国际联合科研项目(ARF一
151—000—014—112)、重庆市自然科学基金(CSTC,
2006BB5240)、重庆大学基础及应用基础研究基金
(71341103)资助
作者单位:1重庆大学应用物理系(重庆400044)
2新加坡国立大学制药系(新加坡117543)
3重庆师范大学物理学与信息技术学院(重庆400047)
作者简介:袁前飞(1981一),硕士研究生。E-mail:jwinz@tom.com
通讯作者:蔡从中,博士,研究员。E-mail:caiczh@gmail.com
carcinoma)是人类最常见的一种恶性肿瘤,居女性
恶性肿瘤发病率之首?,是危害妇女健康的主要恶
性肿瘤,成为全球名列第一的“红颜杀手”。根据世
界卫生组织的统计,全世界乳腺癌患者每年的发病
人数为120万人,每年死亡人数为50万,存活着的
乳腺癌患者全世界大约为820万人。大量研究表
明,乳腺癌病人乳腺切除术后10年内局部复发和转
移率为10%~20%旧-63,乳腺癌局部复发病人的预
后相对较差。我国女性乳腺癌的形势也不容乐观,
万方数据
第4期 基于支持向量机的乳腺癌预后状态预测和疗效评估 ·373·
其发病率和死亡率正呈逐年上升趋势,发病率已从
5年前的17/100000上升到现在的52/100000。据
统计,全国每年约有5万~9万名女性乳腺癌患者,
3万一4万名妇女死于乳腺癌,乳腺癌复发和转移病
人5年生存率为20%一30%,10年生存率为10%
~15%,远处转移率为60%"’81。因此,乳腺癌成为
严重威胁我国女性生命的疾病之一,有必要对乳腺
癌患者的预后状态和治疗效果作出准确的预测和评
估,造福于广大的乳腺癌患者。
1 研究现状
关于乳腺癌病人预后相关因素的研究,主要集
中在发病部位淋巴结的状态、肿瘤的大小、组织学等
级等常规临床病理因素方面。有些乳腺癌患者有着
相同的临床表现,如淋巴结的状态、肿瘤大小等,对
这些患者采用相同的疗法,却取得了不同的疗效和
预后状态,给利用传统因素来评估疗效和预后状态
的方法带来了巨大的挑战。随着生命科学和数据存
储技术的飞速发展,人类基因组计划的完成,人类已
步入后基因时代。通过基因序列的比对等研究,人
们发现越来越多的疾病与基因缺陷有着较强的联
系,由此产生了一系列的基于基因缺陷的疾病诊断
和治疗方法,为人类最终战胜这些疾病提供了一条
有效的途径。
支持向量机(SVM)是由AT&T Bell实验室的
Vapnik—o等基于统计学习理论和结构风险最小化原
理提出的一种有监督的机器学习方法,可用于分类
和回归研究,被公认为小样本情况下统计学习的经
典。SVM是一种新的更具潜力的分类技术,具有良
好的泛化能力,它不需要确定各类的类条件概率密
度和先验概率就能找到全局最优解。SVM可以替
代多层感知器(multi.1ayer perception,MLP)、径向基
函数(radial basis function,RBF)神经网络(neural
networks,NN)和多项式(polynomial)神经网络、概
率神经网络、决策树、K一近邻等已有的学习算法,
已被广泛地应用于诸多领域。如人脸及声音识别、
手写体数字识别、水文预测、空气质量预报、股票分
析预测、实验物理数据处理分析、基因序列分析、蛋
白质结构与功能预测、辅助药物设计、医学检测及诊
断等一“3|。本文基于乳腺癌患者的基因数据,应用
支持向量机对乳腺癌患者的预后和治疗效果进行预
测和评估,给临床医师提供参考,按照预测和评估结
果来指导对患者的进一步治疗,降低患者的死亡率,
为最终战胜乳腺癌提供有力的支持。
2支持向量机(SVM)及其分类原理
设n个线性可分的训练样本为(亮。,Y。),(竞:,
Y:),?(杰。,Y。),竞i∈R4,Y;∈{一1,1}是类别标记。
在d维空间存在权向量茴及偏置b(参见图1,图中
圆点和方点分别代表一1类和+1类样本),满足:
Yi(面1·亮;+b)≥1 i=1,2,3,?,/'t (1)
图1 支持向量机超平面及边界的定义
Fig 1 The definition of hyper—plane and margin of SVMs
从图I可以看出:对于同一组训练样本集,存在
很多的超平面可以将两类样本区分开,应用SVM的
目的就是找出最佳权重面。和最佳偏置b。。在众多
超平面中,能使两类边界距离最大的超平面,称为最
优超平面(optimal separating hyperplane,OSH),其
对应两类的边界称为最优边界(optimal margin,
OM),最优超平面对测试样本集具有最高的预测准
确率。
求最优超平面的问题是在规范超平面的约束
下,使用拉格朗日(Lagrange)乘子法,解如下二次规
划(quadratic programming,QP)问题:
n
1
月 n
£(矗)=∑理。一÷∑∑oti哟yi舻麓,
l=1 一‘=1 J=l
O/。≥0且 ∑otly;=0, (2)
ai为问题中每个约束条件式对应的Lagrange乘子。
解上述问题后得到的最优分类决策函数为:
F(莺)=sign[∑aiYi啦+b。】 (3)
面
对于大部分实际模式识别问题中的非线性可分
情形,可以通过核函数将输入向量非线性地映射到
万方数据
·374· 北京生物医学工程 第26卷
高维空间,转化为高维空间中的线性可分问题,其对
应的分类决策函数变为:
F(杰)=sign【∑otiyiK(竞;·.j})+b。】 (4)
可
根据SVM的上述原理,应用SVM¨叫对乳腺癌
患者的基因数据进行了研究,以此来预测和评估乳
腺癌病人预后状态和治疗效果,并与K—NN、DT和
PNN的结果进行了对比研究。
3 应用实例
3.1数据
基因数据来自于参考文献[14]和[15]。该数
据集为295名乳腺癌患者的基因样本,其中正样本
为115个,负样本为180个。正样本表示有良好的
预后和治疗效果的乳腺癌患者,类别标签记为+1。
负样本表示预后和治疗效果不理想的患者,类别
标签记为一1。每个样本对应一个患者的基因序
列,含有70维基因特征,每一维特征都是由有经
验的基因学专家从基因序列中提炼出来,能够很
好地反映患者的病情,对预后和治疗效果的评价
很有帮助。
3.2分类结果及讨论
采用灵敏度(Sen)、特异度(Spe)和总准确率
(Q)来评价分类器的性能,其计算公式分别为:
Sen=TP/(TP+FN) (5)
Spe=TN/(TN+FP) (6)
Q=(TP+TN)/(TP+FN+TN+FP)(7)
式中,TP(true positive)表示在测试集中被正确判断
的正样本个数;FN(false negative)表示在测试集中
被错判为负样本的样本个数;TN(true negative)表示
在测试集中被准确判断的负样本个数;FP(false
positive)表示在测试集中被错判为正样本的样本个
数。Sen越大,表明对正样本的识别能力越强;Spe
越大,则表明对负样本的判别效果越好。
同时,注意到数据集中正负样本数的不平衡性
(正样本数115,负样本180,正负样本个数比为
0.639:1),引入Matthews相关系数MCC 0121来评价
分类器的平衡性能。MCC的计算式如下:
MCC: 堡:型二.型:!
~/(rIP+FN)(TP+FP)(TN+FN)(TN+FP)
(8)
显然MCC的取值范围为[一1,1],它的值越大,则
分类器的性能越好。
试验过程中先采用K.NN、PNN、C4.5分类器,
结合五次交叉验证法(5一fold cross validation)来进
行乳腺癌患者预后及疗效的识别,试验结果见表1。
对于K—NN,分别取K=1、K=3、K=5和K=7,结
果以5一NN的分类准确率最高。从表1可以看出,
针对这组数据,K—NN取得了81.69%的分类准确
率,与PNN的分类结果(80.68%)相当,而明显优于
c4.5的分类结果(71.19%)。虽然正样本的数量少
于负样本,在交叉验证过程中,大多数情况下灵敏度
都高于特异度(有4次除外),这说明对正样本的类
别特征的学习效果比负样本的要好,对正样本的识
别率要高于负样本,试验所取样本特征更接近正样
本的类别特征。同时,K.NN的Manhews相关系数
MCC仅仅达到0.6491,说明K.NN的分类平衡性不
够好,进一步阐明了特异度不及灵敏度高的原因。
因此,通过寻找优秀的样本特征和进一步收集和
充实相关数据库,扩大负样本的数量(主要是增加
有代表性的负样本),有利于提高K—NN对负样本
的识别能力,进一步提高识别的特异度和准确率。
针对SVM,实验过程中选用了多项式核函数、
高斯径向基核函数、Sigmoid核函数,并采用5次交
叉验证法进行训练和测试。SVM采用不同核函数
的测试结果见表2。从表2可以看出,针对该数据
集,采用上述3种核函数的Matthews相关系数MCC
分别达到了0.7272、0.7601、0.6917。同时,采用上
述三种核函数的分类平均准确率均高于85%,其
中,采用高斯径向基核函数时所获准确率最高,达到
了88.44%,优于多项式核函数(87.07%)和
Sigmoid核函数(85.37%)。对于同一样本数据集,
采用不同的核函数,SVM的分类效果不尽相同。因
此,对于一定的分类样本,要想获得最优的分类效
果,核函数的优选必不可少。试验结果进一步证实
前人的研究成果:在多数情况下,采用高斯径向基核
函数的SVM分类能力最强旧。。
同时,采用多项式核函数的特异度达到了
90.5%,高于高斯径向基核函数(88.83%)和
Sigmoid核函数(88.83%)。这说明采用多项式核函
数的SVM对负样本的识别能力较强,即对预后状态
不佳的患者的识别能力较强,利于有效地提醒那些
被正确识别为负样本的患者更关心自己的病情,进
一步改进治疗方案,以达到降低死亡率的目的。
万方数据
第4期 基于支持向量机的乳腺癌预后状态预测和疗效评估 ·375·
表2 SVM五次交叉验证结果
Table 2 5-fold cross validation results by SVM
从表1和表2可以看出,SVM采用3种不同的
核函数的分类准确率(高于85%)均高于K.NN
(81.69%)、PNN(80.68%)和C4.5(71.19%)等分
类器。通过扩大训练样本数,可以进一步提高SVM
的训练及测试准确率。因而该方法有望进一步发展
成为一种乳腺癌预后及疗效的有效评价工具。
4 结语
本文将模式识别的方法(支持向量机,K一近邻
法,概率神经网络,决策树)用于乳腺癌患者预后状
态的识别。从实验结果可以看出:采用高斯径向基
核函数的支持向量机的5次交叉验证的识别准确率
达到了88.44%,优于K—NN、PNN、DT和采用其它2
种核函数的支持向量机。这说明针对不同数据样
本,要想取得好的分类效果,分类器和核函数(针对
支持向量机)的优选必不可少。因而,支持向量机
有望成为一种有效、实用的乳腺癌预后状态预测和
治疗效果的客观评价工具,对乳腺癌患者的预后状
万方数据
·376· 北京生物医学工程 第26卷
态作出准确的判断,使那些被正确判断为负样本的 Radiol,2002,75:663—666
患者更关心自己的病情,降低乳腺癌患者的死亡率, [7]王卫东,陈正堂,王志新·应用对比风险模型分析影响乳腺
造福于广大的乳腺癌患者。 ?黧磊篇雾患妻≮芋惫=纛Z轰淼疗及其
参考文献 预后分析·福建医药杂志,2002,(3):33—35
[9] Vapnik V.The Nature of Statistical Learning Theory,New
[1] Wingo PA,Tong T,Bolden S.Cancer statistics,1995.CA York:Springer,1995
Cancer J Clin,1995,41:8~30 [10]Cai CZ,Wang WL,Chen YZ.Support vector machine
[2] Freedman GM,Fowble BL.Local recurrence after mastectomy or classification of physical and biological datasets.Int J Mod Phys
breast-conserving surgery and radiation.Oncology·New York, C,2003,14:575—585
2000,14:1561—1581 [11]Cai CZ,Han LY,Ji ZL,et a1.SVM—Prot:Web—Based Support
[3] Bedwinek JM,Lee J,Fineberg B,et a1.Prognostic indications in Vector Machine Software for Functional Classification of aProtein
patients with isolated local—regional recurrence of breast cancer. from Its Primary Sequence.Nucleic Acids Res,2003,3 1:3692
Cancer,1981,47:2232—2235 —3697
[4]Bomer M,Bacchi M,Goldhirsch A,et a1.First isolated [12]Cai CZ,Han LY,Ji ZL,et a1.Enzyme family classification by
locoregional recurrence following mastectomy for breast cancer: support vector machines.Proteins,2004,55:66—76
results of a Phase 3 multieenter study comparing systemic [13]Cai CZ,Han LY,Chen x,et a1.Prediction offunctional class of
treamentwith observation after excision and radiation.J Clin the SARS corona virus proteins by a statistical learning method.J
Oncol,1994,12:2071—2077 Proteome Res,2005,4:1855—1862
[5]His RA,Antel A,Schuhz DJ,et a1.Radiation therapy for chest [14]van’t Veer LJ,Dai HY,van de Vijver MJ,et a1.Gene
wall recurrence of breast cancer after masteetomy in a favorable expression profiling predicts clinical outcome of breast cancer.
subgroup of patients.Int J Radiat Oncol Biot Phys,1998,42: Nature,2002,415:530—536
495—499 [15】 Choudhary A,Brun M,Hua JP,et a1.Genetic test bed for
[6] Schuck A。Konemann S,Matthees B,et a1.Radiotherapy in the feature selection.Bioinformatics,2006,22:837—842
treatment for treating locoregional relapses of breast cancer.Br J (2006一08一17收稿,2006—10—26修回)
(上接第371页)
经验模态分解是通过不同的振动模态来对信号
进行分解,而小波分解则可以看作是多级的带通滤
波器,所以小波多尺度分解在“精度”上不及经验模
态分解。这也是经验模态分解后重构的慢波信号与
原始EGG慢波成分具有更低重构误差和更高的相
关系数的一个原因。
4 结论
本研究表明,自适应滤波、小波多尺度分解以及
经验模态分解都可以用来有效地提取EGG信号中
的慢波成分,抑制EGG信号中最为明显的心电、呼
吸和随机噪声的干扰,这为进一步分析胃电信号提
供了条件。同时,由于胃电信号具有窄小的带宽,自
适应滤波没能彻底消除EGG信号中的基线漂移的
影响,而经验模态分解和小波多尺度分解则获得更
高的信噪比和更低的重构误差。三种方法中,经验
模态分解的处理结果最佳。
参考文献
[1]Alvarez WC.The electmgastrogram and what it shows[J]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
JAMA,1992,78:1116—1118
Chang FY.Electrogastrograhpy:Basic knowledge,recording,
processing and its clinical applications[J].Joural of
Gastroenterology and Hepatology,2005,20:502—516
Chen JBZ,MeCallum RW.Clinical application of electrogastrography
[J].Am J Gastreenteml,1993,88:1324—1336
Mintehev MP,Bowes KL.Extracting quantitative information
from digital electregastmgram[J].Med Biol Eng Comput,1996,
34:244—248
Ryu CY,Nam KC,Kim DW.Comparison of digital filters with
wavelet muhiresolution filter for eleetrogastrogram[A].
Proceedings of the Second Joint EMBS/BMES Conference,2002,
10:23—26
郭耸峰,郑崇勋,于辉,等.自适应谱线增强滤波器在体表胃
电提取中的应用[J].中国医疗器械杂志,2001,25:253—255
Norden EH,Zheng S,Steven RL,et a1.The empirical mode
decomposition and the Hilbert spectrum for nonlinear and non—
stationary time series analysis[J].Pmc R Soc Lond A,1998,
454:899—995
Jiande Chen,Joos Vandewalle,Vantrappen G,et a1.Adaptive
system for processing of electrogastric signals[J].Advanced
Topics in Neuroeleetrie Signal Analysis.1989
(2006—06—19收稿)
万方数据
基于支持向量机的乳腺癌预后状态预测和疗效评估
作者: 袁前飞, 蔡从中, 肖汉光, 刘兴华, 孔春阳, YUAN Qianfei, CAI Congzhong,
XIAO Hanguang, LIU Xinghua, KONG Chunyang
作者单位: 袁前飞,蔡从中,肖汉光,YUAN Qianfei,CAI Congzhong,XIAO Hanguang(重庆大学应用物理系
,重庆,400044;新加坡国立大学制药系,新加坡,117543), 刘兴华,LIU Xinghua(重庆大学应
用物理系,重庆,400044), 孔春阳,KONG Chunyang(重庆师范大学物理学与信息技术学院,重
庆,400047)
刊名: 北京生物医学工程
英文刊名: BEIJING BIOMEDICAL ENGINEERING
年,卷(期): 2007,26(4)
被引用次数: 0次
参考文献(15条)
1.Wingo PA.Tong T.Bolden S Cancer statistics,1995 1995
2.Freedman GM.Fowble BL Local recurrence after mastectomy or breast-conserving surgery and radiation
2000
3.Bedwinek JM.Lee J.Fineberg B Prognostic indications in patients with isolated local-regional
recurrence of breast cancer 1981
4.Borner M.Bacchi M.Goldhirsch A First isolated locoregional recurrence following mastectomy for
breast cancer:results of a Phase 3 multicenter study comparing systemic treamentwith observation
after excision and radiation 1994
5.His RA.Antel A.Schultz DJ Radiation therapy for chest wall recurrence of breast cancer after
mastectomy in a favorable subgroup of patients 1998
6.Schuck A.Konemann S.Matthees B Radiotherapy in the treatment for treating locoregional relapses of
breast cancer 2002
7.王卫东.陈正堂.王志新 应用对比风险模型分析影响乳腺癌复发的预后因素[期刊论文]-重庆医学 2002(02)
8.陈娜.刘秀英.陈荔莎 60例乳腺癌术后胸壁复发治疗及其预后分析[期刊论文]-福建医药杂志 2002(03)
9.Vapnik V The Nature of Statistical Learning Theory 1995
10.Cai CZ.Wang WL.Chen YZ Support vector machine classification of physical and biological datasets
2003
11.Cai CZ.Han LY.Ji ZL SVM-Prot:Web-Based Support Vector Machine Software for Functional
Classification of a Protein from Its Primary Sequence 2003
12.Cai CZ.Han LY.Ji ZL Enzyme family classification by support vector machines 2004
13.Cai CZ.Han LY.Chen X Prediction of functional class of the SARS corona virus proteins by a
statistical learning method 2005
14.van't Veer LJ.Dai HY.van de Vijver MJ Gene expression profiling predicts clinical outcome of
breast cancer 2002
15.Choudhary A.Brun M.Hua JP Genetic test bed for feature selection 2006
相似文献(10条)
1.学位论文 高妮 支持向量机及其在乳腺癌辅助诊断系统中的应用研究 2009
以国家自然科学基金资助课题“基于医学图像数据挖掘技术的研究”为背景,本文研究了支持向量机(SVM)、粗糙集(RS)等理论等在医学影像领域应
用中的关键技术和主要算法,提出改进的支持向量机分类算法,并应用于开发的基于乳腺影像数据库的乳腺癌辅助诊断系统。主要研究工作包括:
1.图像增强和特征提取
根据乳腺影像的特点,使用直方图均衡化算法进行图像增强。在特征提取方面,实现了灰度共生矩阵纹理分析方法,提取与方向无关的26个纹理特
征和4个灰度统计特征,构造乳腺影像的正常、异常分类器的输入。实现的图像分割算法,有效地分割出潜在的肿块区域,在此基础上提取形状特征,构
造乳腺影像的良性、恶性分类器的输入。实验表明,这两种特征提取方式提高了乳腺影像分类器的性能。
2.基于修正的近似支持向量机算法(MPSVM)
实现了MPSVM算法。对SVM深入的剖析基础上,研究了近似支持向量机(PSVM)分类思想,PSVM具有速度快易于实现的优点,针对PSVM在非平衡样本集
应用过拟合样本点数较多会导致整体较低的缺陷,实验表明,MPSVM算法有效提高了非平衡数据集的分类精度。
3.基于粗糙集与MPSVM相结合的分类器(RS—MPSVM)
研究RS理论,提出粗糙集和MPSVM相结合的方法,使用连续属性离散化算法对纹理特征进行离散化,用RS理论判别属性的重要性,去除冗余特征,进
行属性约简,以降低输入空间维数,进而设计RS—MPSVM分类器进行训练。实验结果表明该方法能有效地提高分类的性能。
4.根据乳腺影像的纹理、形状特征和分类方法,利用MyEclipse软件,集成上述工作,开发实现了一个基于支持向量机的乳腺癌辅助诊断原型系统
。
2.学位论文 杨铁军 乳腺X线摄影的乳腺癌计算机辅助诊断方法研究 2008
乳腺癌是现代女性最常见的恶性肿瘤之一,但是目前尚无有效的一级预防措施。只有通过早发现早治疗,才能提高乳腺癌的治愈率和降低患者的死亡
率。乳腺X线摄影是一种在乳腺癌普查中广泛采用的有效检测手段,但是仅凭人工方式进行阅片,其诊断效果并不理想。计算机辅助诊断(CAD)技术能够帮
助医师提高阅片的效率和正确率,所以对基于乳腺X线片的CAD方法的研究可以不断提高乳腺癌诊断水平,帮助医师更快、更准的作出正确的诊断,有利于乳
腺癌的预防和治疗。
早期乳腺癌的主要X线征象有肿块、微钙化和结构扭曲等,有效检测这些征象并准确判断其良恶性是计算机辅助诊断的主要内容。本文主要针对这几
种显著征象,按照图像工程的3个层次,基于乳腺癌CAD系统的体系结构,围绕3个关键问题开展多学科交叉的、早期乳腺癌CAD方法的应用研究。具体来说
,主要是综合运用水平集、人工免疫系统(AIS)和支持向量机(SVM)等理论和算法,分别开展了基于免疫算法和水平集的肿块自动分割方法、基于加权变异
免疫算法的微钙化点的特征选择方法和基于免疫算法和SVM的微钙化点良恶性分类方法等关键问题的深入研究,为发展中的早期乳腺癌CAD技术提出一些新
的方法和思路。本文主要的研究内容和成果有:
1)综合运用免疫算法和水平集方法的肿块自动分割方法。首先,充分利用肿块的局部高亮、灰度均匀等特征,设计了一种基于肿块局部灰度均值和标
准差等区域信息的免疫算法检测器,该算法使用8-邻接定向变异进行全方位快速搜索,初步检测出包含肿块的感兴趣区域(ROI);然后,针对肿块边界模糊等
特征,使用基于水平集的活动轮廓模型对该区域进行精确分割,水平集分割方法避免了使用传统的边界梯度信息,而主要是利用其区域信息,且初步检测后
ROI的非目标信息锐减,一方面能减少计算量,另一方面增强了“目标和背景是同质的”这一命题的真实性,所以能大幅提高算法性能。实验结果表明该方
法能自动、准确的分割出肿块,特别是一些细微的征象如毛刺征等也能很好的分割出来,其结果与医师的诊断结果相符。
2)基于元层次体系结构的AIS设计及自适应性研究。深入研究了AIS的基本模型,利用元层次模式动态改变软件结构和行为的特点,给出了一种通用的
AIS框架。该框架通过动态调整系统内部各免疫组件的属性和行为等,以适应问题域的多样性;并给出了一种根据先验知识对抗体进行编码并计算不同基
因变异率的免疫算法,并使用该框架实现了该算法。实验结果表明了该框架的可用性,并结合先验知识增强了AIS的自适应性。
3)基于加权变异免疫算法的微钙化点特征选择方法。加权变异免疫算法是在传统免疫算法的基础上,采用加权变异算子代替传统的随机变异算子,即
通过识别抗体的稳定/非稳定部位来动态调节变异率权值,其实质是使搜索在高亲和力抗体的近邻和低亲和力抗体的周围进行;另外,为了与支持向量机的
分类准则保持一致性,抗体亲和力通过核函数在特征空间中计算。实验结果表明,该方法对微钙化点的20种常用特征的优选结果与经验特征基本相符,优化
后的特征集比优化前具有更高的分类性能,是一种可行的特征选择方法。
4)基于免疫算法和SVM的微钙化点检测和分类方法。首先,根据SVM的分类超平面仅由支持向量构造的原理,使用免疫算法对训练样本集进行压缩和特
征优选,在样本的输入空间和特征空间分别计算训练样本的类内和类间欧氏距离,并根据该距离计算抗体的相似度和亲和力;然后基于软间隔SVM构造微钙
化点良恶性分类器,对压缩后的样本进行训练。实验结果表明,该方法能有效的减少训练样本中的非支持向量(训练样本的压缩率约为15%),一定程度上提
高了SVM的性能;分类结果基本令人满意,其Az值约为0.83。
总之,本文结合临床提供的乳腺X线片对乳腺癌CAD方法和算法进行了有较高实用价值的改进,对乳腺癌临床诊断具有一定的参考价值,乳腺癌CAD新方
法的研究将进一步提高乳腺癌的诊断水平。
3.学位论文 张利锋 乳腺癌的计算机辅助诊断技术研究 2005
乳腺钼靶X线影像是目前医生诊断乳腺癌的有力工具,但是由于乳腺组织的特殊性(乳腺组织的各部分密度比较近似),使得乳腺组织的成像质量受到限
制,从而导致一些微细的病变未能为医生所觉察.计算机辅助诊断系统为医生提供一致性和重复性均好的"第二观感",大大降低了假阴性率,提高了真阳性
率.簇化的钙化点是乳腺恶性肿瘤在X线图像上的主要表现,所以对微钙化点簇进行分类即可完成对乳腺肿瘤的诊断.本文主要针对乳腺微钙化点计算机辅
助诊断(CAD)中的若干关键技术进行了系统深入的研究,实现了对微钙化点像素的检测和对微钙化点簇的诊断分类.首先提出基于小波变换的微钙化点区域
分割算法,准确的分割出微钙化点区域;然后提出用支持向量机自动寻找出能表征钙化点像素的特征,作为分类器(支持向量机)的输入进行钙化点伪点去除
,提高了微钙化点的检出率,降低了假阳性.经过钙化点聚簇,以单位面积上的钙化点密度为依据,标注出可疑的钙化点簇区域;最后提出提取微钙化点簇纹
理、形状和钙化点数目等方面的特征,作为分类器(支持向量机)的输入,完成钙化点簇病变类型的判定.通过临床实际数据所做的测试实验表明了本文所提
出的乳腺微钙化点检测与分类算法及其应用的有效性.由于该算法和训练方法具有一般性,因此可以推广到一般弱小目标检测问题中去.
4.期刊论文 刘兴华.蔡从中.袁前飞.肖汉光.孔春阳.LIU Xing-hua.CAI Cong-zhong.YUAN Qian-fei.XIAO Han-
guang.KONG Chun-yang 基于支持向量机的乳腺癌辅助诊断 -重庆大学学报(自然科学版)2007,30(6)
采用支持向量机、K-近邻法(K-Nearest Neighbor,K-NN)、概率神经网络(Probabilistic Neural Network,PNN),结合乳腺肿瘤的细针穿刺细胞病理
学临床数据诊断乳腺癌.结果表明:当使用sigmoid核函数时,SVM通过5次交叉验证的最佳平均分类准确率达到了96.24%,优于K-NN(95.37%),PNN(95.09%)等
分类器,表明该方法有望成为一种实用的乳腺癌临床辅助诊断工具.
5.期刊论文 叶云.王桂平.杨晓勤.梁爽.郑文岭.马文丽.YE Yun.WANG Gui-ping.YANG Xiao-qin.LIANG Shuang.
ZHENG Wen-ling.MA Wen-li 利用基因表达谱提取乳腺癌细胞分化相关特征基因 -热带医学杂志2010,10(4)
目的 利用基因芯片数据挖掘识别与乳腺癌组织学分级相关的特征基因,对乳腺癌的临床诊断和生物医学研究起到借鉴和参考作用.方法 从公共基因
芯片数据库GEO(gene expression omnibus)获得乳腺癌芯片表达数据,利用支持向量机提取获得不同组织学分级的肿瘤样本的特征基因,并对这些基因进
行生物学功能分析.结果 获得了64个特征基因,分类正确率达到100%,这些基因与癌症有较大的相关性,主要集中在转录调控、离子运输、器官发生发育等
多个生物学途径中.结论 通过对基因芯片数据的挖掘,可以从全局上了解肿瘤的表达情况,加深对乳腺癌细胞分化分子机制的认识.
6.期刊论文 冯筠.姜军.叶豪盛.王惠亚.FENG Jun.JIANG Jun.Ip Ho-Shing Horace.WANG Hui-ya 基于主动支持向
量机的乳腺癌微钙化簇检测 -计算机科学2010,37(2)
乳腺微钙化簇是早期乳腺癌的重要征象,计算机辅助的微钙化簇检测是医学影像领域的难题.为了提高检测系统的准确率,往往需要大量病灶标记,除
了搜集样本本身的难度外,还需花费专家的大量时间.目前的研究工作很少涉及这个问题的解决方法.首次将基于主动学习的支持向量机技术应用到该领域
,针对钙化簇感兴趣区域的特点.提出了选择训练集合的样本应该满足的基本条件.标准数据库上的实验证明,提出的方法能够大量地减轻样本标记的工作
,并使乳腺癌微钙化簇检测系统的分类性能基本不变.
7.学位论文 王义 支持向量机在医学及生物方面的应用 2007
支持向量机(SVM)是上世纪90年代发展起来的数据挖掘新方法,在很多实际应用的领域上,它表现出很好的效果。本文的主要工作是SVM的两个比较
成功的应用。
一个是乳腺癌诊断上的应用,其支持向量机的分类器有着很好的泛化性。我们用非对称惩罚的C-SVM解决正负类样本数量不对称的问题;一个基于泛
化界被用在快速的参数搜索方法里,此方法比单纯地k折交叉验证搜索参数更快速。在使用了cross-entry filter进行特征选择后,我们得到了更好的预
测准确率。
SVM另一方面的应用是对植物microRNA前体的预测。microRNAs(miRNAs)是一类非蛋白编码的、约22个碱基长度的小分子RNA,在多细胞生物生长发育
等各方面起到了非常重要的调控作用。在本研究工作中,我们开发了一个全新的SVM分类器,用于搜索植物中的miNRA前体。这一分类模型用到了代表前
体的12个全局和亚结构特征,对790个正类样本和7900个负类样本进行训练,模型得到五折的准确率为96.43%。对最新发现的53个植物miRNA前体(正类
)和另外的62,883个负类进行测试,SVM分类器得到了99.85%的准确率,其中79.25%敏感性和99.87%的特异性。非常好的特异性使得该方法应用到基
因组水平预测植物miRNA基因成为可能,并且这种方法可以只利用单一基因组的序列信息进行预测,这将为发现物种特异性的miRNA基因提供非常有效的
工具。
8.学位论文 顾广娟 乳腺X线影像微钙化簇检测技术研究 2009
乳腺癌是一种威胁妇女健康最常见的恶性肿瘤,其发病率近年来有增高趋势。早期发现、早期诊断、早期治疗对医治乳腺癌、降低死亡率至关重要
。乳腺钼靶X线摄影因其简便有效,目前已成为乳腺癌筛查中最常用的手段。细小、颗粒状的微钙化点是乳腺癌一个重要的早期表现。国外统计资料表明
占30%~50%的乳腺恶性肿瘤伴有微钙化。所以,及时发现乳腺X线影像中的微小钙化点并判断其是否有恶化倾向成为乳腺癌早期诊断的关键技术。但是
由于乳腺X线影像中微钙化点的灰度与周围乳腺组织的灰度接近,通过肉眼识别出的乳腺X线影像上早期乳腺癌的微钙化点信息只是很少一部分,大部分
信息不能被专家和医生察觉。所以,目前经常利用数字图像处理技术检测微钙化点来实现乳腺X线影像的计算机辅助诊断。
本文主要研究了乳腺X线影像微钙化点计算机辅助诊断中的部分技术,实现了对微钙化点感兴趣区域提取、微钙化点定位,以及利用软件编程实现微
钙化簇检测系统。主要研究内容如下:
(1)为从乳腺X线影像中有效地提取出微钙化点感兴趣区域,使检测和分类的工作在感兴趣区域中进行,减少后续工作量。依据微钙化点区域与非
微钙化点区域在能量、灰度和纹理上存在较大差别的特点,发挥支持向量机方法在分类方面的优势,结合微钙化点的数学形态学检测方法,构造了双层
支持向量机分类器对区域进行分类识别,实现感兴趣区域提取。该方法操作简单,效果良好,得到了85.5%的检出率,且假阳性较低为1.9%。
(2)针对感兴趣区域进行微钙化点检测,依据微钙化点是淹没于极高频噪声和低频背景中的高频信号的性质,在空间域利用差影技术对感兴趣区域
进行检测,去除大部分低频背景;在频率域应用小波变换的多分辨率分析对感兴趣区域进行检测,去除一部分低频背景和一部分极高频噪声,再将结果
和差影技术检测的结果进行与运算,即消除了低频背景和极高频噪声,实现微钙化点的定位。该方法得到较高的阳性检出率(83.53%)且降低了假阳性
。
(3)在乳腺X线影像微钙化簇检测技术算法研究的基础上,利用VisualC++6.0可视化编程环境并调用Matlab多种工具箱函数进行编程,实现微钙化
簇检测系统。该系统包括三个模块,辅助功能模块,微钙化点感兴趣区域提取模块和感兴趣区域检测模块,可实现相应的处理功能。
9.期刊论文 熊思.XIONG Si 基于SVM的乳腺癌X光照片计算机辅助诊断模型 -湖北第二师范学院学报2009,26(8)
乳腺癌是现代女性最常见的恶性肿瘤之一.支持向量机SVM是一种基于统计学习理论的机器学习算法,它能在训练样本很少的情况下达到良好的分类效
果.本文提出一个基于支持向量机的超声乳腺肿瘤图像计算机辅助诊断系统,它由图像预处理、ROI特征提取和SVM分类器异常诊断三个模块构成.通过实验
证明,在处理相同的样本数据集时,基于SVM算法的计算机辅助诊断系统相对于BP神经网络,有更高的诊断灵敏度.统计学习理论的发展将更加完善SVM,具有
高分类性能的分类器将使计算机辅助诊断的能力进一步提高.
10.学位论文 陈洪斌 基于阻抗信息的乳腺组织SVM辨识方法 2009
近年来,乳腺癌已经成为“女性健康的第一杀手”,对女性生命构成了巨大威胁,保乳手术是当前乳腺癌的主要治疗方式,决定保乳手术是否成功
的关键因素之一,就是术中乳腺癌灶边缘界定的效果,即能否实时、准确地评价手术切缘,帮助施术医师在手术中合理选择组织切除范围,确保在手术
结束前清除残留病灶。
将生物电阻抗测量技术应用到术中乳腺癌灶边缘界定中,是本课题的重要研究内容。生物电阻抗测量技术(BIMT)是利用生物组织与器官的电特性及其变
化,提取与人体生理、病理相关信息的一种无损伤检测技术。相对于病理切片而言,生物阻抗测量技术基本可以实现实时测量,大大缩短了等待时间。
本课题重点研究乳腺癌组织与正常组织(腺体和脂肪组织)电特性差异,从组织频阻特性曲线中寻找特征参数,对乳腺组织进行识别。搭建组织阻抗的测
量系统,测量得到组织的阻抗实部虚部值,绘制成频阻特性曲线。通过对组织特性曲线的分析,确定了特性曲线的分段一次拟合斜率和分段平均阻抗作
为特征参数;实现训练集测试集的循环选取,因而实验的平均准确率可以正确反映样本特性;按照逐步接近术中乳腺癌灶边缘界定的实际情况的思想
,设计了四种分类方式;利用支持向量机和主成分分析等数学方法实现了组织辨识。
实验结果表明,40Hz~1.1MHz频段内的组织频阻特性具有最好的区分效果,对其进行29均分并提取连续的一次拟合斜率和平均阻抗作为特征参数,提供
给支持向量机和主成分分析进行组织辨识,得到了较好的分类准确率。
本文链接:http://d.wanfangdata.com.cn/Periodical_bjswyxgc200704009.aspx
授权使用:万方100元会员卡(WFFOH29381),授权号:c07e048e-267f-42a1-aba3-9e6d00990ef3
下载时间:2011年1月16日
基于支持向量机的乳腺癌预后状态预测和疗效评估.pdf