留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基因数据的交互依赖特征选择算法

张俐

张俐. 基因数据的交互依赖特征选择算法[J]. 电子科技大学学报, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
引用本文: 张俐. 基因数据的交互依赖特征选择算法[J]. 电子科技大学学报, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
ZHANG Li. An Algorithm for Cross-Dependent Feature Selection of Genetic Data[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
Citation: ZHANG Li. An Algorithm for Cross-Dependent Feature Selection of Genetic Data[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136

基因数据的交互依赖特征选择算法

doi: 10.12178/1001-0548.2021136
基金项目: 国家科技基础性工作专项(2015FY111700-6)
详细信息
    作者简介:

    张俐(1977 − ),男,博士,副教授,主要从事特征工程与机器学习等方面的研究

    通讯作者: 张俐,E-mail:zhangli_3913@163.com
  • 中图分类号: TP181

An Algorithm for Cross-Dependent Feature Selection of Genetic Data

  • 摘要: 特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。
  • 图  1  C4.5在高维数据集上的性能比较

    图  2  SVM在高维数据集上的性能比较

    图  3  C4.5分类器和SVM分类器的pcm盒图

    表  1  数据集描述

    序号数据集样本数特征数分类标签数数据来源
    1lung2033 3125ASU
    2lung_discrete733257ASU
    3lymphoma964 0269ASU
    4Carcinom1749 18211ASU
    5nci9609 7129ASU
    6GLIOMA504 4344ASU
    7dermatology358356UCI
    8wdbc569312UCI
    9arrhythmia41627912UCI
    下载: 导出CSV

    表  2  C4.5分类器的平均fmc性能比较 %

    数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
    lung87.55586.54679.90784.63281.80475.26690.526
    lung_discrete86.03980.72263.34677.37863.53177.71884.493
    lymphoma89.32286.67267.1186.79461.46285.76187.835
    Carcinom77.59572.12358.31353.89558.29450.88464.932
    nci975.55472.60548.58172.90355.97169.03446.108
    GLIOMA80.01179.44858.6861.05558.49654.44874.627
    dermatology94.4193.01793.29893.34194.17593.57294.41
    wdbc95.96695.78994.73895.44594.55794.3895.259
    arrhythmia55.67755.23549.12252.76249.96256.3657.473
    平均值82.45980.2468.12275.35668.69573.04777.296
    WINS/TIES/LOSSES9/0/09/0/09/0/09/0/08/0/16/1/2
    下载: 导出CSV

    表  3  SVM分类器的平均fmc性能比较 %

    数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
    lung91.10690.11177.34489.12684.69485.18492.563
    lung_discrete91.90687.76766.53986.27261.30483.98587.49
    lymphoma95.10295.10270.74193.71365.17191.95995.102
    Carcinom88.65389.69374.3974.70274.3962.10787.826
    nci983.1579.30448.16876.86853.49475.73748.168
    GLIOMA32.16532.16532.16534.24830.08134.24836.331
    dermatology92.43291.87691.87691.86797.46692.43291.876
    wdbc94.9194.56390.67794.3890.85294.55990.333
    arrhythmia59.44558.74657.50957.50957.50957.50958.464
    平均值80.98579.92567.71277.631768.32975.30276.461
    WINS/TIES/LOSSES6/2/18/1/08/0/18/0/17/1/16/1/2
    下载: 导出CSV

    表  4  不同特征选择算法运行时间比较 s

    数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
    lung95.568118.65557.357127.739109.277126.454882.251
    lung_discrete2.7180.9691.02.7962.7212.78131.682
    lymphoma37.5089.4979.76327.82527.30827.966326.731
    Carcinom198.75888.56100.252212.276369.935369.9352298.744
    nci976.26427.32325.37551.55850.03848.72225.375
    GLIOMA46.54320.54822.71238.61570.99365.942353.598
    dermatology0.8680.310.3180.550.5510.5546.811
    wdbc1.4340.5980.5911.311.3111.28514.378
    arrhythmia15.9855.9528.21719.02223.04816.727214.663
    平均值52.8530.26825.06553.52172.79873.374461.581
    下载: 导出CSV

    表  5  算法比较

    算法考虑特征之间的交互相关性变化特征冗余性
    MID$ I\left( {{f_k};C} \right) $
    CMIM$ I\left( {{f_k};C} \right) $
    MIQ$ I\left( {{f_k};C} \right) $
    JMIM$ I({f_k},{f_i};C) $
    CFR$ I\left( {{f_k};C} \right) $
    JFRR$ I({f_k},{f_i};C) $
    CMI-MRMR$ I\left( {{f_i},C|{f_k}} \right) $
    下载: 导出CSV
  • [1] DABBA A, ABDELKAMEL T, SAMY M, et al. Gene selection and classification of microarray data method based on mutual information and moth flame algorithm[J]. Expert Systems with Applications, 2021, 166: 114012. doi:  10.1016/j.eswa.2020.114012
    [2] HAMBALI M A, OLADELE T O, ADEWOLE K S. Microarray cancer feature selection: Review, challenges and research directions[J]. International Journal of Cognitive Computing in Engineering, 2020, 1: 78-97. doi:  10.1016/j.ijcce.2020.11.001
    [3] 王翔, 胡学钢. 高维小样本分类问题中特征选择研究综述[J]. 计算机应用, 2017, 37(9): 2433-2438. doi:  10.11772/j.issn.1001-9081.2017.09.2433

    WANG X, HU X G. Overview on feature selection in high-dimensional and small-sample-size classification[J]. Journal of Computer Applications, 2017, 37(9): 2433-2438. doi:  10.11772/j.issn.1001-9081.2017.09.2433
    [4] WANG X, LIU J, CHENG Y, et al. Dual hypergraph regularized PCA for biclustering of tumor gene expression data[J]. IEEE Transactions on Knowledge and Data Engineering, 2019, 31(12): 2292-2303. doi:  10.1109/TKDE.2018.2874881
    [5] LIU H, GREGORY D. A semi-parallel framework for greedy information-theoretic feature selection[J]. Information Sciences, 2019, 492: 13-28. doi:  10.1016/j.ins.2019.03.075
    [6] CAI J, LUO J W, WANG S L, et al. Feature selection in machine learning: A new perspective[J]. Neurocomputing, 2018, 300: 70-79. doi:  10.1016/j.neucom.2017.11.077
    [7] LEE C Y, CAI J Y. LASSO variable selection in data envelopment analysis with small datasets[J]. Omega, 2020, 91: 102019. doi:  10.1016/j.omega.2018.12.008
    [8] GAO L Y, WU W G. Relevance assignation feature selection method based on mutual information for machine learning[J]. Knowledge-Based Systems, 2020, 209: 106439. doi:  10.1016/j.knosys.2020.106439
    [9] 谢娟英, 王明钊, 周颖, 等. 非平衡基因数据的差异表达基因选择算法研究[J]. 计算机学报, 2019, 42(6): 1232-1251. doi:  10.11897/SP.J.1016.2019.01232

    XIE J Y, WANG M Z, ZHOU Y, et al. Differential expression gene selection algorithms for unbalanced gene datasets[J]. Chinese Journal of Computers, 2019, 42(6): 1232-1251. doi:  10.11897/SP.J.1016.2019.01232
    [10] MACEDO F, OLIVEIRA M R, PACHECO A, et al. Theoretical foundations of forward feature selection methods based on mutual information[J]. Neurocomputing, 2019, 325: 67-89. doi:  10.1016/j.neucom.2018.09.077
    [11] GAO W F, HU L, ZHANG P, et al. Feature selection considering the composition of feature relevancy[J]. Pattern Recognition Letters, 2018, 112: 70-74. doi:  10.1016/j.patrec.2018.06.005
    [12] BROWN G, POCOCK A, ZHAO M J, et al. Conditional likelihood maximisation: A unifying framework for information theoretic feature selection[J]. The Journal of Machine Learning Research, 2012, 13: 27-66.
    [13] BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximisation[J]. Expert Systems with Applications, 2015, 42(22): 8520-8532. doi:  10.1016/j.eswa.2015.07.007
    [14] 肖利军, 郭继昌, 顾翔元. 一种采用冗余性动态权重的特征选择算法[J]. 西安电子科技大学学报, 2019, 46(5): 155-161.

    XIAO L J, GUO J C, GU X Y. Algorithm for selection of features based on dynamic weights using redundancy[J]. Journal of XiDian University. 2019, 46(5): 155-161.
    [15] GU X Y, GUO J C, XIAO L J, et al. Conditional mutual information-based feature selection algorithm for maximal relevance minimal redundancy[J]. Applied Intelligence, 2022, 52(2): 1436-1447. doi:  10.1007/s10489-021-02412-4
    [16] MEYER P E, SCHRETTER C, BONTEMPI G. Information-Theoretic feature selection in microarray data using variable complementarity[J]. IEEE Journal of Selected Topics in Signal Processing, 2008, 2(3): 261-274. doi:  10.1109/JSTSP.2008.923858
    [17] ZHANG P, GAO W F. Feature selection considering uncertainty change ratio of the class label[J]. Applied Soft Computing, 2020, 95: 106537. doi:  10.1016/j.asoc.2020.106537
    [18] CHE J X, YANG Y L, LI L, et al. Maximum relevance minimum common redundancy feature selection for nonlinear data[J]. Information Sciences, 2017, 409-410: 68-86. doi:  10.1016/j.ins.2017.05.013
    [19] ZHANG Y S, ZHANG Q, CHEN Z J, et al. Feature assessment and ranking for classification with nonlinear sparse representation and approximate dependence analysis[J]. Decision Support Systems, 2019, 122: 113064. doi:  10.1016/j.dss.2019.05.004
    [20] 谢娟英, 丁丽娟, 王明钊. 基于谱聚类的无监督特征选择算法[J]. 软件学报, 2020, 31(4): 1009-1024. doi:  10.13328/j.cnki.jos.005927

    XIE J Y, DING L J, WANG M Z. Spectral clustering based unsupervised feature selection algorithms[J]. Journal of Software, 2020, 31(4): 1009-1024. doi:  10.13328/j.cnki.jos.005927
  • [1] 孙长印, 梁有为, 江帆, 王军选.  场景化毫米波特征选择和波束预测算法 . 电子科技大学学报, 2023, 52(5): 689-698. doi: 10.12178/1001-0548.2022214
    [2] 常文文, 聂文超, 袁月婷, 闫光辉, 杨志飞, 张冰涛, 张学军.  基于多层脑功能网络特征的动作意图识别 . 电子科技大学学报, 2023, 52(1): 14-22. doi: 10.12178/1001-0548.2022292
    [3] 冯兴乐, 王相相, 段国彬, 闫尉深.  基于范数和相关性的GSM天线组合选择算法 . 电子科技大学学报, 2021, 50(3): 354-359. doi: 10.12178/1001-0548.2020165
    [4] 韩嫚莉, 侯卫民, 孙靖国, 王明, 梅少辉.  基于PCA与协同表示的高光谱图像分类研究 . 电子科技大学学报, 2019, 48(1): 117-121. doi: 10.3969/j.issn.1001-0548.2019.01.019
    [5] 宋国琴, 刘斌.  基于XGBoost特征选择的幕课翘课指数建立及应用 . 电子科技大学学报, 2018, 47(6): 921-926. doi: 10.3969/j.issn.1001-0548.2018.06.019
    [6] 宋勇, 蔡志平.  一种基于信息论模型的入侵检测特征提取方法 . 电子科技大学学报, 2018, 47(2): 267-271. doi: 10.3969/j.issn.1001-0548.2018.02.017
    [7] 罗杨, 赵志钦.  基于互信息理论的MIMO天波超视距雷达波形优化方法 . 电子科技大学学报, 2017, 46(1): 27-31,60. doi: 10.3969/j.issn.1001-0548.2017.01.005
    [8] 汪文勇, 刘川, 赵强, 沈晓明, 丘晓彤.  直接验证的封装式特征选择方法 . 电子科技大学学报, 2016, 45(4): 607-615. doi: 10.3969/j.issn.1001-0548.2016.04.013
    [9] 何红洲, 周明天.  基于互信息量的生物信息数据特征标注方法 . 电子科技大学学报, 2013, 42(6): 916-920. doi: 10.3969/j.issn.1001-0548.2013.06.020
    [10] 孙晶涛, 张秋余, 袁占亭, 董建设.  博弈论在邮件特征选择中的应用 . 电子科技大学学报, 2011, 40(1): 95-99. doi: 10.3969/j.issn.1001-0548.2011.01.018
    [11] 朱颢东, 李红婵, 钟勇.  新颖的无监督特征选择方法 . 电子科技大学学报, 2010, 39(3): 412-415. doi: 10.3969/j.issn.1001-0548.2010.03.019
    [12] 杨宏宇, 李春林.  采用FA和SVDFRM的SVM入侵检测分类模型 . 电子科技大学学报, 2009, 38(2): 240-244. doi: 10.3969/j.issn.1001-0548.2009.02.20
    [13] 雷霖, 代传龙, 王厚军.  基于互信息的无线传感器网络节点故障自诊断 . 电子科技大学学报, 2009, 38(5): 696-699. doi: 10.3969/j.issn.1001-0548.2009.05.030
    [14] 于泠, 陈波.  入侵数据特征并行选择算法 . 电子科技大学学报, 2008, 37(2): 266-269.
    [15] 曾翎, 刘斐, 乔辉.  基于互信息的功能磁共振图像配准 . 电子科技大学学报, 2008, 37(1): 138-140.
    [16] 张赪, 蔡之华.  代价敏感的GEP分类算法实现 . 电子科技大学学报, 2007, 36(6): 1319-1321.
    [17] 葛森, 黄大贵.  基于最大互信息方法的机械零件图像识别 . 电子科技大学学报, 2007, 36(4): 801-804.
    [18] 范自柱, 刘二根, 徐保根.  互信息在图像检索中的应用 . 电子科技大学学报, 2007, 36(6): 1311-1314.
    [19] 张中培, 靳蕃.  从相关性分析Turbo码交织器的设计 . 电子科技大学学报, 2000, 29(1): 25-28.
    [20] 李仲令, 王晓蕾.  序列相关特性与CDMA系统的多址干扰 . 电子科技大学学报, 1997, 26(2): 132-136.
  • 加载中
图(3) / 表(5)
计量
  • 文章访问数:  3745
  • HTML全文浏览量:  1210
  • PDF下载量:  63
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-05-18
  • 修回日期:  2022-04-28
  • 录用日期:  2022-07-01
  • 网络出版日期:  2022-10-25
  • 刊出日期:  2022-09-25

基因数据的交互依赖特征选择算法

doi: 10.12178/1001-0548.2021136
    基金项目:  国家科技基础性工作专项(2015FY111700-6)
    作者简介:

    张俐(1977 − ),男,博士,副教授,主要从事特征工程与机器学习等方面的研究

    通讯作者: 张俐,E-mail:zhangli_3913@163.com
  • 中图分类号: TP181

摘要: 特征选择是生物信息领域中数据预处理阶段必不可少的步骤。传统特征选择算法忽视了特征之间的依赖相关性和冗余性,因此提出一种联合互信息的特征选择算法(JFRR)。该算法利用互信息计算特征之间的冗余值,并利用联合互信息分别计算已选特征集合、候选特征及类标签之间的相关性。将JFRR与其他6个特征选择算法在2个分类器上,使用9个不同基因数据集,进行分类准确率指标(Precision_micro和F1_micro)验证。实验结果表明,该算法能有效提高分类精度。

English Abstract

张俐. 基因数据的交互依赖特征选择算法[J]. 电子科技大学学报, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
引用本文: 张俐. 基因数据的交互依赖特征选择算法[J]. 电子科技大学学报, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
ZHANG Li. An Algorithm for Cross-Dependent Feature Selection of Genetic Data[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
Citation: ZHANG Li. An Algorithm for Cross-Dependent Feature Selection of Genetic Data[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
  • 过去几十年,在生物信息领域产出大量基因数据[1-2]。这些基因数据普遍具有样本小、维度高和高噪声等特点[3]。如何处理这些不相关和冗余特征给数据降维带来重大挑战。常见的数据降维包括特征提取[4]和特征选择[5]两类。特征选择由于可以删除无关和冗余特征,同时保留相关原始特征,因此引起许多关注。

    在特征选择中主要有数据层面(过滤式方法)和算法层面(包装器方法和嵌入式方法)[6-8]两方面的研究。过滤式特征选择算法凭借其计算成本低、与具体分类器分离及应用领域广等优点,逐渐成为特征选择技术中的研究热点。常见的基于信息论的过滤式特征选择算法包括采用平均冗余策略的特征选择算法(MID[9]、MIQ[9]、JMI[10]和CFR[11]等)和采用“最大最小”极端标准的特征选择算法(CMIM[12]、JMIM[13]和DWUR[14]等)。然而这些算法存在忽视对交互依赖特征相关性和冗余性判断的问题。

    因此,本文提出一种利用联合互信息和互信息判断特征与类标签之间相关性和冗余性的特征选择算法(joint feature relevance and redundancy, JFRR)。该算法利用联合互信息计算在已选特征下候选特征与类标签之间的相关性;通过互信息计算已选特征和候选特征的冗余性;通过在9个基准基因数据集的实验对比,该算法(JFRR)优于其他特征选择算法(MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR[15])。

    • $ X $$ Y $$ Z $是3个离散型变量[16],其中,$ X = \left\{ {{x_1},{x_2}, \cdots ,{x_L}} \right\} $$ Y = \left\{ {{y_1},{y_2}, \cdots ,{y_M}} \right\} $$ Z = \left\{ {{z_1},{z_2}, \cdots ,{z_N}} \right\} $。因此,$ X $$ Y $之间的互信息定义如下:

      $$ I\left( {X;Y} \right) = \sum\limits_{i = 1}^L {\sum\limits_{j = 1}^M {p\left( {{x_i},{y_i}} \right){{\log }_2}\frac{{p\left( {{x_i},{y_i}} \right)}}{{p\left( {{x_i}} \right)p\left( {{y_i}} \right)}}} } $$ (1)

      式中,$ p\left( {{x_i},{y_i}} \right) $指联合分布;$ p\left( {{x_i}} \right) $$ p( {{y_j}} ) $指边际分布。

      同时,$ X $$ Y $$ Z $的条件互信息定义如下:

      $$ \begin{split} & I\left( {X;Y|Z} \right) = \sum\limits_{t = 1}^N {p\left( {{z_t}} \right)} \sum\limits_{i = 1}^L {\sum\limits_{j = 1}^M {p\left( {{x_i},{y_i}|{z_t}} \right)} } \times \\ & \qquad\qquad {\log _2}\frac{{p\left( {{x_i},{y_i}|{z_t}} \right)}}{{p\left( {{x_i}|{z_t}} \right)p\left( {{y_i}|{z_t}} \right)}} \end{split} $$ (2)

      根据文献[13]的定义,联合互信息定义如下:

      $$ I\left( {X,Y;Z} \right) = I\left( {Y;Z} \right) + I\left( {X;Z|Y} \right) $$ (3)
    • 通过以上描述可知,传统的特征选择算法通常使用最小化冗余项和最大化相关项选择特征子集$ S $。但是由此产生如下问题:1) 当已选特征量增加时,冗余项的大小也会随着相关项的增加而增加。这就存在一些冗余特征可能被选中;2) 在冗余项中,只考虑已选特征和候选特征之间互信息的计算,而忽视类标签,可能会造成已选特征和候选特征共享信息,意味着它们之间存在冗余信息。事实上,它们可能与类标签集合$ C $之间共享不同信息。

      以上问题可能会高估某些候选特征的重要性[17-19]。因此需要考虑,如何在已选特征集合$ S $规模不断增加的情况下,解决$ S $与类标签集合$ C $的相关性,同时解决候选特征$ {f_k} $$ S $的冗余性,以及解决在$ S $条件下,候选特征$ {f_k} $与类标签$ C $的相关性的问题。

      为此,本文提出一种基于信息论的特征选择算法(JFRR)。该算法充分利用了线性累计加和的方式,具体如下:

      $$ {J_{{\rm{JFRR}}}} = \sum\limits_{{f_i} \in S} {\left( {I\left( {{f_k},{f_i};C} \right) - I\left( {{f_k};{f_i}} \right)} \right)} $$ (4)

      式中,设$ F $是原始特征集合,$ S \subset F $$J(\cdot)$代表评估标准;$ {f_i} \in S,{f_k} \in F - S $

      通过式(4)可知,JFRR算法利用联合互信息和互信息原理充分考虑$ S $$ C $之间的相关性,$ {f_k} $$ S $的冗余性以及在$ S $条件下,$ {f_k} $$ C $之间的相关性。JFRR算法的具体描述如下。

      输入:原始特征集合$ F = \left\{ {{f_1},{f_2}, \cdots {f_n}} \right\} $,类标签集合$ C $,已选特征子集$ S $,阈值$ K $

      输出:最优特征子集$ S $

      1) 初始化:$S = \varnothing$ , $ k = 0 $

      2) for k=1 to n

      3) 计算每个特征与标签的互信息值$ I\left( {C;{f_k}} \right) $

      4) End for

      5) $ {J_{{\rm{JFRR}}}}\left( {{f_k}} \right) = \arg \max \left( {I\left( {{f_k};C} \right)} \right) $

      6) Set $ F \leftarrow F\backslash \left\{ {{f_k}} \right\} $

      7) Set $ S \leftarrow \left\{ {{f_k}} \right\} $

      8) while $ k \leqslant K $

      9) for each $ {f_k} \in F $ do

      10) 根据式(1),计算$ {f_k} $$ {f_i} $之间冗余$ I\left( {{f_k};{f_i}} \right) $的值;

      11) 根据式(1),计算$ {f_i} $$ C $之间相关性$ I\left( {{f_i};C} \right) $的值;

      12) 根据式(3),计算$ {f_k} $$ {f_i} $$ C $之间联合互信息$ I\left( {{f_k},{f_i};C} \right) $的值;

      13) 根据式(4),更新${J_{{\rm{JFRR}}}}\left( {{f_k}} \right)$的值;

      14) end for

      15) 根据$ {J_{{\rm{JFRR}}}}\left( {{f_k}} \right) $评估标准,寻找最优的候选特征$ {f_k} $

      16) Set $ F \leftarrow F\backslash \left\{ {{f_k}} \right\} $

      17) Set $ S \leftarrow \left\{ {{f_k}} \right\} $

      18) k=k+1

      19) end while

      从式(4)可知,JFRR算法采用前向顺序搜索特征子集。JFRR算法主要分为3部分。第1部分为1)~7),主要是初始化$ S $集合和计数器$ k $;将选择出最大的特征$ {f_k} $加入$ S $集合,同时$ {f_k} $变成已选特征$ {f_i} $。第2部分为8)~13),分别计算$ I\left( {{f_i};C} \right) $$ I\left( {{f_k};{f_i}} \right) $$ I\left( {{f_k},{f_i};C} \right) $的值。第3部分为14)~19),根据式(4)的选择标准选择$ {f_k} $,一直循环到用户指定的阈值$ K $就停止循环。

    • 本节将JFRR与MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法进行对比。具体分类器为:决策树(C4.5)和支持向量机(support vector machine, SVM)。本文的实验环境是Intel-i7处理器,16 GB内存,仿真软件是Python2.7。实验数据集选择ASU和UCI基因数据集[9, 20],详细描述见表1。其中,这9个数据集包含不同的样本数、特征数和类数。样本范围为50~569,特征范围为31~9712,类的范围为2~12,数据类型涉及连续型和离散型。采用6折交叉验证方法进行实验验证。为保证实验公平,分别通过分类评价指标fmc(F1_micro)和pcm(Precision_micro)来评价预测性能。

      表 1  数据集描述

      序号数据集样本数特征数分类标签数数据来源
      1lung2033 3125ASU
      2lung_discrete733257ASU
      3lymphoma964 0269ASU
      4Carcinom1749 18211ASU
      5nci9609 7129ASU
      6GLIOMA504 4344ASU
      7dermatology358356UCI
      8wdbc569312UCI
      9arrhythmia41627912UCI
    • 为了比较JFRR与MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法之间的优劣性,将它们所选的特征子集放到同一个分类器(C4.5和SVM)进行比较,特征子集的规模设置为30。表2选择C4.5分类器。表3选择SVM分类器。在表2表3中,粗体代表该数据集下特征选择算法中最高平均分类预测值。“Wins/Ties/Losses”描述JFRR算法分别与MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法之间的优/平/输个数。

    • 表2中,7个特征选择算法的平均fmc精度值分别为82.459%、80.24%、68.122%、75.356%、68.695%、73.047%和77.296%。JFRR算法获得最高fmc值。同时,从WINS/TIES/LOSSES行的统计结果得出JFRR分别优于MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法9、9、9、9、8和6次。

      表 2  C4.5分类器的平均fmc性能比较 %

      数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
      lung87.55586.54679.90784.63281.80475.26690.526
      lung_discrete86.03980.72263.34677.37863.53177.71884.493
      lymphoma89.32286.67267.1186.79461.46285.76187.835
      Carcinom77.59572.12358.31353.89558.29450.88464.932
      nci975.55472.60548.58172.90355.97169.03446.108
      GLIOMA80.01179.44858.6861.05558.49654.44874.627
      dermatology94.4193.01793.29893.34194.17593.57294.41
      wdbc95.96695.78994.73895.44594.55794.3895.259
      arrhythmia55.67755.23549.12252.76249.96256.3657.473
      平均值82.45980.2468.12275.35668.69573.04777.296
      WINS/TIES/LOSSES9/0/09/0/09/0/09/0/08/0/16/1/2

      表 3  SVM分类器的平均fmc性能比较 %

      数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
      lung91.10690.11177.34489.12684.69485.18492.563
      lung_discrete91.90687.76766.53986.27261.30483.98587.49
      lymphoma95.10295.10270.74193.71365.17191.95995.102
      Carcinom88.65389.69374.3974.70274.3962.10787.826
      nci983.1579.30448.16876.86853.49475.73748.168
      GLIOMA32.16532.16532.16534.24830.08134.24836.331
      dermatology92.43291.87691.87691.86797.46692.43291.876
      wdbc94.9194.56390.67794.3890.85294.55990.333
      arrhythmia59.44558.74657.50957.50957.50957.50958.464
      平均值80.98579.92567.71277.631768.32975.30276.461
      WINS/TIES/LOSSES6/2/18/1/08/0/18/0/17/1/16/1/2

      表3中,7个特征选择算法的平均fmc精度值分别为80.985%、79.925%、67.712%、77.6317%、68.329%、75.302%和76.461%。JFRR算法获得最高fmc值。同时,从WINS/TIES/LOSSES行的统计结果得出JFRR分别优于MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法6、8、8、8、7和6次。

      为了进一步比较特征子集对fmc值的影响,图1图2分别给出部分数据集的fmc性能差异。当数据的维数不断增加时,JFRR算法通过动态调整特征间的相关性和冗余性提升了特征子集的数据质量。图1图2的实验结果显示,JFRR算法对分类提升的效果明显。并且,JFRR明显优于MID、CMIM、MIQ、JMIM、CFR和CMI-MRMR。

      图  1  C4.5在高维数据集上的性能比较

      图1是C4.5在高维数据集上的性能比较。在图1a中,JFRR算法的分类fmc值为86.039%,是7种分类算法中最高的,分别比MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR高出5.317%、22.693%、8.661%、22.508%、8.321%和1.546%。在图1b中,JFRR算法的分类fmc值为77.595%,也是7种分类算法中最高的,分别比MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR高出5.472%、19.282%、23.7%、19.301%、26.711%和12.663%。图2是SVM在高维数据集上的性能比较。在图2a中,JFRR算法的分类fmc值为95.102%,是7种分类算法中最高的,分别比MID、MIQ、CMIM、JMIM、 CFR和CMI-MRMR高出0.0%、24.361%、1.389%、29.931%和3.143%和0.0%。在图2b中,JFRR算法的分类fmc值为94.91%,是7种分类算法中最高的,分别比MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR高出0.347%、4.233%、0.53%、4.058%、0.351%和4.577%。

      图  2  SVM在高维数据集上的性能比较

    • 图3为pcm盒图。从图3a中可以得出,在C4.5分类器的pcm盒图中,使用JFRR算法选择出的特征集合在五位数(最小值、四分位数(第25个百分位数)、中位数、四分位数(第75个百分位数)和最大值)中体现出的分类效果都是最优。同时,从图3b中也可以得出,在SVM分类器的pcm盒图中,使用JFRR算法选择出的特征集合在五位数(最小值、四分位数(第25个百分位数)、中位数和四分位数(第75个百分位数))中体现出的分类效果都是最优的效果。

      图  3  C4.5分类器和SVM分类器的pcm盒图

      综上,不同分类器表现出的分类结果不尽相同。但是,JFRR算法在fmc和pcm的评价指标值在大多数数据集上都是最好。从C4.5和SVM分类器表现结果中可知,C4.5分类性能明显优于SVM分类性能。

    • 计算特征选择算法的运行时间也是衡量特征选择算法重要性的标准之一。JFRR、MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR算法在9个数据集上进行特征排序后得出的运行时间如表4所示。可以看出,JFRR算法的运行时间在可接受的范围之内。

    • 本节分析JFRR与MID、CMIM、MIQ、JMIM、CFR 和CMI-MRMR之间在交互特征依赖相关性和冗余性的差异。从表5可以得出,与JFRR相比,MID、MIQ、CMIM和CFR将$ I\left( {{f_k};C} \right) $定义为衡量特征相关性的标准。CMI-MRMR将$ I\left( {{f_i},C|{f_k}} \right) $定义为衡量特征相关性的标准。只有JFRR和JMIM将$ I({f_k},{f_i};C) $定义为衡量交互特征依赖性动态变化标准。但是,JMIM算法却忽视特征冗余性变化。因此,得出JFRR与其他特征选择算法差异明显。

      表 4  不同特征选择算法运行时间比较 s

      数据集JFRRMIDMIQCMIMJMIMCFRCMI-MRMR
      lung95.568118.65557.357127.739109.277126.454882.251
      lung_discrete2.7180.9691.02.7962.7212.78131.682
      lymphoma37.5089.4979.76327.82527.30827.966326.731
      Carcinom198.75888.56100.252212.276369.935369.9352298.744
      nci976.26427.32325.37551.55850.03848.72225.375
      GLIOMA46.54320.54822.71238.61570.99365.942353.598
      dermatology0.8680.310.3180.550.5510.5546.811
      wdbc1.4340.5980.5911.311.3111.28514.378
      arrhythmia15.9855.9528.21719.02223.04816.727214.663
      平均值52.8530.26825.06553.52172.79873.374461.581

      表 5  算法比较

      算法考虑特征之间的交互相关性变化特征冗余性
      MID$ I\left( {{f_k};C} \right) $
      CMIM$ I\left( {{f_k};C} \right) $
      MIQ$ I\left( {{f_k};C} \right) $
      JMIM$ I({f_k},{f_i};C) $
      CFR$ I\left( {{f_k};C} \right) $
      JFRR$ I({f_k},{f_i};C) $
      CMI-MRMR$ I\left( {{f_i},C|{f_k}} \right) $
    • 随着基因数据中高维特征数据的不断增多,特征间的关系变得越来越复杂(包含大量无关特征和冗余特征)。而传统的特征选择算法往往忽视特征间的相关性和冗余性之间的联系。本文提出一种基于联合互信息的JFRR算法。该算法利用互信息和联合互信息间的关系动态分析和调整特征间以及特征与类标签间的相关信息和冗余信息,从而达到删除无关特征和冗余特征的目的,以此提高特征子集的数据质量。为了全面验证JFRR算法的有效性,实验在9个基因数据集上进行。分别通过使用分类器(C4.5和SVM)和分类准确率指标(fmc和pcm)全面评估所选特征子集的质量。实验结果证明JFRR明显优于MID、MIQ、CMIM、JMIM、CFR和CMI-MRMR等6种特征选择算法。

      但在一些基因数据中,JFRR算法仍旧存在选择出的特征子集不理想的情况。未来的工作将进一步研究和改进互信息和联合互信息的关系,并以此优化JFRR算法,同时在更广泛的基因数据集中对算法进行验证,以此提高分类预测精度。

参考文献 (20)

目录

    /

    返回文章
    返回