直接验证的封装式特征选择方法

汪文勇; 刘川; 赵强; 沈晓明; 丘晓彤

doi:10.3969/j.issn.1001-0548.2016.04.013

直接验证的封装式特征选择方法

doi: 10.3969/j.issn.1001-0548.2016.04.013

1.
电子科技大学计算机科学与工程学院成都 611731
2.
国网浙江省电力公司电力科学研究院杭州 310014
3.
电子科技大学格拉斯哥学院成都 611731

基金项目:

教育部-中国移动科研基金 MCM20130661

计算机网络及应用四川省工程实验室基金 20160001

详细信息

作者简介:
汪文勇(1967-)，男，教授，博士生导师，主要从事网络测量及性能管理、无线传感器网络等方面的研究。中国教育和科研计算机网(CERNET)专家委员会委员，中国下一代互联网(CNGI)专家委员会委员，下一代互联网核心网技术国家工程实验室(清华大学)技术委员会委员，下一代互联网关键技术和评测国家工程研究中心专家委员会委员，江苏省计算机网络技术重点实验室(东南大学)学术委员会委员，四川省计算机网络工程实验室学术委员会主任。主要研究方向为计算机网络。获国家及部省级科技进步奖共6次，发表论文40余篇，获国家发明专利9项。

中图分类号: TP391.4

An Improved Wrapper Method for Feature Selection

1.
School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731
2.
Zhejiang Electric Power Research Institute Hangzhou 310014
3.
UoG-UESTC Joint School, University of Electronic Science and Technology of China Chengdu 611731

摘要: 封装式特征选择算法可以准确地选择出有价值的特征，但是其评价过程伴随着极大的时间复杂度。为此，该文针对封装式特征选择算法中时间复杂度最高的交叉验证评价环节，提出了可以替代交叉验证的特征集直接评价方法——LW测量。进一步，将该方法与封装式特征选择算法中常用的序列搜索策略相结合，提出了改进的序列前（后）向搜索特征选择算法SFS-LW（SBS-LW）。通过在2个UCI数据集上与传统的基于交叉验证的封装式特征选择算法进行3组对比实验，结果表明该改进特征选择方法具有与传统方法近似的分类精度，但在时间复杂度上则有数倍的改善。
- 特征选择 /
- 序列搜索算法 /
- 分类 /
- 时间复杂度 /
- 封装式方法
Abstract: The wrapper feature selection methods can achieve high classification accuracy, however, its cross-validation scheme in evaluation phase is very expensive in terms of computing resource consumption. In this paper, we propose a new statistical LW-measure which can replace the cross-validation scheme to evaluate feature sets. Furthermore, two improved wrapper algorithms, i.e. sequential forward selection-LW (SFS-LW) and sequential backward selection-LW (SBS-LW), are presented for feature selection, on the basis of combination of LW-measure and sequence search algorithms. Three groups of experiments conducted on two University of California, Irvine (UCI) datasets show that the proposed algorithms can not only obtain the similar classification accuracy to that of the traditional wrapper methods, but also are nearly ten times faster than the traditional ones.
- feature selection /
- sequence search algorithm /
- text classification /
- time complexity /
- wrapper methods
图 1 聚类二维空间分布示例

下载: 全尺寸图片幻灯片

图 2 SFS-LW算法和SFS-SVM算法在20Newsgroups数据集上的性能对比

下载: 全尺寸图片幻灯片

图 3 SFS-LW算法和SFS-SVM算法在Gas数据集上的性能对比

下载: 全尺寸图片幻灯片

图 4 SFS-LW算法和SFS-SVM算法在20Newsgroups数据集上的性能对比

下载: 全尺寸图片幻灯片

图 5 SBS-LW算法和SBS-SVM算法在Gas数据集上的性能对比

下载: 全尺寸图片幻灯片

图 6 随机特征选择在20Newsgroups数据集上的性能分析

下载: 全尺寸图片幻灯片

图 7 随机特征选择算法在Gas数据集上的性能分析

下载: 全尺寸图片幻灯片

表 1 各算法的时间消耗mins/轮

数据集 SFS-LW SBS-LW SFS-SVM SBS-SVM

20Newsgroups 217.84 211.73 1 763.35 1 827.41

Gas 57.68 58.26 521.13 526.38

下载: 导出CSV

表 2 第3组实验中LW与F₁测量的相关性统计

数据集搜索算法 macroF₁ & LW microF₁ & LW

20Newsgroups RFS 0.957 0.926

RBS 0.869 0.842

Gas RFS 0.955 0.957

RBS 0.778 0.821

下载: 导出CSV

[1]	GUYON I, ELISSEEFF A. An introduction to variable and feature selection[J]. J Mach Learn Res, 2003, 3:1157-1182.
[2]	ABDI H, WILLIAMS. "Principal component analysis" Wiley interdisciplinary reviews[J]. Computational Statistics, 2010, 2:433-459. doi: 10.1002/wics.v2:4
[3]	KOHAVI R, JOHN G H. Wrappers for feature subset selection[J]. ArtifIntell, 1997, 97:273-324.
[4]	JUHA R. Overfitting in making comparisons between variable selection method[J]. Journal of Machine Learning Research, 2003, 3:1371-1382. http://jmlr.org/papers/volume3/reunanen03a/reunanen03a.pdf
[5]	LIU Yi, ZHENG Yuan. FS_SFS:a novel feature selection method for support vector machines[J]. Pattern Recognit, 2006, 39:1333-1345. doi: 10.1016/j.patcog.2005.10.006
[6]	LIU Huan, SETIONO R. A probabilistic approach to feature selection:a filter solution[C]//Proceedings of the Thirteenth International Conference on Machine Learning. Bari:[s.n.], 1996, 319-327.
[7]	CHEN W, CHANG X, WANG H, et al. Automatic word clustering for text categorization using global information[C]//Asia Information Retrieval Symp. Beijing:SpringerVerlag, 2004, 1-11.
[8]	XIONG M, FANG Z, ZHAO J. Biomarker identification by feature wrappers[J]. Genome Res, 2001, 11:1878-1187. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.110.450
[9]	CHEN Gang, CHEN Jin. A novel wrapper method for feature selection and its applications[J]. Neurocomputing, 2015, 159:219-226. doi: 10.1016/j.neucom.2015.01.070
[10]	PUDIL P, NOVOVICOVA N, KITTLER J. Floating search methods[J]. Pattern Recognition Letters, 1994, 15:1119-1125. doi: 10.1016/0167-8655(94)90127-9
[11]	MICHAEL M, LIN W C. Experimental study of information measure and inter-intra class distance ratios on feature selection and orderings[J]. Systems Man & Cybernetics IEEE Transactions on, 1973, smc-3(2):172-181 http://citeseerx.ist.psu.edu/showciting?cid=2095657
[12]	LARKEY L S. Automatic essay grading using text categorization techniques[C]//Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval. Melbourne:ACM, 1998:90-95.
[13]	CAROPRESO M F, MATWIN S. SEBASTIANI F. A learner-independent evaluation of the usefulness of statistical phrases for automated text categorization[J]. Text Databases and Document Management:Theory and Practice, 2001, 5478:78-102. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.32.2489
[14]	MLADENIC D, GROBELNIK M. Feature selection for unbalanced class distribution and naive bayes[C]//Proceedings of the 16th International Conference on Machine Learning.[S.l.]:ICML, 1999:258-267.
[15]	CHAVES R, RAMÍREZ J. SVM-based computer-aided diagnosis of the Alzheimer's disease using t-test NMSE feature selection with feature correlation weighting[J]. Neuroscience Letters, 2009, 461(3):293-297. doi: 10.1016/j.neulet.2009.06.052
[16]	UNCU O, TURKSEN I B. A novel feature selection approach:Combining feature wrappers and filters[J]. Information Sciences, 2007, 177(2):449-466. doi: 10.1016/j.ins.2006.03.022
[17]	SAEYS1 Y, INZA I. A review of feature selection techniques in bioinformatics[J]. Bioinformatics, 2007, 177(23):2507-2517. http://wenku.baidu.com/view/6dc073747fd5360cba1adb62.html
[18]	JUANG B H, KATAGIRI S. Discriminative learning for minimum error classification[J]. IEEE Trans Signal Process, 1992, 40:3043-3054. doi: 10.1109/78.175747
[19]	SEBBANA M, RICHARD N. A hybrid filter/wrapper approach of feature selection using information theory[J]. Pattern Recognition, 2002, 35:835-846. doi: 10.1016/S0031-3203(01)00084-X
[20]	KOHAVI R. A study of cross-validation and bootstrap for accuracy estimation and model selection[J]. Fourteenth International Joint Conference on Artificial Intelligence, 2001, 14:1137-1143. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.133.9187
[21]	GHEYAS I, SMITH L. Feature subset selection in large dimensionality domains[J]. Pattern Recognition, 2010, 43:5-13. doi: 10.1016/j.patcog.2009.06.009
[22]	KUDO M, SKLANSKY J. Comparison of algorithms that select features for pattern classifiers[J]. Pattern Recognit, 2000, 33:25-41. doi: 10.1016/S0031-3203(99)00041-2
[23]	MAHESH P, GILES M. Feature selection for classification of hyperspectral data by SVM[J]. IEEE Transactions on Geoscience and Remote Sensing, 2010, 45(5):2297-2306. http://www.researchgate.net/publication/224117905_Feature_Selection_for_Classification_of_Hyperspectral_Data_by_SVM
[24]	INAKI I, PEDRO L. Filter versus wrapper gene selection approaches in DNA microarray domains[J]. Artificial Intelligence in Medicine, 2004, 31:91-103. doi: 10.1016/j.artmed.2004.01.007
[25]	MARINA S, GUY L. A systematic analysis of performance measures for classification tasks[J]. Information Processing and Management, 2009, 45:427-437. doi: 10.1016/j.ipm.2009.03.002
[26]	AHA D W, BANKERT R L. A comparative evaluation of sequential feature selection algorithms[C]//Proceedings of the Fifth International Workshop on Artificial Intelligence and Statistics, Ft. Lauderdale:[s.n.] 1995, 112:1-7.
[27]	DOAK J. Intrusion detection:the application of input selection, a comparison of algorithms and the application of a wide area network analyzer[D]. California:University of California, 1992.
[28]	AMALDI E, KANN V. On the approximation of minimizing non zero variables or unsatisfied relations in linear systems[J]. Theoretical Computer Science, 1998, 209:237-260. doi: 10.1016/S0304-3975(97)00115-1
[29]	CARUANA R, SA V. Benefitting from the variables that variable selection discards[J]. JMLR, 2003, 3:1245-1264. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.6.1665
[30]	FERREIR A J, FIGUEIREDO A T. Incremental filter and wrapper approaches for feature discretization[J]. Neurocomputing, 2014, 123:60-74. doi: 10.1016/j.neucom.2012.10.036
[31]	SHAMSUL H, ABDOLLAHIAN M. A hybrid wrapper-filter approach to detect the source(s) ofout-ofcontrol signals in multivariate manufacturing process[J]. European Journal of Operational Research, 2014, 237:857-870. doi: 10.1016/j.ejor.2014.02.032
[32]	CADENAS J M, GARRIDO M C, MARTÍNEZ R. Feature subset selection filter-wrapper based on low quality data[J]. Expert Systems with Applications, 2013, 40(16):6241-625. doi: 10.1016/j.eswa.2013.05.051
[33]	SEBASTIN M, RICHARD W. A wrapper method for feature selection using support vector machines[J]. Information Sciences, 2009, 179:2208-2217. doi: 10.1016/j.ins.2009.02.014
[34]	DARYA C, ALEXANDRE S. Evolutionary ELM wrapper feature selection for Alzheimer's disease CAD on anatomical brain MRI[J]. Neurocomputing, 2014, 128:73-80. doi: 10.1016/j.neucom.2013.01.065
[35]	DOUGLAS R, PEREIRA A M. A wrapper approach for feature selection based on Bat algorithm and optimum-path forest[J]. Expert Systems with Applications, 2014, 41:2250-2258. doi: 10.1016/j.eswa.2013.09.023
[36]	TURKER T E, CUMHUR T, MERVE C. A wrapper-based approach for feature selection and classification of major depressive disorder-bipolar disorders[J]. Computers in Biology and Medicine, 2015, 64:127-137. doi: 10.1016/j.compbiomed.2015.06.021
[37]	BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Dataing and Knowledge Discovery, 1998, 2(2):121-167. doi: 10.1023/A:1009715923555
[38]	NGUYEN T T, CHANG K, HUI S C. Supervised term weighting centroid-based classifiers for text categorization[J]. Knowledge and Information Systems, 2013, 35(1):61-85. doi: 10.1007/s10115-012-0559-9
[39]	VERGARA A, VEMBU S, AYHAN T. Chemical gas sensor drift compensation using classifier ensembles[J]. Sensors and Actuators B:Chemical, 2012, 166:320-329. https://www.researchgate.net/publication/257353906_Chemical_gas_sensor_drift_compensation_using_classifier_ensembles

[1]	周丰丰, 孙燕杰, 范雨思. 基于miRNA组学的数据增强算法 . 电子科技大学学报, 2023, 52(2): 182-187. doi: 10.12178/1001-0548.2023002
[2]	常文文, 聂文超, 袁月婷, 闫光辉, 杨志飞, 张冰涛, 张学军. 基于多层脑功能网络特征的动作意图识别 . 电子科技大学学报, 2023, 52(1): 14-22. doi: 10.12178/1001-0548.2022292
[3]	孙长印, 梁有为, 江帆, 王军选. 场景化毫米波特征选择和波束预测算法 . 电子科技大学学报, 2023, 52(5): 689-698. doi: 10.12178/1001-0548.2022214
[4]	张俐. 基因数据的交互依赖特征选择算法 . 电子科技大学学报, 2022, 51(5): 754-759. doi: 10.12178/1001-0548.2021136
[5]	郜东瑞, 周晖, 冯李逍, 张云霞, 彭茂琴, 张永清. 基于特征融合和粒子群优化算法的运动想象脑电信号识别方法 . 电子科技大学学报, 2021, 50(3): 467-475. doi: 10.12178/1001-0548.2020107
[6]	韩嫚莉, 侯卫民, 孙靖国, 王明, 梅少辉. 基于PCA与协同表示的高光谱图像分类研究 . 电子科技大学学报, 2019, 48(1): 117-121. doi: 10.3969/j.issn.1001-0548.2019.01.019
[7]	宋国琴, 刘斌. 基于XGBoost特征选择的幕课翘课指数建立及应用 . 电子科技大学学报, 2018, 47(6): 921-926. doi: 10.3969/j.issn.1001-0548.2018.06.019
[8]	宋勇, 蔡志平. 一种基于信息论模型的入侵检测特征提取方法 . 电子科技大学学报, 2018, 47(2): 267-271. doi: 10.3969/j.issn.1001-0548.2018.02.017
[9]	高辉, 王沙沙, 傅彦. Web舆情的长期趋势预测方法 . 电子科技大学学报, 2011, 40(3): 440-445. doi: 10.3969/j.issn.1001-0548.2011.03.022
[10]	张靖, 何发镁, 邱云. 个性化推荐系统描述文件攻击检测方法 . 电子科技大学学报, 2011, 40(2): 250-254. doi: 10.3969/j.issn.1001-0548.2011.02.019
[11]	孙晶涛, 张秋余, 袁占亭, 董建设. 博弈论在邮件特征选择中的应用 . 电子科技大学学报, 2011, 40(1): 95-99. doi: 10.3969/j.issn.1001-0548.2011.01.018
[12]	董晓丽, 胡予濮, 陈杰. 不可能差分攻击AES中的新密钥筛选算法 . 电子科技大学学报, 2011, 40(3): 396-400. doi: 10.3969/j.issn.1001-0548.2011.03.014
[13]	朱颢东, 李红婵, 钟勇. 新颖的无监督特征选择方法 . 电子科技大学学报, 2010, 39(3): 412-415. doi: 10.3969/j.issn.1001-0548.2010.03.019
[14]	杨宏宇, 李春林. 采用FA和SVDFRM的SVM入侵检测分类模型 . 电子科技大学学报, 2009, 38(2): 240-244. doi: 10.3969/j.issn.1001-0548.2009.02.20
[15]	于泠, 陈波. 入侵数据特征并行选择算法 . 电子科技大学学报, 2008, 37(2): 266-269.
[16]	张赪, 蔡之华. 代价敏感的GEP分类算法实现 . 电子科技大学学报, 2007, 36(6): 1319-1321.
[17]	何军, 谭兴烈, 李新, 谢京涛, 周明天. 一种支持QoS的IPSec安全设备体系结构 . 电子科技大学学报, 2005, 34(1): 97-100.
[18]	胡新帮, 汤志伟. 基于极值索引的数据排序算法 . 电子科技大学学报, 2003, 32(6): 696-700.
[19]	陈宏, 杨莉, 朱蕙, 李燕. 国民经济各部门作用类型的研究 . 电子科技大学学报, 2001, 30(3): 295-299.
[20]	章小兵, 陈光. 二元判决图应用中函数组合方法的改进 . 电子科技大学学报, 1997, 26(1): 55-58.

点击查看大图

图(7) / 表(2)

计量

文章访问数: 4620
HTML全文浏览量: 1328
PDF下载量: 184
被引次数: 0

全文HTML

特征选择是模式识别和机器学习领域的核心问题和热点研究方向之一^[1]。随着信息技术的发展以及互联网规模和应用领域的不断扩大，生物信息分析、金融数据挖掘、互联网海量文本、图片信息处理等众多研究领域的数据分析需求增多，数据特征域的规模极速增长，给学习算法带来“维度灾难”问题^[2]。在分类问题中，不同的特征区分对象的类别和状态的能力是不同的，重要的特征区分能力强，与类别标签相关性高^[3]。与之相反，冗余的特征不仅会影响分类算法的性能，同时还会带来额外的计算开销。特征选择通过排除不相关的和冗余的特征实现数据降维，是从原始特征域中选出最优特征子集的过程。特征选择通过选出具有代表性的特征子集，提高了算法效率，减少了计算开销，同时避免了过拟合问题，提高了泛化能力^[4-5]。

正是由于特征选择为数据分析和数据理解带来很多益处，因此受到了研究者们的关注，并提出了许多特征选择方法。通常特征选择方法可以分为：过滤式(filter)^{[3, 6-7]}，封装式(wrapper)^[7-9]和嵌入式(embedded)^[10]。

过滤式方法通过某种准则对所有特征进行评分，通过分值排序来判断特征的重要程度。通常采用的准则包括相关性测量，类内和类间距离^[11]，以及信息熵等。常用的方法包括信息增益(information gain, IG)^[7]，互信息(mutual information, MI)^[12]，卡方统计(chi-square, CS)^[13]，交叉熵(cross entropy, CE)^[14]和T-test^[15]等。过滤式方法时间复杂度低，可以快速缩小特征集规模，但是所选特征数量难以确定，而且过滤式方法只关注单独的特征，忽略了特征之间的组合性能。

封装式方法最显著的特征是需要结合分类算法。封装式方法首先通过搜索策略在特征集上选出候选特征子集，然后分类算法作为引导算法对特征子集进行评价，迭代地进行这一过程，直到选出符合要求的特征子集^[16]。因此，封装式方法可以达到比过滤式方法更高的精确度^[17]。但是，封装式方法的时间复杂度远高于过滤式方法。

嵌入式方法将特征选择过程与算法学习过程结合起来，特征选择与学习过程同步进行，典型的学习算法包括ID3，C4.5等，利用决策树递归生成过程来进行特征选择。嵌入式方法比封装式方法时间复杂度低，比过滤式方法高，但是精确度没有封装式方法高且鲁棒性差。

对比三类特征选择算法，封装式方法在精确度上有优势，但是受限于时间复杂度过高。实际上，造成复杂度高的根本原因在于封装式方法需要结合分类算法对候选特征子集进行交叉验证评价^{[1, 3]}。虽然，交叉验证(cross-validation)^[18-20]是对分类效果进行评价最普遍的方法，但是，反复的交叉验证带来了巨大的计算消耗^[21-23]。在许多特征维度高的应用领域，如文本分类，基因分析^[24]等，计算消耗会达到难以接受的程度，使得封装式方法难以被广泛应用。

为了优化封装式方法的执行效率，需要一种更加直接的评价方法来代替交叉验证，在特征搜索过程中，高效地评价候选特征子集。在交叉验证中，候选特征子集被划分为训练集和测试集，训练集被用来训练分类模型并把该模型应用到测试集上。通过某种测量(比如${{F}_{\text{1}}}$^[25])可计算出测试集的真实类别划分与基于分类模型所得的划分之间的差异。实际上，该候选特征子集真实的类别划分也可以被看成是基于某种聚类模型所得的划分，因此，可以采用聚类算法中的内部评价方法直接对该候选特征子集进行测量。当然，这样的测量方法必须具有以下特征：1) 精确度高，能识别出不相关的和冗余的特征，也就是说所选出的特征子集应用到分类算法上可以实现较高的分类精度；2) 时间复杂度低，减少计算消耗是改进封装式方法的初衷；3) 抗干扰性强，增加噪声样本点，不会带来该测量的跃变。目前，满足以上要求的特征集评价测量是没有的。

因此，本文提出了一种新的特征集评价测量方法(LW)，并把该方法与序列搜索策略相结合，提出了改进的封装式特征选择方法。当特征子集中的类别间隔距离大时，LW会有较高的值，说明类别线性可分程度高。反之，说明类别线性可分程度低。此外，LW拥有线性时间复杂度，因此，在封装式方法中引入LW，可以极大的减少特征子集评价过程中交叉验证所造成的计算开销，同时还可以保证良好的分类精确度。

1. 相关工作

封装式特征选择算法一般包含三个部分^[26]：搜索策略，评价函数和验证函数。搜索策略用于搜索特征空间，产生候选特征子集。一般使用的策略有：穷举搜索，启发式搜索和随机搜索^[27]。穷举搜索遍历所有可能的特征子集，一定可以发现最优特征子集，但是这已被证明是NP难问题^[28]。即使有分支定界(branch and bound)^[1]这类改进方法，但是依然会带来巨大的计算开销。启发式搜索方法主要指序列搜索，序列搜索依照某个方向遍历特征空间^[17]，经典的序列搜索算法包括序列前向搜索(sequential forward selection, SFS)和序列后向搜索(sequential backward selection, SBS)^{[1, 29]}。随机搜索方法随机产生特征子集，如：遗传算法(GA)，蚁群算法(ACO)等。评价函数用于评价候选特征子集，在迭代过程中作为每一步的指导，而验证函数用于验证最终的分类性能。

由于封装式特征选择算法采用相同的评价函数和验证函数，因此可以实现较高的分类准确度。一般而言，评价候选特征子集可结合特定分类器，采用固定测试集或交叉验证的方式。固定测试集的好坏直接影响到整个特征选择的性能，因此，可靠性差。而交叉验证伴随着巨大的时间复杂度，导致算法效率低。

为了提高封装式特征选择算法的性能，一些研究者尝试将各种统计机器学习方法应用到封装式特征选择方法中。如朴素贝叶斯(Naïve Bayes)^[30]、K最近邻(K-nearest neighbor, KNN)^[16]、神经网络(neural network)^[31]、决策树(decision tree)^[32]、支持向量机(support vector machines, SVM)^{[5, 9, 33]}等。由于分类算法本身特性的不同，封装式方法使用这些算法引导时，特征选择效率会表现出一些差异。但是正如之前所说，造成封装式方法时间复杂度高的最大原因是反复训练分类器的交叉验证评价方法。因此，单纯改变机器学习算法并不能解决这个问题。

此外，一些研究者致力于搜索算法的改进。如模拟生物演化现象的一些随机搜索策略：遗传算法(genetic algorithm, GA)^[34]，蝙蝠算法(bat algorithm, BA)^[35], 蚁群算法(ant colony optimization, ACO)^[36]等。这些随机搜索策略执行效率高、速度快，在一些领域取得了不错的成效，但是，由于其随机性，所以运行结果不确定。此外还包括引入序列搜索策略和浮动序列搜索策略的研究，其目的也是改进搜索候选特征子集的计算消耗。如，文献[33]提出了一种结合SVM和序列后向搜索的改进封装式模型。每轮迭代采用错误特征数目评估候选特征子集，据此对特征进行剔除。然而，在搜索策略上所做的改善，依然没有从根本上解决封装式方式时间复杂度高的问题。

除了以上改进分类算法和搜索策略，一些研究者提出了将过滤式和封装式相结合的方法。在过滤式方法的速度优势和封装式方法的性能优势上折中，采用混合式的方式进行特征选择。通常的做法是用过滤式方法做特征预选，缩减特征维度，然后执行封装式方法，从而期望达到高准确度、低计算消耗的目的。如，文献[5]设计了一种基于序列前向搜索和SVM的混合式特征选择方法(FS_SFS)。该方法总共有两个步骤：首先，使用一种新的指标，利用特征识别能力和相关性的过滤式方法；其次，执行SFS和SVM的封装式方法。

文献[16]采用混合式策略，设计了4种基于KNN的特征选择方法。首先是预选阶段，KKN结合SFS，KNN结合SBS，以及基于相关系数，依赖函数的两种过滤式方法，共计4种方法来评估候选特征子集；其次是封装式方法阶段，所有4种方式都采用KNN和穷举搜索策略来发现最优特征子集。

文献[31]同样使用混合式特征选择方法，其中过滤式阶段采用互信息(mutual information, MI)，封装式阶段采用神经网络。此外，文献[32]提出了一种利用随机森林的混合式特征选择方法。在过滤式阶段利用决策树对特征进行排序，在封装式阶段使用了序列搜索策略和交叉验证进行候选特征子集评估。一般而言，混合式方法在损失一部分特征选择精度的条件下提高了封装式方法的效率。

综上所述，尽管以上改进的封装式方法的效率得到了一定提高，但是并没有从本质上解决交叉验证的计算消耗问题。因此，本文提出了基于LW测量的封装式特征选择方法。

3. 基于LW的封装式方法

实际上，LW作为一种直接的特征集评价测量方法，具有线性时间复杂度，执行效率高，可代替传统的交叉验证的评价方法。因此，本文结合LW与序列搜索算法提出了改进的封装式特征选择算法：SFS-LW和SBS-LW，具体算法如下：

SFS-LW算法流程：

1) 输入，原始特征集${{F}_{e}}$；2) 输出，最优特征集${{F}_{o}}$。

算法步骤：

1) 初始化目标特征集${{F}_{o}}$为$\varnothing $；

2) 按序加入${{f}_{c}}({{f}_{c}}\in {{F}_{e}})$特征形成候选特征子集${{F}_{o}}_{c}={{f}_{c}}\bigcup {{F}_{o}}$；

3) 利用式(4)计算候选特征子集${{F}_{o}}_{c}$的LW值并记录；

4) 重复步骤2)～3)，直到遍历所有特征；

5) 对记录的所有LW排序，选出值最高的候选特征子集，将对应${{f}_{c}}$加入${{F}_{o}}$；

6) 重复步骤2)～5)直到满足终止条件或阈值。

SBS-LW算法流程与SFS-LW基本相同，区别在于SBS-LW初始化${{F}_{o}}$为特征全集，通过删除特征形成候选特征子集${{F}_{o}}_{c}$。

综上所述，SFS-LW和SBS-LW算法与传统封装式算法的主要区别就在于评价候选特征集的方式。显然，本文提出的两种改进算法相比于传统封装式算法在效率上将有很大提升。需要指出的是，LW还可以与其他搜索策略相结合。

5. 结束语

本文基于一个新的特征集评价方法LW和常用的序列搜索算法，提出了改进的封装式特征选择算法SFS-LW和SBS-LW。LW测量评价与交叉验证评价相比计算效率高，时间复杂度低，从根本上改善了封装式特征选择方法的应用瓶颈，最大程度地发挥封装式特征选择方法准确度高的优势。本文通过在真实数据集Twenty Newsgroups和Gas Sensor Array Drift Dataset上的一系列实验对其效果进行验证，其结果表明SFS-LW和SBS-LW算法可以取得和传统封装式方法相当的准确度，并节省大量时间。

参考文献 (39)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

直接验证的封装式特征选择方法

doi: 10.3969/j.issn.1001-0548.2016.04.013

An Improved Wrapper Method for Feature Selection

计量

直接验证的封装式特征选择方法

doi: 10.3969/j.issn.1001-0548.2016.04.013

1. 电子科技大学计算机科学与工程学院成都 611731

2. 国网浙江省电力公司电力科学研究院杭州 310014

3. 电子科技大学格拉斯哥学院成都 611731

English Abstract

An Improved Wrapper Method for Feature Selection

1. School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731

2. Zhejiang Electric Power Research Institute Hangzhou 310014

3. UoG-UESTC Joint School, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

4.1. 数据集和评价指标

4.2. 实验设计

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

数据集	SFS-LW	SBS-LW	SFS-SVM	SBS-SVM
20Newsgroups	217.84	211.73	1 763.35	1 827.41
Gas	57.68	58.26	521.13	526.38

数据集	搜索算法	macroF₁ & LW	microF₁ & LW
20Newsgroups	RFS	0.957	0.926
20Newsgroups	RBS	0.869	0.842
Gas	RFS	0.955	0.957
Gas	RBS	0.778	0.821

留言板

直接验证的封装式特征选择方法

doi: 10.3969/j.issn.1001-0548.2016.04.013

An Improved Wrapper Method for Feature Selection

计量

出版历程

直接验证的封装式特征选择方法

doi: 10.3969/j.issn.1001-0548.2016.04.013

1. 电子科技大学计算机科学与工程学院 成都 611731 2. 国网浙江省电力公司电力科学研究院 杭州 310014 3. 电子科技大学格拉斯哥学院 成都 611731

English Abstract

An Improved Wrapper Method for Feature Selection

1. School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731 2. Zhejiang Electric Power Research Institute Hangzhou 310014 3. UoG-UESTC Joint School, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

4.1. 数据集和评价指标

4.2. 实验设计

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

1. 电子科技大学计算机科学与工程学院成都 611731

2. 国网浙江省电力公司电力科学研究院杭州 310014

3. 电子科技大学格拉斯哥学院成都 611731

1. School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731

2. Zhejiang Electric Power Research Institute Hangzhou 310014

3. UoG-UESTC Joint School, University of Electronic Science and Technology of China Chengdu 611731