-
微阵列技术的快速发展积累了大量的基因表达数据。基因表达数据具有高维、小样本及不确定性的特点。用传统的统计分析方法与机器学习方法选择最佳基因时,往往陷入维数灾难的困境[1]。基因选择是从众多的基因中选择一个基因子集使得基因样本分类最优化。基因子集的评价依赖于具体的评价函数。根据评价函数的不同,基因选择方法主要分为两类:Filter方法(筛选器)[2]和Wrapper方法(封装器)[3]。Filter方法不依赖于具体的分类器,根据度量准则筛选出最优的基因子集。常用的度量方法有t检验[4]、信息增益[5]、距离度量[6]、相关性分析[7]等。依据上述度量方法评估每个基因或多个基因与类别的相关性,按照相关性从高到低排序,选择排在前面的少数基因作为最佳基因组。这类方法简单、时间复杂度低,但没有考虑基因的分类性能,使得选择后的基因子集冗余度高,分类精度不是特别理想。Wrapper方法以分类精度为评价标准,在所有的基因子集中搜索,以分类精度最高的基因子集作为基因选择的结果。按照搜索策略的不同,基因选择可分为前向选择[8]、后向删除[9]、启发式搜索[10]等算法。Wrapper方法获取的基因子集分类性能较好,冗余度低,但时间复杂度较高,存在过拟合的现象。
粒计算是智能信息处理的一种新方法,涵盖粗糙集[11]、邻域粗糙集[12]、模糊集[13]、商空间[14]、覆盖粗糙集[15]等理论,能够处理不同粒度层次上的不精确、不完整与不确定的数据。邻域粗糙集以δ邻域构造上下近似集来度量一个不确定性的集合。文献[16]提出了基于邻域粗糙集的邻域分类算法,并把该方法应用于特征选择领域[12]。文献[5]研究了模糊粗糙集的不确定性度量,并成功应用于癌症基因的选择。文献[17]研究了邻域粗糙集与神经网络模型,并用于基因表达数据的分类研究。文献[18]提出的鱼群算法具有并行性、跟踪性、随机性、简单性的特点,是一种解决全局优化问题的有效工具。这种方法模仿自然界鱼群觅食行为,采用自下而上的寻优模式,通过鱼群中各个体的局部寻优,使得全局最优值在群体中突现出来。
面对高维、冗余、不确定性的基因表达数据,需要降低基因数据的复杂性,建立具备并行计算能力的基因选择理论与方法。为此,针对基因数据分析系统存在的维数灾难与不确定性问题,提出了基于邻域粗糙集与鱼群智能的基因选择方法。采用邻域关系粒化连续型的基因表达数据,利用鱼群智能算法提高基因选择的并行处理能力与寻优能力,设计基于邻域粒化与鱼群智能的基因选择算法。在两个高维基因数据集上进行基因选择,并对选择的基因进行了分类实验。
Gene Selection Method Based on Neighborhood Rough Sets and Fish Swarm Intelligence
doi: 10.3969/j.issn.1001-0548.2018.01.015
- Received Date: 2016-11-28
- Rev Recd Date: 2017-03-30
- Publish Date: 2018-01-30
-
Key words:
- fish swarm algorithm /
- gene selection /
- granular computing /
- neighborhood rough sets /
- rough sets
Abstract: Facing the gene expression data with high dimension, small samples and uncertainty, a gene selection method based on neighborhood rough sets and fish swarm intelligence is proposed by fusing a fuzzy tolerance granulation technology and a fish swarm intelligence algorithm with global optimization ability. Firstly, the neighborhood rough sets are used to granulate the gene data and form some neighborhood particles. Secondly, the neighborhood classification accuracy is presented as an uncertainty evaluation function that aims to judge these neighborhood particles and distinguish key genes. Furthermore, a gene selection algorithm based on artificial fish swarm intelligence is designed. Finally, some gene selection experiments are carried out on two tumor gene data sets. The classification experiments of a small number of selected key genes are conducted by using SVM classifier. The experimental results show that the genes selected by our proposed method have a low redundancy and a better classification performance.
Citation: | CHEN Yu-ming, ZHU Qing-xin, ZENG Zhi-qiang, SUN Jin-hua, TANG Chao-hui. Gene Selection Method Based on Neighborhood Rough Sets and Fish Swarm Intelligence[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(1): 99-104. doi: 10.3969/j.issn.1001-0548.2018.01.015 |