基于信息熵的高维稀疏大数据降维算法研究

何兴高; 李蝉娟; 王瑞锦; 邓伏虎; 刘行

doi:10.3969/j.issn.1001-0548.2018.02.012

基于信息熵的高维稀疏大数据降维算法研究

doi: 10.3969/j.issn.1001-0548.2018.02.012

电子科技大学信息与软件工程学院成都 610054

基金项目:

国家自然科学基金 61472064

国家自然科学基金 61602096

四川省科技计划项目 2016FZ0002

四川省科技计划项目 2015JY0178

四川省科技计划项目 2016ZC2575

四川省教育厅重点项目 17ZA0322

中央高校基本科研基金 ZYGX2014J051

中央高校基本科研基金 ZYGX2014J066

网络与数据安全四川省重点实验室开放课题 NDSMS201606

详细信息

作者简介:
何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

中图分类号: TP309

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054

摘要: 数据降维是从高维数据中挖掘有效信息的必要步骤。传统的主成分分析（PCA）算法应用于超高维稀疏数据降维时，存在着无法将所有数据特征一次性读入内存以进行分析计算的问题，而之后提出的分块处理PCA算法由于耗时太长，并不能满足实际需求。本文引入信息熵的思想对PCA算法进行改进，提出E-PCA算法，先利用信息熵对数据进行特征筛选，剔除大部分无用特征，再使用PCA算法对处理后的超高维稀疏数据进行降维。通过实验结果表明，在保留相同比例原数据信息的情况下，本文提出的基于信息熵的E-PCA算法在内存占用、运行时间以及降维结果都优于分块处理PCA算法。
- 分块处理 /
- 降维处理 /
- 高维稀疏大数据 /
- 信息熵 /
- 主成分分析
Abstract: Data dimensionality reduction is a necessary step in mining effective information from high-dimensional data. When applying the traditional principal component analysis (PCA) algorithm to high-dimensional sparse data dimensionality reduction, there is a problem that unable to read all data features at once into memory for analysis and calculation, furthermore, the improved block processing PCA algorithm also can not meet the actual requirements because of the time consuming. In this paper, we propose the E-PCA algorithm by introducing the concept of information entropy to improve the PCA algorithm. First, the useless features are eliminated through feature selection based on information entropy, and then PCA algorithm is used to reduce the dimensionality of large, high-dimensional sparse data. The experimental results show that in the case of keeping the same proportion of raw data, the information entropy-based E-PCA algorithm proposed in this paper is superior to block processing PCA algorithm in terms of memory usage, run time and the results of dimension reduction.
- block processing /
- dimensionality reduction /
- high-dimensional sparse data /
- information entropy /
- principal component analysis

图 1 Arcene数据集前50个属性的信息熵值

下载: 全尺寸图片幻灯片

图 2 基于信息熵的降维处理流程

下载: 全尺寸图片幻灯片

图 3 PCA处理不同属性维数的内存与CPU占用率

下载: 全尺寸图片幻灯片

图 4 E-PCA和PCA运行时内存占用情况对比

下载: 全尺寸图片幻灯片

图 5 PCA和E-PCA运行耗时对比

下载: 全尺寸图片幻灯片

图 6 PCA和E-PCA降维后结果对比

下载: 全尺寸图片幻灯片

表 1 不同属性维度下的内存占用情况

属性维数	内存占用(理论)/MB	内存占用(实际)/MB
1 000	7.63	309
5 000	190.73	867
10 000	762.94	3 816
15 000	1 716.61	4 169
20 000	3 051.76	6 214
30 000	6 866.46	14 558.51
40 000	12 207.03	27 587.89
56 535	16 930.88	40 828.93
169 605	219 466.06	-
282 669	609 602.08	-

下载: 导出CSV

表 2 PCA算法运行时间记录

数据集	属性维数	运行时间/s
R公司	282 669	153 487.65
Arecene	10 000	132

下载: 导出CSV

表 3 PCA、E-PCA处理R公司高维数据结果

方法	时间开销/s	贡献率f	结果维k
E-PCA	3 365.83	0.95	961
PCA	15 487.65	0.95	6 323

下载: 导出CSV

表 4 PCA和E-PCA算法降维前后数据的分类准确率对比

算法名	贡献率f	降维后结果k	降维后/%		降维前/%
算法名	贡献率f	降维后结果k	KNN	SVM	KNN	SVM
E-PCA	0.95	961	53.1	53.9	53.1	53.6
PCA	0.95	3 323	52.5	50.5	53.1	53.6

下载: 导出CSV

[1]	JAIN A, CHANDRASEKARAN B.Dimensionality and sample size considerations in pattern recognition practice[J]. Handbook of Statistics, 1982(2):835-855. https://www.sciencedirect.com/science/article/pii/S0169716182020422
[2]	HOU L, GAO J, CHEN R. An information entropy-based animal migration optimization algorithm for data clustering[J]. Entropy, 2016, 18(5):185-200. doi: 10.3390/e18050185
[3]	WANG Rui-jin, LI Dong-fen, QIN Zhi-guang. An immune quantum communication model for dephasing noise using four-qubit cluster state[J]. International Journal of Theoretical Physics, 2016, 55(1):609-616. doi: 10.1007/s10773-015-2698-8
[4]	王珏, 杨剑, 李伏欣, 等. 机器学习的难题与分析[C]//第三届机器学习及应用研讨会. 南京: [s. n. ], 2005. WANG Yu, YANG Jian, LI Fu-xin, et al. Difficulties and analysis of machine learning[C]//The Third Machine Learning and Application Seminar. Nanjing: [s. n. ], 2005.
[5]	LI Dong-fen, WANG Rui-jin, ZHANG Feng-li, et al. Quantum information splitting of arbitrary two-qubit state by using four-qubit cluster state and Bell-state[J]. Quantum Information Processing, 2015, 14(3):1103-1116. doi: 10.1007/s11128-014-0906-8
[6]	尹芳黎, 杨雁莹, 王传栋, 等.矩阵奇异值分解及其在高维数据处理中的应用[J].数学的实践与认识, 2011, 41(15):171-177. http://d.old.wanfangdata.com.cn/Periodical/sxdsjyrs201115025 YIN Fang-li, YANG Yan-ying, WANG Chuan-dong, et al. Matrix singular value decomposition and its application in high dimensional data processing[J]. Mathematics in Practice and Theory, 2011, 41(15):171-177. http://d.old.wanfangdata.com.cn/Periodical/sxdsjyrs201115025
[7]	PEARSON K. On lines and planes of closest fit to systems of points in space[J]. Philosophical Magazine, 1901, 2(6):559-572. http://www.citeulike.org/user/zambujo/article/2013414
[8]	FISHER R, KENZIE W M. Studies in crop variation Ⅱ. The manorial response of different potato varieties[J]. Journal of Agricultural Science, 1923, 13(3):311-320. doi: 10.1017/S0021859600003592
[9]	HOTELLING H. Analysis of a complex of statistical variables into principal components[J]. British Journal of Educational Psychology, 1933, 24(6):417-520. doi: 10.1037/h0071325
[10]	JOLLIFFE I T. Principal component analysis[J]. Journal of Marketing Research, 2002, 87(100):513. doi: 10.1002/wics.101/abstract
[11]	GUEBEL D V, TORRES N V. Principal component analysis(PCA)[M]. New York:Springer, 2013.
[12]	张道强, 陈松灿.高维数据降维方法[J].中国计算机学会通讯, 2009, 5(8):15-22. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbkx200708029 ZHANG Dao-qiang, CHEN Song-can. Research on dimension reduction methods of high dimensional data[J]. Communications of the CCF, 2009, 5(8):15-22. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=qbkx200708029
[13]	WANG Y. Semi-supervised dimensionality reduction[J]. Proceedings of the International Symposium on Computer Science, 2010, 41(9):1993-1998. doi: 10.1137/1.9781611972771.73
[14]	REZGHI M, OBULKASIM A. Noise-free principal component analysis:an efficient dimension reduction technique for high dimensional molecular data[J]. Expert Systems with Applications, 2014, 41(17):7797-7804. doi: 10.1016/j.eswa.2014.06.024
[15]	ABRAHAM G, INOUYE M. Fast principal component analysis of large-scale genome-wide data[J]. Plos One, 2014, 9(4):e93766. doi: 10.1371/journal.pone.0093766
[16]	HALKO N, MARTINSSON P G, SHKOLNISKY Y, et al. An algorithm for the principal component analysis of large data sets[J]. Siam Journal on Scientific Computing, 2010, 33(5):2580-2594. http://adsabs.harvard.edu/abs/2010arXiv1007.5510H
[17]	陈伏兵, 杨静宇.分块PCA及其在人脸识别中的应用[J].计算机工程与设计, 2007, 28(8):1889-1892. http://d.wanfangdata.com.cn/Periodical_jsjgcysj200708048.aspx CHEN Fu-bing, YANG Jing-yu. Realization of face recognition algorithm based on block PCA[J]. Computer Engineering and Design, 2007, 28(8):1889-1892. http://d.wanfangdata.com.cn/Periodical_jsjgcysj200708048.aspx
[18]	CHEN Fu-bing, YANG Jing-yu. PCA face recognition algorithm based on local feature[J]. Mini-Micro Systems, 2006, 7(10):1943-1947. https://www.researchgate.net/profile/Manisha_Satone/publication/273487552_Feature_Selection_Using_Genetic_Algorithm_for_Face_Recognition_Based_on_PCA_Wavelet_and_SVM/links/580b162908aeef1bfee47081.pdf?origin=publication_detail
[19]	尹飞, 冯大政.基于PCA算法的人脸识别[J].计算机技术与发展, 2008, 18(10):31-33. doi: 10.3969/j.issn.1673-629X.2008.10.009 YIN Fei, FENG Da-zheng. Face recognition based on PCA algorithm[J]. Journal of Computer Technology and Development, 2008, 18(10):31-33. doi: 10.3969/j.issn.1673-629X.2008.10.009
[20]	LI Dong-fen, WANG Rui-jin, ZHANG Feng-li, et al. A noise immunity controlled quantum teleportation protocol[J]. Quantum Information Processing, 2016, 15(11):4819-4837. doi: 10.1007/s11128-016-1416-7
[21]	AMPILOVA N, SOLOVIEV I. On application of entropy characteristics to texture analysis[J]. Wseas Transactions on Biology & Biomedicine, 2014, 11(1):194-202. http://www.sciencedirect.com/science/article/pii/S0927025604002058
[22]	PHOENIX S J D. Elements of information theory[M].[S.l.]:Wiley, 1992.
[23]	LI Dong-fen, WANG Rui-jin, ZHANG Feng-li. Quantum information splitting of a two-qubit Bell state using a four-qubit entangled state[J]. Chinese Physical C, 2015, 39(4):26-30. doi: 10.1088/1674-1137/39/4/043103/meta
[24]	LI Dong-fen, WANG Rui-jin, ZHANG Feng-li, et al. Quantum information splitting of arbitrary three-qubit state by using seven-qubit entangled state[J]. International Journal of Theoretical Physics, 2015, 54(6):2068-2075. doi: 10.1007/s10773-014-2413-1

[1]	史靖希, 程子扬, 何子述, 张伟, 陆晓莹. 降维STAP中稀疏恢复的角度多普勒通道选择方法 . 电子科技大学学报, 2022, 51(4): 506-513. doi: 10.12178/1001-0548.2021325
[2]	韩嫚莉, 侯卫民, 孙靖国, 王明, 梅少辉. 基于PCA与协同表示的高光谱图像分类研究 . 电子科技大学学报, 2019, 48(1): 117-121. doi: 10.3969/j.issn.1001-0548.2019.01.019
[3]	宋勇, 蔡志平. 一种基于信息论模型的入侵检测特征提取方法 . 电子科技大学学报, 2018, 47(2): 267-271. doi: 10.3969/j.issn.1001-0548.2018.02.017
[4]	伍度志, 杨帆, 赵静. 基于信息熵的加权基因关联网络融合方法 . 电子科技大学学报, 2018, 47(2): 286-291. doi: 10.3969/j.issn.1001-0548.2018.02.020
[5]	孙晶涛, 张秋余. 不均衡大数据集下的文本特征基因提取方法 . 电子科技大学学报, 2018, 47(1): 125-131. doi: 10.3969/j.issn.1001-0548.2018.01.019
[6]	唐雪飞, 杨陈皓, 牛新征. 复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
[7]	和洁, 冯大政, 向聪, 吕晖. 机载MIMO雷达降维空时自适应处理算法 . 电子科技大学学报, 2012, 41(1): 31-35. doi: 10.3969/j.issn.1001-0548.2012.01.006
[8]	樊勇, 徐嘉莉, 周正欧. 前视探地雷达三维合成孔径成像及多视处理 . 电子科技大学学报, 2010, 39(1): 6-10. doi: 10.3969/j.issn.1001-0548.2010.01.002
[9]	连俊宏, 赖友仁, 张文清. 针对影像处理的快速二维离散余弦转换算法 . 电子科技大学学报, 2010, 39(5): 692-695,705. doi: 10.3969/j.issn.1001-0548.2010.05.010
[10]	张靖, 姚珍, 唐雪飞. 基于决策树的不完整数据的处理 . 电子科技大学学报, 2007, 36(1): 116-118.
[11]	王勇, 许录平. 独立成分分析和支持向量机的虹膜识别方法 . 电子科技大学学报, 2007, 36(3): 583-586.
[12]	佘堃, 蒲红梅, 郑方伟, 周明天. 自适应多目独立成分分析 . 电子科技大学学报, 2007, 36(1): 11-13.
[13]	童玲, 陈光礻禹, 吕文. 测量数据的信息熵与测量误差熵研究 . 电子科技大学学报, 2007, 36(5): 935-937.
[14]	童玲, 陈光. 测量数据处理中的Bayes理论与最大熵方法 . 电子科技大学学报, 2007, 36(1): 77-78,85.
[15]	范自柱, 刘二根, 徐保根. 互信息在图像检索中的应用 . 电子科技大学学报, 2007, 36(6): 1311-1314.
[16]	张凤荔, 何兴高, 秦志光, 周明天. 移动对象数据处理系统的体系结构 . 电子科技大学学报, 2004, 33(2): 175-179.
[17]	徐创文, 穆玺清. 称重测控系统数据处理方法 . 电子科技大学学报, 2003, 32(1): 56-60.
[18]	陈文宇, 许鸿川. 利用数据库处理多个对象间的关系 . 电子科技大学学报, 2002, 31(3): 270-274.
[19]	伍瑜. 论含约束项的降维卡诺图 . 电子科技大学学报, 2000, 29(3): 286-288.
[20]	李艾华, 张西宁, 屈梁生. 印刷电路板诊断信息流模型及其应用 . 电子科技大学学报, 2000, 29(1): 49-53.

点击查看大图

图(6) / 表(4)

计量

文章访问数: 4296
HTML全文浏览量: 1295
PDF下载量: 256
被引次数: 0

全文HTML

随着大数据产业的快速发展，人们关注的数据对象日渐复杂，业界对数据分析、处理技术的需求更为迫切，特别是对高维数据的分析与处理技术。直接处理高维数据会面临以下困难^[1-6]：维数灾难、空空间、不适定及算法失效等。为解决以上问题，一种有效的方法就是对高维数据进行降维，分为特征选择和特征变换两种方式^[2]。按不同划分标准，算法可分为线性与非线性、监督与非监督、全局与局部等，如PCA、ICA、LDA、LLE、ISOMAP、LTSA、KPCA等。PCA适用于数值型数据，先将数据转换为矩阵形式，再进行相关计算，算法无参数限制，但在某些情况下运行效率不佳。如在处理用户访问网站记录数据时，网站数目庞大，用户能访问的网站数目甚少。这类数据特征维高，有用信息少，即高维稀疏大数据。本文就PCA在处理高维稀疏数据时存在的受内存限制、处理时间长的问题，给出了改进的解决方法。实验结果显示，改进算法能够保留相同比例原数据信息的情况下降低时间成本。

1. 相关研究

1901年，统计学领域首先提出主成分分析(principal component analysis, PCA)^[7]概念。1923年，文献[8]认为它是比方差分析更适合于相应数据的模型分析。1933年，文献[9]将其推广到随机变量，成为数据挖掘界熟知的一种无监督、线性学习方法。它关注事物的主要性质，将原始变量通过线性变换进行线性组合，从n维特征映射到k维上(k < n)，这k维数据是重新构造出来的正交特征，被称为主成分。PCA算法简单，具有无线性误差、无参数限制等优点^[10-12]。但存储空间大，计算复杂度高，采用的线性映射方法也会影响最后的效果，同时协方差矩阵的大小与样本点的维数成正比，导致计算高维数据的特征向量困难。

针对PCA的局限性，如无明确准则来确定主成分，且存在着诸如高斯假设、线性假设及未考虑数据序列相关性等局限，学者给出了多种改进算法，如动态PCA、非线性PCA、多尺度PCA等。文献[13]探讨对分子数据的降维，为解决传统PCA易受噪声影响的问题，提出了NFPCA(noise free PCA)，在PCs的计算步骤基础上增加一个惩罚项来控制噪声。文献[14]针对基因组单核苷酸多态性数据特征急剧增长，经典PCA处理非常耗时的问题，提出了基于随机算法的高性能PCA的实现方法flash PCA。文献[15]针对大型数据集不能存到随机存储器的问题，采用分块Lanczos方法的随机版本进行处理，迭代次数很少，结果几乎最优，参数l越大，计算复杂度越高，但l的选择没有确定的方法。文献[16]针对人脸识别中存在的图像特征维数高、样本小、耗时长及内存消耗大等问题，基于人脸识别特征和图像特性的考虑，采用分块处理，提出分块PCA。在表情和光照变化的时候，可以捕捉人脸局部特征，并将小样本问题大样本化，在识别性能和识别率上明显优于PCA。

本文针对PCA算法内存消耗大、耗时长，数据特征维高时，处理时间不能满足应用需求的问题，提出基于信息熵的高维稀疏大数据降维算法(E-PCA)。该算法引入信息熵，首先进行特征筛选，降低特征数量，将大型稀疏矩阵稠密化后再做降维处理。

4. 结束语

本文针对稀疏大数据特征维数过高，使用PCA降维时，矩阵计算内存消耗太大，使用文献[16]的分块处理技术，比较麻烦，运行时间远远不能满足应用需求，改进了降维算法PCA，给出基于信息熵的E-PCA降维算法。实验结果表明，E-PCA在保持原始数据尽可能多的信息的时候，运行耗时和内存消耗得到了极大的改善。接下来，将利用量子计算和通信^[23-24]进一步提高算法的性能。

参考文献 (24)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于信息熵的高维稀疏大数据降维算法研究

doi: 10.3969/j.issn.1001-0548.2018.02.012

作者简介:
何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

计量

基于信息熵的高维稀疏大数据降维算法研究

doi: 10.3969/j.issn.1001-0548.2018.02.012

电子科技大学信息与软件工程学院成都 610054

作者简介:
何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

English Abstract

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054

全文HTML

2.1. 特征值与特征向量

2.2. 信息熵

2.3. E-PCA降维算法

3.1. 实验环境与方法

3.2. 实验数据

3.3. 结果对比与分析

目录

期刊在线

编辑办公

友情链接

留言板

基于信息熵的高维稀疏大数据降维算法研究

doi: 10.3969/j.issn.1001-0548.2018.02.012

作者简介: 何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

计量

出版历程

基于信息熵的高维稀疏大数据降维算法研究

doi: 10.3969/j.issn.1001-0548.2018.02.012

电子科技大学信息与软件工程学院 成都 610054

作者简介: 何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

English Abstract

Research on Dimensional Reduction of Sparse Matrix Data Based on Information Entropy

School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054

全文HTML

2.1. 特征值与特征向量

2.2. 信息熵

2.3. E-PCA降维算法

3.1. 实验环境与方法

3.2. 实验数据

3.3. 结果对比与分析

目录

期刊在线

编辑办公

友情链接

作者简介:
何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究

电子科技大学信息与软件工程学院成都 610054

作者简介:
何兴高(1963-), 男, 高级工程师, 主要从事移动数据管理及其应用、网络安全方面的研究