一种K-means改进算法的并行化实现与应用

李晓瑜; 俞丽颖; 雷航; 唐雪飞

doi:10.3969/j.issn.1001-0548.2017.01.010

一种K-means改进算法的并行化实现与应用

doi: 10.3969/j.issn.1001-0548.2017.01.010

1.
电子科技大学信息与软件工程学院成都 610054
2.
成都康赛信息技术有限公司成都 610054

基金项目:

国家科技支撑计划 2012BAH87F03

中央高校基本科研业务费 ZYGX2014J065

详细信息

作者简介:
李晓瑜(1984-),女,博士,主要从事大数据分析与应用、量子计算和量子信息等方面的研究

中图分类号: TP311

The Parallel Implementation and Application of an Improved K-means Algorithm

1.
School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054
2.
Chengdu COMSYS Information Tech. Co., Ltd Chengdu 610054

摘要: 随着数据的爆炸式增长，聚类研究作为大数据的核心问题之一，正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法，该算法通过引入Canopy算法初始化K-means算法的聚类中心，克服传统K-means算法因初始中心点的不确定性，易陷入局部最优解的问题。本算法在Canopy（罩盖）中完成K-means聚类，并在Canopy间完成簇的合并，聚类效果稳定，迭代次数少。同时，结合MapReduce分布式计算模型，给出改进后算法的并行化设计方法和策略，进一步通过改进相似度度量方法，将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。
- canopy算法 /
- Hadoop /
- MapReduce /
- 并行K-means /
- 文本聚类
Abstract: Following with the growth of massive data, clustering research, one of the core problems of big dataisfaced with more and more problems such as high computing complexity and lack of resource. It has proposed an improved parallel K-means algorithm based on Hadoop. To overcomethe problem that the traditional K-means algorithm often has local optimal solution due to the randomness choice of initial center, we introduce Canopy algorithm to initialize clustering center andapply K-means algorithm on canopy. Meanwhile, clusters are merged among canopies. The result is stable and iteration number is less. In addition, the parallel implementation methods and strategies of the improved algorithm are presented, combining with the distributed computing model of MapReduce. And a new method of text clustering is introduced by improving the similarity of measurement. The experiment results indicate the validity and scalability of our method.
- canopy algorithm /
- Hadoop /
- MapReduce /
- parallel K-means /
- text clustering

图 1 MapReduce处理流程

下载: 全尺寸图片幻灯片

图 2 改进Canopy-K-means算法执行流程

下载: 全尺寸图片幻灯片

图 3 Canopy初始化阶段流程

下载: 全尺寸图片幻灯片

图 4 K-means迭代聚类阶段流程

下载: 全尺寸图片幻灯片

图 4 Hadoop下并行加速比

下载: 全尺寸图片幻灯片

表 1 数据集测试结果

数据集	传统K-means			本文算法
数据集	正确率	误差平方和	迭代次数	正确率	误差平方和	迭代次数
Iris	0.842	92.56	10	0.903	78.95	5
Wine	0.887	48.98	8	0.921	41.94	6

下载: 导出CSV

表 2 文本聚类测试结果

单词提取率	传统K-means			本文算法
单词提取率	准确率	召回率	F度量	准确率	召回率	F度量
0.002	0.61	0.62	0.62	0.76	0.74	0.75
0.005	0.75	0.68	0.72	0.87	0.73	0.80
0.01	0.68	0.66	0.67	0.81	0.70	0.75

下载: 导出CSV

[1]	孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1):48-61. doi: 10.3724/SP.J.1001.2008.00048 SUN Ji-gui, LIU Jie, ZHAO Lian-yu. Clustering algorithm research[J]. Journal of Software, 2008, 19(1):48-61. doi: 10.3724/SP.J.1001.2008.00048
[2]	JAIN A K, MURTY M N, FLYNN P J. Data clustering:a review[J]. ACM Computing Surveys (CSUR), 1999, 31(3):264-323. doi: 10.1145/331499.331504
[3]	翟东海, 鱼江, 高飞, 等. 最大距离法选取初始聚类中心的K-means文本聚类算法的研究[J]. 计算机应用研究, 2014, 31(3):713-715, 719. http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201403018.htm ZHAI Dong-hai, YU Jiang, GAO Fei, et al. K-means text clustering algorithm based on centers selection according to maximum distance[J]. Application Research of Computers, 2014, 31(3):713-715, 719. http://www.cnki.com.cn/Article/CJFDTOTAL-JSYJ201403018.htm
[4]	赵庆. 基于Hadoop平台下的Canopy-Kmeans高效算法[J]. 电子科技, 2014, 27(2):29-31. http://www.cnki.com.cn/Article/CJFDTOTAL-DZKK201402009.htm ZHAO Qing. Efficient algorithm of canopy-kmeans based on Hadoop platform[J]. Electronic Science and Technology, 2014, 27(2):29-31. http://www.cnki.com.cn/Article/CJFDTOTAL-DZKK201402009.htm
[5]	张健沛, 杨悦, 杨静, 等. 基于最优划分的K-Means初始聚类中心选取算法[J]. 系统仿真学报, 2009, 21(9):2586-2589. http://www.cnki.com.cn/Article/CJFDTOTAL-XTFZ200909033.htm ZHANG Jian-pei, YANG Yue, YANG Jing, et al. Algorithm for initialization of K-means clustering center based on optimized-division[J]. Journal of System Simulation, 2009, 21(9):2586-2589. http://www.cnki.com.cn/Article/CJFDTOTAL-XTFZ200909033.htm
[6]	雷小峰, 谢昆青, 林帆, 等. 一种基于K-means局部最优性的高效聚类算法[J]. 软件学报, 2008, 19(7):1683-1692. doi: 10.3724/SP.J.1001.2008.01683 LEI Xiao-feng, XIE Kun-qing, LIN Fan, et al. An efficient clustering algorithm based on local optimality of K-means[J]. Journal of Software, 2008, 19(7):1683-1692. doi: 10.3724/SP.J.1001.2008.01683
[7]	邱荣太. 基于Canopy的K-means多核算法[J]. 微计算机信息, 2012(9):486-487. http://www.cnki.com.cn/Article/CJFDTOTAL-WJSJ201209200.htm QIU Rong-tai. Canopy for K-means on multi-core[J]. Microcomputer Information, 2012(9):486-487. http://www.cnki.com.cn/Article/CJFDTOTAL-WJSJ201209200.htm
[8]	周世兵, 徐振源, 唐旭清. 新的K-均值算法最佳聚类数确定方法[J]. 计算机工程与应用, 2010, 46(16):27-31. http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201016009.htm ZHOU Shi-bing, XU Zhen-yuan, TANG Xu-qing. New method for determining optimal number of clusters in K-means clustering algorithm[J]. Computer Engineering and Applications, 2010, 46(16):27-31. http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201016009.htm
[9]	FREY B J, DUECK D. Clustering by passing message between data points[J]. Science, 2007, 315:972-976. doi: 10.1126/science.1136800
[10]	陆嘉恒. Hadoop实战[M]. 2版. 北京:机械工业出版社, 2012. LU Jia-heng. Hadoop in action[M]. 2nd ed. Beijing:China Machine Press, 2012.
[11]	DEAN J, GHEMAWAT S. MapReduce:Simplified data processing on large clusters[J]. Communications of the ACM, 2008, 51(1):107-113. doi: 10.1145/1327452
[12]	丁智, 林治. MapReduce编程模型、方法及应用综述[J]. 电脑知识与技术, 2014, 10(30):7060-7064. http://www.cnki.com.cn/Article/CJFDTOTAL-DNZS201430023.htm DING Zhi, LIN Zhi. Review on MapReduce programming model, method and application[J]. Computer Knowledge and Technology, 2014, 10(30):7060-7064. http://www.cnki.com.cn/Article/CJFDTOTAL-DNZS201430023.htm
[13]	陈爱平. 基于Hadoop的聚类算法并行化分析及应用研究[D]. 成都:电子科技大学, 2012. http://cn.bing.com/academic/profile?id=3b7ec4f1e47ca0f6937a4f57860ea1c5&encoded=0&v=paper_preview&mkt=zh-cn CHEN Ai-ping. The parallel analysis and application research on clustering algorithm based on Hadoop[D]. Chengdu:University of Electronic Science and Technology of China, 2012. http://cn.bing.com/academic/profile?id=3b7ec4f1e47ca0f6937a4f57860ea1c5&encoded=0&v=paper_preview&mkt=zh-cn
[14]	韩凌波, 王强, 蒋正锋, 等. 一种改进的K-Means初始聚类中心选取算法[J]. 计算机工程与应用, 2010, 46(17):150-152. http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201017044.htm HAN Ling-bo, WANG Qiang, JIANG Zheng-feng, et al. Improved K-means initial clustering center selection algorithm[J]. Computer Engineering and Applications, 2010, 46(17):150-152. http://www.cnki.com.cn/Article/CJFDTOTAL-JSGG201017044.htm
[15]	ESTEVES K M, RONG C. Using Mahout for clustering Wikipedia's latest articles:a comparison between K-means and fuzzy c-means in the cloud[C]//Proceedings of the 2011 Third IEEE International Conference Science, Cloud Computing Technology and IEEE Computer Society. Washington, DC, USA:IEEE, 2011:565-569.
[16]	余长俊, 张燃. 云环境下基于Canopy聚类的FCM算法研究[J]. 计算机科学, 2014, 41(11A):316-319. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2014S2077.htm YU Chang-jun, ZHANG Ran. Research of FCM algorithm based on canopy clustering algorithm under cloud environment[J]. Computer Science, 2014, 41(11A):316-319. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA2014S2077.htm
[17]	MCCALLUM A, NIGAM K, UNGAR I H. Efficient clustering of high-dimensional data sets with application to reference matching[C]//Proceedings of the Sixth ACM SIUKDD International Conference on Knowledge Discovery and Data Mining.[S.l.]:ACM, 2000:169-178. http://cn.bing.com/academic/profile?id=0462a7733642c44a85ce451d779c150b&encoded=0&v=paper_preview&mkt=zh-cn
[18]	樊宁. K均值聚类算法在银行客户细分中的研究[J]. 计算机仿真, 2011, 28(3):369-372. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJZ201103090.htm FAN Ning. Simulation study on commercial bank custermer segmentation on K-means clustering algorithm[J]. Computer Simulation, 2011, 28(3):369-372. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJZ201103090.htm
[19]	张华平. 自然语言处理与信息检索共享平台[EB/OL].[2015-03-30]. http://www.nlpir.org/. ZHANG Hua-ping. Natural language processing and information retrieval sharing platform[EB/OL].[2015-03-30]. http://www.nlpir.org/.
[20]	UCI. UCI Machine learning repository[DB/OL].[2015-03-30]. http://archive.ics.uci.edu/ml/.
[21]	搜狗.文本分类语料库[DB/OL].[2015-03-30]. http://www.sogou.com/labs/dl/c.html. Sougou. Text classify lab data[DB/OL].[2015-03-30]. http://www.sogou.com/labs/dl/c.html.
[22]	YANG Y. An evaluation of statistical approaches to text categorization[J]. Information Retrieval, 1999, 1(1-2):69-90.

[1]	何选森, 何帆, 徐丽, 樊跃平. K-Means算法最优聚类数量的确定 . 电子科技大学学报, 2022, 51(6): 904-912. doi: 10.12178/1001-0548.2021393
[2]	钱志森, 黄瑞章, 魏琴, 秦永彬, 陈艳平. 半监督语义动态文本聚类算法 . 电子科技大学学报, 2019, 48(6): 803-808. doi: 10.3969/j.issn.1001-0548.2019.06.001
[3]	李海林, 魏苗. 自适应属性加权近邻传播聚类算法 . 电子科技大学学报, 2018, 47(2): 247-255. doi: 10.3969/j.issn.1001-0548.2018.02.014
[4]	杨仁凤, 陈端兵, 谢文波. 微博用户兴趣主题抽取方法 . 电子科技大学学报, 2018, 47(4): 633-640. doi: 10.3969/j.issn.1001-0548.2018.04.025
[5]	张淯舒, 王慧强, 冯光升, 吕宏武, 温秀秀. 基于两阶段聚类的机会社会网络路由算法 . 电子科技大学学报, 2017, 46(4): 607-613. doi: 10.3969/j.issn.1001-0548.2017.04.021
[6]	吴一全, 李海杰, 宋昱. 基于引导核聚类的非局部均值图像去噪算法 . 电子科技大学学报, 2016, 45(1): 36-42. doi: 10.3969/j.issn.1001-0548.2016.01.005
[7]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422.
[8]	李孟, 曹晟, 秦志光. 基于Hadoop的小文件存储优化方案 . 电子科技大学学报, 2016, 45(1): 141-145. doi: 10.3969/j.issn.1001-0548.2016.01.024
[9]	罗永刚, 陈兴蜀, 杨露. 一种Mapreduce作业内存精确预测方法 . 电子科技大学学报, 2016, 45(6): 986-991. doi: 10.3969/j.issn.1001-0548.2016.06.019
[10]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422. doi: 10.3969/j.issn.1001-0548.2016.02.018
[11]	格桑多吉, 乔少杰, 韩楠, 张小松, 杨燕, 元昌安, . 基于Single-Pass的网络舆情热点发现算法 . 电子科技大学学报, 2015, 44(4): 599-604. doi: 10.3969/j.issn.1001-0548.2015.04.021
[12]	施侃晟, 刘海涛, 白英彩, 宋文涛, 洪亮亮. 余弦度量和适应度函数改进的聚类方法 . 电子科技大学学报, 2013, 42(4): 621-624. doi: 10.3969/j.issn.1001-0548.2013.04.017
[13]	曾翎, 王美玲, 陈华富. 遗传模糊C-均值聚类算法应用于MRI分割 . 电子科技大学学报, 2008, 37(4): 627-629.
[14]	朱君, 曲超, 汤庸. 利用单词超团的二分图文本聚类算法 . 电子科技大学学报, 2008, 37(3): 439-442.
[15]	舒红平, 徐振明, 邹书蓉, 何嘉. 网格聚类在多雷达数据融合算法中的应用 . 电子科技大学学报, 2007, 36(6): 1253-1256.
[16]	姜斌, 潘景昌, 郭强, 衣振萍. PCA和相融性度量在聚类算法中的应用 . 电子科技大学学报, 2007, 36(6): 1292-1295.
[17]	朵春红, 王翠茹. 网格和密度的聚类算法在CRM中的应用 . 电子科技大学学报, 2007, 36(6): 1289-1291,1314.
[18]	郑晓鸣, 吕士颖, 王晓东. 免疫接种粒子群的聚类算法 . 电子科技大学学报, 2007, 36(6): 1264-1267.
[19]	耿技, 印鉴. 改进的共享型最近邻居聚类算法 . 电子科技大学学报, 2006, 35(1): 70-72.
[20]	叶茂, 陈勇. 基于分布模型的层次聚类算法 . 电子科技大学学报, 2004, 33(2): 171-174.

点击查看大图

图(5) / 表(2)

计量

文章访问数: 4209
HTML全文浏览量: 1210
PDF下载量: 178
被引次数: 0

全文HTML

随着计算机和存储技术的快速发展，在商业、社会、工程和医学等各方面都会产生大规模的数据，人们开始关注如何对大规模的海量数据进行分析和科学研究，进而辅助商业决策和企业管理，高效地发现隐藏在数据中的有用知识。因此，对海量数据的挖掘得到了广泛的研究和关注。

聚类分析是数据挖掘领域最重要的研究方向之一。“物以类聚、人以群分”，聚类算法是将物理或抽象的对象分成相似对象集合的过程。簇是数据对象的集合，同一簇中的对象彼此相似，而与其他簇中的对象相异^[1-2]。与其他数据挖掘方法相比，聚类不需要先验知识，就可以完成数据的分类。聚类算法可以分为基于划分的、密度的、模型的等多种类型^[3]。

在基于划分的聚类算法中，K-means算法被广泛使用，它具有算法数学思想简单、收敛速度快且易于实现等多种优点^[4]，但存在需要事先制定聚类个数，以及由于中心点选择的随机性而易陷入局部最优解的问题。随着数据量的增大，传统的K-means算法在对海量数据集进行分析时，已经很难满足现实需要。针对传统K-means算法的缺点，已有很多学者在K-means的基础上提出了改进措施。文献^[5]针对初始聚类中心选择的问题，提出了一种基于最优划分的聚类中心选择算法，该算法通过对数据集进行初始划分，确定K-means的初始中心，提高了聚类的准确度，但算法的递归次数会随数据样本维度的的增加而激增，因此导致算法实时性降低。文献^[6]提出了一种通过采样和K-means预聚类，构造相交子簇的加权连通图，进而合并子簇得到最终聚类结果的改进K-means算法，该算法提高了K-means算法局部聚类的精度，但由于其缺乏对样本空间的整体把握，聚类效果仍有待提高。文献^[7]提出使用Canopy算法优化K-means算法，进一步优化了初始中心的选择问题，但Canopy算法初始阈值大小的确定一般靠人工选取，因此效果并不稳定。此外，文献^[8]采用AP聚类算法^[9]来确定k可取的最大值；文献^[3]提出采用最大最小距离法来选取初始聚类中心。基于以上算法本文以传统的K-means聚类算法为基础，探讨了如何在MapReduce分布式框架下，快速、准确、高效地进行聚类，提出了一种针对海量数据挖掘的分布式聚类算法：即通过Canopy算法初始化来选择K-means中心点，使待聚类的每个点在其所属Canopy中进行聚类，重新计算中心点，同时进行邻近Canopy的合并，反复以上过程直至收敛。并通过使用余弦相似度算法，将方法用于文本聚类中。

3. 改进后Canopy-K-means算法的文本聚类

3.1. 文本预处理

利用本文提出的改进Canopy-K-means算法进行文本聚类，采用文本向量空间模型VSM对文本进行预处理。即给定文本集$D=\{{{d}_{1}},{{d}_{2}},\cdots ,{{d}_{n}}\}$，d_i表示每个文本向量，且${{d}_{i}}=(＜{{t}_{1}},{{w}_{i1}}＞,＜{{t}_{2}},{{w}_{i2}}＞,\cdots ,$ $＜{{t}_{j}},{{w}_{ij}}＞)$。其中$T=\{{{t}_{1}},{{t}_{2}},\cdots ,{{t}_{j}}\}$表示从所有文本中提取的特征词集合，${{W}_{i}}=\{{{w}_{i1}},{{w}_{i2}},\cdots ,{{w}_{ij}}\}$表示文本d_i中包含各个特征词所对应的权重。向量权重的计算采用统计方法TF-IDF(term frequency-inverse document frequency)^[3]来计算：

$${{w}_{ij}}={{f}_{ij}}\log (N/{{n}_{i}}+0.01)$$ (3)

式中，w_ij表示词语i在文档j中的权重值；f_ij为词语i在文档j中的出现次数；n_i表示整个文本集中出现过词语i的文本数；N为文档总数。由式(3)可以看出，词语i在该文本中出现的次数越多，其权值越大；而整个文本集中出现过词语i的文本越多，其权值则会相应减少，也就是说，字词的权重与它在文件中出现的次数成正比，与它在资料库中出现的频率成反比^[10]。具体实现中，在构建向量空间模型之前，采用中科院计算机研究所研制的汉语词法分析系统NLPIR^[19]，同时，利用哈工大中文停词表去除广泛使用词语和实际意义很小的词语，最后选择特征较大的词语形成VSM中的维度。

3.2. 文本距离计算

本文算法使用两个点之间的距离作为衡量两个点是否相似的标准。而在文本聚类中通常是使用两个文本向量间夹角的余弦值，即余弦相似度，来衡量两个文档的相似程度。而由于两个文本之间，向量夹角余弦值越大，相似度越大，说明其距离越小，也就是相似度和距离成反比，因此构造式(4)来定义两个文本d_i、d_j之间的距离。

$$\text{dist}({{d}_{i}},{{d}_{j}})={{\log }_{a}}(\text{sim}({{d}_{i}},{{d}_{j}})))(a\in (0,1))$$ (4)

式中，

$$\text{sim}({{d}_{i}},{{d}_{j}})=\frac{{{d}_{i}}{{d}_{j}}}{|{{d}_{i}}||{{d}_{j}}|}$$ (5)

式中，$\text{dist}({{d}_{i}},{{d}_{j}})$为两个文本的距离；$\text{sim}({{d}_{i}},{{d}_{j}})$为两个文本的余弦相似度。

5. 结束语

本文以海量数据聚类为背景，改进了原有传统K-means算法，克服了其随机选择中心点带来的结果不稳定问题，提高了聚类结果的准确性和稳定性，减少了聚类次数；并利用MapReduce框架给出了算法的并行化设计。同时结合实际文本聚类应用场景，给出了本算法在文本聚类方面的应用。实验验证了本文算法具有良好的有效性和扩展性。

参考文献 (22)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

一种K-means改进算法的并行化实现与应用

doi: 10.3969/j.issn.1001-0548.2017.01.010

作者简介:
李晓瑜(1984-),女,博士,主要从事大数据分析与应用、量子计算和量子信息等方面的研究

The Parallel Implementation and Application of an Improved K-means Algorithm

计量

一种K-means改进算法的并行化实现与应用

doi: 10.3969/j.issn.1001-0548.2017.01.010

1. 电子科技大学信息与软件工程学院成都 610054

2. 成都康赛信息技术有限公司成都 610054

作者简介:
李晓瑜(1984-),女,博士,主要从事大数据分析与应用、量子计算和量子信息等方面的研究

English Abstract