基于多维行为分析的用户聚类方法研究

张林兵; 郭强; 吴行斌; 梁耀洲; 刘建国

doi:10.12178/1001-0548.2018212

基于多维行为分析的用户聚类方法研究

doi: 10.12178/1001-0548.2018212

1.
上海理工大学复杂系统科学研究中心　上海杨浦区　200093
2.
上海财经大学合计与财务研究院　上海杨浦区　200433

基金项目: 国家自然科学基金(61773248, 71771152)

详细信息

作者简介:
张林兵(1994-)，男，主要从事复杂网络方面的研究

通讯作者: 刘建国，E-mail：liu.jianguo@sufe.edu.cn

中图分类号: N949

User Clustering Method Based on Multi-dimensional Behavior Analysis

1.
Research Center of Complex Systems Science, University of Shanghai for Science and Technology　Yangpu Shanghai　200093
2.
Institute of Accounting and Finance, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

摘要: 聚类分析是数据挖掘中一项重要的技术，通过对多维用户行为的聚类分析，可以从用户层面来帮助管理人员得到更为精确和有效的用户评价信息。该文首先从用户行为数据中提取多维用户行为特征，之后采用基于互信息的无监督特征选择（UFS-MI）模型对提取的特征进行排序、筛选并确定权重，得到每个用户行为的加权特征向量。根据用户行为之间的相似性构造网络，然后通过Blondel社团划分算法对用户行为网络进行聚类分析。在某公交线路的实证数据集上的实验结果表明，该方法的准确率为92%，比传统聚类算法K-means的准确率有明显提升，研究结果可以为公交公司的管理层在进行统一管理和培训时提供参考。本文的工作拓展了网络科学在多维用户行为数据聚类分析的应用范围，丰富了多维驾驶行为数据聚类分析的思路，为决策者提供参考依据。
- 聚类分析 /
- 特征筛选 /
- 多维数据 /
- 用户行为
Abstract: Clustering analysis is an important technology in data mining. By clustering analysis of multi-dimensional user behavior, it can help managers get more accurate and effective user evaluation information from the user level. In this paper, multi-dimensional user behavior features are extracted from user behavior data, and then unsupervised feature selection based on mutual information (UFS-MI) is used to sort, filter and confirm the features of the extracted features, and the weighted feature vectors of each user's behavior are obtained. The network is constructed according to the similarity between user behaviors, and then the user behavior network is clustered and analyzed by Blondel community partition algorithm. The experimental results on an empirical data set of a bus line show that the accuracy of the method is 92%, which is significantly higher than the accuracy rate of the traditional clustering algorithm K-means. The results can provide a reference for the management and training of the public transport management. This paper expands the application scope of network science in multi-dimensional user behavior data clustering analysis, enriches the idea of multi-dimensional driving behavior data clustering analysis, and provides reference for managers.
- cluster analysis /
- feature selection /
- multi-dimensional data /
- user behavior
图 1 实验流程图

下载: 全尺寸图片幻灯片

图 2 不同车型下各类司机的驾驶行为图

下载: 全尺寸图片幻灯片

图 3 司机驾驶行为综合评分直方图

下载: 全尺寸图片幻灯片

[1]	CHEN D, TANG J, LI J, et al. Discovering the staring people from social networks[C]//Proceedings of the 18th International Conference on World Wide Web. [S.l.]: ACM, 2009: 1219-1220.
[2]	HUANG X, WU Q. Micro-blog commercial word extraction based on improved TF-IDF algorithm[C]//TENCON 2013-2013 IEEE Region 10 Conference (31194). Xi’an, China: IEEE, 2013: 1-5.
[3]	JAIN A K, DUBES R C. Algorithms for clustering data[J]. Technometrics, 1988, 32(2): 227-229.
[4]	DU K L, SWAMY M N S. NEURAL networks and statistical learning[J]. Science Business Media, 2014: 727-745.
[5]	孙吉贵, 刘杰, 赵连宇. 聚类算法研究[J]. 软件学报, 2008, 19(1): 48-61. doi: 10.3724/SP.J.1001.2008.00048 SUN Ji-gui, LIU Jie, ZHAO Lian-yu. Clustering algorithms research[J]. Journal of Software, 2008, 19(1): 48-61. doi: 10.3724/SP.J.1001.2008.00048
[6]	金阳, 左万利. 一种基于动态近邻选择模型的聚类算法[J]. 计算机学报, 2007, 30(5): 756-762. doi: 10.3321/j.issn:0254-4164.2007.05.006 JIN Yang, ZUO Wan-li. A clustering algorithm using dynamic nearest neighbors selection model[J]. Chinese Journal of Computers, 2007, 30(5): 756-762. doi: 10.3321/j.issn:0254-4164.2007.05.006
[7]	HUANG Z. A fast clustering algorithm to cluster very large categorical data sets in data mining[J]. Research Issues on Data Mining & Knowledge Discovery, 1997: 1-8.
[8]	HOLDEN N P, FREITAS A A. A hybrid PSO/ACO algorithm for classification[C]//Conference Companion on Genetic and Evolutionary Computation. [S.l.]: ACM, 2007: 2745-2750.
[9]	LIU J G, HOU L, PAN X, et al. Stability of similarity measurements for bipartite networks[J]. Scientific Reports, 2016, 6: 18653. doi: 10.1038/srep18653
[10]	LIU J G, LIN J H, GUO Q, et al. Locating influential nodes via dynamics-sensitive centrality[J]. Scientific Reports, 2016, 6: 21380. doi: 10.1038/srep21380
[11]	周卿, 郭强, 刘建国. 基于交互频率的动态网络上的社会知识传播研究[J]. 上海理工大学学报, 2017, 39(1): 25-29. ZHOU Qing, GUO Qiang, LIU Jian-guo. Social knowledge diffusion on dynamical networks in terms of interaction frequency[J]. Journal of University of Shanghai for Science and Technology, 2017, 39(1): 25-29.
[12]	WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world’networks[J]. Nature, 1998, 393(6684): 440. doi: 10.1038/30918
[13]	BARABÁSI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512. doi: 10.1126/science.286.5439.509
[14]	杨博, 刘大有, 金弟, 等. 复杂网络聚类方法[J]. 软件学报, 2009, 20(1): 54-66. doi: 10.3724/SP.J.1001.2009.00054 YANG Bo, LIU Da-you, JIN Di, et al. Complex network clustering algorithms[J]. Journal of Software, 2009, 20(1): 54-66. doi: 10.3724/SP.J.1001.2009.00054
[15]	GIRVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826. doi: 10.1073/pnas.122653799
[16]	NEWMAN M E J. Fast algorithm for detecting community structure in networks[J]. Physical Review E, 2004, 69(6): 066133. doi: 10.1103/PhysRevE.69.066133
[17]	BLONDEL V D, GUILLAUME J L, LAMBIOTTE R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics, 2008(10): 155-168.
[18]	ROBERT B M, CHRISTOPHER J F, JASON J J, et al. A 61-million-person experiment in social influence and political mobilization[J]. Nature, 2012, 489(7415): 295.
[19]	徐峻岭, 周毓明, 陈林, 等. 基于互信息的无监督特征选择[J]. 计算机研究与发展, 2012, 49(2): 372-382. XU Jun-ling, ZHOU Yu-ming, CHEN Lin, et al. An unsupervised feature selection approach based on multual information[J]. Journal of Computer Research and Development, 2012, 49(2): 372-382.
[20]	WANG Y, WANG J, LIAO H, et al. An efficient semi-supervised representatives feature selection algorithm based on information theory[J]. Pattern Recognition, 2017, 61: 511-523. doi: 10.1016/j.patcog.2016.08.011
[21]	YANG K, GUO Q, LI S N, et al. Evolution properties of the community members for dynamic networks[J]. Physics Letters A, 2017, 381(11): 970-975. doi: 10.1016/j.physleta.2017.01.030

[1]	李海林, 张丽萍. 时间序列数据挖掘中的聚类研究综述 . 电子科技大学学报, 2022, 51(3): 416-424. doi: 10.12178/1001-0548.2022055
[2]	郑文, 赵偲, 李泽堃, 武啸泽, 胡涛. 基于Web数据挖掘的COVID-19流行病学特征分析 . 电子科技大学学报, 2020, 49(3): 408-414. doi: 10.12178/1001-0548.2020079
[3]	刘乃龙, 周晓东, 刘钊铭, 崔龙. 基于多变量时间序列的接触状态聚类分析 . 电子科技大学学报, 2020, 49(5): 660-665. doi: 10.12178/1001-0548.2020192
[4]	陶晓玲, 孔凯传, 赵峰, 赵培超. 基于LSTM的内部用户安全行为评估方法 . 电子科技大学学报, 2019, 48(5): 779-785. doi: 10.3969/j.issn.1001-0548.2019.05.019
[5]	许益贴, 刘红丽, 胡海波. 在线读书社区中的用户阅读偏好及社团发现 . 电子科技大学学报, 2019, 48(6): 939-946. doi: 10.3969/j.issn.1001-0548.2019.06.020
[6]	丁哲, 秦臻, 郑文韬, 秦志光. 基于移动用户浏览行为的推荐模型 . 电子科技大学学报, 2017, 46(6): 907-912. doi: 10.3969/j.issn.1001-0548.2017.06.020
[7]	陈莉, 刘弘. 基于跨本体语义相关的三维模型检索方法 . 电子科技大学学报, 2017, 46(4): 585-590. doi: 10.3969/j.issn.1001-0548.2017.04.018
[8]	罗春海, 刘红丽, 胡海波. 微博网络中用户主题兴趣相关性及主题信息扩散研究 . 电子科技大学学报, 2017, 46(2): 458-468. doi: 10.3969/j.issn.1001-0548.2017.02.022
[9]	蒋伟雄, 刘华生, 廖坚, 李勇帆, 王维. 基于多维模式分析对说谎的脑网络特征识别 . 电子科技大学学报, 2015, 44(2): 311-315. doi: 10.3969/j.issn.1001-0548.2015.02.026
[10]	丛玮, 胡明华, 王艳军. 基于历史数据的管制员通信行为特征分析 . 电子科技大学学报, 2015, 44(4): 617-622. doi: 10.3969/j.issn.1001-0548.2015.04.024
[11]	刘晶, 王峰, 胡亚慧, 李石君. 基于微博行为数据的不活跃用户探测 . 电子科技大学学报, 2015, 44(3): 410-414. doi: 10.3969/j.issn.1001-0548.2015.03.016
[12]	宋竹, 秦志光, 罗嘉庆, 张悦涵. 电信数据中用户行为特征测量与分析 . 电子科技大学学报, 2015, 44(6): 934-939. doi: 10.3969/j.issn.1001-0548.2015.06.024
[13]	闫强, 吴联仁, 郑兰. 微博社区中用户行为特征及其机理研究 . 电子科技大学学报, 2013, 42(3): 328-333. doi: 10.3969/j.issn.1001-0548.2013.03.002
[14]	李楠, 程锦房, 钱富. 加权信号张量子空间拟合算法 . 电子科技大学学报, 2013, 42(4): 546-548,591. doi: 10.3969/j.issn.1001-0548.2013.04.003
[15]	高嵘, 王强, 罗东, 秦志光. 食品溯源时序数据的函数型聚类分析 . 电子科技大学学报, 2012, 41(4): 561-563,591. doi: 10.3969/j.issn.1001-0548.2012.04.016
[16]	黄英, 雷菁. 多维奇偶校验乘积码性能分析 . 电子科技大学学报, 2010, 39(2): 214-218. doi: 10.3969/j.issn.1001-0548.2010.02.013
[17]	王金龙, 徐从富. 研究者出版记录中的会议序列提取研究 . 电子科技大学学报, 2010, 39(1): 110-113. doi: 10.3969/j.issn.1001-0548.2010.01.025
[18]	朵春红, 王翠茹. 网格和密度的聚类算法在CRM中的应用 . 电子科技大学学报, 2007, 36(6): 1289-1291,1314.
[19]	耿技, 印鉴. 改进的共享型最近邻居聚类算法 . 电子科技大学学报, 2006, 35(1): 70-72.
[20]	李秀森, 韩静轩, 马力. 增长因素为聚类变量的因素分析 . 电子科技大学学报, 2002, 31(2): 204-206.

点击查看大图

图(3)

计量

文章访问数: 6100
HTML全文浏览量: 2122
PDF下载量: 71
被引次数: 0

全文HTML

随着大数据技术的不断发展，人们收集到的用户行为数据维度越来越多，如何能够有效的对多维用户行为数据进行分析，是目前行为分析的难点之一^[1-2]。聚类分析是数据挖掘领域中较为基础的数据处理手段，通过聚类算法对数据分类能够将一个数据集划分为若干个类内对象相似而类间对象相异的类簇^[3]，从而在数据集中发现潜在的数据模式和内在联系^[4]，为此国内外的众多专家学者们研究了各类聚类算法。其中传统聚类算法主要可以分为层次化聚类算法、划分式聚类算法和基于密度的聚类算法^[5]。层次聚类算法又称为树聚类算法，它的优点是距离和规则的相似度容易定义、不需要预先制定聚类数、可以发现类的层次关系，缺陷^[6]在于没有全局待优化的目标函数；合并或分裂点的选择困难，好的局部合并选择不能保证高质量的全局聚类结果；算法的计算复杂度高，适合小型数据集的分类；对噪声、孤立点敏感，不适合非凸型分布数据集。K-means算法是经典的划分式聚类算法，它的优点^[7]是思想简单、易于实现，可用于大规模数据集的并行聚类挖掘，通常在对大型数据集聚类时，K-means算法比层次聚类算法快得多，它的缺点是需要事先确定聚类个数$k$的大小，因为很多应用事先是无法确定的，如网络社团的划分；$k$个初始聚类中心是随机选择的，由于随机选择$k$个初始聚类中心，导致算法对异常数据敏感。DBSCAN聚类算法是经典的基于密度的聚类算法，它的优点^[8]是不需要事先确定簇的个数以及选择初始聚类中心，能够识别噪声数据点，且对数据点的输入顺序不敏感，缺点是需要事先确定Eps和MinPts这2个参数，而这2个参数的确定无规律可循且DBSCAN算法对这2个参数比较敏感，参数的轻微变化可能导致差别较大的聚类结果，DBSCAN算法不能有效地处理数据分布比较均匀的数据集，也无法有效处理维数较大的数据集。上述的传统聚类方法在进行多维行为数据聚类分析时，存在很多问题，因而传统聚类算法不能直接应用到多维行为聚类分析。为了解决这个问题，本文尝试用网络科学^[9-11]的方法对多维行为数据聚类分析。

与小世界性、无标度性^[12-13]等基本统计特性相并列，网络簇结构(network community structure，NCS)是复杂网络最普遍和最重要的拓扑结构属性之一，具有同簇节点相互连接密集、异簇节点相互连接稀疏的特点，复杂网络聚类方法旨在揭示出复杂网络中真实存在的网络簇结构。复杂网络聚类算法主要分为启发式方法(heuristic method，HM)和基于优化的方法(optimization based method，OBM)^[14]。文献[15]提出的GN算法是经典的启发式方法，该方法的优点是思想简单而得到广泛应用，缺点是计算速度慢，不适合大规模的网络，同时又难以确定合适的终止条件。文献[16]提出的分级凝聚快速算法(FN算法)是经典的基于优化的方法，与GN算法相比，时间复杂度大大降低，但准确性不如GN算法。文献[17]提出的Blondel算法是一种基于模块度最优化的启发式算法，与普通的基于模块度和模块度增益算法相比该算法的执行效率高且聚类效果非常明显，是目前国际上公认的执行速度最快且精度较高的非重叠社区发现算法^[18]，因而本文选择用Blondel算法进行聚类分析。

本文的主要贡献是：1)将机器学习中的无监督特征选择方法与网络科学中的社团划分算法相结合，提出一种多维用户行为聚类分析方法。在某公交线路的实证数据集上的实验结果表明，该方法聚类准确率明显高于传统K-means算法；2)本文提出的方法不仅为多维驾驶行为数据分析提供新的思路，还可以在不同的场景中广泛应用，例如金融市场的数据分析、互联网企业用户行为的数据挖掘等。

3. 结束语

对多维用户行为进行聚类分析，可以帮助管理人员得到更为精确和有效的用户评价信息，为管理层决策参考提供依据。本文从多维用户行为数据中提取用户行为特征，采用UFS-MI模型对提取的用户行为特征进行排序并筛选，然后按照平均互信息的值给特征确定权重，得到用户行为的加权特征向量。通过计算用户行为之间的皮尔森相关系数，设定阈值并构建网络，再结合复杂网络理论，采用Blondel社团划分算法对用户行为网络进行聚类分析。在某公交线路的实证数据集上的实验结果表明，该方法的准确率为92%，比传统聚类算法K-means的准确率有明显提升。

本文提供的方法还有众多的应用场景，例如根据股票价格波动的相似性构建股票关联网络，对股票进行聚类分析。根据个股进行相关股的推荐，为投资者提供参考。通过对互联网企业用户簇集进行数据挖掘，有助于企业及时掌握和研究用户的总体变化，为不同类型的用户提供更有针对性的个性化服务，从而增加企业市场份额和利润。此外，本文根据UFS-MI模型进行特征筛选，没有结合具体的业务，未来的工作可以结合具体业务对特征进行筛选，从而提高聚类的效果。

参考文献 (21)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多维行为分析的用户聚类方法研究

doi: 10.12178/1001-0548.2018212

作者简介:
张林兵(1994-)，男，主要从事复杂网络方面的研究

通讯作者: 刘建国，E-mail：liu.jianguo@sufe.edu.cn

User Clustering Method Based on Multi-dimensional Behavior Analysis

计量

基于多维行为分析的用户聚类方法研究

doi: 10.12178/1001-0548.2018212

1. 上海理工大学复杂系统科学研究中心　上海杨浦区　200093

2. 上海财经大学合计与财务研究院　上海杨浦区　200433

作者简介:
张林兵(1994-)，男，主要从事复杂网络方面的研究

通讯作者: 刘建国，E-mail：liu.jianguo@sufe.edu.cn

English Abstract

User Clustering Method Based on Multi-dimensional Behavior Analysis

1. Research Center of Complex Systems Science, University of Shanghai for Science and Technology　Yangpu Shanghai　200093

2. Institute of Accounting and Finance, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

全文HTML

1.1. UFS-MI特征选择模型

1.2. 用户行为相似性度量

1.3. Blondel算法

2.1. 数据的预处理

2.2. 特征提取与筛选

2.3. 司机驾驶行为相似性度量

2.4. 聚类准确性度量

2.5. 聚类结果分析

目录

期刊在线

编辑办公

友情链接

留言板

基于多维行为分析的用户聚类方法研究

doi: 10.12178/1001-0548.2018212

作者简介: 张林兵(1994-)，男，主要从事复杂网络方面的研究

通讯作者: 刘建国，E-mail：liu.jianguo@sufe.edu.cn

User Clustering Method Based on Multi-dimensional Behavior Analysis

计量

出版历程

基于多维行为分析的用户聚类方法研究

doi: 10.12178/1001-0548.2018212

1. 上海理工大学复杂系统科学研究中心 上海 杨浦区 200093 2. 上海财经大学合计与财务研究院 上海 杨浦区 200433

作者简介: 张林兵(1994-)，男，主要从事复杂网络方面的研究

通讯作者: 刘建国，E-mail：liu.jianguo@sufe.edu.cn

English Abstract

User Clustering Method Based on Multi-dimensional Behavior Analysis

1. Research Center of Complex Systems Science, University of Shanghai for Science and Technology Yangpu Shanghai 200093 2. Institute of Accounting and Finance, Shanghai University of Finance and Economics Yangpu Shanghai 200433

全文HTML

1.1. UFS-MI特征选择模型

1.2. 用户行为相似性度量

1.3. Blondel算法

2.1. 数据的预处理

2.2. 特征提取与筛选

2.3. 司机驾驶行为相似性度量

2.4. 聚类准确性度量

2.5. 聚类结果分析

目录

期刊在线

编辑办公

友情链接

作者简介:
张林兵(1994-)，男，主要从事复杂网络方面的研究

1. 上海理工大学复杂系统科学研究中心　上海杨浦区　200093

2. 上海财经大学合计与财务研究院　上海杨浦区　200433

作者简介:
张林兵(1994-)，男，主要从事复杂网络方面的研究

1. Research Center of Complex Systems Science, University of Shanghai for Science and Technology　Yangpu Shanghai　200093

2. Institute of Accounting and Finance, Shanghai University of Finance and Economics　Yangpu Shanghai　200433