基于零模型的社区检测基准网络构造及应用

任宏菲; 肖婧; 崔文阔; 许小可

doi:10.3969/j.issn.1001-0548.2019.03.021

基于零模型的社区检测基准网络构造及应用

doi: 10.3969/j.issn.1001-0548.2019.03.021

任宏菲^1,2,
肖婧^1, ,,
崔文阔¹,
许小可^1,2

1.
大连民族大学信息与通信工程学院辽宁大连 116600
2.
贵州省公共大数据重点实验室(贵州大学) 贵阳 550025

基金项目:

国家自然科学基金 61773091

国家自然科学基金 61603073

辽宁省自然科学基金 201602200

辽宁省高等学校创新人才支持计划 LR2016070

辽宁省重点研发计划指导计划项目 2018104016

详细信息

作者简介:
任宏菲(1993-), 女, 主要从事复杂网络社区检测方面的研究

通讯作者: 肖婧, E-mail:hrbeuxiaojing@aliyun.com

中图分类号: TP391

Construction and Applications of Benchmark Networks for Community Detection Based on Null Models

1.
College of Information and Communication Engineering, Dalian Minzu University Dalian Liaoning 116600
2.
Guizhou Provincial Key Laboratory of Public Big Data, Guizhou University Guiyang 550025

摘要: 社区检测对于探索挖掘复杂网络的结构特性具有重要意义，社区检测算法性能对于检测结果具有重要影响。目前用于衡量社区检测算法性能的基准测试网络较为单一，主要包括人工合成网络和真实世界网络。由于真实世界网络中通常缺乏已知社区结构信息，人工合成网络成为衡量算法性能的主要途径，但普遍存在网络微观特性不可调且与真实世界网络差异较大、对检测算法区分度不高、无法更改局部网络结构等问题。为提升人工合成网络性能，该文提出基于零模型的基准测试网络构造方法，首先设计了能够保持中尺度特性的零模型，提升网络微观特性调整灵活度，使其更逼近真实世界网络结构特性；其次设计了能够调整社区结构强弱的零模型，提升网络社区检测的评价准确性；最后设计了能够调整局部拓扑结构的零模型，有效衡量局部社区结构特性变化对于整体网络结构及检测算法性能的重要性。实验结果表明，基于零模型的构造方法能够有效提升基准测试网络的多样性和灵活性，更加逼近真实世界网络特性，因此更能满足对于社区检测算法性能的评价需求，对于提升复杂网络社区检测性能具有重要意义。
- 社区检测 /
- 复杂网络 /
- 零模型 /
- 基准网络
Abstract: Community detection is of great significance for exploring the structural characteristics of complex networks while the performance of community detection algorithm makes important influence on the detection results. At present, the benchmark networks that are used to measure the performance of community detection algorithm mainly include artificial synthetic network and real-world network. Synthetic network has become the main method to measure the performance of the algorithm since the real-world network usually lacks information of known community structure. However, it is found that the microscopic characteristics of the network is unadjusted, which is different from the real-world network, the discrimination of the detection algorithm is not high, and it is inability to change the local network structure. In order to improve the performance of artificial synthetic network, a benchmark network construction algorithm on null-model is proposed. Firstly, an algorithm of null model that can maintain the mesoscale characteristics is built to improve the flexibility of network micro-feature adjustment and make it closer to the real-world network structural characteristics. Secondly, the null model of adjusting strengthen and weakness for community structure is designed for improving the evaluation accuracy of network community testing. Finally, a method based on null model is constructed so as to make some adjustments of the local topological structure for measuring the importance of the change with local community structure characteristics to the whole network structure and the performance on detection algorithm. Experimental results show that the algorithm in view of null model can effectively improve the diversity and flexibility of the benchmark network, thus making the network be more similar with the features of real-world network and meeting the demand for performance improvement of community detection algorithm.
- community detection /
- complex network /
- null model /
- synthetic network

图 1 0-3阶零模型的随机断边重连过程

下载: 全尺寸图片幻灯片

图 2 保持中尺度特性零模型生成网络的度分布

下载: 全尺寸图片幻灯片

图 3 增强社区结构的零模型构造

下载: 全尺寸图片幻灯片

图 4 减弱社区结构的零模型构造

下载: 全尺寸图片幻灯片

图 5 社区检测算法鲁棒性的测试结果

下载: 全尺寸图片幻灯片

图 6 单个社区内部连边交换示意图

下载: 全尺寸图片幻灯片

图 7 单个社区结构划分结果对总体的影响

下载: 全尺寸图片幻灯片

表 1 真实世界网络信息

网络	节点数量/个	连边数量/条
Karate	34	78
Dolphins	62	159
Polbooks	105	441
Football	115	613
C.elegans	453	2 040
Email	1 133	5 451
Erdös	6 927	11 850
PGP	10 680	24 316
Cond-Mat	27 519	116 181

下载: 导出CSV

表 2 基于中尺度特性零模型构造网络的微观特性分析

真实网络	基准网络	节点数	边数	平均度	匹配系数	平均聚类系数	社区数	模块度
Karate网络	原始网络	34	78	4.56	-0.48	0.57	2	0.42
	GN	34	89	5.24(±0.18)	-0.16(±0.07)	0.12(±0.03)	2(±0.00)	0.24(±0.01)
	LFR	34	73	4.31(±0.25)	0.27(±0.12)	0.62(±0.05)	6(±0.45)	0.68(±0.02)
	保持中尺度特性1阶零模型	34	78	4.56(±0.00)	-0.47(±0.01)	0.57(±0.03)	2(±0.00)	0.42(±0.00)
	保持中尺度特性2阶零模型	34	78	4.56(±0.00)	-0.48(±0.00)	0.57(±0.01)	2(±0.00)	0.42(±0.00)
	保持中尺度特性3阶零模型	34	78	4.56(±0.00)	-0.48(±0.00)	0.57(±0.00)	2(±0.00)	0.42(±0.00)

下载: 导出CSV

[1]	肖婧, 张永建, 许小可.复杂网络模糊重叠社区检测研究进展[J].复杂系统与复杂性科学, 2017, 14(3):8-29. http://d.old.wanfangdata.com.cn/Periodical/fzxtyfzxkx201703002 XIAO Jing, ZHANG Yong-jian, XU Xiao-ke. Research progress of fuzzy overlapping community detection in complex networks[J]. Complex Systems & Complexity Science, 2017, 14(3):8-29. http://d.old.wanfangdata.com.cn/Periodical/fzxtyfzxkx201703002
[2]	乔少杰, 韩楠, 张凯峰, 等.复杂网络大数据中重叠社区检测算法[J].软件学报, 2017, 28(3):631-647. http://d.old.wanfangdata.com.cn/Periodical/rjxb201703011 QIAO Shao-jie, HAN Nan, ZHANG Kai-feng, et al. Algorithm for detecting overlapping communities from complex network big data[J]. Journal of Software, 2017, 28(3):631-647. http://d.old.wanfangdata.com.cn/Periodical/rjxb201703011
[3]	YANG J, MCAULEY J, LESKOVEC J. Community detection in networks with node attributes[C]//IEEE International Conference on Data Mining. Piscataway: IEEE, 2014: 1151-1156.
[4]	汪小帆, 李翔, 陈关荣.网络科学导论[M].北京:高等教育出版社, 2012. WANG Xiao-fan, LI Xiang, CHEN Guan-rong. Introduction to complex networks[M]. Beijing:Higher Education Press, 2012.
[5]	何东晓, 周栩, 王佐, 等.复杂网络社区挖掘-基于聚类融合的遗传算法[J].自动化学报, 2010, 36(8):1160-1170. HE Dong-xiao, ZHUO Xu, WANG Zuo, et al. Community mining in complex networks-Clustering combination based genetic algorithm[J]. Acta Automatica Sinica, 2010, 36(8):1160-1170.
[6]	ZHANG X, CAO G. Transient community detection and its application to data forwarding in delay tolerant networks[J]. IEEE/ACM Transactions on Networking, 2017, 99:1-15.
[7]	GERGELY P, IMRE D, ILLÉS F, et al. Uncovering the overlapping community structure of complex networks in nature and society[J]. Nature, 2005, 435:814-818. doi: 10.1038/nature03607
[8]	GIRVAN M, NEWMAN M E. Community structure in social and biological networks[J]. PNAS, 2002, 99(12):7821-7826. doi: 10.1073/pnas.122653799
[9]	LEE C, REID F, MCDAID A, et al. Detecting highly overlapping community structure by greedy clique expansion[R]. Dublin: University College Dublin, 2010.
[10]	LANCICHINETTI A, FORTUNATO S, KERTÉSZ J. Detecting the overlapping and hierarchical community structure of complex networks[J]. New Journal of Physics, 2009, 11(3):19-44. doi: 10.1088-1367-2630-11-3-033015/
[11]	JIA G, CAI Z, MUSOLESI M, et al. Community detection in social and biological networks using differential evolution[C]//International Conference on Learning and Intelligent Optimization. Berlin: Springer, 2012, 7219: 71-85.
[12]	CLAUSET A, NEWMAN M E, MOORE C. Finding community structure in very large networks[J]. Physical Review E, 2004, 70(2):066111. http://d.old.wanfangdata.com.cn/OAPaper/oai_arXiv.org_cond-mat%2f0408187
[13]	XIAO Jing, ZHANG Yong-jian, XU Xiao-ke. Convergence improvement of differential evolution for community detection in complex networks[J]. Physica A, 2018, 503:762-779. doi: 10.1016/j.physa.2018.02.072
[14]	RAGHAVAN U N, ALBERT R, KUMARA S. Near linear time algorithm to detect community structures in large-scale networks[J]. Physical Review E, 2007, 76(2):036106. http://d.old.wanfangdata.com.cn/OAPaper/oai_arXiv.org_0709.2938
[15]	GNVALDSSON T. Pattern discrimination using feedforward networks:A benchmark study of scaling behavior[J]. Neural Computation, 1993, 5(3):483-491. doi: 10.1162/neco.1993.5.3.483
[16]	LANCICHINETTI A, FORTUNATO S, RADICCHI F. Benchmark graphs for testing community detection algorithms[J]. Physical Review E, 2008, 78(4 Pt 2):046110. doi: 10.1103-PhysRevE.78.046110/
[17]	BICKEL P J, CHEN A. A nonparametric view of network models and Newman-Girvan and other modularities[J]. PNAS, 2009, 106(50):21068-21073. doi: 10.1073/pnas.0907096106
[18]	LUSSEAU D, NEWMAN M. E. Identifying the role that animals play in their social networks[J]. Proceedings of the Royal Society B:Biological Sciences, 2004, 271(Suppl 6):S477-S481. doi: 10.1098-rsbl.2004.0225/
[19]	NEWMAN M. Modularity and community structure in networks[J]. PNAS, 2006, 103(23):8577-8582. doi: 10.1073/pnas.0601602103
[20]	HE S, JIA G, ZHU Z, et al. Cooperative co-evolutionary module identification with application to cancer disease module discovery[J]. IEEE Transactions on Evolutionary Computation, 2016, 20(6):874-891.
[21]	SARZYNSKA M, LEICHT E A, CHOWELL G, et al. Null models for community detection in spatially embedded, temporal networks[J]. Journal of Complex Networks, 2018, 4(3):363-406.
[22]	XIE J, KELLEY S, SZYMANSKI B K. Overlapping community detection in networks:The state-of-the-art and comparative study[J]. ACM Computing Surveys, 2011, 45(4):1-35. http://d.old.wanfangdata.com.cn/OAPaper/oai_arXiv.org_1110.5813
[23]	SUN Peng-gang, SUN Xi-ya. Complete graph model for community detection[J]. Physica A:Statistical Mechanics and Its Applications, 2017, 471:88-97. doi: 10.1016/j.physa.2016.12.014
[24]	DANON L, DÍAZGUILERA A, DUCH J, et al. Comparing community structure identification[J]. Journal of Statistical Mechanics, 2005(9):09008. http://d.old.wanfangdata.com.cn/NSTLQK/NSTL_QKJJ0228131635/
[25]	YANG J, LESKOVEC J. Defining and evaluating network communities based on ground-truth[C]//IEEE International Conference on Data Mining. Piscataway: IEEE, 2012, 42(1): 181-213.
[26]	MAHADEVAN P, KRIOUKOV D, FALL K, et al. A basis for systematic analysis of network topologies[R]. San Diego: University of California San Diego, 2006.
[27]	COLWELL R, WINKLER D. A null model for null models in biogeography[C]//Ecological Communities: Conceptual Issues and the Evidence Ecological Communities. Princeton: Princeton University Press, 1984: 344-359.
[28]	尚可可.在线社交网络的零模型构造和行为预测研究[D].青岛: 青岛理工大学, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10429-1013242436.htm SHANG Ke-ke, The study of null model construction and user behavior prediction for online social networks[D]. Qingdao: Qingdao Technological University, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10429-1013242436.htm
[29]	MAHADEVAN P, KRIOUKOV D, FALL K, et al. Systematic topology analysis and generation using degree correlations[C]//ACM SIGCOMM. New York: ACM, 2006: 135-146.
[30]	尚可可, 许小可.基于置乱算法的复杂网络零模型构造及其应用[J].电子科技大学学报, 2014, 43(1):7-20. doi: 10.3969/j.issn.1001-0548.2014.01.002 SHANG Ke-ke, XU Xiao-ke. Construction and application for null models of complex networks based on randomized algorithms[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(1):7-20. doi: 10.3969/j.issn.1001-0548.2014.01.002
[31]	WU J, ZHAO S, HE L, et al. Neural-Network-Based switching control for dc motors system with LFR[C]//International Symposium on Neural Networks. Berlin: Springer, 2007: 267-274.

[1]	邢玲, 邓凯凯, 吴红海, 谢萍. 复杂网络视角下跨社交网络用户身份识别研究综述 . 电子科技大学学报, 2020, 49(6): 905-917. doi: 10.12178/1001-0548.2019182
[2]	赵紫娟, 李小珂, 郭强, 杨凯, 刘建国. 基于LDA的复杂网络整体研究态势主题分析 . 电子科技大学学报, 2019, 48(6): 931-938. doi: 10.3969/j.issn.1001-0548.2019.06.019
[3]	邵鹏, 胡平. 复杂网络特殊用户对群体观点演化的影响 . 电子科技大学学报, 2019, 48(4): 604-612. doi: 10.3969/j.issn.1001-0548.2019.04.019
[4]	许小可, 崔文阔, 崔丽艳, 肖婧, 尚可可. 无权网络零模型的构造及应用 . 电子科技大学学报, 2019, 48(1): 122-141. doi: 10.3969/j.issn.1001-0548.2019.01.020
[5]	吴宗柠, 樊瑛. 复杂网络视角下国际贸易研究综述 . 电子科技大学学报, 2018, 47(3): 469-480. doi: 10.3969/j.issn.1001-0548.2018.03.023
[6]	顾亦然, 朱梓嫣. 基于LeaderRank和节点相似度的复杂网络重要节点排序算法 . 电子科技大学学报, 2017, 46(2): 441-448. doi: 10.3969/j.issn.1001-0548.2017.02.020
[7]	程灿, 郭强, 刘建国. 网络路由传输策略的研究进展 . 电子科技大学学报, 2015, 44(1): 2-11. doi: 10.3969/j.issn.1001-0548.2015.01.001
[8]	苟智坚, 范明钰, 王光卫. 复杂网络中无信任边界限制的连续观点演化研究 . 电子科技大学学报, 2015, 44(5): 749-756. doi: 10.3969/j.issn.1001-0548.2015.05.019
[9]	任素婷, 崔雪锋, 樊瑛. 国际贸易网络中的靴襻渗流模型 . 电子科技大学学报, 2015, 44(2): 178-182. doi: 10.3969/j.issn.1001-0548.2015.02.003
[10]	汤蓉, 唐常杰, 徐开阔, 杨宁. 基于局部聚合的复杂网络自动聚簇算法 . 电子科技大学学报, 2014, 43(3): 329-335. doi: 10.3969/j.issn.1001-0548.2014.03.002
[11]	周涛, 张子柯, 陈关荣, 汪小帆, 史定华, 狄增如, 樊瑛, 方锦清, 韩筱璞, 刘建国, 刘润然, 刘宗华, 陆君安, 吕金虎, 吕琳媛, 荣智海, 汪秉宏, 许小可, 章忠志. 复杂网络研究的机遇与挑战 . 电子科技大学学报, 2014, 43(1): 1-5. doi: 10.3969/j.issn.1001-0548.2014.01.001
[12]	尚可可, 许小可. 基于置乱算法的复杂网络零模型构造及其应用 . 电子科技大学学报, 2014, 43(1): 7-20. doi: 10.3969/j.issn.1001-0548.2014.01.002
[13]	王伟, 杨慧, 龚凯, 唐明, 都永海. 复杂网络上的局域免疫研究 . 电子科技大学学报, 2013, 42(6): 817-830.
[14]	唐雪飞, 杨陈皓, 牛新征. 复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
[15]	张昌利, 龚建国, 闫茂德. 基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
[16]	陈娟, 陆君安. 复杂网络中尺度研究揭开网络同步化过程 . 电子科技大学学报, 2012, 41(1): 8-16. doi: 10.3969/j.issn.1001-0548.2012.01.002
[17]	谢福鼎, 张大为, 黄丹, 张永, 孙岩. 寻找复杂网络社团的稠密集算法 . 电子科技大学学报, 2011, 40(4): 483-490. doi: 10.3969/j.issn.1001-0548.2011.04.001
[18]	张昊, 陈超, 王长春. 基于空穴理论的复杂网络传染病传播控制 . 电子科技大学学报, 2011, 40(4): 491-496.
[19]	吕琳媛. 复杂网络链路预测 . 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
[20]	汪小帆, 刘亚冰. 复杂网络中的社团结构算法综述 . 电子科技大学学报, 2009, 38(5): 537-543. doi: 10.3969/j.issn.1001-0548.2009.05.007

点击查看大图

图(7) / 表(2)

计量

文章访问数: 4224
HTML全文浏览量: 1925
PDF下载量: 118
被引次数: 0

全文HTML

社区检测是指从复杂网络中挖掘出有实际意义的模块或层次结构的过程，能够更加深刻地认识和分析复杂系统中不同个体间的多层次联系^[1]。社区检测提取出的网络结构特征，有助于理解和分析网络的拓扑特性、功能特性及动力学特性等，进而挖掘出网络中蕴含的深层次信息，并对网络行为进行预测^[2]，因此具有重要的理论研究价值。此外，社区检测能够广泛应用于互联网基础设施优化^[3]、在线销售产品推荐^[3-4]、社交网络及生物网络分析等领域^[5-6]，因此对其进行研究具有重要的现实意义。

针对社区检测算法的研究已成为近年来的研究热点，众多高效的社区检测算法被相继提出，典型代表包括派系过滤法^[7]、链接聚类法^[8]、局部扩展法^[9-10]、模块度优化法^[11-13]和标签传播法^[14]等。然而，现有研究中能够用于衡量社区检测算法性能的基准测试网络较为缺乏，主要包括人工合成网络和真实世界网络两类。真实网络中一般仅有空手道俱乐部网络、海豚网络等少数具有较明确的社团信息，由于真实世界网络中通常缺乏已知的社区结构信息，无法准确评价社区检测的精确性，因此人工合成网络成为目前衡量算法性能的主要途径。社区检测研究中的人工合成网络主要包括GN网络^[15]和LFR网络^[16]，均存在微观特性不可调且与真实世界网络特性差异较大、对算法精确性和稳定性的评价能力较差且区分度不高、无法更改网络局部结构特性等问题，降低了对社区检测算法的评价能力，也在一定程度上制约了社区检测算法的研究。

为提升社区检测研究中基准测试网络的性能，本文提出了基于零模型的网络构造方法，并在此基础上设计了3种不同类型的人工合成基准测试网络。首先，通过设计能够保持中尺度特性(主要为社区结构特性)的零模型，以提升对于网络微观特性的调整灵活度，使其更加逼近真实世界网络的结构特性。其次，通过设计能够调整社区结构强弱的零模型，提升网络社区检测的评价准确性，即在网络社区结构模糊程度特性变化情况下，更加精确衡量社区检测算法的精确性和稳定性。最后，通过设计能够调整局部拓扑结构的零模型，有效衡量局部社区结构特性变化对于整体网络结构及检测算法性能的重要性，提升对于单个社区结构特性的分析能力。实验结果表明，基于零模型的网络构造方法，能够有效提升人工合成基准测试网络的多样性和灵活性，更加逼近真实世界网络特性，因此更能够满足对于社区检测算法性能的评价需求，对于促进复杂网络社区检测研究具有重要意义。

1. 社区检测基准测试网络及局限性

现有社区检测研究中的基准测试网络类型较为单一，主要包括真实世界网络和人工合成网络两类。

1.1. 真实世界测试网络

目前应用较为广泛的真实世界网络主要包括9种，具体如表 1所示，其中Karate^[17]、Dolphins^[18]、Polbooks^[19]和Football^[19]是4种最典型的小规模测试网络，剩余5种为中等规模至大规模的测试网络。

表 1 真实世界网络信息

网络	节点数量/个	连边数量/条
Karate	34	78
Dolphins	62	159
Polbooks	105	441
Football	115	613
C.elegans	453	2 040
Email	1 133	5 451
Erdös	6 927	11 850
PGP	10 680	24 316
Cond-Mat	27 519	116 181

由于真实世界网络中通常缺乏已知的社区结构信息，无法准确评价社区检测的精确性，因此通常采用模块度指标衡量检测所得社区划分质量。模块度函数^[20]如下：

$$Q = \sum\limits_{v = 1}^{{n_c}} {\left[ {\frac{{{l_v}}}{M} - \left( {\frac{{{d_v}}}{{2M}}} \right)} \right]} $$

(1)

式中，M是网络中所有连边数总和；n_c表示社区的数量；l_v是社区v内部所包含的边数；d_v是社区v中所有节点的度值之和。

模块度函数的基本思想是把社区划分后的网络与相应的1阶零模型进行比较。模块度值越高，说明社区结构越显著，社区检测质量越高；反之，模块度值越低，说明社区结构越模糊，社区检测质量越低。然而，越来越多的研究表明，模块度函数作为社区检测质量的评价标准也存在一定缺陷。首先，在随机网络研究中有时候也会得到较大的模块度值，所以模块度值高低不能完全代表社区划分质量。其次，在研究较大规模的网络时，发现模块度存在分辨率限制问题，即不易发现规模相对较小的社区。最后，模块度在数学理论上不够清晰，无法判断函数是单峰函数还是多峰函数^[20-21]。

1.2. 人工合成测试网络

相比真实世界网络，人工合成网络由于能够预知真实的网络微观特性及社区划分，能够更有效衡量出检测所得社区划分的精确性。目前应用较广泛的人工合成网络主要包括GN网络和LFR网络两种。

GN网络的生成方式如下^{[15, 22]}：首先确定网络参数，包括节点数N，平均度K，社区数量C，节点与社区外部节点连边数目的期望值Z_out；然后根据以上参数将节点平均分成C个社区，保证每个社区的节点数和平均度相同；最后根据每个节点的社区归属信息及Z_out值大小随机构造连边，生成网络G。GN网络中每个社区中包含的节点数相同，网络的聚类特性和社区结构特性比较简单，一般与真实世界网络的拓扑结构特性相差较大。

LFR网络的生成方式如下^{[16, 23]}：首先确定网络参数，包括节点数N，平均度K，最大度k_max，混合参数μ，最大社区规模c_max，最小社区规模c_min，并根据参数生成度序列确定N个节点的度值；其次，在[c_min, c_max]范围内随机确定社区数目C，并将N个节点随机匹配到C个社区中；再次，根据配置模型算法随机选择N个节点中的任意节点对，构造各节点的社区内外部连边，保证网络的连通性；最后，根据网络连边信息及节点的社区归属信息生成网络G。相较于GN网络，LFR网络的节点度序列和社区规模序列服从幂律分布，更符合真实世界网络的拓扑结构特性。

由于人工合成网络中通常已知真实的社区结构，因此通常采用归一化互信息(normalized mutual information, NMI)^[24-25]指标衡量检测所得社区划分与真实社区划分之间的逼近程度。NMI函数如下：

$${\rm{NMI}}({\pi ^a}, {\pi ^b}){\rm{ = }}\frac{{\sum\limits_{h = 1}^{k(a)} {\sum\limits_{l = 1}^{k(b)} {{n_{hl}}\log \frac{{n{n_{hl}}}}{{n_h^an_l^b}}} } }}{{\sqrt {\left( {\sum\limits_h^{k(a)} {n_h^a} \log \frac{{n_h^a}}{n}} \right)\left( {\sum\limits_l^{k(b)} {n_l^b} \log \frac{{n_l^b}}{n}} \right)} }}$$

(2)

式中，π^a和π^b表示社区划分方案a和b；n_h^a和n_h^b是属于π^a和π^b划分的第h个社区的节点数目；n_hl代表不同社区公共成员的数量；这些成员属于π^a划分的第h个社区，同时属于π^b划分的第l个社区。

归一化互信息NMI的基本想法是把检测所得社区划分与真实社区划分进行对比，度量二者之间的相似性。NMI值越大，社区划分越接近真实的社区结构，检测结果越精确^[24]。

1.3. 人工合成测试网络的局限性

在社区检测算法研究中，GN网络和LFR网络作为基准测试网络也暴露出诸多不足，主要包括以下3个方面：

1) 两种网络在平均度、度分布、匹配系数、平均聚类系数、社区数以及模块度等网络微观特性上和真实世界网络差异较大。此外，由于构造过程中只能按照固定优先级的顺序设定网络微观特性，如LFR网络构造过程中只能按照N、K、k_max、μ、c_max、c_min的顺序依次进行参数设置，因而忽略了优先级较低的网络微观特性，也使得网络微观特性的调整灵活度受到较大影响。

2) 两种网络均能够通过调整参数设置(GN调整Z_out，LFR调整μ)，构造社区结构逐渐模糊的网络集合，用以衡量社区检测算法的精确性和稳定性。然而，由于网络社区结构弱化过程中无法控制其他微观特性的变化，导致网络对于算法性能评估的准确性受到影响。

3) 两种网络构造过程中仅能对网络整体特性进行设置，无法调整网络中的局部拓扑结构，因而无法衡量局部社区结构特性变化对于整体网络结构及检测算法性能的重要性，对于单个社区结构特性的分析能力较弱。

根据以上分析可知，现有人工合成基准测试网络的灵活性和多样性较差，不能有效逼近真实世界网络特性，无法满足对于社区检测算法的性能评估需求，因此设计更高性能的基准测试网络具有重要研究价值。

5. 结束语

本文提出了基于3种零模型的新型社区检测基准网络构造算法。通过保持中尺度特性的零模型构造算法、增强或减弱社区结构的零模型构造算法和基于社区局部变化的零模型构造算法这3种网络生成算法分别解决了现有社区检测基准网络在网络特性与真实网络相差较大且网络特性不可调、对社区检测算法性能区分度不高以及无法改变网络局部拓扑结构等问题。根据网络微观特性测试、社区检测算法的鲁棒性测试以及网络局部拓扑结构分析的实验结果表明，3种算法生成的网络模型能够充分满足社区检测中作为测试基准网络的需求，保证了所生成的网络最大程度地维持真实世界网络的微观特性和社区结构特性，同时确保了生成的网络结构呈现多样性。

目前，基于零模型的社区检测基准网络构造算法仅在非重叠社区检测中有所应用，下一步将尝试扩展到模糊重叠社区检测的研究中。此外，算法中只展示了改变社区内部连边对整体的影响，改变社区间连边对整体影响还有进一步的研究空间。最后，本文基于零模型的社区检测基准网络构造算法只是针对现有社区检测基准网络GN和LFR存在的不足进行研究，对其他网络生成模型的劣势进行改进，以及如何进一步取长补短，与现有网络模型结合使用也是一个新的研究方向。

参考文献 (31)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于零模型的社区检测基准网络构造及应用

doi: 10.3969/j.issn.1001-0548.2019.03.021

作者简介:
任宏菲(1993-), 女, 主要从事复杂网络社区检测方面的研究

通讯作者: 肖婧, E-mail:hrbeuxiaojing@aliyun.com

Construction and Applications of Benchmark Networks for Community Detection Based on Null Models

计量

基于零模型的社区检测基准网络构造及应用

doi: 10.3969/j.issn.1001-0548.2019.03.021

1. 大连民族大学信息与通信工程学院辽宁大连 116600

2. 贵州省公共大数据重点实验室(贵州大学) 贵阳 550025

作者简介:
任宏菲(1993-), 女, 主要从事复杂网络社区检测方面的研究

通讯作者: 肖婧, E-mail:hrbeuxiaojing@aliyun.com

English Abstract