-
社区结构是复杂网络中最重要的结构特性之一,广泛存在于不同类型的真实世界网络中,如生物网络、金融网络、社交网络等[1-2]。社区检测不仅能够揭示网络的中尺度拓扑结构特征,而且有助于深入分析网络的功能及动力学特性[3],因此在节点重要性识别[4]、神经元功能分区[5]和疾病传播预测[6]等领域具有重要的实际应用价值。
近年来涌现出大量基于不同知识背景的社区检测方法[7-8],能够有效识别出网络中隐含的复杂社区结构。然而,现有方法通常仅关注网络中的节点和连边等低阶结构信息,而忽略了网络中广泛存在的高阶组织结构。真实世界网络中包含丰富的高阶组织结构,即网络中规模较小但统计意义上显著的子图,如网络模体(motifs)[9-10]等。模体广泛存在于社交网络、生物网络等真实网络中,是最普遍的高阶连接模式和交互模式,被认为是复杂网络中的基本拓扑和功能单元[9-11]。如社交网络和生物网络中通常包含大量的三角形模体[9,11],对网络结构特性和功能特性均有重要影响。基于网络模体可揭示出复杂网络中新的高阶社区结构,具有社区内模体连接紧密、社区间模体连接稀疏的特性[9,11]。基于模体的高阶社区检测,为复杂网络中尺度结构分析提供了新视角,可展现出节点间更丰富且有意义的拓扑连接关系,从而有助于加深对网络功能特性的理解。如在线虫神经元网络中,基于“bi-fan”模体可识别出额叶部分中包含20个神经元的运动感觉控制功能模块[9]。上述具有特殊功能特性的社区结构是传统社区检测方法难以获得的。
近年来,基于模体的复杂网络高阶社区检测逐渐受到关注[9-16]。文献[9]通过有效整合网络模体分析与社区检测,构建出基于模体的广义高阶聚类框架,并通过扩展的谱图聚类方法获得近似最优的高阶社区划分。此后,多种基于模体的社区检测算法被相继提出,包括基于模体的图嵌入方法LinLog-Motif[13]、基于模体的边增强方法EdMot[14]以及基于模体的标签传播方法MWLP[15]等。上述典型方法均能挖掘、表示并利用网络模体信息,有效识别出复杂网络中的高阶社区结构。然而,基于特定高阶社区性能评价指标,并通过最优化方法获得高阶社区划分,本质上属于典型的NP难问题[9]且求解较为困难。现有方法中采用的启发式或谱优化方法容易陷入局部最优,从而仅获得局部最优高阶社区划分,使复杂网络中高阶社区结构分析的精确性受到制约。此外,基于模体的高阶社区检测不仅包含基于模体的高阶结构信息,还涉及到节点和连边等低阶结构信息,进一步增加了全局最优高阶社区划分检测的难度。最后,部分检测方法还需要预知社区数目[9,12],在真实世界网络检测中难以实现。
针对上述问题,本文提出了一种基于模体的模块度优化方法以实现高阶社区检测(motif-based modularity optimization for higher-order community detection, MMHCD),致力于提高基于模体的社区划分质量。
-
对提出MMHCD算法的性能进行了实证验证和分析,与现有基于模体的典型高阶社区检测典型算法进行对比,并对MMHCD算法中模体的影响进行了分析。
-
1) 对比算法:选择4种代表性的基于模体的高阶社区检测算法,包括基于模体的谱图聚类算法Motif-SC[9]、基于模体的网络嵌入算法LinLog-Motif[13]、基于边增强的模体社区检测方法EdMot[14]以及基于模体的加权标签传播算法MWLP[15]。除上述算法外,还有基于典型的元启发式模块度优化算法DECD[29]构建的基于模体的加权模块度优化算法Motif-DECD。
上述算法的参数设置均采用原文献中的推荐值,其中Motif-SC算法中需要预设真实社区数目; EdMot选用经典Louvain算法进行社区检测,设置最大连通片数目K在[1,3]范围内;MWLP算法中的权衡参数λ在[0,0.3]范围内取值;Motif-DECD算法中变异因子F取值为0.9,交叉因子CR取值为0.3,阈值η为0.35;Motif-DECD与MMHCD算法均设置种群规模NP为100,最大迭代次数tmax为200。
2) 真实世界网络:从KONECT项目[30]和网络数据存储库[31]中选用10种不同类型及不同规模的典型真实世界网络,具体信息如表1所示。网络类型包括社交网络、生物网络、工程及通信网络等。节点规模在1000以上的网络占比50%,其中规模最大的网络PGP包含10680个节点和24316条连边。
数据集 节点数/个 边数/条 网络
平均度网络类型 Karate 34 78 4.69 社交 Macaque 47 505 13.32 生物 Dolphins 62 159 5.13 社交 Polbooks 105 441 8.40 社交 Football 115 613 10.66 社交 Email 1133 5451 4.81 社交 Cora 2708 5429 3.90 科学引文 Facebook 2888 2981 2.06 社交 PowerGrid 4941 6594 2.67 工程 PGP 10680 24316 4.55 通信 3) 人工合成网络:选择两种典型人工合成网络[30],包括Lancichinetti-Fortunato-Radicchi (LFR)和Girvan-Newman(GN),对各算法性能进行评估。在生成的10个LFR网络中,节点规模均为1000,混合参数μ以0.1为间隔在[0,0.9]范围内取值,网络社区规模取值范围为[20,50],节点平均度和最大度设置为10和50。此外,在生成的10个GN网络中,包含128个节点和4个社区,参数zout以1为间隔在[0,9]范围内取值。
4) 性能评价指标:采用加权模块度QW和归一化互信息NMI[32]为高阶社区划分的评价指标,分别用于评估各算法检测结果的质量性和精确性。加权模块度函数[1,25]见式(3),数值越大代表检测所得的高阶社区结构越显著。归一化互信息NMI为:
式中,
${k_{{C_A}}}$ 和${k_{{C_B}}}$ 分别代表划分A和B中的社区数量;n是节点数量;N为混淆矩阵,每项元素Nij代表同时隶属于A中第i个社区和B中第j个社区的节点数目;$ {{N}}_{{i.}} $ 是第i行元素的和,代表划分A的第i个社区中的节点数;N.j是第j列元素的和,代表划分B的第j个社区中的节点数。NMI取值范围为[0,1],数值越大代表检测结果越接近真实社区结构。 -
首先,在生成的GN人工合成网络集合上,对提出的MMHCD算法与4种典型对比算法MWLP, EdMot, LinLog-Motif, Motif-SC进行性能测试。为保证实验的公平性,同一测试网络上各算法均采用相同的模体结构,选择M1~M8中使各算法性能达到相对最优的单个模体。所有算法在GN网络上的实验结果如图4所示,图中数据点代表各算法在10个GN网络上独立运行20次所得的社区划分NMI的平均值。由图可知MMHCD算法在所有GN网络上相比较于其他典型算法,均能获得相对较优的检测结果,在精确性和稳定性上表现出一定优势。当zout≤5网络社区结构较为清晰时,MMHCD、Motif-SC和Motif-DECD算法均能够稳定地检测得到全局最优社区划分,对应NMI平均值均达到1.0。EdMot和LinLog-Motif算法也能够获得近似NMI=1.0的检测结果。然而,当zout≥5对应网络社区结构较为模糊时,各算法均表现出了不同程度的性能恶化趋势,且性能差异逐渐凸显。与其他算法相比,MMHCD算法依然能够获得相对最优的检测精度。
其次,在规模为1000的LFR人工合成网络集合上,对各算法进行测试及对比分析。相同测试网络上各算法均采用相同的模体结构,选择M1~M8中使各算法性能达到相对最优的单个模体。所有算法在LFR网络上的实验结果如图5所示,图中数据点代表各算法在10个LFR网络上独立运行20次所得社区划分NMI值的平均值。可以看出,MMHCD算法在LFR网络上依然能够获得相对最优的NMI,与其他典型算法相比具有较明显的性能优势。当
$\mu \leqslant 0.3$ 时,MMHCD算法检测所得社区划分NMI值均接近1.0,除MWLP算法外其他对比算法也均能获得较为精确的检测结果。当$0.4 \leqslant \mu \leqslant 0.7$ 时,各算法检测精确性逐渐下降,但MMHCD算法均能获得相对最优的检测结果。尽管在μ=0.8时MMHCD算法未获得相对最高的NMI值,但与MWLP算法获得的最优检测结果精度差仅3×10−3。以上GN和LFR网络上的实验结果表明,MMHCD算法能在人工合成网络上检测得到较精确的社区结构,且相较于其他基于模体的典型代表性算法,在精确性和稳定性上能表现出一定优势。
-
将MMHCD算法在表1所示10个不同类型和规模的真实世界网络上进行测试,并与5种典型算法进行对比,实验结果如表2所示。为保证实验的公平性,同一测试网络上各算法均采用相同的模体结构,选择M1~M8中使各算法性能达到相对最优的单个模体。表中数据为各算法在每个网络上独立运行20次,所得社区划分对应加权模块度QW的平均值和标准差。同一测试网络上最优检测结果用黑体加粗表示。
数据集 模体 MWLP EdMot LinLog-motif Motif-SC Motif-DECD MMHCD Karate M1 0.362(1.8×10−2) 0.456(2.63×10−2) 0.484(1×100) 0.484(1×100) 0.484(1×100) 0.484(1×100) Macaque M1 0.061(1.53×10−2) 0.258(1×100) 0.256(1.19×10−4) 0.244(1×100) 0.259(2.1×10−3) 0.265(1×100) Dolphins M1 0.478(1.3×10−2) 0.637(5.98×10−3) 0.641(1×100) 0.637(1×100) 0.647(1×100) 0.647(1×100) Polbooks M1 0.323(1.6×10−2) 0.544(5.74×10−4) 0.546(1×100) 0.544(1×100) 0.545(5×10−3) 0.548(1×100) Football M1 0.388(1.5×10−2) 0.847(4.87×10−3) 0.853(1×100) 0.852(1×100) 0.853(1×100) 0.853(1×100) Email M1 0.423(4×10−4) 0.673(5.11×10−3) 0.655(6.66×10−4) 0.677(3×10−4) 0.658(1.9×10−3) 0.673(1.1×10−3) Cora M1 0.638(8.18×10−3) 0.881(2.46×10−2) 0.879(5.02×10−3) 0.863(2.15×10−4) 0.816(6.5×10−2) 0.890(2.34×10−3) Facebook M1 0.439(1.5×10−2) 0.386(1×100) 0.391(1×100) 0.235(1×10−3) 0.421(1.4×10−2) 0.477(1×100) PowerGrid M1 0.727(1.7×10−2) 0.908(2.94×10−3) 0.920(1×100) 0.619(1.5×10−2) 0.817(1.3×10−2) 0.928(1×100) PGP M1 0.433(2.53×10−2) 0.803(1.17×10−3) 0.755(1×100) 0.748(4.68×10−3) 0.767(2×10−3) 0.798(1×100) Friedman Rank 6 4 3 5 2 1 表2的实验结果表明,MMHCD算法能够在80%的测试网络上获得最优的QW平均值,具有相对较好的质量性和稳定性。在规模较小的网络上,MMHCD算法均能够获得最优的检测性能,Motif-DECD和LinLog-Motif算法同样表现优异。当网络规模相对较大时,不同算法之间的性能差异增大,MMHCD算法依然能够获得相对最优的检测结果。在Email网络和PGP网络中,Motif-SC与EdMot算法分别取得了最佳检测效果,但其QW平均值均与MMHCD算法较为接近。
采用典型的Friedman统计检验方法[33],对各算法在真实世界网络上的检测结果进行测试,结果表明MMHCD算法在检测结果的质量性上性能优势显著。且MMHCD算法与Motif-DECD算法的性能表现较为接近。这一现象表明基于模体的模块度优化方法能有效检测出基于模体的社区结构,且在社区划分的质量性上相较于其他算法具有一定优势。此外,二者的性能差异也表明网络高阶及低阶结构信息的利用,有助于提升加权模块度的优化性能,从而获得更加高质量的高阶社区划分。
-
考虑到MMHCD算法采用基于模体的模块度优化实现高阶社区检测,本节分析模体使用不同类型的网络模体对MMHCD算法检测性能的影响。基于MMHCD算法框架,设计采用M1~M8不同类型模体的算法,并命名为MMHCD-M1至MMHCD-M8。此外,设计基于低阶边结构信息的模块度优化算法MMHCD-None,忽略MMHCD算法中模体高阶信息的影响,包括基于模体的网络加权、模块度优化函数Q以及节点邻域社区修正中边权重的影响。
为分析模体使用不同类型模体对MMHCD算法检测精确性的影响,将算法MMHCD-M1至MMHCD-M8和MMHCD-None共9种算法,在生成的节点规模为1000的LFR网络上进行测试,实验结果如图6所示。图中数据点代表各算法在每个LFR网络上独立运行20次所得NMI的平均值。
从图6中可以发现,在LFR网络社区结构逐渐模糊的过程中,9种采用不同模体的MMHCD算法表现出了不同的性能趋势。首先,与依赖低阶边结构信息的MMHCD-None算法相比,基于模体高阶结构信息的MMHCD-M1至MMHCD-M8算法,在网络结构较为清晰的情况下(
$0 \leqslant \mu \leqslant 0.6$ )优势并不明显。相反,当社区结构较为模糊时($0.6 \leqslant \mu \leqslant 0.9$ ),采用模体结构信息,能够促使MMHCD算法获取更高的NMI值,即达到相对更高的检测精度。其次,不同类型模体造成了MMHCD算法在检测性能上的差异。MMHCD-M1和MMHCD-M6算法相较于其他算法,始终能获得较高的NMI值,表现出良好的精确性,尤其在网络社区结构较为模糊的情况下。此外,MMHCD-M8算法也表现出了良好的稳定性,尽管在$0.4 \leqslant \mu \leqslant 0.6$ 的网络上NMI值下降明显,但在$\mu \geqslant 0.7$ 时获得了相对最优的检测精度。上述实验结果表明,使用不同的三阶和四阶模体结构,对模块度优化算法MMHCD的社区检测精确性有一定影响。在网络社区结构较为模糊的情况下,通过采用适当的模体结构,如M1、M6和M8等边连接较为紧密的模体,能够促进MMHCD算法的社区检测精确性提升。
A Higher-Order Community Detection Algorithm Based on Motif-Based Modularity Optimization
doi: 10.12178/1001-0548.2022111
- Received Date: 2022-04-10
- Accepted Date: 2023-02-01
- Rev Recd Date: 2022-08-30
- Available Online: 2023-09-06
- Publish Date: 2023-07-07
-
Key words:
- complex networks /
- higher-order community detection /
- metaheuristics /
- modularity optimization /
- motifs
Abstract: In order to improve the performance of existing higher-order community detection algorithms, a higher-order community detection algorithm based on motif-based modularity optimization is proposed. By quantifying the number of motifs as the weight between nodes, the higher-order community detection based on motifs is transformed into lower-order weighted network community detection based on edges, and a weighted modularity optimization problem is constructed. Based on the meta-heuristic algorithm as the optimization strategy, the lower-order topology structure and higher-order weight information are comprehensively utilized to design the neighborhood community modification operation and local search operation of nodes, so as to improve the quality of community partitions and prevent the algorithm from falling into local optimum. Experimental results on synthetic and real-world networks show that the utilization of motifs is helpful to improve the detection performance under the condition of fuzzy community structure. The proposed algorithm can effectively realize motif-based community detection and has certain advantages in accuracy and quality compared with existing typical motif-based algorithms, which helps to deepen the understanding of the higher-order structure and functional characteristics of complex networks.
Citation: | XIAO Jing, ZOU Yucheng, WU Shuang, XU Xiaoke. A Higher-Order Community Detection Algorithm Based on Motif-Based Modularity Optimization[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(4): 631-640. doi: 10.12178/1001-0548.2022111 |