基于交叉熵的节点重要性排序算法

龚志豪; 蒋沅; 代冀阳; 杨智翔

doi:10.12178/1001-0548.2023058

基于交叉熵的节点重要性排序算法

doi: 10.12178/1001-0548.2023058

南昌航空大学信息工程学院　南昌　330063

基金项目: 国家自然科学基金(61663030, 61663032)；南昌航空大学研究生创新专项资金(YC2022-049)

详细信息

作者简介:
龚志豪(1999 − )，男，主要从事复杂网络分析方面的研究

通讯作者: 蒋沅，E-mail：jiangyuan@nchu.edu.cn

中图分类号: TP301

Node Importance Ranking Algorithm Based on Cross Entropy

Institute of Information Engineering, Nanchang Hangkong University　Nanchang　330063

摘要: 如何高效地度量节点的重要性一直是复杂网络研究的热点问题。在节点重要性研究中，目前已有许多算法被提出用于判断关键节点，然而多数算法局限于时间复杂度过高或评估角度单一。考虑到熵可用于定量描述信息量的大小，因此，提出了一种基于交叉熵的节点重要性排序算法，该算法兼顾了中心节点与其近邻节点之间的整体影响力，并将节点的邻域拓扑信息有机地融合，使用交叉熵值来量化节点之间的信息差异性。为验证该算法的性能，首先采用单调关系、极大连通系数、网络效率以及SIR模型作为评价指标，其次在8个不同领域的真实网络上与其他7种算法进行比较实验。实验结果表明，该算法具有有效性和适用性，此外时间复杂度仅为$ O(n) $，适用于大型网络。
- 攻击策略 /
- 交叉熵 /
- 复杂网络 /
- 节点重要性
Abstract: How to efficiently measure the importance of nodes has been a hot issue in the research of complex networks. In the research of node importance, many algorithms have been proposed to judge key nodes, but most of them are limited to high time complexity or single evaluation angle. Considering that entropy can be used to quantitatively describe the amount of information, this paper proposes a node importance ranking algorithm based on cross entropy. This algorithm takes into account the overall influence among the central node and its neighbor nodes, organically fuses the neighborhood topology information of nodes, and uses cross entropy to quantify the information differences between nodes. In order to verify the performance of the algorithm, this paper first uses monotone relation, maximum connectivity coefficient, network efficiency and SIR model as evaluation indicators, and then compares with other seven algorithms on eight real networks in different fields. The experimental results show that the algorithm proposed in this paper is effective and applicable, and the time complexity is only $ O(n) $, which is suitable for large networks.
- attack strategy /
- cross entropy /
- complex network /
- node importance

图 1 示例网络

下载: 全尺寸图片幻灯片

图 2 8个网络在各类评估算法攻击下极大连通系数变化

下载: 全尺寸图片幻灯片

图 3 8个网络在各类评估算法攻击下网络效率的变化

下载: 全尺寸图片幻灯片

图 4 8个网络在各类评估算法下感染节点的变化

下载: 全尺寸图片幻灯片

图 5 不同比例初始节点在Crime网络上感染节点的变化

下载: 全尺寸图片幻灯片

图 6 不同比例初始节点在Traffic网络上感染节点的变化

下载: 全尺寸图片幻灯片

表 1 不同评估算法的时间复杂度

算法	类型	时间复杂度
DC	Local	O(n)
BC	Global	O(n³) or O(nm)
LLS	Local	O(n)
KSGC	Hybrid	O(n²)
GM	Global	O(n²)
ME	Local	O(n)
IKS	Hybrid	O(n)
CE+	Local	O(n)

下载: 导出CSV

表 2 各节点的交叉熵值

节点	CE+值	节点	CE+值	节点	CE+值
1	1.2018	10	0.1386	19	0.0851
2	1.0803	11	0.1386	20	2.7760
3	1.2539	12	0.5560	21	0.0959
4	0.9737	13	0.5560	22	0.0959
5	2.1895	14	6.1376	23	1.3620
6	1.7918	15	0.1774	24	0.2824
7	0.2310	16	0.0851	25	0.7702
8	0.2310	17	0.0851	26	0.3466
9	3.6142	18	0.0851	27	0.2448

下载: 导出CSV

表 3 不同评估算法排序结果

排名	DC	BC	LLS	KSGC	GM	ME	IKS	CE+值
1	14	14	14	4	5	5	1	14
2	5,9	4	9	2	4	4	4	9
3	1～4	2	5	3	2	2	7	20
4	6,20,23	3	4	1	14	1,3	10,12	5
5	12,13,15,25	9	2	5	3	9	3	6
6	others	1	1,3	9	1	14	2	23
7		23	23	12,13	9	23	6	3
8		15	6	23	23	15	9	1
9		6,20	20	15	6	12,13	5,8	2
10		5	15	14	15	6	11	4
11		25	25	6	12,13	25	13	25
12		others	others	27	20	20	14～17	12,13
13				16～19	25	16～19	18	26
14				20	27	10,11,27	19～21	24
15				25	16～19	7,8	22～26	27
16				10,11	10,11	21,22	27	7,8
17				24	24	24		15
18				7,8	7,8	26		10,11
19				21,22	21,22			21,22
20				26	26			16～19

下载: 导出CSV

表 4 8个真实网络的拓扑统计特征及传播率

网络	N	E	D	k_max	<k>	<d>	β_th	β
Wikiquote	25	37	0.1233	5	1.4800	1.6092	0.1689	0.17
Economic	260	2942	0.0827	110	21.6970	2.5320	0.0441	0.05
BP	822	3276	0.0097	266	7.6233	3.3549	0.1254	0.13
Crime	829	1476	0.0043	25	2.1391	5.0400	0.0928	0.09
Email	1133	5451	0.0085	71	9.6222	3.6060	0.0535	0.05
Traffic	1226	2615	0.0034	37	4.2659	5.9290	0.2344	0.23
Proteins	2239	6452	0.0025	314	5.7632	3.9786	0.1735	0.17
Adolescent	2539	12969	0.0040	36	10.2158	4.5164	0.0978	0.10

下载: 导出CSV

表 5 不同评估算法的单调性指标

网络	DC	BC	LLS	KSGC	GM	ME	IKS	CE+值
Wikiquote	0.4807	0.5136	0.4139	0.8040	0.8040	0.7685	0.7685	0.8040
Economic	0.8300	0.9774	0.9759	0.9990	0.9989	0.9946	0.9948	0.9994
BP	0.8518	1	0.9992	1	1	0.9995	0.9997	1
Crime	0.6990	0.8669	0.8651	0.9994	0.9993	0.9837	0.9846	0.9988
Email	0.8874	0.9400	0.9400	0.9999	0.9999	0.9989	0.9990	0.9999
Traffic	0.5922	0.9770	0.9624	0.9997	0.9998	0.9884	0.9916	0.9993
Proteins	0.5928	0.6233	0.6201	0.9937	0.9938	0.9912	0.9913	0.9942
Adolescent	0.8677	0.9975	0.9974	1	1	0.9997	0.9998	1

下载: 导出CSV

[1]	WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world’ networks[J]. Nature, 1998, 393(6684): 440-442. doi: 10.1038/30918
[2]	BARABASI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512. doi: 10.1126/science.286.5439.509
[3]	任晓龙, 吕琳媛. 网络重要节点排序方法综述[J]. 科学通报, 2014, 59(13): 1175-1197. REN X L, LYU L Y. Review of ranking nodes in complex networks[J]. Science Bulletin, 2014, 59(13): 1175-1197.
[4]	朱军芳, 陈端兵, 周涛, 等. 网络科学中相对重要节点挖掘方法综述[J]. 电子科技大学学报, 2019, 48(4): 595-603. doi: 10.3969/j.issn.1001-0548.2019.04.018 ZHU J F, CHEN D B, ZHOU T, et al. A survey on mining relatively important nodes in network science[J]. Journal of University of Electronic Science and Technology of China, 2019, 48(4): 595-603. doi: 10.3969/j.issn.1001-0548.2019.04.018
[5]	GUO Y, GUO C, YANG J. A tri-level optimization model for power systems defense considering cyber-physical interdependence[J]. IET Generation, Transmission and Distribution, 2023, 17(7): 1477-1490.
[6]	VIDAL M, CUSICK M E, BARABASI A L. Interactome networks and human disease[J]. Cell, 2011, 144(6): 986-998. doi: 10.1016/j.cell.2011.02.016
[7]	ROGERS T. Assessing node risk and vulnerability in epidemics on networks[J]. Europhysics Letters, 2015, 109(2): 28005. doi: 10.1209/0295-5075/109/28005
[8]	FREEMAN L C. Segregation in social networks[J]. Social network, 1978, 6(4): 411-429.
[9]	FREEMAN L C. A set of measures of centrality based on betweenness[J]. Sociometry, 1977, 40(1): 35-41.
[10]	SABIDUSSI G. The centrality index of a graph[J]. Psychometrika, 1966, 31(4): 581-603. doi: 10.1007/BF02289527
[11]	KITSAK M, GALLOS L K, HAVLIN S, et al. Identification of influential spreaders in complex networks[J]. Nature Physics, 2010, 6(11): 888-893. doi: 10.1038/nphys1746
[12]	BASARAS P, KATSAROS D, TASSIULAS L. Detecting influential spreaders in complex, dynamic networks[J]. Computer, 2013, 46(4): 24-29. doi: 10.1109/MC.2013.75
[13]	NIE T, GUO Z, ZHAO K, et al. Using mapping entropy to identify node centrality in complex networks[J]. Physica A: Statistical Mechanics and Its Applications, 2016, 453: 290-297. doi: 10.1016/j.physa.2016.02.009
[14]	阮逸润, 老松杨, 王竣德, 等. 基于领域相似度的复杂网络节点重要度评估算法[J]. 物理学报, 2017, 66(3): 371-379. YUAN Y R, LAO S Y, WANG J D, et al. Node importance measurement based on neighborhood similarity in complex network[J]. Acta Physica Sinica, 2017, 66(3): 371-379.
[15]	WANG M, LI W, GUO Y, et al. Identifying influential spreaders in complex networks based on improved k-shell method[J]. Physica A: Statistical Mechanics and Its Applications, 2020, 554: 124229. doi: 10.1016/j.physa.2020.124229
[16]	LI Z, HUANG X Y. Identifying influential spreaders in complex networks by an improved gravity model[J]. Scientific Reports, 2021, 11(1): 1-10. doi: 10.1038/s41598-020-79139-8
[17]	YANG X, XIAO F. An improved gravity model to identify influential nodes in complex networks based on k-shell method[J]. Knowledge-Based Systems, 2021, 227: 107198. doi: 10.1016/j.knosys.2021.107198
[18]	SHANNON C E. Communication in the presence of noise[J]. Proceedings of the IRE, 1949, 37(1): 10-21.
[19]	FEI L, DENG Y. A new method to identify influential nodes based on relative entropy[J]. Chaos, Solitons and Fractals, 2017, 104: 257-267.
[20]	汪亭亭, 梁宗文, 张若曦. 基于信息熵与迭代因子的复杂网络节点重要性评价方法[J]. 物理学报, 2023, 72(4): 1-25. WANG T T, LIANG Z W, ZHANG R X. Identifying influential nodes in complex networks using iteration factor and information entropy[J]. Acta Physica Sinica, 2023, 72(4): 1-25.
[21]	ZHANG Q, LI M Z, DENG Y. A new structure entropy of complex networks based on nonextensive statistical mechanics[J]. International Journal of Modern Physics C, 2016, 27(10): 440-452.
[22]	杨松青, 蒋沅, 童天驰, 等. 基于Tsallis熵的复杂网络节点重要性评估方法[J]. 物理学报, 2021, 70(21): 273-284. YANG S Q, JIANG Y, TONG T C, et al. A method of evaluating importance of nodes in complex network based on Tsallis entropy[J]. Acta Physica Sinica, 2021, 70(21): 273-284.
[23]	BAE J, KIM S. Identifying and ranking influential spreaders in complex networks by neighborhood coreness[J]. Physica A: Statistical Mechanics and Its Applications, 2014, 395: 549-559. doi: 10.1016/j.physa.2013.10.047
[24]	DEREICH S, MORTERS P. Random networks with sublinear preferential attachment: The giant component[J]. The Annals of Probability, 2013, 41(1): 329-384.
[25]	VRAGOVIC I, LOUIS E, DIAZ-GUILERA A. Efficiency of informational transfer in regular and complex networks[J]. Physical Review E, 2005, 71(3): 036122. doi: 10.1103/PhysRevE.71.036122
[26]	LATORA V, MARCHIORI M. A measure of centrality based on network efficiency[J]. New Journal of Physics, 2007, 9(6): 188. doi: 10.1088/1367-2630/9/6/188
[27]	CASTELLANO C, PASTOR-SATORRAS R. Thresholds for epidemic spreading in networks[J]. Physical Review Letters, 2010, 105(21): 218701. doi: 10.1103/PhysRevLett.105.218701
[28]	JAMIN A, HUMEAU-HEURTIER A. (Multiscale) cross-entropy methods: A review[J]. Entropy, 2019, 22(1): 45. doi: 10.3390/e22010045
[29]	CHANDRA A, GARG H, MAITI A. A general growth model for online emerging user-object bipartite networks[J]. Physica A: Statistical Mechanics and Its Applications, 2019, 517: 370-384. doi: 10.1016/j.physa.2018.10.051
[30]	SARKAR D, ANDRIS C, CHAPMAN C A, et al. Metrics for characterizing network structure and node importance in spatial social networks[J]. International Journal of Geographical Information Science, 2019, 33(5): 1017-1039. doi: 10.1080/13658816.2019.1567736
[31]	ZHANG L, WANG F, SUN T, et al. A constrained optimization method based on BP neural network[J]. Neural Computing and Applications, 2018, 29: 413-421.
[32]	TRONCOSO F, WEBER R. A novel approach to detect associations in criminal networks[J]. Decision Support Systems, 2020, 128: 113159. doi: 10.1016/j.dss.2019.113159
[33]	GUIMERA R, DANON L, DIAZ-GUILERA A, et al. Self-similar community structure in a network of human interactions[J]. Physical Review E, 2003, 68(6): 065103. doi: 10.1103/PhysRevE.68.065103
[34]	PIEN K C, HAN K, SHANG W, et al. Robustness analysis of the European air traffic network[J]. Transportmetrica A: Transport Science, 2015, 11(9): 772-792. doi: 10.1080/23249935.2015.1087233
[35]	GURSOY A, KESKIN O, NUSSINOV R. Topological properties of protein interaction networks from a structural perspective[J]. Biochemical Society Transactions, 2008, 36(6): 1398-1403. doi: 10.1042/BST0361398
[36]	HUNTER D R, GOODREAU S M, HANDCOCK M S. Goodness of fit of social network models[J]. Journal of the American Statistical Association, 2008, 103(481): 248-258. doi: 10.1198/016214507000000446

[1]	王磊, 陈端兵, 周俊临, 傅彦. 弹性异质电网的重要目标识别算法 . 电子科技大学学报, 2023, 52(2): 280-288. doi: 10.12178/1001-0548.2022077
[2]	谢怡燃, 李国华, 杨波. 基于站点线路数的城市公交网络鲁棒性研究 . 电子科技大学学报, 2022, 51(4): 630-640. doi: 10.12178/1001-0548.2021336
[3]	汤奕, 张顺道. 针对电力系统薄弱状态的自动攻击策略 . 电子科技大学学报, 2022, 51(4): 542-549. doi: 10.12178/1001-0548.2021402
[4]	赵娜, 李杰, 王剑, 彭西阳, 景铭, 聂永杰, 郁湧. 基于邻层传播的相对重要节点挖掘方法 . 电子科技大学学报, 2021, 50(1): 121-126. doi: 10.12178/1001-0548.2020283
[5]	潘侃, 尹春林, 王磊, 陈端兵. 基于特征工程的重要节点挖掘方法 . 电子科技大学学报, 2021, 50(6): 930-937. doi: 10.12178/1001-0548.2021106
[6]	赵娜, 柴焰明, 尹春林, 杨政, 王剑, 苏适. 基于最大连通子图相对效能的相依网络鲁棒性分析 . 电子科技大学学报, 2021, 50(4): 627-633. doi: 10.12178/1001-0548.2020440
[7]	梁耀洲, 郭强, 殷冉冉, 杨剑楠, 刘建国. 基于排名聚合的时序网络节点重要性研究 . 电子科技大学学报, 2020, 49(4): 519-523. doi: 10.12178/1001-0548.2019087
[8]	邵鹏, 胡平. 复杂网络特殊用户对群体观点演化的影响 . 电子科技大学学报, 2019, 48(4): 604-612. doi: 10.3969/j.issn.1001-0548.2019.04.019
[9]	孙晓璇, 吴晔, 冯鑫, 肖井华. 高铁-普铁的实证双层网络结构与鲁棒性分析 . 电子科技大学学报, 2019, 48(2): 315-320. doi: 10.3969/j.issn.1001-0548.2019.02.024
[10]	朱军芳, 陈端兵, 周涛, 张千明, 罗咏劼. 网络科学中相对重要节点挖掘方法综述 . 电子科技大学学报, 2019, 48(4): 595-603. doi: 10.3969/j.issn.1001-0548.2019.04.018
[11]	吴宗柠, 樊瑛. 复杂网络视角下国际贸易研究综述 . 电子科技大学学报, 2018, 47(3): 469-480. doi: 10.3969/j.issn.1001-0548.2018.03.023
[12]	朱为华, 刘凯, 闫小勇, 汪明, 吴金闪. 识别流网络关键节点的虚拟外界投入产出分析法 . 电子科技大学学报, 2018, 47(2): 292-297. doi: 10.3969/j.issn.1001-0548.2018.02.021
[13]	顾亦然, 朱梓嫣. 基于LeaderRank和节点相似度的复杂网络重要节点排序算法 . 电子科技大学学报, 2017, 46(2): 441-448. doi: 10.3969/j.issn.1001-0548.2017.02.020
[14]	程灿, 郭强, 刘建国. 网络路由传输策略的研究进展 . 电子科技大学学报, 2015, 44(1): 2-11. doi: 10.3969/j.issn.1001-0548.2015.01.001
[15]	汤蓉, 唐常杰, 徐开阔, 杨宁. 基于局部聚合的复杂网络自动聚簇算法 . 电子科技大学学报, 2014, 43(3): 329-335. doi: 10.3969/j.issn.1001-0548.2014.03.002
[16]	周涛, 张子柯, 陈关荣, 汪小帆, 史定华, 狄增如, 樊瑛, 方锦清, 韩筱璞, 刘建国, 刘润然, 刘宗华, 陆君安, 吕金虎, 吕琳媛, 荣智海, 汪秉宏, 许小可, 章忠志. 复杂网络研究的机遇与挑战 . 电子科技大学学报, 2014, 43(1): 1-5. doi: 10.3969/j.issn.1001-0548.2014.01.001
[17]	王伟, 杨慧, 龚凯, 唐明, 都永海. 复杂网络上的局域免疫研究 . 电子科技大学学报, 2013, 42(6): 817-830.
[18]	唐长兵, 李翔. 有限种群中策略演化的稳定性 . 电子科技大学学报, 2012, 41(6): 821-829. doi: 10.3969/j.issn.1001-0548.2012.06.002
[19]	吕琳媛. 复杂网络链路预测 . 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
[20]	王卫星, 王李平, 赖均, 李婷婷. 基于类间最大交叉熵的坎尼边界扫描 . 电子科技大学学报, 2010, 39(3): 402-406,434.

点击查看大图

图(6) / 表(5)

计量

文章访问数: 4421
HTML全文浏览量: 1204
PDF下载量: 74
被引次数: 0

全文HTML

随着网络科学的发展与进步，复杂系统已深入人类社会的各个领域，复杂网络作为刻画复杂系统的工具，在生态、社会、经济、交通等诸多系统中有着重要影响^[1-2]。关键节点影响着网络的结构和信息传递功能，评估关键节点是复杂网络的研究热点^[3-4]。一方面，快速准确地识别出关键节点并提供保护机制可提升网络的抗毁性^[5]。另一方面，基于关键节点也可以提出更高效的攻击策略^[6-7]。因此，设计高效的关键节点评估算法具有重要的理论和实践意义。

近年来，研究人员关于识别关键节点已有许多研究成果，经典的评估算法有基于节点邻近信息的度中心性^[8]、基于最短路径数目的介数中心性^[9]、基于平均距离的接近中心性^[10]以及基于网络位置的K-壳分解法^[11]等。其中度中心性虽然简单直接，但对邻居节点的重要性区分度较低，并且考虑的邻近信息有限，因此评估的精确性不高。介数和接近中心性仅考虑信息在最短路径上传播，而实际上传播可能基于其他可达路径，此外基于路径的算法时间复杂度较高，不适用于大型网络。而具有较低时间复杂度的K-壳分解法认为节点重要性取决于所处网络的位置，内核层节点的重要性高于边缘的节点，但对同一壳层的节点却无法进一步区分其重要性差异，并且节点在剥离时会对网络的整体结构信息造成破坏^[12]。为弥补经典算法评估的局限性，文献[13]考虑节点与其相邻节点之间的相关性，提出了映射熵来评估网络中节点的重要性。文献[14]通过衡量节点的局部拓扑重合度来刻画节点间的相似性，提出了邻域相似度算法用于评估节点的重要性。文献[15]结合节点的K-壳以及信息熵，根据其分层大小依次进行迭代，可区分内层壳与外层壳中的节点重要性。文献[16]受引力公式启发，将节点的度值作为质量，并将最短路径长度作为距离，考虑了节点的近邻以及路径信息，提出了引力模型算法。文献[17]考虑节点在网络中所处的位置，提出了一种基于K-壳分解法的改进引力模型算法。

熵^[18]可用于定量描述信息量的大小，当使用熵理论刻画复杂网络时，信息熵可表征节点的局部重要性，因此，可考虑用子网络的熵来表征网络整体结构的特性。如文献[19]提出了信息熵来评估复杂系统的结构特征，取得了较好的成效。文献[20]改进了K-壳值对信息熵的计算，提出了一种结合节点信息熵与迭代因子的算法。文献[21]基于非广延统计力学，提出了一种局部结构熵来量化复杂网络中的关键节点。文献[22]结合网格约束系数以及节点的K-壳中心性，基于Tsallis熵提出了一种节点重要性识别方法。

受上述研究启发，本文提出了一种基于交叉熵的节点重要性识别算法CE+（cross entropy），该方法充分考虑了节点自身以及其周围节点信息的整体重要性，CE+的值反映了节点与其近邻节点之间的差异性，并且该算法时间复杂度仅为$ O(n) $，适用于大型网络。通过在8个不同领域的真实网络上进行蓄意攻击实验，并选用7种不同的节点重要性排序算法作为对比，采用单调性指标^[23]、极大连通系数^[24]、网络效率^[25-26]以及SIR模型^[27]等指标验证了本文所提出CE+算法的有效性和适用性。