-
假设网络 $G = (V;E)$ 是由 $\left| V \right| = n$ 个节点和 $\left| E \right| = m$ 条边所组成的一个有向网络, $V = \{ {v_1},{v_2}, \cdots ,{v_n}\} $ , $E = \{ {e_1},{e_2}, \cdots ,{e_m}\} $ 。矩阵A是网络G的邻接矩阵, $d_i^{{\rm{in}}}$ 和 $d_i^{{\rm{out}}}$ 分别表示节点i的入度与出度。出度矩阵 ${\mathit{\boldsymbol{D}}^{{\rm{out}}}}$是对角线对应每个节点出度的对角矩阵。由随机游走理论[29]可知,网络G的转移概率矩阵P为:
$$ \mathit{\boldsymbol{P}} = {({\mathit{\boldsymbol{D}}^{{\rm{out}}}})^{ - 1}}\mathit{\boldsymbol{A}} $$ (1) 如果有向网络G是强连通网络(即网络中任意两个节点都能相互到达),那么根据Perron-Frobenius定理[30]0可知转移概率矩阵P至少有一个左特征向量,它所对应的特征值为1。如果转移概率矩阵P有唯一一个特征值为1,那么网络G是非周期的。为了探索网络G的社团结构,分情况讨论。
首先,假定网络G是强连通并且是非周期的,则对应的转移概率矩阵P有唯一的左特征向量π满足:πP=π,其中特征向量π为随机游走的稳态分布。定义对角矩阵Π对角线元素的值为π的每个分量,即 $\mathit{\boldsymbol{\Pi }} = {\rm{diag}}({\pi _1},{\pi _2}, \cdots ,{\pi _n})$ 。那么,有向网络的拉普拉斯矩阵L有如下形式:
$$ \mathit{\boldsymbol{L}} = \mathit{\boldsymbol{I}} - \frac{1}{2}({\mathit{\boldsymbol{\Pi }}^{1/2}}\mathit{\boldsymbol{P}}{\mathit{\boldsymbol{\Pi }}^{ - 1/2}} + {\mathit{\boldsymbol{\Pi }}^{ - 1/2}}{\mathit{\boldsymbol{P}}^T}{\mathit{\boldsymbol{\Pi }}^{1/2}}) $$ (2) 式中,矩阵I为单位矩阵。
其次,如果网络G为强连通但不是非周期的,转移概率矩阵P没有唯一的稳态分布。引入另外一个矩阵Plazy[26]来解决这个问题。给定一个强连通不是非周期的网络转移概率矩阵P, ${\mathit{\boldsymbol{P}}_{{\rm{lazy}}}} = \frac{{\mathit{\boldsymbol{I}} + \mathit{\boldsymbol{P}}}}{2}$ 。对于矩阵Plazy所对应的网络每个节点都带有自环并且又是强连通的,因此该网络是非周期的[26]。当有向网络G不是非周期时用Plazy代替P,此时网络具有唯一的稳态分布。
最后,如果网络G不是强连通的, 本文引入PageRank转移概率矩阵PPR:
$$ {\mathit{\boldsymbol{P}}_{{\rm{PR}}}} = \left\{ \begin{array}{l} \alpha \mathit{\boldsymbol{P}} + \left( {\frac{{1 - \alpha }}{n}\mathit{\boldsymbol{e}}{\mathit{\boldsymbol{e}}^{\rm{T}}}} \right){\rm{ if }}d_i^{{\rm{out}}}{\rm{ > 0}}\\ \frac{1}{n}{\rm{ if }}d_i^{{\rm{out}}}{\rm{ = 0}} \end{array} \right. $$ (3) 式中,向量e为n维的单位向量;1−α是网络中的节点随机转移到任意节点的概率,本文设α=0.99。当网络不是强连通网络时,用PPR代替P,再计算该网络的拉普拉斯矩阵。
通过上面的转化,可以得到不同情况下有向网络G的拉普拉斯矩阵形式,从而利用拉普拉斯矩阵前c个特征值对应的特征向量进行社团划分。
-
利用拉普拉斯矩阵的多个特征向量所包含的社团结构信息,本文提出了基于拉普拉斯矩阵多重特征向量划分社团结构的算法,算法具体步骤描述如下。
1) 计算转移概率矩阵: $\mathit{\boldsymbol{P}} = {({\mathit{\boldsymbol{D}}^{{\rm{out}}}})^{ - 1}}\mathit{\boldsymbol{A}}$ 。
2) 根据矩阵P特征值1的个数判断网络G的类型, 下面分3种情况讨论:
① 如果网络G是强连通并且是非周期的,令 $\mathit{\boldsymbol{P'}} = \mathit{\boldsymbol{P}} = {({\mathit{\boldsymbol{D}}^{{\rm{out}}}})^{ - 1}}\mathit{\boldsymbol{A}}$ ;
② 如果网络G是强连通但不是非周期的, $\mathit{\boldsymbol{P'}} = {\mathit{\boldsymbol{P}}_{{\rm{lazy}}}} = \frac{{\mathit{\boldsymbol{I}} + \mathit{\boldsymbol{P}}}}{2}$ ;
③ 如果网络G不是强连通,有:
$$ \mathit{\boldsymbol{P'}} = {\mathit{\boldsymbol{P}}_{{\rm{PR}}}} = \left\{ \begin{array}{l} \alpha \mathit{\boldsymbol{P}} + \left( {\frac{{1 - \alpha }}{n}\mathit{\boldsymbol{e}}{\mathit{\boldsymbol{e}}^{\rm{T}}}} \right){\rm{ if }}d_i^{{\rm{out}}}{\rm{ > 0}}\\ \frac{1}{n}{\rm{ if }}d_i^{{\rm{out}}}{\rm{ = 0}} \end{array} \right. $$ 3) 计算转移概率的稳态分布π: $\pi \mathit{\boldsymbol{P'}} = \pi $ 。
4) 计算网络G的拉普拉斯矩阵:
$$ \mathit{\boldsymbol{L}} = \mathit{\boldsymbol{I}} - \frac{1}{2}({\mathit{\boldsymbol{\Pi }}^{1/2}}\mathit{\boldsymbol{P'}}{\mathit{\boldsymbol{\Pi }}^{ - 1/2}} + {\mathit{\boldsymbol{\Pi }}^{ - 1/2}}{\mathit{\boldsymbol{P'}}^{\rm{T}}}{\mathit{\boldsymbol{\Pi }}^{1/2}}) $$ 5) 计算拉普拉斯矩阵的特征值λ及其对应的特征向量矩阵X: $\mathit{\boldsymbol{LX}} = \lambda \mathit{\boldsymbol{X}}$ 。
6) 对特征值从小到大进行排序取前c个特征值所对应的特征向量 $\mathit{\boldsymbol{X'}} = ({\mathit{\boldsymbol{x}}_1},{\mathit{\boldsymbol{x}}_2}, \cdots ,{\mathit{\boldsymbol{x}}_c})$ ,这里c为网络中社团结构的个数。对矩阵 $\mathit{\boldsymbol{X'}}$ 用k-means算法聚类得到每个节点的社团结构标号矩阵M。
-
本文采用归一化互信息[31-32](normalized mutual information, NMI)来评价算法对网络社团结构划分的准确性。NMI计算公式如下:
$$ {\rm{NMI}}({M_1},{M_2}) = \frac{{\sum\limits_{s = 1}^{{N_c}} {\sum\limits_{t = 1}^{{N_c}} {{n_{st}}\log \frac{{{n_{st}}n}}{{n_s^{(1)}n_t^{(2)}}}} } }}{{\sum\limits_{s = 1}^{{N_c}} {n_s^{(1)}\log \frac{{n_s^{(1)}}}{n}\sum\limits_{t = 1}^{{N_c}} {n_t^{(2)}\log \frac{{n_t^{(2)}}}{n}} } }} $$ (4) 式中, ${M_1}$ 是网络的真实的社团结构; ${M_2}$ 是用算法得到的社团结构; ${N_c}$ 是社团结构的数量;n是网络的节点数; ${n_{st}}$ 表示真实社团s中的节点划分在算法得到的社团t中的数量; $n_s^{(1)}$ 表示在真实社团结构s中节点的数量; $n_t^{(2)}$ 表示在算法得到的社团t中节点的数量。对于该评价标准,如果算法划分所得到的社团结构与网络中真实存在的社团结构完全一致的话,则NMI取最大值1;而当划分结果最差,即划分出来的社团结构与网络中真实存在的社团结构完全不一样,也就说二者没有重叠,这时NMI取最小值0。
使用NMI指标评价社团结构算法性能时必须知道网络的真实社团结构信息,对于网络社团结构信息未知的这种情况,采用模块度指标Q来衡量算法的优劣。模块度[33]是用于刻画社团特性强弱的参数,是应用广泛的评判社团结构强弱的指标。文献[15]将其扩展到了有向网络,其公式如下:
$$ Q = \frac{1}{m}\sum\limits_{ij} {\left[ {{A_{ij}} - \frac{{d_i^{{\rm{in}}}d_j^{{\rm{out}}}}}{m}} \right]} {\delta _{{C_i},{C_j}}} $$ (5) 式中, ${C_i}$ 是节点i所属的社团,当 ${C_i} = {C_j}$ 时 ${\delta _{{c_i},{c_j}}} = 1$ ,否则为0;Q值在0和1之间,Q值越大说明该算法对于划分社团结构越有效。一般以Q=0.3作为网络具有明显社团结构的下界。
-
为了测试MEL算法的性能,分别利用人工网络和真实网络进行社团划分实验。在实验中,与常见典型社团划分算法进行了比较,参与对比的算法如下。
1) 模块度矩阵谱聚类[15]:以模块度矩阵最大特征值对应的特征向量来逐次将网络节点进行二分,记为SOM (spectral optimization method);
2) 基于模块度的模拟退火算法[28]:首先随机生成一个初始解;在每次迭代中,在当前解的基础上产生一个新的候选解,由模块度函数判断其优劣,并采用模拟退火策略中的Metropolis准则决定是否接受该候选解,记为SA (simulated annealing)。
-
人工网络按照已知的社团结构产生,可以测试不同算法划分社团结构的有效性。
采用两种广泛使用的人工生成网络来测试算法的性能,分别为GN (Girvan-Newman)[5]和LF (Lancichinetti-Fortunato) [27]基准网络。
1) GN基准网络
本文测试了两种类型的GN网络,包含128个节点。第一种为社团结构数量为4,每个社团含有32个节点,即社团规模是均匀分布的,记为GN1;另外一种为社团结构规模不均匀的情况,记为GN2。本文产生的GN网络为有向网络,每个节点的平均入度 $\langle {d^{{\rm{in}}}}\rangle $ 为10。另外还引入了一个能刻画网络社团结构的参数 $\mu $ ,它是一个混合比例,是网络中的节点连接社团外部的度与该节点总的度数的比例。随着 $\mu $ 的增加,网络的社团结构越不明显。
2) LF基准网络
为了进一步评估本文算法的精度,采用了另一种人工基准网络。该网络与GN网络的不同在于网络中的节点的度分布和社团规模分布均服从幂律分布,这一点与真实世界网络更为相似。本文选取的LF网络的参数如下:网络的节点数为1 000,节点的平均入度为20,最大入度值为50。
本文测试了两种不同社团大小规模分布的网络。一个是社团结构大小在10~50之间,记为LF1;一个是20~100之间,记为LF2。
对于这两种网络的测试结果如图 2所示。从中可以看出,本文的算法在探索有向网络的社团结构时的性能。图 2a为GN网络中社团结构规模均匀的情况,当 $\mu \le 0.4$ 时即网络社团结构比较明显,本文的算法跟SA算法所得到的NMI的值都能达到1,能准确地划分网络的社团结构。随着 $\mu $ 的增加,当 $0.4 < \mu \le 0.5$ 时,本文算法所取得NMI值有所下降,但比SA算法取得的效果要好。图 2b显示了GN网络社团结构规模分布不均匀的实验结果,结果跟图 2a类似,可以发现当网络中社团结构明显时即 $\mu \le 0.4$ ,本文的算法能准确划分社团结构。并且当 $\mu > 0.4$ 时,即网络社团结构越来越不明显时,MEL算法划分社团结构的效果要优于SA和SOM算法。当 $\mu = 0.5$ 时,MEL算法所得NMI值比SA算法提高了9.50%。
图 2c~图 2d给出了每种算法的NMI值在LF网络上随混合参数 $\mu $ 的变化趋势。可以看出,当 $\mu \le 0.7$ 时,本文算法所得到的NMI的值接近于1,并且略优于SA算法,能较为准确地划分网络的社团结构。当 $0.7 < \mu \le 0.8$ 时,即网络的社团结构并不明显,SA算法明显下降,本文的算法也有所下降但NMI值仍大于其他两种算法。实验结果表明本文算法在有向网络探索社团结构上的有效性。
-
本文使用的数据为美国伊利诺斯州的一个中学朋友关系的社会网络[34]。该网络为有向的朋友关系,节点代表一个人,边代表他们之间的选择朋友关系。该网络有70个节点和366条边。用MEL、SOM和SA这3种算法对该网络进行社团结构划分,然后计算得到了每种算法的模块度值如表 1所示。
表 1 同算法社团划分的Q值比较
算法 中学朋友关系网络 MEL 0.508 3 SOM 0.433 4 SA 0.426 4 从表 1可以得知MEL算法比其他两种算法Q值分别提高了17.28%和19.21%,说明本文算法对实际社交网络的社团结构划分也有一定的有效性。
然而,由于真实网络的社团结构的数量是未知的,因此,本文首先要解决的一个问题是将真实网络的社团结构个数找出来。本文根据邻接矩阵的谱性质[21],即具有社团结构的网络,它的邻接矩阵的c个特征值与其他特征值相差较远,因此可以得到网络的社团结构的个数。通过该方法计算得到了本文实证网络的社团结构个数为10。
Detecting Community Structure in Directed Networks Via Multiple Eigenvectors
-
摘要: 有向网络社团结构的识别对于理解复杂系统的结构特性和动力学特性都有着重要的意义。提出了一种基于拉普拉斯矩阵多重特征向量的有向网络社团结构划分算法,该算法利用有向网络拉普拉斯矩阵的前c个较小特征值所对应的特征向量来划分有向网络的社团结构。在人工数据和实证数据上与模块度的谱优化算法和模拟退火算法做了对比实验。实验结果表明,当社团结构明显时,该算法的归一化互信息指标的值接近于1。当社团结构不明显时,该算法所取得的效果也优于谱优化和模拟退火算法。与这两种算法相比,在实证网络上模块度Q值也可以提高17.28%和19.21%。该文工作对于理解有向网络上拉普拉斯矩阵的多重特征向量与网络的社团结构的关系具有十分重要的意义。Abstract: Detecting community structure of directed networks is of significance for understanding the structures and functions of complex systems. In this paper, we develop a spectral algorithm using multiple eigenvectors of the Laplacian matrix (MEL) in directed networks, where the c eigenvectors of the smallest eigenvalues of the Laplacian matrix are taken into account. We compare with the spectral optimization method (SOM) and simulated annealing (SA) algorithm of modularity matrix in directed networks on synthetic and empirical networks. The experimental results indicate that, the values of the normalized mutual information (NMI) obtained by our algorithm are approximated 1 when the community structures are clearly. The proposed algorithm outperforms the SOM and SA algorithms when the community structures are not clearly. In addition, the numerical results for empirical data set show that the modularity values Q could be enhanced by 17.28% and 19.21% respectively. This work may be helpful to analyze the relationship between the properties of Laplacian matrix and community structures in directed networks.
-
Key words:
- community structure /
- directed networks /
- Laplacian matrix /
- spectral clustering
-
表 1 同算法社团划分的Q值比较
算法 中学朋友关系网络 MEL 0.508 3 SOM 0.433 4 SA 0.426 4 -
[1] 狄增如.系统科学视角下的复杂网络研究[J].上海理工大学学报, 2011, 33(2):111-116. http://www.cnki.com.cn/Article/CJFDTOTAL-HDGY201102003.htm DI Zeng-ru. Research of complex networks from the view point of systems science[J]. Journal of University of Shanghai for Science and Technology, 2011, 33(2):111-116. http://www.cnki.com.cn/Article/CJFDTOTAL-HDGY201102003.htm [2] PALLA G, BARABÁSI A L, VICSEK T. Quantifying social group evolution[J]. Nature, 2007, 446(7136):664-667. doi: 10.1038/nature05670 [3] ONNELA J P, SARAMÄKI J, HYVÖNEN J, et al. Structure and tie strengths in mobile communication networks[J]. Proceedings of the National Academy of Sciences, 2007, 104(18):7332-7336. doi: 10.1073/pnas.0610245104 [4] BARABÁSI A L, OLTVAI Z N. Network biology:Understanding the cell's functional organization[J]. Nature Reviews Genetics, 2004, 5(2):101-113. doi: 10.1038/nrg1272 [5] GIRVAN M, NEWMAN M E J. Community structure in social and biological networks[J]. Proceedings of the National Academy of Sciences, 2002, 99(12):7821-7826. doi: 10.1073/pnas.122653799 [6] NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2):026113. doi: 10.1103/PhysRevE.69.026113 [7] FORTUNATO S. Community detection in graphs[J]. Physics Reports, 2010, 486(3):75-174. http://www.doc88.com/p-9993450079348.html [8] PAN Y, LI D H, LIU J G, et al. Detecting community structure in complex networks via node similarity[J]. Physica A:Statistical Mechanics and Its Applications, 2010, 389(14):2849-2857. doi: 10.1016/j.physa.2010.03.006 [9] 宣照国, 苗静, 党延忠, 等.科研领域关联网络的社团结构分析[J].上海理工大学学报, 2008, 30(3):249-252. http://www.cnki.com.cn/Article/CJFDTOTAL-HDGY200802023.htm XUAN Zhao-guo, MIAO Jing, DANG Yan-zhong, et al. Community structure of Chinese nature science basic research weighted networks[J]. Journal of University of Shanghai for Science and Technology, 2008, 30(3):249-252. http://www.cnki.com.cn/Article/CJFDTOTAL-HDGY200802023.htm [10] 邵凤, 郭强, 曾诗奇, 等.微博系统网络结构的研究进展[J].电子科技大学学报, 2014, 43(2):174-183. http://www.xb.uestc.edu.cn/nature/index.php?p=item&item_id=1430 SHAO Feng, GUO Qiang, ZENG Shi-qi, et al. Research progress of the microblog system structures[J]. Journal of University of Electronic Science and Technology of China, 2014, 43(2):174-183. http://www.xb.uestc.edu.cn/nature/index.php?p=item&item_id=1430 [11] 刘建国, 任卓明, 郭强, 等.复杂网络中节点重要性排序的研究进展[J].物理学报, 2013, 62(17):178901. http://www.cnki.com.cn/Article/CJFDTOTAL-WLXB201317001.htm LIU Jian-guo, REN Zhuo-ming, GUO Qiang, et al. Node importance ranking of complex networks[J]. Acta Phys Sin, 2013, 62(17):178901. http://www.cnki.com.cn/Article/CJFDTOTAL-WLXB201317001.htm [12] MALLIAROS F D, VAZIRGIANNIS M. Clustering and community detection in directed networks:a survey[J]. Physics Reports, 2013, 533(4):95-142. doi: 10.1016/j.physrep.2013.08.002 [13] NEWMAN M E J, LEICHT E A. Mixture models and exploratory analysis in networks[J]. Proceedings of the National Academy of Sciences, 2007, 104(23):9564-9569. doi: 10.1073/pnas.0610537104 [14] ROSVALL M, BERGSTROM C T. Maps of random walks on complex networks reveal community structure[J]. Proceedings of the National Academy of Sciences, 2008, 105(4):1118-1123. doi: 10.1073/pnas.0706851105 [15] LEICHT E A, NEWMAN M E J. Community structure in directed networks[J]. Physical Review Letters, 2008, 100(11):118703. doi: 10.1103/PhysRevLett.100.118703 [16] NEWMAN M E J. Spectral methods for community detection and graph partitioning[J]. Physical Review E, 2013, 88(4):042822. doi: 10.1103/PhysRevE.88.042822 [17] GONG X, LI K, Li M, et al. A spectral algorithm of community identification[J]. EPL (Europhysics Letters), 2013, 101(4):48001. doi: 10.1209/0295-5075/101/48001 [18] KRZAKALA F, MOORE C, MOSSEL E, et al. Spectral redemption in clustering sparse networks[J]. Proceedings of the National Academy of Sciences, 2013, 110(52):20935-20940. doi: 10.1073/pnas.1312486110 [19] WANG X, QIAN B, DAVIDSON I. On constrained spectral clustering and its applications[J]. Data Mining and Knowledge Discovery, 2014, 28(1):1-30. doi: 10.1007/s10618-012-0291-9 [20] CHAUHAN S, GIRVAN M, OTT E. Spectral properties of networks with community structure[J]. Physical Review E, 2009, 80(5):056114. doi: 10.1103/PhysRevE.80.056114 [21] ARENAS A, DÍAZ-GUILERA A, PÉREZ-VICENTE C J. Synchronization reveals topological scales in complex networks[J]. Physical Review Letters, 2006, 96(11):114102. doi: 10.1103/PhysRevLett.96.114102 [22] CHENG X Q, SHEN H W. Uncovering the community structure associated with the diffusion dynamics on networks[J]. Journal of Statistical Mechanics:Theory and Experiment, 2010, 2010(04):P04024. http://sourcedb.ict.cas.cn/cn/ictthesis/201103/t20110313_3084080.html [23] SHEN H W, CHENG X Q. Spectral methods for the detection of network community structure:a comparative analysis[J]. Journal of Statistical Mechanics:Theory and Experiment, 2010(10):P10020. https://www.researchgate.net/publication/47460864_Spectral_methods_for_the_detection_of_network_community_structure_A_comparative_analysis [24] VON LUXBURG U. A tutorial on spectral clustering[J]. Statistics and Computing, 2007, 17(4):395-416. doi: 10.1007/s11222-007-9033-z [25] CHUNG F. Laplacians and the Cheeger inequality for directed graphs[J]. Annals of Combinatorics, 2005, 9(1):1-19. doi: 10.1007/s00026-005-0237-z [26] GLEICH D. Hierarchical directed spectral graph partitioning[R]. California:Stanford University, 2006. [27] LANCICHINETTI A, FORTUNATO S. Benchmarks for testing community detection algorithms on directed and weighted graphs with overlapping communities[J]. Physical Review E, 2009, 80(1):016118. doi: 10.1103/PhysRevE.80.016118 [28] GUIMERA R, AMARAL L A N. Cartography of complex networks:Modules and universal roles[J]. Journal of Statistical Mechanics:Theory and Experiment, 2005(2):P02001. http://citeseerx.ist.psu.edu/showciting?cid=985581 [29] PONS P, LATAPY M. Computing communities in large networks using random walks[J]. J Graph Algorithms Appl, 2006, 10(2):191-218. doi: 10.7155/jgaa.00124 [30] LOVÁSZ L. Random walks on graphs:a survey[J]. Combinatorics, Paul Erdos is Eighty, 1993, 2(1):1-46. http://www.cs.elte.hu/%7Elovasz/erdos.pdf [31] LANCICHINETTI A, FORTUNATO S. Community detection algorithms:a comparative analysis[J]. Physical Review E, 2009, 80(5):056117. doi: 10.1103/PhysRevE.80.056117 [32] DANON L, DIAZ-GUILERA A, DUCH J, et al. Comparing community structure identification[J]. Journal of Statistical Mechanics:Theory and Experiment, 2005(9):P09008. http://www.docin.com/p-1443932090.html [33] NEWMAN M E J. Modularity and community structure in networks[J]. Proceedings of the National Academy of Sciences, 2006, 103(23):8577-8582. doi: 10.1073/pnas.0601602103 [34] COLEMAN J S. Introduction to mathematical sociology[M]. London:Free Press Glencoe, 1964. [35] BAUER F. Normalized graph Laplacians for directed graphs[J]. Linear Algebra and its Applications, 2012, 436(11):4193-4222. doi: 10.1016/j.laa.2012.01.020 [36] TANG L, LI S, LIN J. Community structure detection based on the neighbor node degree information[J]. Int J Mod Phys C, 2015, 27(4):1650046. http://adsabs.harvard.edu/abs/2016IJMPC..2750046T