Evolution Properties of Complex Networks in Terms of the LDA

ZHAO Zi-juan; LI Xiao-ke; GUO Qiang; YANG Kai; LIU Jian-guo

doi:10.3969/j.issn.1001-0548.2019.06.019

The research of complex networks has been developing rapidly, which has had a profound impact on such disciplines as automatic control, statistical physics, computers, and management. However, there has been a lack of systematic and intuitive analysis of the development of topics in China. Taking the abstracts of the 13th National Complex Network Conference in 2017 as research object, we investigate the topic trend of the domestic complex network researches. Firstly, the text information of the abstracts are preprocessed and segmented by adding a custom dictionary and a stop word dictionary to obtain a document-word matrix. Then the LDA model is used to mine topics of the abstracts and SVD decomposition is applied to obtain the number of topics. As a result, ten topics of the conference are found through agglomerative hierarchical clustering according to the JS distance among the abstracts and four research communities involved in the conference are identified through community detection according to the JS distance among institutions. This work not only makes insight on the research trends and the popularity of different research directions in complex networks, but also provides reference institutions for new researchers to find corresponding research directions based on the results.

HTML

复杂网络是一门交叉性学科，近年来得到了大量来自不同领域学者的关注，在各个分支领域都有了丰硕的研究成果^[1-5]。从宏观层面上，分析复杂网络的研究热点和研究趋势对于不同学科发展有着重要的意义。每年举行一届最具权威性的复杂网络大会，设置了复杂系统与复杂网络各个方面的讨论主题，吸引了来自国内外研究复杂网络学者的热情参与与投稿，包含了各个领域和方向的研究成果。如2017年全国复杂网络大会就有来自全国61个科研机构，投稿153篇论文摘要。研究分析这些最具前沿的科研成果，可以从一定程度上反映复杂网络目前的研究热点与方向。本文借助于收集到的复杂网络大会摘要的数据，利用文本分析的工具进行复杂网络研究态势的分析。

目前研究者提出了较多的文本分析的方法，最早的经典主题模型方法是文献[6]在1990年提出的潜在语义分析(latent semantic analysis, LSA)方法。该方法使用词-文档矩阵，然后对该矩阵通过奇异值分解进行降维得到文本的主题，虽然解决了一词多义的问题，但是计算非常耗时，并且LSA得到的不是一个概率模型，缺乏统计基础，结果难以直观地解释。文献[7]提出了概率潜在语义分析(probabilistic latent semantic analysis, PLSA)，该方法基于统计学的理论，来分别估计文档-主题分布和主题-词分布，不过PLSA存在过拟合问题，对于新数据的适应能力不够。文献[8]在2003年提出隐含狄利克雷分布(latent Dirichlet allocation, LDA)，将PLSA贝叶斯化，即相比于PLSA固定的主题分布和词分布，LDA使用Dirichlet分布作为主题和词的先验分布，然后用吉布斯抽样求解后验分布，从而得到给定文档的主题分布。由于LDA有很好的适应性，在实际应用中LDA被应用到个性化推荐、广告预测等方面，是一种应用广泛的主题模型，因此本文选用LDA提取主题。

在主题模型中，首先需要确定主题数，大量实证研究证实LDA主题提取效果与文档主题数目K值有很大的关系，主题提取的结果对K值十分敏感^[9]。文献[8]提出用困惑度(perplexity)定主题数目，但是这种方法会使主题数过大，产生主题冗余。文献[9]提出引入主题方差来决定主题数，用主题方差困惑度作为评定指标，其中困惑度为分子，主题方差为分母，然而这种方法对于主题之间差距不大的文本并不适用。文献[10]提出层次狄利克雷法(hierarchical Dirichlet processes, HDP)，是一种非参数贝叶斯模型，可以自主学习最优主题数目，其参数数目随样本数的增加而自适应，因而不需要提前决定主题数，不过HDP算法复杂度高，在文本分析中效率并不高。奇异值分解(singular value decomposition, SVD)可以将文档从高维空间映射到低维的潜在语义空间^[11]，用保留的奇异值个数作为主题数，使得保留的矩阵能量信息不低于80%。本文在确定主题数K时，用SVD与困惑度方法做了对比，用困惑度确定K时一般需要从10~200取值，选取困惑度最小的K，需要训练至少20个主题模型，效率很低，并且通常产生的主题数偏大，因而本文选择用奇异值分解的方法确定主题数，这样选取的主题数不会过于冗余并且效率高。

本文选用LDA主题模型对会议摘要进行主题挖掘，利用SVD分解确定主题数目，以JS作为距离度量指标，对摘要进行层次聚类，用Blondel算法对机构进行社团划分，最后为每一类贴上标签。本文通过文本分析得出复杂网络宏观上的研究内容与不同研究方向的热门程度，并且通过对61个机构社团划分，得到这些机构所对应的研究方向。

3. 结束语

本文基于2017年第十三届全国复杂网络大会的摘要数据，利用LDA模型提取摘要主题，通过SVD分解来确定主题个数，比困惑度方法更具有效率，且不会产生太大的冗余，得到了摘要的文档-主题矩阵，利用JS算法计算摘要间的距离，进一步基于摘要的JS距离进行凝聚层次聚类，得到主题树状图，分析复杂网络的研究态势。通过数据分析得出10类主题，分别为：网络动力学、网络结构、网络控制、网络应用、网络优化、网络分析、经济网络、网络同步性、人工智能和社区划分，其中网络动力学和网络应用为热门研究方向。另一方面，将机构作为研究主体，同样地，利用机构的文档-主题矩阵，使用JS算法计算机构间的距离，然后用Blondel算法对机构进行社团结构划分，得到机构的聚类结果。本文将参与会议的机构划分为4个社团，每个社团的研究方向分别为：网络应用、网络控制、网络动力学和网络分析。

本文通过对复杂网络会议文本进行研究，挖掘出复杂网络当前的研究趋势，可以帮助复杂网络的研究人员了解复杂网络学科最新的热门领域，拓展他们的科研方向，同时为复杂网络新的研究者提供宏观层面的认识，方便他们选择感兴趣的方向。还能基于机构聚类结果，为新的研究者提供依据机构寻找科研文献的参考建议。此外，本文也存在一些不足，如：自定义词典以及聚类后的主题归纳都受主观因素的影响，人工归纳标签的好坏还没有找到合适的评价指标；分析数据为参与会议的机构所投摘要，不能全面地代表各个机构所有的研究方向。本文还有进一步可扩展的工作：文本主题数的确定和聚类方法的选取都可以尝试更多的方法，也可以结合主题发现结果和机构聚类结果做科研合作单位的推荐。

Reference (20)

[1]	NEWMAN M E J. The structure and function of complex networks[J]. SIAM Review, 2003, 45(2): 167-256. doi: 10.1137/S003614450342480
[2]	LIU J G, LEI H, XUE P. Stability of similarity measurements for bipartite networks[J]. Scientific Reports, 2016, 6(): 18653-. doi: 10.1038/srep18653
[3]	LIU J G, LIN J H, GUO Q. Locating influential nodes via dynamics-sensitive centrality[J]. Scientific Reports, 2016, 6(3): 032812-.
[4]	YANG K, GUO Q, LI S N. Evolution properties of the community members for dynamic networks[J]. Physics Letters A, 2017, 381(11): 970-975. doi: 10.1016/j.physleta.2017.01.030
[5]	BARABÁSI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512. doi: 10.1126/science.286.5439.509
[6]	DEERWESTER S, DUMAS S T, FURNAS G W. Indexing by Latent semantic analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407. doi: 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9
[7]	HOFMANN T. Probabilistic latent semantic analysis[C]//The 15th Conference on Uncertainty in Artificial Intelligence.[S.l.]: Morgan Kaufmann Publishers Inc, 1999: 289-296.
[8]	BLEI D M, NG A Y, JORDAN M I. Latent Dirichlet allocation[J]. Journal of Machine Learning Research, 2003, (): 601-608.
[9]	关鹏, 王曰芬. 科技情报分析中LDA主题模型最优主题数确定方法研究[J]. 现代图书情报技术, 2016, 32(9): 42-50.	GUAN Peng, WANG Yue-fen. Identifying optimal topic numbers from Sci-Tech information with LDA model[J]. New Technology of Library and Information Service, 2016, 32(9): 42-50.
[10]	TEH Y, JORDAN M, BEAl M. Hierarchical Dirichlet processes[J]. Journal of the American Statistical Association, 2007, 101(476): 1566-1581.
[11]	吴志祥, 王昊, 王雪颖. 基于奇异值分解的专利术语层次关系解析研究[J]. 情报学报, 2017, 36(5): 473-483. doi: 10.3772/j.issn.1000-0135.2017.05.005	WU Zhi-xiang, WANG Hao, WANG Xue-ying. Study on Chinese patent terms hierarchy parse based on singular value decomposition[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(5): 473-483. doi: 10.3772/j.issn.1000-0135.2017.05.005
[12]	曹娟, 张勇东, 李锦涛. 一种基于密度的自适应最优LDA模型选择方法[J]. 计算机学报, 2008, 31(10): 1780-1787. doi: 10.3321/j.issn:0254-4164.2008.10.012	CAO Juan, ZHANG Yong-dong, LI Jin-tao. A method of adaptively selecting best LDA model based on density[J]. Chinese Journal of Computers, 2008, 31(10): 1780-1787. doi: 10.3321/j.issn:0254-4164.2008.10.012
[13]	张俊博, 李健, 张宏宇. 潜在语义分析中主题数的确定方法[J]. 信息技术, 2016, (7): 96-100.	ZHANG Jun-bo, LI Jian, ZHANG Hong-yu. Determination method of the number of topics in latent semantic analysis[J]. Information Technology, 2016, (7): 96-100.
[14]	MAJTEY A P, LAMBERTI P W, PRATO D P. Jensen-Shannon divergence as a measure of distinguishability between mixed quantum states[J]. Physical Review A, 2005, 72(5): 762-776.
[15]	JOHNSON S C. Hierarchical clustering schemes[J]. Psychometrika, 1967, 32(3): 241-254. doi: 10.1007/BF02289588
[16]	DUNN J C. A fuzzy relative of the ISODATA process and its use in detecting compact well-separated clusters[J]. Journal of Cybernetics, 1973, 3(3): 32-57. doi: 10.1080/01969727308546046
[17]	NEWMAN M E J, GIRVAN M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2): 026113-. doi: 10.1103/PhysRevE.69.026113
[18]	BLONDEL V D, GUILLAUME J L, LAMBIOTTE R. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics, 2008, (10): 155-168.
[19]	GRIFFITHS T L, STEYVERS M. Finding scientific topics[J]. Proc Natl Acad Sci USA, 2004, 101(sup 1): 5228-5235.
[20]	汪小帆, 李翔, 陈关荣.网络科学导论[M].北京:高等教育出版社, 2012.	WANG Xiao-fan, LI Xiang, CHEN Guan-rong. Network science:An introduction[M]. Beijing:Higher Education Press, 2012.

Topic 1th	数值	Topic 2nd	数值	Topic 3rd	数值	Topic 4th	数值
网络结构	0.640 5	智能电网	0.406 9	大数据	0.324 2	排名聚合	0.227 9
位置	0.093 7	智能体系统	0.057 9	物联网	0.256 1	教师	0.186 4
距离	0.070 3	一致性	0.056 9	云计算	0.142 1	学生	0.178 3
基准	0.070 3	控制	0.028 9	高性能	0.128 1	评价	0.064 1
晶格网络	0.023 5	指标	0.028 5	网络	0.038 1	排序算法	0.028 5
图分割	0.021 5	拓扑	0.028 2	随机效应	0.034 1	观察	0.021 4
人口数据	0.011 9	神经回路	0.015 2	数学家	0.024 1	有序	0.021 4
社区属性	0.011 8	离散时间	0.014 9	机遇	0.024 0	传播速率	0.021 4
觅食行为	0.011 8	监督	0.014 3	预期收益	0.014 1	大学	0.014 3
逻辑	0.011 5	优越性	0.014 1	网络科学	0.013 2	教务网	0.013 2

Topic 1th	数值	Topic 2nd	数值	Topic 3rd	数值	Topic 4th	数值
网络建模	0.462 7	链路预测	0.393 4	同步性	0.276 1	网络节点	0.148 8
网络结构	0.159 6	联系	0.170 1	耦合矩阵	0.176 1	社区检测	0.040 7
动态	0.159 6	网络结构	0.165 4	内部	0.171 2	局部	0.032 6
吸引力	0.039 7	复杂网络	0.090 7	集体	0.065 5	纳什均衡	0.032 6
记忆	0.039 6	性能	0.071 4	股票市场	0.032 4	顶点	0.024 8
策略	0.033 2	游戏	0.051 4	信任	0.030 9	度	0.024 8
流行阈值	0.033 1	社区检测	0.042 0	评级	0.025 4	局部搜索	0.024 5
相互竞争	0.026 5	空模型	0.028 0	演化机制	0.024 0	聚类现象	0.024 5
免疫策略	0.026 4	信息	0.023 4	市场	0.020 3	测度函数	0.024 3
负相关	0.026 0	聚类现象	0.018 2	外部	0.020 1	游戏	0.016 3

Evolution Properties of Complex Networks in Terms of the LDA

doi: 10.3969/j.issn.1001-0548.2019.06.019

Abstract

References

Proportional views

通讯作者: 陈斌, bchen63@163.com

Article Metrics

Related

Proportional views