基于多模体特征的科学家合作预测

曹红艳; 许小可; 许爽

doi:10.12178/1001-0548.2019173

基于多模体特征的科学家合作预测

doi: 10.12178/1001-0548.2019173

大连民族大学信息与通信工程学院　辽宁大连　116600

基金项目: 国家自然科学基金(61773091)；辽宁省高等学校创新人才支持计划(LR2016070)；辽宁省重点研发计划指导计划(2018104016)

详细信息

作者简介:
曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

通讯作者: 许爽，E-mail： xushuangcong@163.com

中图分类号: TP391

Predicting Scientist Cooperation Based on Multiple motif Features

School of Information and Communication Engineering, Dalian Minzu University　Dalian Liaoning　116600

摘要: 科学学随着科学本身的发展已成为近年来国内外研究的热点，科研组织与知识传播的重要结构基础—科学家合作网络因此受到学者们的广泛关注。在此情况下，科学家合作网络中的合作形成及合作权重强弱成为很有意义的研究问题。该文提出了基于多模体特征和机器学习框架的链路预测和权重预测方法，将实验结果与几种经典方法进行对比，发现该方法可以有效提高预测的准确率，链路预测最高可提高8.9%，而权重预测最高可提高59.6%。该研究有助于预测科研网络中科学家合作的可能性及其合作权重，进而挖掘科学家合作网络的结构特性对学者科研产出和团队合作的深刻影响。
- 链路预测 /
- 多模体特征 /
- 科学家合作 /
- 科学学 /
- 权重预测
Abstract: With the development of science itself, science of science has become research in recent years. The scientific cooperation network which is an important structural foundation of scientific research organizations and knowledge dissemination has attracted wide attention from scholars. Under this circumstance, the formation of cooperation and the weight of cooperation in the scientific cooperation network have become very meaningful research issues. This paper proposes a link prediction and weight prediction methods based on multiple motif features and machine learning framework, and compares the experimental results with several classical methods. It is found that the proposed methods can effectively improve the accuracy prediction: up to 8.9% in the link prediction and 59.6% in the weight prediction. This paper helps to predict the possibility of scientist collaboration in the scientific research network and their cooperation weight, and then to explore the profound impact of the structural characteristics of the scientific cooperation network on the scientific research output and teamwork of scholars.
- link prediction /
- multiple motif /
- scientist cooperation /
- science of science /
- weight prediction

图 1 基于模体特征的科学家合作预测

下载: 全尺寸图片幻灯片

图 2 链路预测的特征选择方法性能比较

下载: 全尺寸图片幻灯片

图 3 链路预测模体特征的相关性分析

下载: 全尺寸图片幻灯片

图 4 权重预测的特征选择方法性能比较

下载: 全尺寸图片幻灯片

图 5 权重预测模体特征的相关性分析

下载: 全尺寸图片幻灯片

表 1 模体对应的科学家合作模式

模体编号	图示	合作模式
3_1		一位科学家与两位不合作的科学家其中的一位合作，则可能与另一位科学家合作
3_2		一位科学家与两位不合作的科学家合作，则另两位科学家可能会合作
4_1		一位科学家与三位不合作的科学家中的两位合作，则可能与另一位科学家合作
4_2		两位合作的科学家与另两位合作的科学家之间可能会有合作
4_3		三位科学家两两合作，则第四位科学家可能与其中一位科学家合作
4_4		两位合作的科学家分别与两位无合作的科学家合作，则另两位科学家可能合作
4_5		四位科学家中，每位与且仅与其中两位科学家合作，则与第三位科学家可能会合作
4_6		除某两位科学家不合作外，四位科学家两两相互合作，则不合作的两位科学家可能合作

下载: 导出CSV

表 2 基于模体特征的链路预测结果(AUC)

模体编号	netscience	geom	hepth	condmat
3_1	0.867	0.785	0.595	0.841
3_2	0.927	0.868	0.896	0.945
4_1	0.736	0.831	0.579	0.609
4_2	0.893	0.790	0.715	0.853
4_3	0.890	0.762	0.542	0.877
4_4	0.557	0.483	0.606	0.606
4_5	0.661	0.637	0.617	0.697
4_6	0.818	0.738	0.710	0.831
多模体	0.981	0.962	0.951	0.992

下载: 导出CSV

表 3 3类方法的链路预测结果(AUC)

数据名称	WCN	WAA	WRA	rWCN	rWAA	rWRA	多模体
netscience	0.933	0.917	0.915	0.933	0.933	0.933	0.981
geom	0.871	0.883	0.883	0.851	0.880	0.882	0.962
hepth	0.895	0.896	0.896	0.895	0.895	0.895	0.951
condmat	0.944	0.945	0.946	0.943	0.945	0.945	0.992

下载: 导出CSV

表 4 基于模体特征的合作权重预测结果(RMSE)

模体编号	netscience	geom	hepth	condmat
3_1	0.150	0.149	0.226	0.194
3_2	0.111	0.150	0.203	0.171
4_1	0.149	0.148	0.226	0.194
4_2	0.152	0.151	0.226	0.195
4_3	0.148	0.150	0.226	0.192
4_4	0.153	0.153	0.226	0.195
4_5	0.138	0.141	0.217	0.186
4_6	0.115	0.146	0.210	0.160
多模体	0.083	0.131	0.184	0.132

下载: 导出CSV

表 5 3类方法的权重预测结果(RMSE)

数据名称	WCN	WAA	WRA	rWCN	rWAA	rWRA	多模体
netscience	0.299	0.711	0.627	0.170	0.152	0.148	0.083
geom	2.458	0.923	0.339	0.336	0.338	0.324	0.131
hepth	0.521	0.526	0.763	0.307	0.272	0.271	0.184
condmat	0.470	0.691	0.535	0.213	0.180	0.178	0.132

下载: 导出CSV

[1]	ZENG An, SHEN Zhe-si, ZHOU Jian-lin, et al. The science of science: From the perspective of complex systems[J]. Physics Reports, 2017(714-715): 1-73.
[2]	FORTUNATO S, BERGSTROM C T, BÖRNER K, et al. Science of science[J]. Science, 2018, 359(6379): eaao0185. doi: 10.1126/science.aao0185
[3]	刘岩, 刘亮, 罗天, 等. 基于子图的科学家合作网络家族辨识[J]. 科技管理研究, 2019, 39(7): 249-255. doi: 10.3969/j.issn.1000-7695.2019.07.035 LIU Yan, LIU Liang, LUO Tian, et al. Family identification of cooperative network of scientists based on subgraph[J]. Sciense and Technology Management Research, 2019, 39(7): 249-255. doi: 10.3969/j.issn.1000-7695.2019.07.035
[4]	LÜ Lin-yuan, ZHOU Tao. Link prediction in complex networks: A survey[J]. Physica A Statistical Mechanics & Its Applications, 2011, 390(6): 1150-1170.
[5]	ZHAO J, MIAO L, YANG J, et al. Prediction of links and weights in networks by reliable routes[J]. Scientific Reports, 2015, 5(1): 12261. doi: 10.1038/srep12261
[6]	吕琳媛. 复杂网络链路预测[J]. 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002 LÜ Lin-yuan. Link prediction on complex networks[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
[7]	LIBEN-NOWELL D, KLEINBERG J. The link-prediction problem for social networks[J]. Journal of the American Society for Information Science and Technology, 2007, 58(7): 1019-1031. doi: 10.1002/asi.20591
[8]	ADANIC L A, ADAR E. Friends and neighbors on the web[J]. Social Networks, 2003, 25(3): 211-230. doi: 10.1016/S0378-8733(03)00009-1
[9]	ZHOU T, LÜ L, ZHANG Y C. Predicting missing links via local information[J]. The European Physical Journal B-Condensed Matter and Complex Systems, 2009, 71(4): 623-630. doi: 10.1140/epjb/e2009-00335-8
[10]	LIU W, LÜ L. Link prediction based on local random walk[J]. EPL, 2010, 89(5): 58007. doi: 10.1209/0295-5075/89/58007
[11]	SA H R D, PRUDENCIO R B C. Supervised link prediction in weighted networks[C]// The 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2281-2288.
[12]	LÜ L, ZHOU T. Link prediction in weighted networks: The role of weak ties[J]. EPL, 2010, 89(1): 18001. doi: 10.1209/0295-5075/89/18001
[13]	ZHU B, XIA Y, ZHANG X J. Weight prediction in complex networks based on neighbor set[J]. Scientific Reports, 2016, 6(1): 38080. doi: 10.1038/srep38080
[14]	MILO R, SHEN-ORR S, ITZKOVITZ S, et al. Network motifs: Simple building blocks of complex networks[J]. Science, 2002, 298(5594): 824-827. doi: 10.1126/science.298.5594.824
[15]	刘亮. 复杂网络基元研究方法及应用[M]. 上海: 上海交通大学出版社, 2018. LIU Liang. Complex network building blocks methods and applications[M]. Shanghai: Shanghai Jiao Tong University Press, 2018.
[16]	BATAGELJ V, MRVAR A. Pajek datasets[EB/OL]. (2016-01-24). http://vlado.fmf.uni-lj.si/pub/networks/data/.
[17]	NEWMAN M E J. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences, 2001, 98(2): 404-409. doi: 10.1073/pnas.98.2.404
[18]	NEWMAN M E J. Scientific collaboration networks. Ⅱ. Shortest paths, weighted networks, and centrality[J]. Physical Review E, 2001, 64(1): 016132. doi: 10.1103/PhysRevE.64.016132
[19]	CHEN T, GUESTRIN C. Xgboost: A scalable tree boosting system[C]//Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining. [S.l.]: ACM, 2016: 785-794.

[1]	苏晓萍, 查英华, 曲鸿博. 一种异质图的Lorentz嵌入模型 . 电子科技大学学报, 2023, 52(1): 146-153. doi: 10.12178/1001-0548.2021284
[2]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[3]	王军. 基于多尺度特征预测的异常事件检测 . 电子科技大学学报, 2022, 51(4): 586-591. doi: 10.12178/1001-0548.2021333
[4]	方祺娜, 许小可. 基于异质模体特征的社交网络链路预测 . 电子科技大学学报, 2022, 51(2): 274-281. doi: 10.12178/1001-0548.2021181
[5]	柳娟, 许爽, 田文灿, 王贤文, 许小可. 基于论文作者署名位置的广义“陪护人效应”检测 . 电子科技大学学报, 2021, 50(3): 428-436. doi: 10.12178/1001-0548.2020350
[6]	王曦, 许爽, 许小可. 融合用户行为同步指标的链路预测研究 . 电子科技大学学报, 2021, 50(2): 276-284. doi: 10.12178/1001-0548.2020241
[7]	李治成, 吉立新, 刘树新, 李星, 李劲松. 基于拓扑有效连通路径的有向网络链路预测方法 . 电子科技大学学报, 2021, 50(1): 127-137. doi: 10.12178/1001-0548.2020220
[8]	李艳丽, 周涛. 链路预测中的局部相似性指标 . 电子科技大学学报, 2021, 50(3): 422-427. doi: 10.12178/1001-0548.2021062
[9]	郭强, 陈清文, 刘建国. 基于引文分析的科学家投入产出绩效算法研究 . 电子科技大学学报, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
[10]	Kai WANG, Shu-xin LIU, Hong-tao YU, Xing LI. Predicting Missing Links of Complex Network via Effective Common Neighbors . 电子科技大学学报, 2019, 48(3): 432-439. doi: 10.3969/j.issn.1001-0548.2019.03.020
[11]	桑葛楠, 韩筱璞. 科学家科研合作关系的均衡性特征 . 电子科技大学学报, 2019, 48(5): 786-793. doi: 10.3969/j.issn.1001-0548.2019.05.020
[12]	钮金鑫, 郭伟. 移动D2D网络中基于链路状态预测的资源分配算法 . 电子科技大学学报, 2018, 47(5): 665-671. doi: 10.3969/j.issn.1001-0548.2018.05.005
[13]	郭婷婷, 赵承业. 异常链路分析在电力网络恢复中的应用 . 电子科技大学学报, 2016, 45(5): 854-859. doi: 10.3969/j.issn.1001-0548.2016.05.024
[14]	唐雪飞, 杨陈皓, 牛新征. 复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
[15]	张昌利, 龚建国, 闫茂德. 基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
[16]	王文强, 张千明. 链路预测的网络演化模型评价方法 . 电子科技大学学报, 2011, 40(2): 174-179. doi: 10.3969/j.issn.1001-0548.2011.02.003
[17]	吕琳媛. 复杂网络链路预测 . 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
[18]	周巧临, 傅彦. 科学数据时间序列的预测方法 . 电子科技大学学报, 2007, 36(6): 1260-1263.
[19]	吴光斌, 李军, 夏侯荔鹏. 用动态链路复用技术构建多业务交换体系结构 . 电子科技大学学报, 2006, 35(5): 815-818.
[20]	唐小我, 王景, 曹长修. 一种新的模糊自适应变权重组合预测算法 . 电子科技大学学报, 1997, 26(3): 289-292.

点击查看大图

图(5) / 表(5)

计量

文章访问数: 6341
HTML全文浏览量: 1670
PDF下载量: 51
被引次数: 0

全文HTML

随着科学研究的迅猛发展和数据分析技术的应用，“科学学”已经成为近年来国内外研究的热点^[1-2]。其中，由于科学家合作网络是科研活动组织与科学信息传播的重要结构基础，因此受到科研学者的广泛关注^[3]。在此情况下，科学家合作网络中的合作形成以及合作权重预测就成为很有意义的研究课题，对应网络科学中的科学问题为链路预测^[4]和权重预测^[5]。通过对科学家合作网络的定量分析，可以辨识科学家在合作网络中的角色、了解他们之间的合作模式并预测他们学术合作的可持续性和合作强度。本文基于多个实证科学家合作网络的多模体特征对科学家合作进行预测，旨在预测网络中的科学家之间未来合作的可能性，及其合作的强度。

链路预测是通过网络中部分节点以及它们之间的结构信息，预测网络中任意两个节点之间存在连接的可能性^[6]。近年来，基于网络结构相似性的链路预测方法引起了学者们的广泛关注。文献[7]提出了基于网络拓扑结构的相似性预测方法，并发现在科学家合作网中使用节点的共同邻居(common neighbors, CN)和Adamic-Adar(AA)指标进行预测的准确性最好^[8]。文献[9]提出了使预测准确性更高的资源分配(resource allocation, RA)指标和局部路径(local path, LP)指标。文献[10]将局部随机游走应用于链路预测，进一步提高了预测的准确性。近年来，人们将机器学习方法应用于链路预测问题，综合性使用多种特征大大提高了链路预测的准确性^[11]。以上方法大都仅能应用于无权网络的链路预测中，在加权网络链路预测中，文献[12]提出了3个基于无权网络的经典相似性CN、AA和RA的加权形式指标，分别是WCN、WAA和WRA。

权重预测是预测两个节点之间连接的权重。在现实世界中的许多网络都是加权网络，在不同的网络中权重通常代表不同的含义。如在航空网络中，连边权重代表航班数量；在社交网络中，连边权重代表朋友间的亲密程度；在科学家合作网中，连边权重代表作者与作者之间的合作强度。连边的权重预测是一个较新的研究主题，科研人员提出了一些有效的预测算法。文献[13]提出了一种基于局部网络结构(分析节点的邻居集合结构)的权重预测方法，此方法在链接存在或不存在的情况下都可以使用，且可以比线性相关方法更准确地预测权重。文献[5]提出了“可靠路线”策略来预测网络中的连边和权重，将未加权的局部相似性指数扩展到加权的网络中，称为rWCN、rWAA和rWRA，使用这些指标计算出相似性得分，取得了较好的预测效果。

目前科学家合作网络中的链路预测和权重预测算法中，基于拓扑结构的相似性指标往往仅关注了科学合作的传递性结构(三角形关系)，将这类指标应用于科学家合作的预测中，只对应了一种科学家之间的合作模式，而忽略了科学家之间存在的其他合作模式及多种合作模式的组合，这些合作模式可以表达为模体或子图。模体的概念最早是由文献[14]提出，定义为实际网络中出现的频次远远高于其对应随机网络的子图^[15]。模体基于微观结构刻画了真实网络中局部相互作用的合作模式，并自下而上自组织构成网络整体结构^[3]。

综上所述，本文在研究通用三角关系一种模体结构特征预测基础上，又利用了科学家合作网中其他7种合作模式，即8种模体结构进行合作预测。研究中通过提取科学家合作网中的单模体特征和多模体特征统计量，并采用机器学习算法对特征进行分析计算，实现网络中科学家之间合作的可能性及其合作强度的链路预测和权重预测，取得了较好的预测性能。

4. 结束语

本文提出了使用多模体特征进行科学家合作链路和权重预测的方法，涉及了8种不同的科学家之间的合作模式，用来解决经典预测方法在拓扑结构上仅仅利用的单一的科学家合作模式的问题，并在不同的网络上进行相关实验验证。实验结果表明，结合多个模体特征进行科学家合作预测可以有效提高预测的准确率，并可有效分析不同合作模式对于预测结果的影响。本文研究有助于预测出科学家合作的可能性及其合作权重，进而挖掘科研合作网络的结构特性对科研产出和科研影响力的影响。在后续研究中，将在模体特征的基础上引入权重信息，即利用模体的结构特征和权重信息进行更准确的预测。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多模体特征的科学家合作预测

doi: 10.12178/1001-0548.2019173

作者简介:
曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

通讯作者: 许爽，E-mail： xushuangcong@163.com

Predicting Scientist Cooperation Based on Multiple motif Features

计量

基于多模体特征的科学家合作预测

doi: 10.12178/1001-0548.2019173

大连民族大学信息与通信工程学院　辽宁大连　116600

作者简介:
曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

通讯作者: 许爽，E-mail： xushuangcong@163.com

English Abstract

Predicting Scientist Cooperation Based on Multiple motif Features

School of Information and Communication Engineering, Dalian Minzu University　Dalian Liaoning　116600

全文HTML

1.1. 问题描述

1.2. 评价指标

2.1. 基于共同邻居加权特征的预测方法

2.2. 基于可靠路线加权特征的预测方法

2.3. 基于模体特征的预测方法

3.1. 数据说明

3.2. XGBoost机器学习方法

3.3. 科学家合作链路预测

3.4. 科学家合作权重预测

3.5. 链路预测与权重预测结果对比分析

目录

期刊在线

编辑办公

友情链接

留言板

基于多模体特征的科学家合作预测

doi: 10.12178/1001-0548.2019173

作者简介: 曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

通讯作者: 许爽，E-mail： xushuangcong@163.com

Predicting Scientist Cooperation Based on Multiple motif Features

计量

出版历程

基于多模体特征的科学家合作预测

doi: 10.12178/1001-0548.2019173

大连民族大学信息与通信工程学院 辽宁 大连 116600

作者简介: 曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

通讯作者: 许爽，E-mail： xushuangcong@163.com

English Abstract

Predicting Scientist Cooperation Based on Multiple motif Features

School of Information and Communication Engineering, Dalian Minzu University Dalian Liaoning 116600

全文HTML

1.1. 问题描述

1.2. 评价指标

2.1. 基于共同邻居加权特征的预测方法

2.2. 基于可靠路线加权特征的预测方法

2.3. 基于模体特征的预测方法

3.1. 数据说明

3.2. XGBoost机器学习方法

3.3. 科学家合作链路预测

3.4. 科学家合作权重预测

3.5. 链路预测与权重预测结果对比分析

目录

期刊在线

编辑办公

友情链接

作者简介:
曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

大连民族大学信息与通信工程学院　辽宁大连　116600

作者简介:
曹红艳(1994-)，女，主要从事社交网络数据挖掘和链路预测方面的研究

School of Information and Communication Engineering, Dalian Minzu University　Dalian Liaoning　116600