留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于PageRank的合著论文中作者贡献分配算法

王江盼 郭强 刘建国

王江盼, 郭强, 刘建国. 基于PageRank的合著论文中作者贡献分配算法[J]. 电子科技大学学报, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
引用本文: 王江盼, 郭强, 刘建国. 基于PageRank的合著论文中作者贡献分配算法[J]. 电子科技大学学报, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
WANG Jiang-pan, GUO Qiang, LIU Jian-guo. Credit Allocation for Each Author in a Multi-Author Paper Based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
Citation: WANG Jiang-pan, GUO Qiang, LIU Jian-guo. Credit Allocation for Each Author in a Multi-Author Paper Based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331

基于PageRank的合著论文中作者贡献分配算法

doi: 10.12178/1001-0548.2018331
基金项目: 国家自然科学基金(71771152)
详细信息
    作者简介:

    王江盼(1990-),女,博士,主要从事复杂网络、知识管理、科学学方面的研究

    通讯作者: 郭强,教授,E-mail:qiang.guo@usst.edu.cn
  • 中图分类号: N949

Credit Allocation for Each Author in a Multi-Author Paper Based on PageRank

  • 摘要: 随着科研合作越来越普遍,对合著者的贡献如何合理分配提出了挑战。该文提出了一种基于PageRank的论文合著者贡献分配算法(ACA_PR算法),采用PageRank值和总引用量的加权值度量文章的价值,构建合作者科研记录和科研成果被引情况的共引网络,对论文合著者的贡献进行分配。以美国物理学会APS数据集进行实证研究,通过在诺贝尔物理学奖得主发表的合著论文中识别诺贝尔奖得主验证算法的准确性。实验结果表明,在31篇诺贝尔奖提名论文中,ACA_PR算法的准确率为80.64%。工作在人员聘用、奖励、晋升等方面对评价科研工作者的影响力有着十分重要的作用。
  • 图  1  ACA_PR算法示意图

    图  2  ACA_PR算法识别获奖得主情况

    表  1  诺贝尔物理学奖得主发表合著文章中作者贡献值一览表

    获奖年份/文章合著者贡献值
    ACA_PRShen
    1997/Phys.Rev.Lett.61.169(1988)P.D. Lett0.1660.170
    R.N. Watts0.1600.150
    C.I. Westbrook0.1590.160
    W.D. Phillips*0.1850.220
    P.L. Gould0.1640.158
    H.J. Metcalf0.1650.142
    1994/Phys.Rev.83.333(1951)C.G. Shull*0.3370.347
    W.A. Straiser0.3310.298
    E.O. Wollan0.3320.355
    1964/Phys.Rev.112.1940(1958)A.L. Schawlow0.4910.504
    C.H. Townes*0.5090.497
    下载: 导出CSV

    表  2  两种算法预测诺贝尔奖得主精确度一览表

    样本量精确度/%
    ACA_PRShen’s
    247570.83
    3180.6477.42
    下载: 导出CSV

    表  3  5种原始矩阵分配算法预测诺贝尔奖得主精确度一览表

    指标ACA_PR调和A文献[30]Arithmetic
    $\alpha $80.6461.2961.2970.9661.29
    下载: 导出CSV
  • [1] 高志, 张志强. 个人学术影响力定量评价方法研究综述[J]. 情报理论与实践, 2016, 39(1): 133-138.

    GAO Zhi, ZHANG Zhi-qiang. Review of quantitative evaluation method for individual academic influence[J]. Information Studies: Theory & Application, 2016, 39(1): 133-138.
    [2] 贡金涛, 戚音, 魏莉, 等. 基于指导关系的合著者荣誉分配研究[J]. 理论与探索, 2016, 39(1): 76-81.

    GONG Jin-tao, QI Yin, WEI Li, et al. Research on the co-author honor distribution based on mentoring relationship[J]. Information studies: Theory & Application, 2016, 39(1): 76-81.
    [3] PERSSON R A X. Bibliometric author evaluation through linear regression on the coauthor network[J]. Journal of Informetrics, 2017, 11(1): 299-306. doi:  10.1016/j.joi.2017.01.003
    [4] WALTMAN L. An empirical analysis of the use of alphabetical authorship in scientific publishing[J]. Journal of Informetrics, 2012, 6(4): 700-711. doi:  10.1016/j.joi.2012.07.008
    [5] FORTUNATO S, BERGSTROM C T, BÖRNER K, et al. Science of science[J]. Science, 2018, 359(6379): eaao0185. doi:  10.1126/science.aao0185
    [6] 刘运梅, 李长玲, 刘小慧. 基于合著作者贡献大小分配权值的p指数探讨[J]. 图书情报工作, 2016, 60(21): 81-86.

    LIU Yun-mei, LI Chang-ling, LIU Xiao-hui. Discussion of p-index based on the co-author contribution division value[J]. Library and Information Service, 2016, 60(21): 81-86.
    [7] 王雨, 郭进利. 基于灰色关联分析的作者影响力综合评价方法[J]. 情报杂志, 2017, 36(3): 185-188. doi:  10.3969/j.issn.1002-1965.2017.03.032

    WANG Yu, GUO Jin-li. A comprehensive evaluation method for author influence based on grey relational analysis[J]. Journal of Intelligence, 2017, 36(3): 185-188. doi:  10.3969/j.issn.1002-1965.2017.03.032
    [8] 胡小军, 郭强, 杨凯, 等. 基于相对熵的多属性作者学术影响力排名研究[J]. 电子科技大学学报, 2018, 47(2): 279-285. doi:  10.3969/j.issn.1001-0548.2018.02.019

    HU Xiao-jun, GUO Qiang, YANG Kai, et al. Multi-attribute researcher academic influence ranking based on relative entropy[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 279-285. doi:  10.3969/j.issn.1001-0548.2018.02.019
    [9] 杨波, 王雪. 多重关系下的机构网络学科显著性研究[J]. 情报学报, 2017, 36(10): 1066-1072. doi:  10.3772/j.issn.1000-0135.2017.10.010

    YANG Bo, WANG Xue. Research on domain visibility of institution networks with multiple relations[J]. Journal of the China Society for Scientific and Technical Information, 2017, 36(10): 1066-1072. doi:  10.3772/j.issn.1000-0135.2017.10.010
    [10] 孙红, 左腾. 基于PageRank的微博用户影响力算法研究[J]. 计算机应用研究, 2018, 35(4): 1028-1032. doi:  10.3969/j.issn.1001-3695.2018.04.015

    SUN Hong, ZUO Teng. Research on algorithm of micro-blog user influence based on PageRank[J]. Application Research of Computers, 2018, 35(4): 1028-1032. doi:  10.3969/j.issn.1001-3695.2018.04.015
    [11] PRICE D D S. Multiple authorship[J]. Science, 1981, 212(4498): 986-986.
    [12] VAN HOOYDONK G. Fractional counting of multiauthored publications: Consequences for the impact of authors[J]. Journal of the American Society for Information Science, 1997, 48(10): 944-945. doi:  10.1002/(SICI)1097-4571(199710)48:10<944::AID-ASI8>3.0.CO;2-1
    [13] EGGHE L, ROUSSEAU R, VAN HOOYDONK G. Methods for accrediting publications to authors or countries: Consequences for evaluation studies[J]. Journal of the Association for Information Science and Technology, 2000, 51(2): 145-157.
    [14] HAGEN N T. Harmonic publication and citation counting: sharing authorship credit equitably – not equally, geometrically or arithmetically[J]. Scientometrics, 2010(84): 785-793.
    [15] GARFIELD E. Citation analysis as a tool in journal evaluation[J]. Science, 1972, 178(4060): 471-479. doi:  10.1126/science.178.4060.471
    [16] NEWMAN M E J. The structure of scientific collaboration networks[J]. Proceedings of the National Academy of Sciences of the United States of America, 2001, 98(2): 404-409. doi:  10.1073/pnas.98.2.404
    [17] PETERSEN A M, WANG F, STANLEY H E. Methods for measuring the citations and productivity of scientists across time and discipline[J]. Physical Review E, 2010, 81(3): 036114. doi:  10.1103/PhysRevE.81.036114
    [18] HIRSCH J E. An index to quantify an individual’s scientific research output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569-16572. doi:  10.1073/pnas.0507655102
    [19] 周骛, 金娜, 蔡小舒. 基于h指数的上海理工大学动力工程及工程热物理学科现状和发展[J]. 上海理工大学学报, 2014, 36(2): 163-169.

    ZHOU Wu, JIN Na, CAI Xiao-shu. Using h-Index to evaluate the discipline of power engineering and engineering thermalphysics in USST[J]. J. University of Shanghai for Science and Technology, 2014, 36(2): 163-169.
    [20] EGGHE L. Theory and practise of the g-index[J]. Scientometrics, 2006, 69(1): 131-152. doi:  10.1007/s11192-006-0144-7
    [21] TOL R S J. Credit where credit’s due: Accounting for co-authorship in citation counts[J]. Scientometrics, 2011, 89(1): 291-299. doi:  10.1007/s11192-011-0451-5
    [22] SHEN H W, BARABÁSI A L. Collective credit allocation in science[J]. Proceedings of the National Academy of Sciences of the United States of America, 2014, 111(34): 12325-12330. doi:  10.1073/pnas.1401992111
    [23] PAGE L, BRIN S, MOTWANI R, et al. The pagerank citation ranking: Bringing order to the web[M]. [S.l.]: Stanford Digital Labrary Technologies Project, 1998.
    [24] WANG J P, GUO Q, YANG K, et al. Credit allocation for research institutes[J]. EPL (Europhysics Letters), 2017, 118(4): 48001. doi:  10.1209/0295-5075/118/48001
    [25] WANG J P, GUO Q, YANG G Y, et al. Improved knowledge diffusion model based on the collaboration hypernetwork[J]. Physica A, 2015, 428: 250-256. doi:  10.1016/j.physa.2015.01.062
    [26] GUO Q, HAN J T, LIU J G. Collective behaviors of book holding durations[J]. Physics Letters A, 2016, 380(42): 3460-3464. doi:  10.1016/j.physleta.2016.08.043
    [27] BRIN S, PAGE L. The anatomy of a large-scale hypertextual web search engine[J]. Computer Networks and ISDN Systems, 1998, 30(1-7): 107-117. doi:  10.1016/S0169-7552(98)00110-X
    [28] HAGEN N T. Harmonic coauthor credit: A parsimonious quantification of the byline hierarchy[J]. Journal of Informetrics, 2013, 7(4): 784-791. doi:  10.1016/j.joi.2013.06.005
    [29] STALLINGS J, VANCE E, YANG J, et al. Determining scientific impact using a collaboration index[J]. Proceedings of the National Academy of Sciences, 2013, 110(24): 9680-9685. doi:  10.1073/pnas.1220184110
    [30] ZHANG C T. A proposal for calculating weighted citations based on author rank[J]. EMBO Reports, 2009, 10(5): 416-417. doi:  10.1038/embor.2009.74
    [31] ABBAS A M. Weighted indices for evaluating the quality of research with multiple authorship[J]. Scientometrics, 2011, 88(1): 107-131. doi:  10.1007/s11192-011-0389-7
    [32] CHENG S, PAN Yun-tao, YUAN Jun-peng, et al. PageRank, HITS and impact factor for journal ranking[C]//2009 WRI World Congress on Computer Science and Information Engineering. [S.l.]: IEEE, 2009, 6: 285-290.
    [33] SAYYADI H, GETOOR L. Futurerank: Ranking scientific articles by predicting their future pagerank[C]//Proceedings of the 2009 SIAM International Conference on Data Mining. [S.l.]: Society for Industrial and Applied Mathematics, 2009: 533-544.
    [34] BAO P, ZHAI C. Dynamic credit allocation in scientific literature[J]. Scientometrics, 2017, 112(1): 595-606. doi:  10.1007/s11192-017-2335-9
    [35] PERIANES-RODRIGUEZ A, RUIZ-CASTILLO J. A comparison of two ways of evaluating research units working in different scientific fields[J]. Scientometrics, 2016, 106(2): 539-561. doi:  10.1007/s11192-015-1801-5
    [36] MINGERS J, YANG L. Evaluating journal quality: A review of journal citation indicators and ranking in business and management[J]. European Journal of Operational Research, 2017, 257(1): 323-337. doi:  10.1016/j.ejor.2016.07.058
  • [1] 陈欣, 李闯, 金凡.  量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
    [2] 崔少国, 独潇, 张宜浩.  基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
    [3] 赵世跃, 周涛, 韩筱璞, 周银座.  中国电影演员市场影响力的性别差异分析 . 电子科技大学学报, 2024, 53(2): 271-276. doi: 10.12178/1001-0548.2023053
    [4] 夏欣, 马闯, 张海峰.  基于改进的度折扣方法研究社交网络影响力最大化问题 . 电子科技大学学报, 2021, 50(3): 450-458. doi: 10.12178/1001-0548.2020338
    [5] 郭强, 陈清文, 刘建国.  基于引文分析的科学家投入产出绩效算法研究 . 电子科技大学学报, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
    [6] 邵鹏, 胡平.  复杂网络特殊用户对群体观点演化的影响 . 电子科技大学学报, 2019, 48(4): 604-612. doi: 10.3969/j.issn.1001-0548.2019.04.019
    [7] 朱军芳, 陈端兵, 周涛, 张千明, 罗咏劼.  网络科学中相对重要节点挖掘方法综述 . 电子科技大学学报, 2019, 48(4): 595-603. doi: 10.3969/j.issn.1001-0548.2019.04.018
    [8] 范天龙, 吕琳媛.  H-指数及其衍生指标的本质探讨 . 电子科技大学学报, 2019, 48(1): 142-149. doi: 10.3969/j.issn.1001-0548.2019.01.021
    [9] 王润祯, 杨春, 陈全, 付传技, 高雅纯, 贾啸, 李嘉阳.  初始条件对网络渗流变换的影响 . 电子科技大学学报, 2018, 47(2): 303-306. doi: 10.3969/j.issn.1001-0548.2018.02.023
    [10] 胡小军, 郭强, 杨凯, 王江盼, 刘建国.  基于相对熵的多属性作者学术影响力排名研究 . 电子科技大学学报, 2018, 47(2): 279-285. doi: 10.3969/j.issn.1001-0548.2018.02.019
    [11] 史定华.  网络科学中的互联网加——理念、评述和展望 . 电子科技大学学报, 2016, 45(4): 616-624. doi: 10.3969/j.issn.1001-0548.2016.04.014
    [12] 唐雪飞, 杨陈皓, 牛新征.  复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
    [13] 许小可, 刘肖凡.  网络科学的发展新动力:大数据与众包 . 电子科技大学学报, 2013, 42(6): 802-805. doi: 10.3969/j.issn.1001-0548.2013.06.001
    [14] 张昌利, 龚建国, 闫茂德.  基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
    [15] 周郁明, 靳爱津, 冯德仁.  钒补偿度对SiC光导开关特性影响的研究 . 电子科技大学学报, 2012, 41(6): 937-940. doi: 10.3969/j.issn.1001-0548.2012.06.023
    [16] 张聪, 沈惠璋.  网络自然密度社团结构模块度函数 . 电子科技大学学报, 2012, 41(2): 185-191. doi: 10.3969/j.issn.1001-0548.2012.02.003
    [17] 甄雁翔, 苏放, 寇明延, 徐惠民.  异构网络中丢包隶属度函数的构建方法 . 电子科技大学学报, 2010, 39(6): 845-849. doi: 10.3969/j.issn.1001-0548.2010.06.009
    [18] 李瑾坤, 曹欢, 田清.  知识型作业胜任力的脑神经科学分析 . 电子科技大学学报, 2009, 38(6): 1039-1041. doi: 10.3969/j.issn.1001-0548.2009.06.031
    [19] 周巧临, 傅彦.  科学数据时间序列的预测方法 . 电子科技大学学报, 2007, 36(6): 1260-1263.
    [20] 何元清, 孙世新, 陈文宇.  网络通信延迟对并行效率的影响 . 电子科技大学学报, 2002, 31(2): 156-158.
  • 加载中
图(2) / 表(3)
计量
  • 文章访问数:  5732
  • HTML全文浏览量:  1598
  • PDF下载量:  42
  • 被引次数: 0
出版历程
  • 收稿日期:  2018-12-20
  • 修回日期:  2020-07-15
  • 网络出版日期:  2020-11-25
  • 刊出日期:  2020-11-23

基于PageRank的合著论文中作者贡献分配算法

doi: 10.12178/1001-0548.2018331
    基金项目:  国家自然科学基金(71771152)
    作者简介:

    王江盼(1990-),女,博士,主要从事复杂网络、知识管理、科学学方面的研究

    通讯作者: 郭强,教授,E-mail:qiang.guo@usst.edu.cn
  • 中图分类号: N949

摘要: 随着科研合作越来越普遍,对合著者的贡献如何合理分配提出了挑战。该文提出了一种基于PageRank的论文合著者贡献分配算法(ACA_PR算法),采用PageRank值和总引用量的加权值度量文章的价值,构建合作者科研记录和科研成果被引情况的共引网络,对论文合著者的贡献进行分配。以美国物理学会APS数据集进行实证研究,通过在诺贝尔物理学奖得主发表的合著论文中识别诺贝尔奖得主验证算法的准确性。实验结果表明,在31篇诺贝尔奖提名论文中,ACA_PR算法的准确率为80.64%。工作在人员聘用、奖励、晋升等方面对评价科研工作者的影响力有着十分重要的作用。

English Abstract

王江盼, 郭强, 刘建国. 基于PageRank的合著论文中作者贡献分配算法[J]. 电子科技大学学报, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
引用本文: 王江盼, 郭强, 刘建国. 基于PageRank的合著论文中作者贡献分配算法[J]. 电子科技大学学报, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
WANG Jiang-pan, GUO Qiang, LIU Jian-guo. Credit Allocation for Each Author in a Multi-Author Paper Based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
Citation: WANG Jiang-pan, GUO Qiang, LIU Jian-guo. Credit Allocation for Each Author in a Multi-Author Paper Based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(6): 918-923. doi: 10.12178/1001-0548.2018331
  • 随着现代学科的发展,科研人员之间的学术合作越来越普遍[1]。研究表明,诺贝尔获奖论文中合著论文占了将近79%[2-3]。根据2011年web of science 数据库统计显示,在130万篇论文中有89%的论文是合著论文[4]。如何对合著论文中各合著者的贡献进行分配,成为近年科研评价研究中的新挑战[5-10]

    目前,科研成果的贡献分配主要存在3类模式:1)按照署名顺序进行分配,如Fractional counting[11]、Proportional counting[12]、Geometric counting[13]、Harmonic counting[14]等,该类方法按照合著者在论文中的署名位置信息直接进行分配,方式简单但缺乏科学性,忽略了科研成果本身的贡献;2)按照发表后的科研成果分配,如期刊影响因子(IF)[15]、总引用量[16]、总论文数[17]、同时反映论文数和引用量的H指数[18-19]、基于引用量分布的G指数[20]等。该算法较第一类算法在构造上更为合理,但并没有考虑作者与引文网络的结构关系;3)依据引文网络结构,如文献[21]运用帕累托方法,从合作者科研记录和科研成果的被引情况来推导合作团队中成员的科研贡献。文献[22]考虑了论文与作者早期工作构成的共被引关系,提出一种主题依赖的贡献分配算法(Shen’s算法)。上述方法假设每一篇论文及其所获每一篇引文的贡献都相等。但实际中,每篇文章所得到引用量不尽相同,每一篇引文的贡献亦不相同,因此,每篇文章的贡献也不相同。一篇文章被其他文章引用越多或被高贡献的文章引用越多,那么其自身贡献也就越高。

    基于此思想,本文提出了一个基于PageRank[23]算法的论文合著者贡献分配算法(ACA_PR算法),用于评价合著论文中各合著者的贡献大小。本文采用美国物理学会(American physical society, APS)的数据,以APS数据集进行实证研究,通过在诺贝尔物理学奖得主发表的合著论文中识别诺贝尔奖得主说明算法的准确性。

    • 在学术界,一篇文章可以引用其他文章,也可以被其他文章引用。文章之间的引用关系可以描述为一个有向网络[24-26],定义被引论文$P = \{ {p_1},{p_2},\cdots,{p_m}\} $,施引论文集合$C = \{ {c_1},{c_2},\cdots,{c_n}\} $,有向边集合$E = \{ {e_1}, {e_2},\cdots,{e_l}\} $,边的方向从施引论文指向被引论文,还包括作者集合$A = \{ {a_1},{a_2},\cdots,{a_g}\} $

      1)考虑包含$k$个作者的文章,记为${p_j}$,作者记为${a_i}(1 \leqslant i \leqslant k)$。本文的目的是度量在$t$时刻合著者${a_i}$在文章${p_j}$中的贡献值,记为$c_{i,j}^t$。首先,找出引用论文${p_j}$的施引论文集合${X_j}$。然后从集合${X_j}$的被引论文集中筛选出被引论文集合${Y_j}$,被引论文满足与文章${p_j}$至少有一个相同的作者。分别计算在集合${X_j}$和集合${Y_j}$中的文章,如文章在$t$时刻的总引用量$m_l^t$。计算文章${p_l}$$t$时刻的PageRank值,记为${\rm{PR}}_l^t$

      PageRank算法[27]的迭代规则为:

      $$ {\rm{PR}}_l^t(\tau ) = (1 - d) + d\sum\limits_{{p_s} \in {X_l}} {\frac{{{\rm{PR}}_s^t(\tau - 1)}}{{\left| {{X_l}} \right|}}} $$ (1)

      式中,$\tau $是迭代步长;$\left| \cdot \right|$为集合尺寸;$d$为阻尼因子,此处取$d = 0.85$;初始状态${\rm{PR}}_i^t(0) = 1(i = 1,2, \cdots , N)$。终止条件:$\left| {{{{R}}^t}(\tau + 1) - {{{R}}^t}(\tau )} \right| < {10^{ - 5}}$。得到t时刻文章列表的PageRank向量${{{R}}^t}$

      2)计算贡献分配矩阵B,元素${b_{i,h}}$定义为作者${a_i}$${Y_j}$集合中的第$h$篇论文的贡献值。对于包含$k$位作者的论文中作者${a_i}$的贡献值,采用平均分配的方法,即${b_{i,h}} = \dfrac{1}{k}$,且$\displaystyle\sum\limits_{i = 1}^k {{b_{i,h}} = 1} $

      图  1  ACA_PR算法示意图

      3) 向量V定义为文章的价值矩阵,如文章${p_l}$$t$时刻的价值$V_l^t$,通过其在$t$时刻的总引用量ml和PageRank值加权PRl得到:

      $$ V_l^t = {m_l}{\rm{P}}{{\rm{R}}_l} $$ (2)

      4)共引强度向量W定义为共引论文与目标文章${p_j}$的共引强度。元素$w_{h,j}^t$为在集合${Y_j}$中的第$h$篇论文与文章${p_j}$的共同施引论文的价值之和:

      $$ w_{h,j}^t = \sum\limits_{{p_{u \in {D_{h,j}}}}} {V_u^t} $$ (3)

      式中,文章${p_u}$是集合${Y_j}$中第$u$篇文章;集合${D_{h,j}}$是目标文章${p_j}$与文章${p_u}$的共施引文章集合,${D_{h,j}} \subset {Y_j}$

      5)最后,在$t$时刻作者${a_i}$在文章${p_j}$中的贡献值$c_{i,j}^t$定义为作者${a_i}$在所有共引论文中所获贡献值之和:

      $$ c_{i,j}^t = \sum\nolimits_h {{b_{i,h}}V_h^tw_{h,j}^t} $$ (4)

      或者写为矩阵形式:

      $$ {{c}} = {{BVW}} $$ (5)

      图1为ACA_PR算法的示意图。step0在$t = 2010$年时,$P = \{ {p_1},{p_2},\cdots ,{p_9}\} $。本算法的目的在于衡量作者${a_1}$和作者${a_2}$在文章${p_1}$中的学术影响力。step1建立${p_1}$文章的施引论文集合${X_1} = \{ {p_3},{p_8}\} $,共引论文集合${Y_1} = \{ {p_1},{p_5},{p_7}\} $,计算每篇文章的引用量$m_1^t$、每篇文章的PageRank值${\rm{P}}{{\rm{R}}_l}$。step2计算原始分配矩阵${{B}}$,针对作者${a_1}$,其为文章${p_1}$中两个合作者之一,则作者${a_1}$在文章${p_1}$中所占的原始贡献值为$\dfrac{1}{2}$;同理,得到矩阵${{B}}$。计算施引文章价值${{V}}$,由其引用量和自身PageRank值加权得到。step3计算共引强度矩阵${{W}}$,由共施引文章的引用量和PageRank值加权和得到。step4根据上述步骤得到的${{B}}$${{V}}$${{W}}$,按照式(5)得到作者${a_1}$$ {a}_{2} $于2010年时在文章${p_1}$中的学术贡献占比分别为0.138、0.862。

    • 准确率,又称为正确率$\alpha $,定义为在给定样本时,预测正确的样本数与总样本数的比值:

      $$ \alpha = \frac{{{\rm{TP}}}}{L} $$ (6)

      式中,${\rm{TP}}$为预测正确的样本数;$ L $为测试样本数,本文使用31篇诺贝尔物理学奖获得者的论文作为样本集,$L = 31$

    • 本文数据来源于APS,包括从1893年−2009年在其数据集上超过46万已发表的文章。每篇文章包括几个字段:文章唯一标识DOI,文章题目,发表日期(年、月、日),作者姓名,单位名称,PACS码等。另外一个数据集用文章编号表示,提供了超过470万条引用关系。为了研究合著论文中各合著者的贡献问题,本文最终得到24万多位作者,包括他们的发表文章情况以及被引用情况。本文采用1995年−2013年诺贝尔物理学奖获得者发表的论文作为研究样本集,检索到APS数据集中共包含31篇物理学诺贝尔获得者发表的论文。

      图2是对31篇诺贝尔物理学奖获得者发表的论文,ACA_PR算法识别诺贝尔奖得主结果图。第一列表示诺贝尔物理学奖获得者发表的文章检索号,●代表实际的诺贝尔奖得主在文章中的署名位置,★代表算法中贡献值最大的作者并不是诺贝尔奖得主,即算法预测的诺贝尔奖得主与实际的诺贝尔奖得主不匹配。其他的作者用○表示。

      图  2  ACA_PR算法识别获奖得主情况

    • 在APS数据集中,本文提出的ACA_PR算法,采用PageRank值和总引用量的加权值度量文章的贡献值,构建合作者科研记录和科研成果被引情况的共引网络,对论文合著者的贡献进行分配,并与Shen’s算法进行对比。表1选取了3篇诺贝尔物理学奖获得者的论文,在获得诺贝尔奖之前,使用两种方法预测诺贝尔奖得主的结果。表中作者顺序按照在文章中实际署名顺序依次排列,*标记出真实的诺贝尔奖得主,最大贡献值加粗标出。

      表 1  诺贝尔物理学奖得主发表合著文章中作者贡献值一览表

      获奖年份/文章合著者贡献值
      ACA_PRShen
      1997/Phys.Rev.Lett.61.169(1988)P.D. Lett0.1660.170
      R.N. Watts0.1600.150
      C.I. Westbrook0.1590.160
      W.D. Phillips*0.1850.220
      P.L. Gould0.1640.158
      H.J. Metcalf0.1650.142
      1994/Phys.Rev.83.333(1951)C.G. Shull*0.3370.347
      W.A. Straiser0.3310.298
      E.O. Wollan0.3320.355
      1964/Phys.Rev.112.1940(1958)A.L. Schawlow0.4910.504
      C.H. Townes*0.5090.497

      在给出的3篇实例文章中,ACA_PR算法计算的论文中诺贝尔奖得主比其他合著者得到更多的贡献值。无论他是处于第一作者的位置(如论文Phys.Rev.83.333),或者处于最后位置(如论文Phys.Rev.112.1940),又或者处于中间某个位置(如论文Phys.Rev.Lett.61.169),ACA_PR算法都能准确的找出诺贝尔物理学奖得主。为了分析ACA_PR算法的工作原理,对算法的结果进行了分析。对于1994年的诺贝尔物理学奖获得者发表的合著论文进行分析,Shen’s算法把每篇文章视为同等价值对待,E.O. Wollan 教授获得了最大的贡献值。但用ACA_PR算法区分文章的价值,分析发现,C.G. Shull教授发表的几篇文章(如Phys.Rev.103.525, Rev.Mod.Phys.25.100)被一些高影响力的文章引用(在考虑的121篇文章中,Rev.Mod.Phys.30.1排名第二,Phys.Rev.79.1004.2排名第38位),基于此,利用ACA_PR算法突出了这些论文的贡献量,正确地识别出E.O. Wollan 教授应为1994年诺贝尔物理学奖得主之一。同理,在1964年诺贝尔物理学奖得主发表的合著文章中,ACA_PR算法发现C.H. Townes教授发表的论文(Phys.Rev.Lett.1.342, Phys.Rev.107.1450, Phys.Rev.109.302)被高影响力论文引用(如Rev.Mod.Phys.31.681在20篇论文中排名第一),因此这些论文的共引权重值增大,最终正确识别出C.H. Townes教授为1964年的诺贝尔物理学奖得主之一。然而,Shen’s算法把这些高影响力的论文与一般性论文同等价值看待,得出了错误的结果,A.L. Schawlow教授获得最大的贡献值。

      表2表明在24篇合著文章中,ACA_PR算法的准确度是75%, SB算法为70.83%,ACA_PR算法比Shen’s算法提高了。随后,在考虑加入作者为独立作者或者所有作者均为诺贝尔奖得主的7篇文章情况下,即在考虑所有31篇论文时,ACA_PR算法、Shen’s算法的准确率分别为80.64%和77.42%。进一步分析识别错误的原因有利于更好的理解ACA_PR算法。综上,本文提出的ACA_PR算法的结果在一定程度上符合科学界对科研人员贡献的评价。

      表 2  两种算法预测诺贝尔奖得主精确度一览表

      样本量精确度/%
      ACA_PRShen’s
      247570.83
      3180.6477.42

      理论上来说,任意一种基于作者署名列表的贡献分配算法都可以为本文算法提供一个初始贡献分配矩阵。因此,本文另外考虑了4种经典的贡献分配算法,分别是调和指数[28]、A指数[29]、文献[30]算法和Arithmetic算法[31],如表3所示。

      表 3  5种原始矩阵分配算法预测诺贝尔奖得主精确度一览表

      指标ACA_PR调和A文献[30]Arithmetic
      $\alpha $80.6461.2961.2970.9661.29
    • 针对每篇论文的价值不同,每篇引文的价值也不相同,被高被引论文引用的文章应该具有更高的价值。本文考虑引文数量和文章的PageRank值来衡量一篇文章的价值,提出了一种改进的贡献分配算法。运用APS数据集,通过识别诺贝尔奖得主对算法的精确度进行实证分析。在24篇文章的样本数据集中,ACA_PR算法的精确度为75%,比Shen’s算法提高了4.17%;在所有31篇样本数据中,ACA_PR算法的精确度为80.64%,比Shen’s算法提高了3.22%。

      总的来说,本文针对合著论文中各合著者的贡献分配问题提出了一个相对合理的分配算法。实证结果表明,把论文自身价值与引文价值同时加以考虑能更好地度量文章价值。此方法不仅只对物理学领域有效,同样适用于评价其他科学学科。因此,该方法可以进一步用来分析机构排名、城市或国家排名、研究个人职业轨迹与个人影响力之间的关系,也可用来评价科学家过去工作和潜在的未来影响等。但本文仍存在明显的局限性;1)本文使用的PageRank算法对论文价值进行度量,近期也出现了许多改进方法,如:HITS[32]、FutureRank[33]等;2)本文仅使用了一个数据集(APS数据集),Web of Science、Google Scholar等新的可用数据集可以提供更完整的结果;3)仍然有很多因素可以被用来优化结果,如发表时间[34]、学科领域[35]、期刊影响因子[36]等。

参考文献 (36)

目录

    /

    返回文章
    返回