Volume 49 Issue 5
Sep.  2020
Article Contents

GUO Qiang, CHEN Qing-wen, LIU Jian-guo. Modeling of Input-output Performance of Scientists Based on the Analysis of Citation[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
Citation: GUO Qiang, CHEN Qing-wen, LIU Jian-guo. Modeling of Input-output Performance of Scientists Based on the Analysis of Citation[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

doi: 10.12178/1001-0548.2018236
  • Received Date: 2018-09-06
  • Rev Recd Date: 2019-10-09
  • Available Online: 2020-09-29
  • Publish Date: 2020-09-23
  • This paper presents a model to evaluate input-output performance of scientists. With consideration of the input cost of scientists' communication and time, this model takes the number of co-authors and the number of institutions of target scientists in scientific papers as input variables, and the number of co-published articles and their cited number as output variables. The experiments results show the scientists who won Nobel Price are ranked higher than the sciences who did not win Nobel Price. The experimental results also show that the AUC values of input-output performance model could reach 0.7957 for the APS data set, which is better than the results generated by h-index, i10-index, total number of papers, and total number of citations. Furthermore, The experimental results indicate that most input-output performances of scientists before winning award is higher than the input-output performances of scientists after winning award for the APS data set and the web of science data set. The proposed model also provides an effective tool for policy makers to quantify the input-output performances of sciences.
  • [1] HICKS D, WOUTERS P, WALTMAN L, et al. The Leiden manifesto for research metrics[J]. Nature, 2015, 520(7548): 429. doi:  10.1038/520429a
    [2] 刘浏, 王东波. 引用内容分析研究综述[J]. 情报学报, 2017, 36(6): 637-643. doi:  10.3772/j.issn.1000-0135.2017.06.012

    LIU Liu, WANG Dong-bo. A review of citation content analysis research[J]. Journal of Information, 2017, 36(6): 637-643. doi:  10.3772/j.issn.1000-0135.2017.06.012
    [3] 胡小军, 郭强, 杨凯, 等. 基于相对熵的多属性作者学术影响力排名研究[J]. 电子科技大学学报, 2018, 47(2): 281-285.

    HU Xiao-jun, GUO Qiang, YANG Kai, et al. Multi-attribute researcher academic influence ranking based on relative entropy[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 281-285.
    [4] VAN H B A, PHELPS J, BARNES M, et al. Evaluating scientific impact[J]. Environmental Health Perspectives, 2000, 108(9): A392. doi:  10.1289/ehp.108-a392
    [5] FITZPATRICK R B. Essential science indicators[J]. Medical Reference Services Quarterly, 2005, 24(4): 67. doi:  10.1300/J115v24n04_05
    [6] 曹志梅, 刘伟辉, 杨光. 高校 ESI 潜势学科排名提升策略探讨[J]. 情报探索, 2017(4): 44-47. doi:  10.3969/j.issn.1005-8095.2017.04.009

    CAO Zhi-mei, LIU Wei-hui, YANG Guang. Discussion on the strategy of improving the ESI potential discipline in colleges and universities[J]. Information Research, 2017(4): 44-47. doi:  10.3969/j.issn.1005-8095.2017.04.009
    [7] CSAJBOK E, BERHIDI A, VASAS L, et al. Hirsch-index for countries based on essential science indicators data[J]. Scientometrics, 2007, 73(1): 91-117. doi:  10.1007/s11192-007-1859-9
    [8] HIRSCH J E. An index to quantify an individual's scientific research output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569. doi:  10.1073/pnas.0507655102
    [9] EGGHE L. Theory and practise of the G-index[J]. Scientometrics, 2006, 69(1): 131-152. doi:  10.1007/s11192-006-0144-7
    [10] DELGADO L C E, ROBINSON G N, TORRES S D. The Google scholar experiment: How to index false papers and manipulate bibliometric indicators[J]. Journal of the Association for Information Science and Technology, 2014, 65(3): 446-454. doi:  10.1002/asi.23056
    [11] BRIN S, PAGE L. The anatomy of a large-scale hypertexual web search engine[J]. Computer Networks and ISDN Systems, 1998, 30(1-7): 107-117. doi:  10.1016/S0169-7552(98)00110-X
    [12] 王露, 郭强, 刘建国. 基于加权方法的节点重要性度量[J]. 计算机应用研究, 2018(5): 1426-1428. doi:  10.3969/j.issn.1001-3695.2018.05.031

    WANG Lu, GUO Qiang, LIU Jian-guo. Node importance measure based on weighting method[J]. Journal of Computer Applications, 2018(5): 1426-1428. doi:  10.3969/j.issn.1001-3695.2018.05.031
    [13] 顾亦然, 许梦馨. 基于PageRank的新闻关键词提取算法[J]. 电子科技大学学报, 2017, 46(5): 777-783. doi:  10.3969/j.issn.1001-0548.2017.05.021

    GU Yi-ran, XU Meng-xin. News keyword extraction algorithm based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(5): 777-783. doi:  10.3969/j.issn.1001-0548.2017.05.021
    [14] 陈仕吉, 史丽文, 左文革. 科学合作网络中节点合作效果评测与分析[J]. 图书情报工作, 2012, 56(10): 61-143.

    CHEN Shi-ji, SHI Li-wen, ZUO Wen-ge. Evaluation and analysis of node cooperation effect in scientific cooperation network[J]. Library and Information Service, 2012, 56(10): 61-143.
    [15] CHARNES A, COOPER W W, RHODES E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research, 1978, 2(6): 429-444. doi:  10.1016/0377-2217(78)90138-8
    [16] DE S P D J, BEAVER D. Collaboration in an invisible college[J]. American Psychologist, 1966, 21(11): 1011. doi:  10.1037/h0024051
    [17] 苏芳荔. 科研合作对期刊论文被引频次的影响[J]. 图书情报工作, 2011, 55(10): 144-148.

    SU Fang-li. The influence of scientific research cooperation on the citation frequency of journal papers[J]. Library and Information Service, 2011, 55(10): 144-148.
    [18] 何海燕, 李芳. 高校科研合作对论文产出质量的影响—基于国家重点实验室分析[J]. 北京理工大学学报(社会科学版), 2017, 19(5): 162-167.

    HE Hai-yan, LI Fang. The influence of scientific research cooperation on the output quality of papers-Based on the analysis of national key laboratories[J]. Journal of Beijing Institute of Technology (Social Science Edition), 2017, 19(5): 162-167.
    [19] 王卫, 史锐涵, 潘京华. 基于期刊论文的作者学术合作与科研产出关系研究—以图书情报领域为例[J]. 情报杂志, 2017, 36(3): 191-195. doi:  10.3969/j.issn.1002-1965.2017.03.033

    WANG Wei, SHI Rui-han, PAN Jing-hua. Research on the relationship between academic cooperation and scientific research output based on journal papers—Taking the field of library and information as an example[J]. Journal of Information, 2017, 36(3): 191-195. doi:  10.3969/j.issn.1002-1965.2017.03.033
    [20] BROWN S A, DENNIS A R, VENKATESH V. Predicting collaboration technology use: Integrating technology adoption and collaboration research[J]. Journal of Management Information Systems, 2010, 27(2): 9-54. doi:  10.2753/MIS0742-1222270201
    [21] SHEN H W, BARABASI A L. Collective credit allocation in science[J]. Proceedings of the National Academy of Sciences, 2014, 111(34): 12325-12330. doi:  10.1073/pnas.1401992111
    [22] 刘静, 马建霞. 我国管理科学研究进展分析—以国家自然科学基金立项项目及论文产出为分析数据[J]. 科技管理研究, 2015, 35(326): 249-258.

    LIU Jing, MA Jian-xia. Analysis of the progress of management science research in China—Analysis of national natural science foundation projects and paper outputs as analysis data[J]. Science and Technology Management Research, 2015, 35(326): 249-258.
    [23] ZHANG Song-tao, GUAN Zhong-cheng. Education experience of scientific workforce—A case study on the winners of NSFDYS in CAS[J]. Forum on Science and Technology in China, 2015(12): 132-137.
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(4)  / Tables(1)

Article Metrics

Article views(6336) PDF downloads(39) Cited by()

Related
Proportional views

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

doi: 10.12178/1001-0548.2018236

Abstract: This paper presents a model to evaluate input-output performance of scientists. With consideration of the input cost of scientists' communication and time, this model takes the number of co-authors and the number of institutions of target scientists in scientific papers as input variables, and the number of co-published articles and their cited number as output variables. The experiments results show the scientists who won Nobel Price are ranked higher than the sciences who did not win Nobel Price. The experimental results also show that the AUC values of input-output performance model could reach 0.7957 for the APS data set, which is better than the results generated by h-index, i10-index, total number of papers, and total number of citations. Furthermore, The experimental results indicate that most input-output performances of scientists before winning award is higher than the input-output performances of scientists after winning award for the APS data set and the web of science data set. The proposed model also provides an effective tool for policy makers to quantify the input-output performances of sciences.

GUO Qiang, CHEN Qing-wen, LIU Jian-guo. Modeling of Input-output Performance of Scientists Based on the Analysis of Citation[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
Citation: GUO Qiang, CHEN Qing-wen, LIU Jian-guo. Modeling of Input-output Performance of Scientists Based on the Analysis of Citation[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
  • 引文网络的建模与分析已经被广泛用于评价科学家、科研单位甚至地区或国家的学术影响力。论文的应用次数对科学家、科学家的职称评定、科研奖励等方面都具有重要意义[1-3]。引文网络的分析结果已经被应用于科研管理政策的制定、科研激励等措施,对学科发展具有重要意义[4]

    当前,基于科研引文网络分析方法主要归为两类:基于统计和基于网络结构的评价方法。基于统计的评价方法包括基本科学指标数据库(ESI)[5-7]、总引用次数、总论文发表数、H指数[8]、G指数[9]、I10指数[10]等指标。2001年,美国科技信息所(ISI)提出ESI指标用来度量科学研究绩效[5-6]。ESI是从论文发表总数、引文次数、平均被引频次等多个方面对国家/地区科研水平、机构学术声誉以及期刊学术水平进行衡量。但是ESI只考虑编入Thomson Reuters索引的期刊中发表的书籍、文献[7],限制了其客观性。文献[8]提出既考虑引用量又考虑发文章数的H指数。一个人或组织的H指数定义为其发表的所有文章中被引次数大于等于H次的论文超过H篇。一名科学家的H指数越高,他的论文影响力越大。但是H指数无法对只发表了少数几篇重要文献的科学家的工作进行评价。文献[9]在H指数上做出改进,提出了G指数。G指数是一种基于学者以往贡献的科学家影响力评估方法。此外,一些用来完善或优化H指数的指标也相继被提出。2011年,谷歌提出了I10指数[10],即科学家发表文章中被引次数大于等于10次的文章数。基于网络结构的评价方法包括基于科学家合作[11-12]和引用网络的PageRank算法[13-14]。基于合作网络的PageRank算法是指基于合作网络中科学家之间的合作关系对科学家进行评价,该方法主要反映了科学家在合作网络中的影响力。基于引用网络的PageRank算法则是基于文献之间的引用关系和科学家之间的引用网络对科学家的学术水平进行评估。但是,上述全部方法都只考虑了科学家发表文章数、文章引用量,没有考虑到科学家的沟通、时间等投入成本。因此,本文提出一种考虑输入和输出变量的投入产出模型,对科学家的绩效进行综合评价。

    假设有甲乙两位科学家,科学家甲与多名科学家合作发表了一篇文章,而科学家乙与一名科学家合作也发表了一篇文章,同时他们文章的引用量也相同。用H指数等指标计量甲乙两名科学家的投入产出绩效是相同的。但是,甲比乙投入的多,占用的社会资源更多。如果乙和甲拥有相同的社会资源,乙就可能有更多的产出。综合考虑科学家的投入和产出要素,本文工作主要是提出了一种考虑投入和产出的科学家绩效算法。算法在考虑科学家的科研产出的同时,也考虑了科学家的沟通、时间等投入成本,从投入和产出的视角对科学家的绩效进行建模评价。在APS实证数据集上的实验结果表明,本文提出的方法可以更准确地识别出获诺贝尔奖的科学家,其中本文算法的AUC值为0.7957,比只考虑总引用量的评价方法的准确度提高了8.77%。此外,对于APS数据集,64.29%的科学家获得诺奖前的投入产出绩效高于获得诺奖后的投入产出绩效。对于Web of science数据集,81.25%的科学家获得杰青前的投入产出绩效高于获得杰青后的投入产出绩效。

  • 合理的投入能够最大限度地增加文章的发表数和文章影响力,因此科学家的投入产出绩效算法应该满足两个要求:科学家产出最大化和科学家投入最小化。其中, $J = \left\{ {1,2, \cdots ,n} \right\}$ 表示科学家的集合, $I = \left\{ {1,2, \cdots ,s} \right\}$ 表示投入指标的集合,R = $ \left\{ {1,2, \cdots ,t} \right\}$ 表示产出指标的集合, ${X_j} = \{ {{x_{1j}},{x_{2j}}, \cdots ,{x_{sj}}}\}$ 表示科学家j的投入要素, ${Y_j} = \left\{ {{y_{1j}},{y_{2j}}, \cdots ,{y_{tj}}} \right\}$ 表示科学家j的产出要素, ${v_i}$ i个投入指标的权重, ${u_r}$ r个产出指标的权重,则第j个科学家的投入的综合值为 $\displaystyle\sum\limits_{i = 1}^s {{v_i}{x_{ij}}} $ ,产出的综合值为 $\displaystyle\sum\limits_{r = 1}^t {{u_r}{y_{rj}}} $ ,则科学家 $j$ 的投入产出绩效为:

    本文限定科学家的投入产出绩效 ${h_j}$ 不超过1,即 $\max {h_j} \leqslant 1$ ,这意味着,若第 $j$ 位科学家 ${h_j} = 1$ ,则第 $j$ 位科学家相对于其他科学家而言,他的投入产出绩效最高;若 ${h_j} < 1$ ,则说明第j位科学家相对于其他科学家而言,他的投入产出绩效有待提高。科学家j*( ${j^ * } \in j$ ,且j*j中任意一个科学家)的投入产出绩效经Charnes-Cooper变换,可得[15]

    $\displaystyle\sum\limits_{i = 1}^s {{v_i}{x_{i{j^*}}}} = \frac{1}{c}$ ${\mu _r} = c{u_r}$ ${\omega _i} = c{v_i} $ ,则:

  • 当前,科研合作是科研人员进行科学研究的主要方式。科研合作伙伴之间技能互补、相互信任,有助于科学家双方科研事业长期可持续发展。其中,科研论文合作是科研合作的重要形式,论文的质量是度量科研产出的重要指标。已有的文献显示,论文作者越多,则论文被引用次数越多[16]。也有学者发现一篇论文的署名机构越多,则论文被引用次数越高。因此,本文假定合作科学家数量和合作机构数量可以作为投入产出模型的输入变量[17-18]

    科学家间的合作能够促进科研产出[19-20]图1给出了科学家发文量和平均被引用次数与合作科学家数量,以及合作机构数之间的关系。从中可以发现,合作科学家数量和机构数对于提高论文数量和平均被引次数具有促进作用。

  • 假如科学家甲和乙都发表了1篇论文,其被引次数都为0,科学家甲与3人合作,分别隶属于与科学家甲不同的3所科研机构,而科学家乙与1人合作,隶属于与科学家乙不同的1所科研机构,则甲、乙科学家的H指数、发文章量、引用量也一样。此时,如果不考虑科学家合作的科学家数量以及科学家合作的机构数量,则无法准确地判定出哪一位科学家的绩效更高。根据投入产出绩效算法可以计算得出:

    可以看到,h=0.333<h=1,虽然科学家甲和乙的H指数、发文章数、总被引量都是一样的,但是由于科学家乙合作的科学家数量和合作的机构数量少,因而拥有较高的投入产出绩效。而科学家甲合作的科学家数量和合作的机构数量多,所以影响了科学家甲的投入产出绩效。此外,还可以得出,如果科学家甲和乙二人一起申报职称、基金,用H指数将难以做出取舍,而甲乙两位科学家的投入产出绩效各不相同,用投入产出绩效就可以解决问题。

  • 本文采用美国物理学会(APS)1893~2009年的数据。为了研究科学家的投入产出绩效,最终处理的APS数据集包含超过247 889名科学家(包括35名获得诺贝尔物理学奖的科学家)、451 034篇论文和462 145次引用。此外,本文采用了Web of science数据集包括2011−2015年国家杰出青年科学基金(NSFDYS)管理科学部的资助者在Web of science数据库发表的所有论文。数据集包含标题、出版年份、科学家名称、每位科学家的隶属机构以及每篇论文的引用次数。为了研究获奖者获奖前后科学家的投入产出表现,本文手动处理了科学家获奖前后论文的引文量,筛选出获奖前后都有数据的科学家为实验对象。Web of science最终处理的数据集包含32位管理学科的获杰青的科学家、1680篇论文和22335次引用,APS的最终处理数据集包含28位获得诺奖的科学家、2433篇论文和6949次引用。

  • 在APS数据集中,获诺贝尔奖的35名科学家占总科学家数的1.4‱,本文分别计算诺贝尔奖科学家和非诺贝尔奖科学家的投入产出绩效,其中投入产出绩效值在0~1之间,1代表科学家的投入产出绩效最高,0代表科学家的投入产出绩效最低,结果分布如图2所示。在投入产出绩效为0~0.2时,非诺贝尔科学家的绩效累积分布的趋势急剧上升,而诺贝尔科学家的上升趋势比较平缓。总体上,在同一投入产出绩效下,非诺贝尔科学家的绩效累积分布比获诺贝尔科学家的累积分布高。

    为了直观看出本文提出的投入产出绩效算法的准确性[21]图3给出了投入产出绩效算法与其他指标结果的对比图,子图展示了绩效排名前1000名的科学家中获诺贝尔奖的科学家数分布状态。从中可以发现本文提出的投入产出绩效算法对科学家排名的准确性比其他指标高。

    本文采用AUC指标评价投入产出绩效算法的准确性。具体定义过程如下:分别从测试集合和非测试集合中随机选取一位科学家,比较其投入产出绩效。进行n次抽样后,如果测试集合中的科学家投入产出绩效高于非测试集合中的科学家绩效,则记为n1。如果两者相同,则记为n2,AUC值定义为:

    当AUC=1时表示所有测试集中的科学家绩效均高于非测试集中的结果;AUC=0.5则表示结果与随机抽样的结果相同。抽样次数n越大,结果越可靠,本文取 $n = {10^5}$ 表1给出了不同指标的AUC值,从中可以发现本文方法的结果为0.7957,比其他指标中最高的总引用量指标提高了8.77%。

    投入产出模型 引用量 H指数 I10指数 发表文章数
    AUC 0.7957 0.7080 0.6759 0.5572 0.4279
  • 本文研究了杰出青年基金获得者和诺贝尔奖获得者两个数据集的科学家投入产出绩效:APS数据集和web of science数据集。图4a是28位科学家获诺贝尔奖前后投入产出绩效柱状图。其中,红色代表科学家获得诺贝尔奖前的投入产出绩效,蓝色代表获得科学家诺贝尔奖后的投入产出绩效。从图4a可以看出18位科学家的获奖前的投入产出绩效比获奖后的投入产出绩效高,1位科学家的投入产出绩效不变。图4b的2011−2015年获得国家杰出青年科学基金的管理学部的32位科学家投入产出绩效柱状图。其中,红色代表获得杰青基金前的投入产出绩效,蓝色代表获得杰青基金后的投入产出绩效。从图4b可以看出26位科学家获奖前的投入产出绩效比获奖后的投入产出绩效高,1位科学家的投入产出绩效不变。

  • 本文提出了一种考虑科学家投入和产出信息的绩效评价算法。在评价科学家绩效的时候,除了要考虑科学家的发表论文和论文影响力等产出绩效,还需要考虑科学家的投入精力因素。如科学家需要花大量的时间进行沟通、协商才能够彼此合作。因此,本文考虑了合作科学家数和合作机构数等投入因素,对科学家的投入产出绩效进行综合评价。在包含近百年数据的美国物理学会上的实验结果表明,本文提出方法的AUC值为0.7957,相比于总引用量的评价结果,准确率提高了8.77%。此外,科学家在获奖前后的投入产出绩效实验结果表明,大部分科学家获奖前的投入产出绩效高于获奖后科学家的投入产出绩效。

    科学家投入产出绩效算法取决于投入要素和产出要素的选取,因此可以研究更多投入要素,使科学家的排名更准确。如科学家投入产出绩效在一定程度上取决于科学家研究的主题,而本文方法并没有考虑到研究主题这个投入变量。同时,具有意义的研究主题可能会有更多的产出(发表的论文数),在未来的工作里会考虑加入研究主题来研究科学家的投入产出绩效[22-23]。除此之外,获奖科学家获奖前后绩效的差异的原因很多,如得奖的年龄很大,得奖后文章的价值还没有完全发挥出来等,而本文的方法中并没有考虑到这些影响因素。

Reference (23)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return