基于引文分析的科学家投入产出绩效算法研究

郭强; 陈清文; 刘建国

doi:10.12178/1001-0548.2018236

基于引文分析的科学家投入产出绩效算法研究

doi: 10.12178/1001-0548.2018236

1.
上海理工大学复杂系统科学研究中心　上海杨浦区　200093
2.
上海财经大学会计学院　上海杨浦区　200433

基金项目: 国家自然科学基金(61773248, 71771132)；国家社科重大项目(18ZDA088, 20ZDA060)

详细信息

作者简介:
郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

通讯作者: 刘建国，E-mail： liujg004@ustc.edu.cn

中图分类号: N949

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

1.
Complex Systems Science Research Center, University of Shanghai for Science and Technology　Yangpu Shanghai　200093
2.
School of Accountancy, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

摘要: 该文提出了一种考虑投入和产出的科学家绩效算法。考虑到科学家的沟通、时间等投入成本，该算法以科学论文中目标科学家的合作作者数和机构数作为输入变量，以合作发表的文章及其被引数作为输出变量。基于输入和输出数据，建立科学家投入产出绩效评价模型。在实证数据上的实验结果显示，相对于发表文章数、总引用量、I10指数和H指数等指标，该方法可以更准确地识别出获诺贝尔奖的科学家，算法的AUC值为0.7957，比总引用量指标的准确度提高了8.77%。此外还发现大部分科学家获奖前的投入产出绩效高于获奖后科学家的投入产出绩效。该工作对科学地评价科学家的绩效具有重要意义。
- 引文分析 /
- H指数 /
- 投入产出绩效 /
- 科研合作 /
- 总引用量
Abstract: This paper presents a model to evaluate input-output performance of scientists. With consideration of the input cost of scientists' communication and time, this model takes the number of co-authors and the number of institutions of target scientists in scientific papers as input variables, and the number of co-published articles and their cited number as output variables. The experiments results show the scientists who won Nobel Price are ranked higher than the sciences who did not win Nobel Price. The experimental results also show that the AUC values of input-output performance model could reach 0.7957 for the APS data set, which is better than the results generated by h-index, i10-index, total number of papers, and total number of citations. Furthermore, The experimental results indicate that most input-output performances of scientists before winning award is higher than the input-output performances of scientists after winning award for the APS data set and the web of science data set. The proposed model also provides an effective tool for policy makers to quantify the input-output performances of sciences.
- citation analysis /
- H-index /
- input-output performance /
- scientific cooperation /
- total number of citations

图 1 论文平均被引次数与合作科学家数和合作机构数的关联关系

下载: 全尺寸图片幻灯片

图 2 科学家的投入产出绩效累积分布图

下载: 全尺寸图片幻灯片

图 3 投入产出绩效算法与其他指标结果对比

下载: 全尺寸图片幻灯片

图 4 科学家获奖前后投入产出绩效柱状图

下载: 全尺寸图片幻灯片

表 1 各指标的AUC值

	投入产出模型	引用量	H指数	I10指数	发表文章数
AUC	0.7957	0.7080	0.6759	0.5572	0.4279

下载: 导出CSV

[1]	HICKS D, WOUTERS P, WALTMAN L, et al. The Leiden manifesto for research metrics[J]. Nature, 2015, 520(7548): 429. doi: 10.1038/520429a
[2]	刘浏, 王东波. 引用内容分析研究综述[J]. 情报学报, 2017, 36(6): 637-643. doi: 10.3772/j.issn.1000-0135.2017.06.012 LIU Liu, WANG Dong-bo. A review of citation content analysis research[J]. Journal of Information, 2017, 36(6): 637-643. doi: 10.3772/j.issn.1000-0135.2017.06.012
[3]	胡小军, 郭强, 杨凯, 等. 基于相对熵的多属性作者学术影响力排名研究[J]. 电子科技大学学报, 2018, 47(2): 281-285. HU Xiao-jun, GUO Qiang, YANG Kai, et al. Multi-attribute researcher academic influence ranking based on relative entropy[J]. Journal of University of Electronic Science and Technology of China, 2018, 47(2): 281-285.
[4]	VAN H B A, PHELPS J, BARNES M, et al. Evaluating scientific impact[J]. Environmental Health Perspectives, 2000, 108(9): A392. doi: 10.1289/ehp.108-a392
[5]	FITZPATRICK R B. Essential science indicators[J]. Medical Reference Services Quarterly, 2005, 24(4): 67. doi: 10.1300/J115v24n04_05
[6]	曹志梅, 刘伟辉, 杨光. 高校 ESI 潜势学科排名提升策略探讨[J]. 情报探索, 2017(4): 44-47. doi: 10.3969/j.issn.1005-8095.2017.04.009 CAO Zhi-mei, LIU Wei-hui, YANG Guang. Discussion on the strategy of improving the ESI potential discipline in colleges and universities[J]. Information Research, 2017(4): 44-47. doi: 10.3969/j.issn.1005-8095.2017.04.009
[7]	CSAJBOK E, BERHIDI A, VASAS L, et al. Hirsch-index for countries based on essential science indicators data[J]. Scientometrics, 2007, 73(1): 91-117. doi: 10.1007/s11192-007-1859-9
[8]	HIRSCH J E. An index to quantify an individual's scientific research output[J]. Proceedings of the National Academy of Sciences of the United States of America, 2005, 102(46): 16569. doi: 10.1073/pnas.0507655102
[9]	EGGHE L. Theory and practise of the G-index[J]. Scientometrics, 2006, 69(1): 131-152. doi: 10.1007/s11192-006-0144-7
[10]	DELGADO L C E, ROBINSON G N, TORRES S D. The Google scholar experiment: How to index false papers and manipulate bibliometric indicators[J]. Journal of the Association for Information Science and Technology, 2014, 65(3): 446-454. doi: 10.1002/asi.23056
[11]	BRIN S, PAGE L. The anatomy of a large-scale hypertexual web search engine[J]. Computer Networks and ISDN Systems, 1998, 30(1-7): 107-117. doi: 10.1016/S0169-7552(98)00110-X
[12]	王露, 郭强, 刘建国. 基于加权方法的节点重要性度量[J]. 计算机应用研究, 2018(5): 1426-1428. doi: 10.3969/j.issn.1001-3695.2018.05.031 WANG Lu, GUO Qiang, LIU Jian-guo. Node importance measure based on weighting method[J]. Journal of Computer Applications, 2018(5): 1426-1428. doi: 10.3969/j.issn.1001-3695.2018.05.031
[13]	顾亦然, 许梦馨. 基于PageRank的新闻关键词提取算法[J]. 电子科技大学学报, 2017, 46(5): 777-783. doi: 10.3969/j.issn.1001-0548.2017.05.021 GU Yi-ran, XU Meng-xin. News keyword extraction algorithm based on PageRank[J]. Journal of University of Electronic Science and Technology of China, 2017, 46(5): 777-783. doi: 10.3969/j.issn.1001-0548.2017.05.021
[14]	陈仕吉, 史丽文, 左文革. 科学合作网络中节点合作效果评测与分析[J]. 图书情报工作, 2012, 56(10): 61-143. CHEN Shi-ji, SHI Li-wen, ZUO Wen-ge. Evaluation and analysis of node cooperation effect in scientific cooperation network[J]. Library and Information Service, 2012, 56(10): 61-143.
[15]	CHARNES A, COOPER W W, RHODES E. Measuring the efficiency of decision making units[J]. European Journal of Operational Research, 1978, 2(6): 429-444. doi: 10.1016/0377-2217(78)90138-8
[16]	DE S P D J, BEAVER D. Collaboration in an invisible college[J]. American Psychologist, 1966, 21(11): 1011. doi: 10.1037/h0024051
[17]	苏芳荔. 科研合作对期刊论文被引频次的影响[J]. 图书情报工作, 2011, 55(10): 144-148. SU Fang-li. The influence of scientific research cooperation on the citation frequency of journal papers[J]. Library and Information Service, 2011, 55(10): 144-148.
[18]	何海燕, 李芳. 高校科研合作对论文产出质量的影响—基于国家重点实验室分析[J]. 北京理工大学学报(社会科学版), 2017, 19(5): 162-167. HE Hai-yan, LI Fang. The influence of scientific research cooperation on the output quality of papers-Based on the analysis of national key laboratories[J]. Journal of Beijing Institute of Technology (Social Science Edition), 2017, 19(5): 162-167.
[19]	王卫, 史锐涵, 潘京华. 基于期刊论文的作者学术合作与科研产出关系研究—以图书情报领域为例[J]. 情报杂志, 2017, 36(3): 191-195. doi: 10.3969/j.issn.1002-1965.2017.03.033 WANG Wei, SHI Rui-han, PAN Jing-hua. Research on the relationship between academic cooperation and scientific research output based on journal papers—Taking the field of library and information as an example[J]. Journal of Information, 2017, 36(3): 191-195. doi: 10.3969/j.issn.1002-1965.2017.03.033
[20]	BROWN S A, DENNIS A R, VENKATESH V. Predicting collaboration technology use: Integrating technology adoption and collaboration research[J]. Journal of Management Information Systems, 2010, 27(2): 9-54. doi: 10.2753/MIS0742-1222270201
[21]	SHEN H W, BARABASI A L. Collective credit allocation in science[J]. Proceedings of the National Academy of Sciences, 2014, 111(34): 12325-12330. doi: 10.1073/pnas.1401992111
[22]	刘静, 马建霞. 我国管理科学研究进展分析—以国家自然科学基金立项项目及论文产出为分析数据[J]. 科技管理研究, 2015, 35(326): 249-258. LIU Jing, MA Jian-xia. Analysis of the progress of management science research in China—Analysis of national natural science foundation projects and paper outputs as analysis data[J]. Science and Technology Management Research, 2015, 35(326): 249-258.
[23]	ZHANG Song-tao, GUAN Zhong-cheng. Education experience of scientific workforce—A case study on the winners of NSFDYS in CAS[J]. Forum on Science and Technology in China, 2015(12): 132-137.

[1]	李明杰, 岳昕晨, 胡剑波, 吴晔, 闵勇, 傅晨波. 新冠疫情下的国际科研合作研究 . 电子科技大学学报, 2022, 51(6): 928-936. doi: 10.12178/1001-0548.2021378
[2]	谢暄, 王敏夷, 白颖利, 汪东敏, 李西峰, 谢永乐. 基于Rényi熵的q-指数分布及其可靠性分析应用 . 电子科技大学学报, 2021, 50(4): 535-543. doi: 10.12178/1001-0548.2020449
[3]	范天龙, 吕琳媛. H-指数及其衍生指标的本质探讨 . 电子科技大学学报, 2019, 48(1): 142-149. doi: 10.3969/j.issn.1001-0548.2019.01.021
[4]	桑葛楠, 韩筱璞. 科学家科研合作关系的均衡性特征 . 电子科技大学学报, 2019, 48(5): 786-793. doi: 10.3969/j.issn.1001-0548.2019.05.020
[5]	朱为华, 刘凯, 闫小勇, 汪明, 吴金闪. 识别流网络关键节点的虚拟外界投入产出分析法 . 电子科技大学学报, 2018, 47(2): 292-297. doi: 10.3969/j.issn.1001-0548.2018.02.021
[6]	胡小军, 郭强, 杨凯, 王江盼, 刘建国. 基于相对熵的多属性作者学术影响力排名研究 . 电子科技大学学报, 2018, 47(2): 279-285. doi: 10.3969/j.issn.1001-0548.2018.02.019
[7]	苗强, 王冬, 孙锐, 王成栋. 旋转设备在线健康监控指数研究 . 电子科技大学学报, 2010, 39(1): 157-160. doi: 10.3969/j.issn.1001-0548.2010.01.036
[8]	赵飞, 周涛, 张良, 马鸣卉, 刘金虎, 余飞, 查一龙, 李睿琪. 维基百科研究综述 . 电子科技大学学报, 2010, 39(3): 321-334. doi: 10.3969/j.issn.1001-0548.2010.03.001
[9]	宋杰, 何友, 关键. 非合作双基地雷达测距方法与精度分析 . 电子科技大学学报, 2009, 38(2): 169-172. doi: 10.3969/j.issn.1001-0548.2009.02.03
[10]	李泽宏, 张磊, 谭开洲. 总剂量辐照加固的功率VDMOS器件 . 电子科技大学学报, 2008, 37(4): 621-623.
[11]	岑明, 傅承毓, 陈科, 刘兴法. 广义合作目标跟踪的误差空间估计方法 . 电子科技大学学报, 2007, 36(2): 217-219,274.
[12]	王晴, 石冰. 科研基金项目申请书的写作程序与技巧 . 电子科技大学学报, 2005, 34(3): 429-432.
[13]	慕银平, 唐小我, 马永开. 企业集团内部转移定价的合作博弈分析 . 电子科技大学学报, 2005, 34(2): 277-280.
[14]	陈玲, 杨慰民, 徐安玉. 2000-2004年《现代雷达》论文统计分析 . 电子科技大学学报, 2005, 34(6): 869-872.
[15]	冉瑞生, 杨鹏, 黄廷祝. 非奇H矩阵判别条件的推广 . 电子科技大学学报, 2004, 33(1): 102-104.
[16]	高中喜, 黄廷祝. 块H-矩阵的刻画 . 电子科技大学学报, 2002, 31(3): 316-319.
[17]	王广彬, 黄廷祝. 逆H矩阵的性质 . 电子科技大学学报, 2001, 30(2): 192-194.
[18]	陈宏, 陈丽华. 投入产出技术在技术进步测定中的应用 . 电子科技大学学报, 1999, 28(5): 554-556.
[19]	黄廷祝, 蒲和平. (块) H矩阵与亚正定矩阵 . 电子科技大学学报, 1998, 27(2): 216-218.
[20]	陈宏, 韩轶, 戴华. 利用投入产出模型研究最优产业结构 . 电子科技大学学报, 1997, 26(3): 293-297.

点击查看大图

图(4) / 表(1)

计量

文章访问数: 6065
HTML全文浏览量: 1553
PDF下载量: 37
被引次数: 0

全文HTML

引文网络的建模与分析已经被广泛用于评价科学家、科研单位甚至地区或国家的学术影响力。论文的应用次数对科学家、科学家的职称评定、科研奖励等方面都具有重要意义^[1-3]。引文网络的分析结果已经被应用于科研管理政策的制定、科研激励等措施，对学科发展具有重要意义^[4]。

当前，基于科研引文网络分析方法主要归为两类：基于统计和基于网络结构的评价方法。基于统计的评价方法包括基本科学指标数据库(ESI)^[5-7]、总引用次数、总论文发表数、H指数^[8]、G指数^[9]、I10指数^[10]等指标。2001年，美国科技信息所(ISI)提出ESI指标用来度量科学研究绩效^[5-6]。ESI是从论文发表总数、引文次数、平均被引频次等多个方面对国家/地区科研水平、机构学术声誉以及期刊学术水平进行衡量。但是ESI只考虑编入Thomson Reuters索引的期刊中发表的书籍、文献^[7]，限制了其客观性。文献[8]提出既考虑引用量又考虑发文章数的H指数。一个人或组织的H指数定义为其发表的所有文章中被引次数大于等于H次的论文超过H篇。一名科学家的H指数越高，他的论文影响力越大。但是H指数无法对只发表了少数几篇重要文献的科学家的工作进行评价。文献[9]在H指数上做出改进，提出了G指数。G指数是一种基于学者以往贡献的科学家影响力评估方法。此外，一些用来完善或优化H指数的指标也相继被提出。2011年，谷歌提出了I10指数^[10]，即科学家发表文章中被引次数大于等于10次的文章数。基于网络结构的评价方法包括基于科学家合作^[11-12]和引用网络的PageRank算法^[13-14]。基于合作网络的PageRank算法是指基于合作网络中科学家之间的合作关系对科学家进行评价，该方法主要反映了科学家在合作网络中的影响力。基于引用网络的PageRank算法则是基于文献之间的引用关系和科学家之间的引用网络对科学家的学术水平进行评估。但是，上述全部方法都只考虑了科学家发表文章数、文章引用量，没有考虑到科学家的沟通、时间等投入成本。因此，本文提出一种考虑输入和输出变量的投入产出模型，对科学家的绩效进行综合评价。

假设有甲乙两位科学家，科学家甲与多名科学家合作发表了一篇文章，而科学家乙与一名科学家合作也发表了一篇文章，同时他们文章的引用量也相同。用H指数等指标计量甲乙两名科学家的投入产出绩效是相同的。但是，甲比乙投入的多，占用的社会资源更多。如果乙和甲拥有相同的社会资源，乙就可能有更多的产出。综合考虑科学家的投入和产出要素，本文工作主要是提出了一种考虑投入和产出的科学家绩效算法。算法在考虑科学家的科研产出的同时，也考虑了科学家的沟通、时间等投入成本，从投入和产出的视角对科学家的绩效进行建模评价。在APS实证数据集上的实验结果表明，本文提出的方法可以更准确地识别出获诺贝尔奖的科学家，其中本文算法的AUC值为0.7957，比只考虑总引用量的评价方法的准确度提高了8.77%。此外，对于APS数据集，64.29%的科学家获得诺奖前的投入产出绩效高于获得诺奖后的投入产出绩效。对于Web of science数据集，81.25%的科学家获得杰青前的投入产出绩效高于获得杰青后的投入产出绩效。

3. 结束语

本文提出了一种考虑科学家投入和产出信息的绩效评价算法。在评价科学家绩效的时候，除了要考虑科学家的发表论文和论文影响力等产出绩效，还需要考虑科学家的投入精力因素。如科学家需要花大量的时间进行沟通、协商才能够彼此合作。因此，本文考虑了合作科学家数和合作机构数等投入因素，对科学家的投入产出绩效进行综合评价。在包含近百年数据的美国物理学会上的实验结果表明，本文提出方法的AUC值为0.7957，相比于总引用量的评价结果，准确率提高了8.77%。此外，科学家在获奖前后的投入产出绩效实验结果表明，大部分科学家获奖前的投入产出绩效高于获奖后科学家的投入产出绩效。

科学家投入产出绩效算法取决于投入要素和产出要素的选取，因此可以研究更多投入要素，使科学家的排名更准确。如科学家投入产出绩效在一定程度上取决于科学家研究的主题，而本文方法并没有考虑到研究主题这个投入变量。同时，具有意义的研究主题可能会有更多的产出(发表的论文数)，在未来的工作里会考虑加入研究主题来研究科学家的投入产出绩效^[22-23]。除此之外，获奖科学家获奖前后绩效的差异的原因很多，如得奖的年龄很大，得奖后文章的价值还没有完全发挥出来等，而本文的方法中并没有考虑到这些影响因素。

参考文献 (23)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于引文分析的科学家投入产出绩效算法研究

doi: 10.12178/1001-0548.2018236

作者简介:
郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

通讯作者: 刘建国，E-mail： liujg004@ustc.edu.cn

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

计量

基于引文分析的科学家投入产出绩效算法研究

doi: 10.12178/1001-0548.2018236

1. 上海理工大学复杂系统科学研究中心　上海杨浦区　200093

2. 上海财经大学会计学院　上海杨浦区　200433

作者简介:
郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

通讯作者: 刘建国，E-mail： liujg004@ustc.edu.cn

English Abstract

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

1. Complex Systems Science Research Center, University of Shanghai for Science and Technology　Yangpu Shanghai　200093

2. School of Accountancy, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

全文HTML

1.1. 科学家投入产出绩效算法的建立

1.2. 投入要素、产出要素的选取

1.3. 科学家投入产出绩效算法的计算示例

2.1. 数据集

2.2. 实验结果

2.3. 获奖前后的投入产出绩效

目录

期刊在线

编辑办公

友情链接

留言板

基于引文分析的科学家投入产出绩效算法研究

doi: 10.12178/1001-0548.2018236

作者简介: 郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

通讯作者: 刘建国，E-mail： liujg004@ustc.edu.cn

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

计量

出版历程

基于引文分析的科学家投入产出绩效算法研究

doi: 10.12178/1001-0548.2018236

1. 上海理工大学复杂系统科学研究中心 上海 杨浦区 200093 2. 上海财经大学会计学院 上海 杨浦区 200433

作者简介: 郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

通讯作者: 刘建国，E-mail： liujg004@ustc.edu.cn

English Abstract

Modeling of Input-output Performance of Scientists Based on the Analysis of Citation

1. Complex Systems Science Research Center, University of Shanghai for Science and Technology Yangpu Shanghai 200093 2. School of Accountancy, Shanghai University of Finance and Economics Yangpu Shanghai 200433

全文HTML

1.1. 科学家投入产出绩效算法的建立

1.2. 投入要素、产出要素的选取

1.3. 科学家投入产出绩效算法的计算示例

2.1. 数据集

2.2. 实验结果

2.3. 获奖前后的投入产出绩效

目录

期刊在线

编辑办公

友情链接

作者简介:
郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

1. 上海理工大学复杂系统科学研究中心　上海杨浦区　200093

2. 上海财经大学会计学院　上海杨浦区　200433

作者简介:
郭强(1975-)，女，教授，主要从事知识图谱、知识管理方面的研究

1. Complex Systems Science Research Center, University of Shanghai for Science and Technology　Yangpu Shanghai　200093

2. School of Accountancy, Shanghai University of Finance and Economics　Yangpu Shanghai　200433