-
引文网络的建模与分析已经被广泛用于评价科学家、科研单位甚至地区或国家的学术影响力。论文的应用次数对科学家、科学家的职称评定、科研奖励等方面都具有重要意义[1-3]。引文网络的分析结果已经被应用于科研管理政策的制定、科研激励等措施,对学科发展具有重要意义[4]。
当前,基于科研引文网络分析方法主要归为两类:基于统计和基于网络结构的评价方法。基于统计的评价方法包括基本科学指标数据库(ESI)[5-7]、总引用次数、总论文发表数、H指数[8]、G指数[9]、I10指数[10]等指标。2001年,美国科技信息所(ISI)提出ESI指标用来度量科学研究绩效[5-6]。ESI是从论文发表总数、引文次数、平均被引频次等多个方面对国家/地区科研水平、机构学术声誉以及期刊学术水平进行衡量。但是ESI只考虑编入Thomson Reuters索引的期刊中发表的书籍、文献[7],限制了其客观性。文献[8]提出既考虑引用量又考虑发文章数的H指数。一个人或组织的H指数定义为其发表的所有文章中被引次数大于等于H次的论文超过H篇。一名科学家的H指数越高,他的论文影响力越大。但是H指数无法对只发表了少数几篇重要文献的科学家的工作进行评价。文献[9]在H指数上做出改进,提出了G指数。G指数是一种基于学者以往贡献的科学家影响力评估方法。此外,一些用来完善或优化H指数的指标也相继被提出。2011年,谷歌提出了I10指数[10],即科学家发表文章中被引次数大于等于10次的文章数。基于网络结构的评价方法包括基于科学家合作[11-12]和引用网络的PageRank算法[13-14]。基于合作网络的PageRank算法是指基于合作网络中科学家之间的合作关系对科学家进行评价,该方法主要反映了科学家在合作网络中的影响力。基于引用网络的PageRank算法则是基于文献之间的引用关系和科学家之间的引用网络对科学家的学术水平进行评估。但是,上述全部方法都只考虑了科学家发表文章数、文章引用量,没有考虑到科学家的沟通、时间等投入成本。因此,本文提出一种考虑输入和输出变量的投入产出模型,对科学家的绩效进行综合评价。
假设有甲乙两位科学家,科学家甲与多名科学家合作发表了一篇文章,而科学家乙与一名科学家合作也发表了一篇文章,同时他们文章的引用量也相同。用H指数等指标计量甲乙两名科学家的投入产出绩效是相同的。但是,甲比乙投入的多,占用的社会资源更多。如果乙和甲拥有相同的社会资源,乙就可能有更多的产出。综合考虑科学家的投入和产出要素,本文工作主要是提出了一种考虑投入和产出的科学家绩效算法。算法在考虑科学家的科研产出的同时,也考虑了科学家的沟通、时间等投入成本,从投入和产出的视角对科学家的绩效进行建模评价。在APS实证数据集上的实验结果表明,本文提出的方法可以更准确地识别出获诺贝尔奖的科学家,其中本文算法的AUC值为0.7957,比只考虑总引用量的评价方法的准确度提高了8.77%。此外,对于APS数据集,64.29%的科学家获得诺奖前的投入产出绩效高于获得诺奖后的投入产出绩效。对于Web of science数据集,81.25%的科学家获得杰青前的投入产出绩效高于获得杰青后的投入产出绩效。
HTML
-
本文采用美国物理学会(APS)1893~2009年的数据。为了研究科学家的投入产出绩效,最终处理的APS数据集包含超过247 889名科学家(包括35名获得诺贝尔物理学奖的科学家)、451 034篇论文和462 145次引用。此外,本文采用了Web of science数据集包括2011−2015年国家杰出青年科学基金(NSFDYS)管理科学部的资助者在Web of science数据库发表的所有论文。数据集包含标题、出版年份、科学家名称、每位科学家的隶属机构以及每篇论文的引用次数。为了研究获奖者获奖前后科学家的投入产出表现,本文手动处理了科学家获奖前后论文的引文量,筛选出获奖前后都有数据的科学家为实验对象。Web of science最终处理的数据集包含32位管理学科的获杰青的科学家、1680篇论文和22335次引用,APS的最终处理数据集包含28位获得诺奖的科学家、2433篇论文和6949次引用。
-
在APS数据集中,获诺贝尔奖的35名科学家占总科学家数的1.4‱,本文分别计算诺贝尔奖科学家和非诺贝尔奖科学家的投入产出绩效,其中投入产出绩效值在0~1之间,1代表科学家的投入产出绩效最高,0代表科学家的投入产出绩效最低,结果分布如图2所示。在投入产出绩效为0~0.2时,非诺贝尔科学家的绩效累积分布的趋势急剧上升,而诺贝尔科学家的上升趋势比较平缓。总体上,在同一投入产出绩效下,非诺贝尔科学家的绩效累积分布比获诺贝尔科学家的累积分布高。
为了直观看出本文提出的投入产出绩效算法的准确性[21],图3给出了投入产出绩效算法与其他指标结果的对比图,子图展示了绩效排名前1000名的科学家中获诺贝尔奖的科学家数分布状态。从中可以发现本文提出的投入产出绩效算法对科学家排名的准确性比其他指标高。
本文采用AUC指标评价投入产出绩效算法的准确性。具体定义过程如下:分别从测试集合和非测试集合中随机选取一位科学家,比较其投入产出绩效。进行n次抽样后,如果测试集合中的科学家投入产出绩效高于非测试集合中的科学家绩效,则记为n1。如果两者相同,则记为n2,AUC值定义为:
当AUC=1时表示所有测试集中的科学家绩效均高于非测试集中的结果;AUC=0.5则表示结果与随机抽样的结果相同。抽样次数n越大,结果越可靠,本文取
$n = {10^5}$ 。表1给出了不同指标的AUC值,从中可以发现本文方法的结果为0.7957,比其他指标中最高的总引用量指标提高了8.77%。投入产出模型 引用量 H指数 I10指数 发表文章数 AUC 0.7957 0.7080 0.6759 0.5572 0.4279 -
本文研究了杰出青年基金获得者和诺贝尔奖获得者两个数据集的科学家投入产出绩效:APS数据集和web of science数据集。图4a是28位科学家获诺贝尔奖前后投入产出绩效柱状图。其中,红色代表科学家获得诺贝尔奖前的投入产出绩效,蓝色代表获得科学家诺贝尔奖后的投入产出绩效。从图4a可以看出18位科学家的获奖前的投入产出绩效比获奖后的投入产出绩效高,1位科学家的投入产出绩效不变。图4b的2011−2015年获得国家杰出青年科学基金的管理学部的32位科学家投入产出绩效柱状图。其中,红色代表获得杰青基金前的投入产出绩效,蓝色代表获得杰青基金后的投入产出绩效。从图4b可以看出26位科学家获奖前的投入产出绩效比获奖后的投入产出绩效高,1位科学家的投入产出绩效不变。