留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于关键词的知识图谱挖掘信息技术学科演化趋势

李丽霞 任卓明 张子柯

李丽霞, 任卓明, 张子柯. 基于关键词的知识图谱挖掘信息技术学科演化趋势[J]. 电子科技大学学报, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
引用本文: 李丽霞, 任卓明, 张子柯. 基于关键词的知识图谱挖掘信息技术学科演化趋势[J]. 电子科技大学学报, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
LI Li-xia, REN Zhuo-ming, ZHANG Zi-ke. Trend of Information Technology Discipline Based on Mining the Keywords of Knowledge Graph[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
Citation: LI Li-xia, REN Zhuo-ming, ZHANG Zi-ke. Trend of Information Technology Discipline Based on Mining the Keywords of Knowledge Graph[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221

基于关键词的知识图谱挖掘信息技术学科演化趋势

doi: 10.12178/1001-0548.2019221
基金项目: 国家自然科学基金(61803137,61673151,61873080);浙江省自然科学基金(LR18A050001,LY18A050004)
详细信息
    作者简介:

    李丽霞(1995-),女,主要从事复杂网络建模、知识图谱挖掘等方面的研究

    通讯作者: 任卓明,E-mail: zhuoming.ren@hznu.edu.cn
  • 中图分类号: TP311;N94

Trend of Information Technology Discipline Based on Mining the Keywords of Knowledge Graph

  • 摘要: 瑞士国家科学基金会(SNSF)作为瑞士最主要的科研基金提供机构,以促进瑞士科技创新的发展为主要任务。因此,从SNSF数据中挖掘创新型国家瑞士的信息学科研究现状和研究趋势,可以启发我国科研人员和科技管理人员的前瞻性思考。该文抽取了1999−2018年来源于SNSF数据库的科研基金项目完整信息,分析了信息技术学科科研基金中的关键词知识图谱的演化情况;发现信息技术从围绕原始分布式系统等软件开发研究演化成以机器学习、深度学习为中心的人工智能研究;接着采用层级结构分布图将信息技术和数学的关键词交叉分布情况可视化,值得注意的是密码学和算法是信息技术与数学学科最明显的交叉研究内容,而且交叉研究频繁的研究内容相对发展得更好;通过计算不同时间段关键词分布的Kullback-Leibler(KL)散度分析信息技术与数学的学科交叉情况,发现这两个学科的交叉研究经历了迅速发展后进入较稳定、成熟的状态。
  • 图  1  关键词情况分析

    图  2  关键词的知识图谱演化分析

    图  3  关键词层级分布图

    图  4  信息技术与数学内部结构差异与交叉情况

  • [1] COTTINEAU C, WEST G. Scale: The universal laws of growth, innovation, sustainability, and the pace of life in organisms, cities, economies, and companies[M]. New York: Penguin Press, 2017.
    [2] WU L, WANG D, EVANS J A. Large teams develop and small teams disrupt science and technology[J]. Nature, 2019, 566(7744): 378-382. doi:  10.1038/s41586-019-0941-9
    [3] LI J, YIN Y, FORTUNATO S, et al. Nobel laureates are almost the same as us[J]. Nature Reviews Physics, 2019, 1: 301-303. doi:  10.1038/s42254-019-0057-z
    [4] DAVID C. China enters the battle for AI talent[J]. Nature, 2018, 553(7688): 260-261. doi:  10.1038/d41586-018-00604-6
    [5] WANG Z, JEAN R J, ZHAO X. The direct and indirect impact of relational ties on innovation performance: An empirical study in China[J]. IEEE Transactions on Engineering Management, 2019(99): 1-14.
    [6] Swiss Federal Government Technology and Culture Center. Research and innovation[EB/OL]. [2019-05-01]. http://www.swissnexchina.org/cn/.
    [7] 邱丹逸, 袁永, 廖晓东. 瑞士主要科技创新战略与政策研究[J]. 特区经济, 2018(1): 39-42.

    QIU Dan-yi, YUAN Yong, LIAO Xiao-dong. Science and technology innovation system of switzerland and the enlightenment to our country[J]. Special Zone Economy, 2018(1): 39-42.
    [8] 冯鸿雁, 肖广岭, 苏俊斌. 省级自然科学基金的目标定位与绩效评估——以河北省自然科学基金为案例[J]. 科学管理研究, 2005(4): 49-52. doi:  10.3969/j.issn.1004-115X.2005.04.013

    FENG Hong-yan, XIAO Guang-ling, SU Jun-bin. The goals and performance evaluation of provincial natural science funds: A case study of Hebei province natural science fund[J]. Scientific Management Research, 2005(4): 49-52. doi:  10.3969/j.issn.1004-115X.2005.04.013
    [9] 张维, 李帅, 熊熊, 等. 基于文献计量方法的“十一五”期间工商管理学科国内外研究热点比较与分析[J]. 科学学与科学技术管理, 2006(3): 5-10. doi:  10.3969/j.issn.1002-0241.2006.03.001

    ZHANG Wei, LI Shuai, XIONG Xiong, et al. Comparison of hot areas of business administration research between the foreign and the domestic based on literature metrology[J]. Science of Science and Management of S.&.T, 2006(3): 5-10. doi:  10.3969/j.issn.1002-0241.2006.03.001
    [10] 陈悦, 刘则渊, 陈劲, 等. 科学知识图谱的发展历程[J]. 科学学研究, 2008(3): 449-460.

    CHEN Yue, LIU Ze-Yuan, CHEN Jin, et al. History and theory of mapping knowledge domains[J]. Studies in Science of Science, 2008(3): 449-460.
    [11] 徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4): 589-606. doi:  10.3969/j.issn.1001-0548.2016.04.012

    XU Zeng-lin, SHENG Yong-pan, HE Li-rong, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4): 589-606. doi:  10.3969/j.issn.1001-0548.2016.04.012
    [12] 马费成, 张勤. 国内外知识管理研究热点——基于词频的统计分析[J]. 情报学报, 2006, 25(2): 163-171. doi:  10.3969/j.issn.1000-0135.2006.02.003

    MA Fei-cheng, ZHANG Qin. Comparative analysis of knowledge management literature between China and overseas: A bibliometric analysis[J]. Journal of The China Society for Scientific and Technical Information, 2006, 25(2): 163-171. doi:  10.3969/j.issn.1000-0135.2006.02.003
    [13] 李祎. 基于词频分析和知识图谱的国内外学习分析热点对比研究[J]. 开放学习研究, 2016, 97(3): 38-45. doi:  10.3969/j.issn.1008-7648.2016.03.006

    LI Wei. A comparative study on the hot spots of learning analysis at home and abroad[J]. Journal of Open Learning, 2016, 97(3): 38-45. doi:  10.3969/j.issn.1008-7648.2016.03.006
    [14] RYOSUKE L. Trends in research foci in life science fields over the last 30 years monitored by emerging topics[J]. Scientometrics, 2010(85): 111-127.
    [15] 周玉芳. 知识图谱视野下科技查新研究的发展分析[J]. 现代情报, 2012, 32(6): 25-32. doi:  10.3969/j.issn.1008-0821.2012.06.006

    ZHOU Yu-fang. Analysis of development of SCI-tech novelty retrieval research from the perspective of knowledge spectrum[J]. Modern Information, 2012, 32(6): 25-32. doi:  10.3969/j.issn.1008-0821.2012.06.006
    [16] 李春发, 王佳玲. 图书馆、情报与文献学研究进展及趋势分析——基于近20年科研基金项目统计分析[J]. 情报科学, 2017, 35(12): 147-151.

    LI Chun-fa, WANG Jia-ling. Research progress and trend analysis of library, intelligence and philology: Based on the statistical analysis of scientific research fund projects in recent 20 years[J]. Information Science, 2017, 35(12): 147-151.
    [17] 万华. 基于项目论文引文关联的协同研究关系分析——以国家自然科学基金图书情报类研究项目为例[J]. 情报科学, 2013, 31(6): 53-59.

    WAN Hua. Analysis of citation associated collaborative research relationship: Take library and information science research articles of national natural science foundation of china as example[J]. Information Science, 2013, 31(6): 53-59.
    [18] 刘敏娟. 基于知识图谱的学科主题识别方法研究[M]. 北京: 中国农业科学院, 2016.

    LIU Min-juan. Research on subject recognition method based on knowledge graph[M]. Beijing: Chinese Academy of Agricultural Sciences, 2016.
    [19] 周鑫, 陈媛媛. 关键词词频变化视角下学科研究发展趋势分析——以国内情报学研究为例[J]. 情报杂志, 2016, 35(5): 133-140. doi:  10.3969/j.issn.1002-1965.2016.05.023

    ZHOU Xin, CHEN Yuan-yuan. The analysis of development trend of subject research from the perspective of keywords frequency change: Taking the domestic information science research as an example[J]. Journal of Intelligence, 2016, 35(5): 133-140. doi:  10.3969/j.issn.1002-1965.2016.05.023
    [20] DONOHUE J C. Understanding scientific literature: A bibliographic approach[M]. Massachusetts: The MIT Press, 1973.
    [21] 杨爱青, 马秀峰, 张风燕, 等. g指数在共词分析主题词选取中的应用研究[J]. 情报杂志, 2012, 31(2): 52-55. doi:  10.3969/j.issn.1002-1965.2012.02.011

    YANG Ai-qing, MA Xiu-feng, ZHANG Feng-yan, et al. Application research of g-index in the topic words of co-word analysis[J]. Journal of Intelligence, 2012, 31(2): 52-55. doi:  10.3969/j.issn.1002-1965.2012.02.011
    [22] 唐果媛. 基于共词分析法的学科主题演化研究方法的构建[J]. 图书情报工作, 2017(61): 107-113.

    TANG Guo-yuan. Building the method system of the subject theme evolution based on the co-word analysis method[J]. Library and Information Service, 2017(61): 107-113.
    [23] JIA T, WANG D, SZYMANSKI B K. Quantifying patterns of research-interest evolution[J]. Nature Human Behaviour, 2017, 1(4): 0078. doi:  10.1038/s41562-017-0078
    [24] LIU L, WANG Y, ROBERTA S, et al. Hot streaks in artistic, cultural, and scientific careers[J]. Science, 2018, 559(7714): 396.
    [25] SEKARA V, DEVILLE P, AHNERT S E, et al. The chaperone effect in scientific publishing[J]. PNAS, 2018, 115(50): 12603-12607. doi:  10.1073/pnas.1800471115
    [26] FRAIBERGER S P, SINATRA R, RESCH M, et al. Quantifying reputation and success in art[J]. Science, 2018, 362(6416): 825-829. doi:  10.1126/science.aau7224
    [27] MUKHERJEE S, HUANG Y, NEIDHARDT J, et al. Prior shared success predicts victory in team competitions[J]. Nature Human Behaviour, 2019, 3(1): 74. doi:  10.1038/s41562-018-0460-y
    [28] YIN Y, WANG Y, EVANS J A, et al. Quantifying the dynamics of failure across science, startups and security[J]. Nature, 2019, 575(7781): 190-194. doi:  10.1038/s41586-019-1725-y
    [29] SZELL M, MA Y, SINATRA R. A nobel opportunity for interdisciplinarity[J]. Nature Physics, 2018, 14(11): 1075-1078. doi:  10.1038/s41567-018-0314-6
    [30] BÖRNER K, SCRIVNER O, GALLANT M, et al. Skill discrepancies between research, education, and jobs reveal the critical need to supply soft skills for the data economy[J]. Proceedings of the National Academy of Sciences, 2018, 115(50): 12630-12637. doi:  10.1073/pnas.1804247115
    [31] SNSF. Data and documentation[EB/OL]. [2019-01-01]. http://p3.snf.ch/Pages/DataAndDocumentation.aspx.
    [32] 迈克尔·吉本斯, 卡米耶·利摩日, 黑尔佳·诺沃提尼, 等. 知识生产的新模式: 当代社会科学与研究的动力学[M]. 陈洪捷, 沈钦, 译. 第1版. 北京: 北京大学出版社, 2011.

    GIBBONS M, LIMOGES C, NOWOTNY H, et al. The new production of knowledge: The dynamics of science and research in contemporary societies[M]. Translated by CHEN Hong-jie, SHEN Qin. 1st ed. Beijing: Peking University Press, 2011.
    [33] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[EB/OL]. (2013-01-16). https://arxiv.org/abs/1301.3781.
    [34] 李纲, 王忠义. 基于语义的共词分析方法研究[J]. 情报杂志, 2011, 30(12): 145-149. doi:  10.3969/j.issn.1002-1965.2011.12.027

    LI Gang, WANG Zhong-yi. Research on the semantic-based co-word analysis[J]. Journal of Intelligence, 2011, 30(12): 145-149. doi:  10.3969/j.issn.1002-1965.2011.12.027
    [35] BASTIAN M, HEYMANN S, JACOMY M. Gephi: An open source software for exploring and manipulating networks[J]. ICWSM, 2009, 8: 361-362.
  • [1] 赵倩, 毛雅俊.  基于混合演化规则下的零行列式策略演化研究 . 电子科技大学学报, 2021, 50(4): 634-640. doi: 10.12178/1001-0548.2021079
    [2] 陈杨, 张忠培, 李彬睿.  基于非完美信道信息的协作NOMA系统中保密通信技术研究 . 电子科技大学学报, 2020, 49(5): 674-679. doi: 10.12178/1001-0548.2020066
    [3] 郭强, 陈清文, 刘建国.  基于引文分析的科学家投入产出绩效算法研究 . 电子科技大学学报, 2020, 49(5): 774-779. doi: 10.12178/1001-0548.2018236
    [4] 李建, 靖富营, 刘军.  基于改进BERT算法的专利实体抽取研究—以石墨烯为例 . 电子科技大学学报, 2020, 49(6): 883-890. doi: 10.12178/1001-0548.2020132
    [5] 王侃, 梅克进, 朱家辉, 牛新征.  基于时空轨迹的热点区域提取 . 电子科技大学学报, 2019, 48(6): 925-930. doi: 10.3969/j.issn.1001-0548.2019.06.018
    [6] 王璞, 谭倩, 徐仲之, 鲁恒宇, 林涛.  城市公交网络运行演化分析与瓶颈甄别 . 电子科技大学学报, 2018, 47(3): 455-461. doi: 10.3969/j.issn.1001-0548.2018.03.021
    [7] 王菊, 刘付显.  一种面向动态网络的社团检测与演化分析方法 . 电子科技大学学报, 2018, 47(1): 117-124. doi: 10.3969/j.issn.1001-0548.2018.01.018
    [8] 黎海涛, 齐双.  基于室内地图环境信息的多楼层WiFi定位技术研究 . 电子科技大学学报, 2017, 46(1): 32-37. doi: 10.3969/j.issn.1001-0548.2017.01.006
    [9] 赵国生, 李光程, 王健.  云计算系统认知生存模型及量化分析 . 电子科技大学学报, 2017, 46(5): 709-715. doi: 10.3969/j.issn.1001-0548.2017.05.012
    [10] 许研, 王有贵.  中国收入分布演化实证及机制研究 . 电子科技大学学报, 2016, 45(5): 845-853. doi: 10.3969/j.issn.1001-0548.2016.05.023
    [11] 闫涛, 赵文俊, 胡秀洁, 宋家友.  基于信息融合技术的航空电子设备故障诊断研究 . 电子科技大学学报, 2015, 44(3): 392-395. doi: 10.3969/j.issn.1001-0548.2015.03.013
    [12] 刘星宏, 秦晓卫, 陈锋, 骆培杰, 戴旭初.  短信网络的加权演化模型研究 . 电子科技大学学报, 2012, 41(5): 649-657. doi: 10.3969/j.issn.1001-0548.2012.05.002
    [13] 张瑜, 李涛, 吴丽华, 彭小宁, 覃仁超.  计算机病毒演化模型及分析 . 电子科技大学学报, 2009, 38(3): 419-422. doi: 10.3969/j.issn.1001-0548.2009.03.024
    [14] 阎啸, 秦开宇, 高援开, 吴绍炜.  基于CORDIC算法的频谱分析技术研究 . 电子科技大学学报, 2006, 35(3): 335-338.
    [15] 陈光宇, 黄锡滋, 唐小我.  故障树模块化分析系统可靠性 . 电子科技大学学报, 2006, 35(6): 989-992.
    [16] 袁丁, 范平志.  电子证据与反拒认协议及形式化分析 . 电子科技大学学报, 2004, 33(5): 531-534.
    [17] 刘维亭, 张冰, 马继先.  电子海图系统雷达信息转换技术的研究 . 电子科技大学学报, 2000, 29(1): 29-32.
    [18] 唐小我, 徐玖平, 胡知能.  垄断产品的纵向控制与一体化分析 . 电子科技大学学报, 1999, 28(6): 596-600.
    [19] 徐朴, 林昌禄.  最优极化分析理论基础 . 电子科技大学学报, 1998, 27(4): 390-393.
    [20] 徐朴, 林昌禄.  涂覆型圆柱的散射矩阵及极化分析 . 电子科技大学学报, 1997, 26(4): 370-373.
  • 加载中
图(4)
计量
  • 文章访问数:  7516
  • HTML全文浏览量:  1771
  • PDF下载量:  66
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-09-21
  • 修回日期:  2020-05-15
  • 网络出版日期:  2020-09-29
  • 刊出日期:  2020-09-23

基于关键词的知识图谱挖掘信息技术学科演化趋势

doi: 10.12178/1001-0548.2019221
    基金项目:  国家自然科学基金(61803137,61673151,61873080);浙江省自然科学基金(LR18A050001,LY18A050004)
    作者简介:

    李丽霞(1995-),女,主要从事复杂网络建模、知识图谱挖掘等方面的研究

    通讯作者: 任卓明,E-mail: zhuoming.ren@hznu.edu.cn
  • 中图分类号: TP311;N94

摘要: 瑞士国家科学基金会(SNSF)作为瑞士最主要的科研基金提供机构,以促进瑞士科技创新的发展为主要任务。因此,从SNSF数据中挖掘创新型国家瑞士的信息学科研究现状和研究趋势,可以启发我国科研人员和科技管理人员的前瞻性思考。该文抽取了1999−2018年来源于SNSF数据库的科研基金项目完整信息,分析了信息技术学科科研基金中的关键词知识图谱的演化情况;发现信息技术从围绕原始分布式系统等软件开发研究演化成以机器学习、深度学习为中心的人工智能研究;接着采用层级结构分布图将信息技术和数学的关键词交叉分布情况可视化,值得注意的是密码学和算法是信息技术与数学学科最明显的交叉研究内容,而且交叉研究频繁的研究内容相对发展得更好;通过计算不同时间段关键词分布的Kullback-Leibler(KL)散度分析信息技术与数学的学科交叉情况,发现这两个学科的交叉研究经历了迅速发展后进入较稳定、成熟的状态。

English Abstract

李丽霞, 任卓明, 张子柯. 基于关键词的知识图谱挖掘信息技术学科演化趋势[J]. 电子科技大学学报, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
引用本文: 李丽霞, 任卓明, 张子柯. 基于关键词的知识图谱挖掘信息技术学科演化趋势[J]. 电子科技大学学报, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
LI Li-xia, REN Zhuo-ming, ZHANG Zi-ke. Trend of Information Technology Discipline Based on Mining the Keywords of Knowledge Graph[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
Citation: LI Li-xia, REN Zhuo-ming, ZHANG Zi-ke. Trend of Information Technology Discipline Based on Mining the Keywords of Knowledge Graph[J]. Journal of University of Electronic Science and Technology of China, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
  • 在科学技术飞速发展的今天,创新意识和创新能力越来越成为一个国家国际竞争力和国际地位的最重要决定因素[1-3]。近年来,引领科技发展的创新活力不断被激发,我国科技水平有了大幅提高[4-5]。而作为一个资源匮乏,国土面积小的国家,瑞士以高效的科技创新体系闻名,被誉为“创新之国”。其科学研究水平、自主创新能力均居世界前列,曾连续九年位居世界经济论坛全球竞争力排名榜首,并连续八年排名世界知识产权组织全球创新指数榜首[6]。瑞士国家科学基金会(SNSF)作为瑞士最主要的科研基金提供机构,以促进基础科学学术研究和瑞士科技创新的发展为任务[7]。因此有必要从具有国际性、权威性和前沿性的瑞士国家科学基金数据展开现状分析与趋势预测,从而获取科技发展的导向,而且了解创新型国家的研究现状和研究趋势,可以引起我国科研人员和科技管理人员前瞻性思考,找到科技创新的突破口。

    当前,基于国内外的政府科学基金和学术文献的数据挖掘,分析科学研究前沿以及探索学科发展等的研究,已成为非常活跃的领域。该方面的研究主要有两类方法:一是定性研究,以领域专家的经验知识为依托。如文献[8]针对河北省省级自然科学基金研制了绩效评价指标体系,并根据评价结果确定所需考察的研究热点,但这种方法容易受所选专家自身知识及专家主观性的限制影响;二是定量研究,以计量学方法为主,如文献[9]采用文献计量方法,对“十一五”期间工商管理学科的国内外研究的热点问题及其内容进行了分析,并就研究热点的形成、发展趋势的异同等方面进行了比较研究。伴随着科学知识图谱作为一种探测学科知识结构、识别领域学科热点主题、追踪学科发展动态的科学计量新手段兴起[10-11],国内外很多学者运用词频分析、共词分析、共引分析方法结合科学知识图谱技术对不同领域进行研究热点与未来趋势的分析。文献[12]利用词频分析法揭示了国内外知识管理领域的研究热点及国内外的差异。2016年,文献[13]对高频关键词进行词频分析并绘制知识图谱可视化,分析了国内外学习分析领域当前的研究热点与未来的研究趋势。文献[14]运用共词分析结合知识图谱揭示了最近30年来生命科学的演进趋势,发现了新兴学科的产生和发展。文献[15]采用文献计量方法和关键词共现分析法,对中国学术期刊数据库的查新研究论文进行统计分析,研究了科技查新研究领域的现状、发展、热点和趋势。文献[16]基于科研基金项目数据采用文献计量、词频分析、共词分析的方法研究了中图书馆、情报与文献学的研究进展及趋势分析,发现研究呈现网络化、政策化、服务化、人性化趋势。

    近几年,国内外对科学研究前沿的探索更加活跃,采用的方法也更加多样化。文献[17]综合采用引文分析、社会网络分析和皮尔逊相关系数分析等方法,对1990−2012年的中国国家自然科学基金图书情报类研究项目进行定量化和可视化的处理,探索了情报学领域的发展情况。文献[18]结合内容词分析等多种计量学方法与科学知识图谱技术,深入研究分析学科知识体系的结构关系,辨识和探测学科领域的研究热点主题及其变化趋势,为新环境下科技决策者有效开展科技管理工作提供新手段。文献[19]通过利用词频变化率Z值对所选取的高频关键词进行分类,同时结合高频关键词共现网络以及多维尺度分析法,不仅有效地从研究热点、研究主题及研究范式3个方面揭示出国内情报学研究的发展趋势,也为探究学科研究发展趋势提供了一个崭新的研究视角。上述研究为避免低频词的影响,大多选取高频关键词进行分析,高频关键词的选取主要有经验判定法、高频低频词界分公式[20]和词频g指数[21]3种。其中,文献[22]为得到更好的分析结果,在主题识别阶段改进了词频g指数来选取共词分析的对象,在主题演化分析模块,提出构建三维战略坐标来进行静态分析,并构建学科主题演化现象识别模型来进行动态分析。

    在最近的研究中,针对文献和其他数据集的信息挖掘发现了诸多令人欣喜的研究规律。文献[23]用游走模型解释研究兴趣的内在演化规律与特性,对研究和理解科学家研究兴趣的转移与演化具有重要意义。文献[24]研究发现职业巅峰期是普遍存在的并且表现为随机分布,通常只出现一次,但一旦出现研究人员top3作品出现的时间便有规律可循。文献[25]通过量化“伴侣效应”发现其在医学和生物科学领域更为显著,对高影响力的期刊有更重要的影响,说明经验对在特定的科学期刊上发表论文有着非常大的作用,能帮助形成高影响的科学工作。文献[26]重构50万名艺术家的展览历史和联系网络,发现艺术家处于网络中的中心位置,更容易进入梦寐以求的机构,说明声誉和影响网络在决定获得资源和奖励方面发挥着关键作用。文献[27]发现在多项运动项目中,成员之间共同的成功经历大大提高了团队获胜的几率,而不仅仅是个人才能。文献[28]阐述了失败的动力学机制,或许胜败早有伏笔,从动力学的早期信号就足以将成功者和无法获得成功者分离开。文献[29]发现诺贝尔奖由于仅授予生理学或医学、物理、化学等领域,扩大了科研结构化偏差,如今科研跨学科融合趋势增强,呼吁设置新的奖励制度。文献[30]通过双曲空间嵌入、KL散度等方法挖掘技能缺口和影响流,发现教育技能在工作技能和研究技能之间扮演着关键的过渡角色,并且硬技能的需求增加会促使软技能的需求增加。

    本文采集1999−2018年SNSF的P3数据库的科研基金项目完整信息,分析了信息技术学科基金中的关键词演化情况;以层级结构分布图可视化交叉关键词分析了信息技术和数学的分布情况,并通过计算不同时间段关键词分布的Kullback-Leibler散度挖掘了信息技术与数学的学科交叉情况。

    • 瑞士国家科学基金项目数据来源于SNSF的P3数据库[31]。数据库中提供了所有支持的项目、人员和出版物数据并每天更新。该数据库包含1975−2018年70 150条立项信息。基金项目的数据中包含项目编号、项目名称、项目负责人、项目所属机构、主学科名称、涉及的所有学科、主学科的上级结构、开始日期、截至日期、资助金额、关键词、摘要等字段。本文抽取了近20年即1999−2018年期间的数据,其中信息技术共包含1 493条立项信息。科学基金项目中的关键词是对研究内容进行高度概括的词语,易构成知识图谱,分析结果可读性强[32]。关键词的来源主要为数据中已列出的关键词,而部分关键词空缺项目需从标题或摘要中抽取关键词。根据该数据的特点,应用关键词库匹配方法比无监督的关键词提取能保证更高的结果准确率。

      关键词提取的工作流程为:根据已提供的关键词创建关键词表,对英文的摘要利用Standford Corenlp进行分词和停用词表去停用词,以双向最大匹配算法匹配关键词表从而抽取关键词词串。由于不同的研究人员有不同的取词习惯,需要制定调整和筛选规则对关键词进行对齐。针对关键词的对齐,本文研究采取集体实体对齐的方法,根据两个实体词的本身结构和共现邻居结构相似性度量,以更加精确的范围筛选出相似关键词集。但目前所有通过计算的方法都存在或大或小的误差,对于数据分析的工作,结果应尽量保证准确无误,本文研究通过设定不同阈值对本数据的对齐结果检验,发现集体实体对齐方法的关键词对齐结果准确率较高,此外加以人工辅助使关键词准确对齐。主要工作流程为:以经过分词、去停用词处理的摘要作为word2vec[33]的训练数据,生成词向量,计算每个关键词词组中每个词的词向量加权平均和作为关键词向量,利用余弦相似性[34]计算得到任意两个词的相似性,并设定阈值(相似性大于0.7)初步划分相似关键词集。此时的相似关键词集还存在很大的误差,需要划分更精确的范围。以关键词在文章中的共现频率作为单元关系构建关键词共词网络,共同出现在同一项目中的关键词则存在相邻关系,计算相似关键词集中任意两个关键词实体的共现邻居结构的相似性,得到相似度排名,再通过关键词对齐计算的主要思想——关键词的内部单词结构和在共现网络中共现邻居结构相似度高的两个关键词为对齐关系,使关键词准确对齐,最终获得5 053个有效关键词。

    • 本文统计了涉及的所有关键词词频,如图1a的词云图所示机器学习、计算机视觉、信息检索、分布式系统、软件工程是信息技术学科词频最高的关键词,也是近20年的研究重点。为客观地揭示该学科研究热点的变化趋势,本文采用词频 $g $ 指数[20-21]结合实际词频分布情况筛选高频关键词,通过计算相对词频和修均数据样本以消除不同年份科研产量和随机干扰成分的影响。具体步骤如下:

      1) 统计所选取的关键词i在第j年的词频 ${C_0}\left( {i,j} \right)$ ,(i=1,2,···,28; j=1,2,···,20)。

      2) 通过关键词的连续3年相对词频(即各关键词与当年关键词总数的比值)修均数据样本,消除样本中干扰成分的影响,进而突出数据的固有规律。

      $$\begin{split} & {C_1}(i,k){\rm{ = }}\dfrac{{{C_0}(i,k){\rm{ + }}{C_0}(i,k + 1){\rm{ + }}{C_0}(i,k + 2)}}{{3 \times \displaystyle\sum\limits_{i = 1}^{28} {{C_0}(i,k)} }} \\ & \qquad i = 1,2,\cdots,28; \, \,k = 1,2,\cdots,18 \end{split} $$ (1)

      3) 计算每个关键词的词频变化率Zi

      $$z(i,l) = \frac{{{C_1}(i,l + 1) - {C_1}(i,l)}}{{{C_1}(i,l)}}\qquad\,l = 1,2,\cdots,17$$ (2)
      $${Z_i} = \sum\limits_{l = 1}^{17} {{{z}}(i,l)} $$ (3)

      式中,Zi大于0表示该关键词i受到的关注整体呈上升趋势,且Z值越大说明该研究内容上升趋势越明显,为目前的研究热点。

      根据词频分布情况,共有28个关键词被选为近20年信息技术学科的高频关键词,其累计词频达到727次。如图1b所示是其中Z值排名前10位的研究热点。这些热点是:深度学习(deep learning)、编程语言(programming languages)、大数据(big data)、算法(algorithms)、机器学习(machine learning)等。其中,深度学习是近些年上升趋势最明显的研究内容。

      图  1  关键词情况分析

    • 为进一步清晰揭示信息技术学科研究的内部结构特征和演化,本文将1999−2018年共20年的数据以每5年为一个时间切片进行划分。为了避免频次较低的关键词对知识图谱可读性的影响,本文去掉了每个时间切片中词频小于等于3的关键词。另外在不同时间切片中,由于关键词频次存在悬殊,本文利用Ochiia系数[16]衡量两个关键词之间的联系密切程度。Ochiia系数的取值范围(0,1)。其具体计算为:

      $${{ O}_{{{AB}}}} = \frac{{{N_{{{A}} \cap {{B}}}}}}{{\sqrt {{N_{{A}}}{N_{{A}}}} }}$$ (4)

      式中,NANB分别为关键词AB出现的频数, ${N_{{{A}} \cap {{B}}}}$ 为关键AB共同出现的频数。在计算得到Ochiia系数的关键词相关矩阵后,导入关键词相关矩阵和所有关键词频次数据到Gephi软件[35],可视化每个时间切片内的内部结构。以关键词出现频次为节点的大小,连边的粗细表示研究内容之间关联强度。最后可视化的结果如图2所示,节点的大小为关键词出现频次,连边的粗细表示研究内容之间关联强度,节点越大表示关键词在该时间段出现频次越多,连边越粗表示两个关键词的Ochiia系数越大。

      图  2  关键词的知识图谱演化分析

      从每个时间段知识图谱的词频即节点大小变化来看,如图2a,1999−2003年以分布式系统(distributed system)、隐马尔可夫模型(hidden markov models)为最主要的两个研究方向,其次着重于计算机视觉(computer vision)、互联网(internet)、信息检索(information retrieval)和并行计算(parallel computing)的研究和应用,而在2004−2008年时间片如图2b所示,机器学习(machine learning)与计算机视觉成为该时间段的研究热点。接着在2009−2013年期间如图2c所示,机器学习和计算机视觉的依然是研究热点,相比较而言在上一个时间片的其他热门研究均呈现不同的下降幅度。如分布式系统的下降幅度最大,软件工程(software engineering)出现细微的研究占比下降,同时,上个时间片中研究热度较低的计算图形学(computer graphics)、人机交互(human computer interaction)、云计算(cloud computing)逐步上升,出现在大众的视野中。而从图2d的最近5年的知识图谱来看,机器学习和计算机视觉较上个时间切片的占比仍为增长的趋势,其次的研究热点深度学习(deep learning)、大数据(big data)和物联网(internet of things)即是近5年新兴的研究热点。

      从研究内容的关联强度即连边的粗细的变化来看,如图2a,在2009−2013年的时间切片知识图谱中,隐马尔可夫模型应用于计算机视觉和语音识别(speech recognition)的研究中。在计算机视觉的相关研究中,值得一提的是图像处理(image process)在信息技术学科的研究中保持着稳定发展,直至2018年仍占有不少的比重,该研究内容在初期与计算机视觉联系紧密,而伴随着机器学习的发展,图像处理转向与机器学习结合的研究。而下一个时间切片的图2b知识图谱中,以计算机视觉、机器学习和分布式系统为度最大的节点。就计算机视觉而言,除了机器学习与计算机视觉的交叉研究非常紧密,与该内容存在交叉研究的内容诸多相同,主要概括为包含文本处理的信息检索、图模型、目标检测与模式识别。在此阶段,对于分布式系统的研究虽然减少,但相关的研究更加丰富,最主要展开了协调力和中间件(middleware)的研究,还开始涉及了算法(algorithm)、图论(graph theory)和博弈论(game theory)等复杂性科学的研究。在图2c的2009−2013年时间段,与分布式系统相关的研究内容之间连线比前些年更粗,说明在此时这些研究联系更加紧密。其中可靠性(reliability)、可扩展(scalability)和并行(parallel)成为该时间对软件工程方向最为侧重的研究点。并在该阶段,与机器学习相关的研究更为丰富,主要包括对近似算法(approximation algorithms)、数据挖掘(data mining)、隐私与安全(privacy and security)、计算与系统生物学(system and computational biology)、计算神经科学(computational neuroscience)、自然语言处理(natural language processing)、计算机视觉、图像处理等研究。从图2d的这个时间切片内容来看,机器学习和深度学习处于人工智能领域非常核心的位置,形成类星状结构,而计算机视觉边缘化现象已非常明显。不仅已有研究内容得到发展,还新增了大数据(big data)、数字人文(digital humanities)、物联网、智能电网(smart grids)、生物信息学(bioinformatics)、机器人技术(robotics)、虚拟现实(virtual reality)、众包(crowdsourcing)、医疗影像(medical imaging)、高性能计算(high-performance computing)等新兴研究方向。

    • 在瑞士国家科学基金项目数据集中共有290个在不同学科共同出现的关键词,为直观地看出这些共同关键词的不同分布,图3绘制了所有词频高于5并且度大于1的关键词层级分布图,节点的大小表示关键词的词频高低,其节点越大,词频越高。其中,深色节点为信息技术与数学交叉研究中的共同关键词,该关键词在两学科的研究中都处于重要的地位,浅色节点则是仅出现在某一学科的关键词,在该学科为重点研究内容,但在另一学科中研究占比较少。节点到圆心的距离代表其在层级上接近顶点的程度,处于圆心的节点是处于该学科核心地位的研究内容。结果如图3a所示,信息技术学科的层级分布图共显示了64个关键词,如图3b所示,数学学科的层级分布图共显示40个关键词,共同关键词包含16个。在两学科层级分布图中,机器学习和算法(algorithm)分别为最靠近圆心的核心研究内容。在共同关键词中,密码学(cryptography)和算法为在两学科中研究频率都相对最高的关键词,其中,密码学在信息技术学科中词频为32,在数学学科中词频为13,比算法的词频更高。除机器学习之外的其余共同关键词研究频率都比密码学和算法略低,但在两学科中研究词频分布非常均匀。而机器学习在信息技术学科中词频为86,在数学学科中词频为6,研究占比的差距在所有关键词中最大,但数学在机器学习中是很重要的,无论在算法的研究,还是在工程上的系统构建。从分布的位置上看,这些表示交叉情况更明显的共同关键词比其他关键词更靠近圆心,说明交叉研究越频繁,且更容易带动研究内容的发展。

      图  3  关键词层级分布图

    • 信息技术与多个学科存在交叉关系,图4a为与信息技术交叉研究最频繁的10个学科,以连边的粗细体现两个学科交叉研究的频繁程度,连边越粗表示两学科的联系越紧密。其中,数学(mathematics)是与信息技术最为密切的学科,其次是电气工程(electrical engineering)和其他工程学(other disciplines of engineering sciences)心理学(psychology)和管理科学(science of management)等学科。为进一步研究这两个交叉密切的学科在不同时间的交叉情况,本文整合了信息技术(IT)和数学(math)4个时间段(1999−2003年,2004−2008年,2009−2013年,2014−2018年)的所有关键词,并通过关键词总数归一化,将每个关键词出现的频率转化为概率,然后评估关键词分布之间的Kullback-Leibler(KL)散度[30],来探测研究内容的相似性,从而动态评估两学科内部结构差异和交叉情况来探测变化情况。KL散度也称相对熵,是用于量化分布间的差异,计算一个已有的关键词概率分布p(x)遇到一个新的关键词概率分布q(x)所经历的信息增益,具体计算为:

      $${{{\rm{KL}}(p(x)||q(x)) = }}\sum\limits_x {p(x)\lg \frac{{p(x)}}{{q(x)}}} $$ (5)

      图  4  信息技术与数学内部结构差异与交叉情况

      图4b所示,KL值为0时,两个概率分布完全相同,颜色为白色;KL值越大,两者的差异越大,颜色越深。该矩阵显示每个学科自身年份跨度越大,相似性越低,IT(1999−2003年)与IT(2014−2018年)的KL值相较于其他时间段的KL值最大。就学科自身的演化情况来看,1999−2003年到2004−2008年的KL值比2004−2008年(2009−2013年)到2009−2013年(2014−2018年)更大,演化速度更快,其中数学以略微的优势比信息技术演化更快。从两学科的交叉情况来看,在学科交叉现象(图3a)不明显的1999−2003年,IT和Math的研究内容不相似度也极高,而伴随着交叉现象激增,除1999−2003年的其他时间段,概率分布的KL值普遍降低,并且与1999−2003年和其他4个时间段的KL值差距明显。说明针对数学和信息技术的学科交叉研究也曾加入了交叉研究的大潮流,但近些年信息技术和数学的交叉趋势趋于平稳,两学科的交叉研究已发展至较稳定、成熟的状态。

    • 本文通过分析1999−2018年瑞士国家科学基金的立项信息,挖掘瑞士的信息技术学科的发展情况。首先分析了信息技术学科的关键词研究频率和演化情况,发现信息技术从原始围绕分布式系统等软件开发演化成以机器学习、深度学习为中心的人工智能研究;然后挖掘信息技术与交叉现象最明显的数学的交叉情况,发现密码学和算法是信息技术与数学交叉最明显的研究内容,并且这两个学科的交叉研究也曾加入了2002−2010年的交叉研究大潮流,但近些年两学科的交叉研究已发展至较稳定、成熟的状态。本文研究以期为信息技术学科及相关交叉学科的发展提供一定的参考,但目前对于学科交叉的演化研究不够深入。在接下来的研究工作中,将进一步通过交叉词刻画学科交叉中研究内容相互影响的因果关系和学科交叉对研究内容发展的影响,并期望能找到交叉学科的发展规律。

      本文研究工作得到杭州师范大学科研启动经费项目和“钱江人才计划”D类项目(QJD1803005)的资助,在此表示感谢。

参考文献 (35)

目录

    /

    返回文章
    返回