留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于双向门控循环神经网络的事件论元抽取方法

葛唯益 程思伟 王羽 徐建

葛唯益, 程思伟, 王羽, 徐建. 基于双向门控循环神经网络的事件论元抽取方法[J]. 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
引用本文: 葛唯益, 程思伟, 王羽, 徐建. 基于双向门控循环神经网络的事件论元抽取方法[J]. 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
GE Weiyi, CHENG Siwei, WANG Yu, XU Jian. Bi-GRU-Based Event Argument Extraction Approach[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
Citation: GE Weiyi, CHENG Siwei, WANG Yu, XU Jian. Bi-GRU-Based Event Argument Extraction Approach[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153

基于双向门控循环神经网络的事件论元抽取方法

doi: 10.12178/1001-0548.2021153
基金项目: 国家自然科学基金(61872186)
详细信息
    作者简介:

    葛唯益(1985-),男,博士,高级工程师,主要从事知识图谱、自然语言处理等方面的研究

    通讯作者: 徐建,dolphin.xu@njust.edu.cn
  • 中图分类号: TP183

Bi-GRU-Based Event Argument Extraction Approach

  • 摘要: 事件抽取是构建知识图谱的关键前置任务之一,而事件论元抽取是事件抽取的子任务,对事件抽取质量有显著影响。针对现有的流水线式事件抽取方法在论元抽取时忽略了触发词和论元间、论元和论元间相互关系导致抽取质量低的问题,该文提出了一种基于双向门控循环神经网络(Bi-GRU)的事件论元抽取方法。该方法融合Bert词向量、词性特征、词位置特征和触发词类型特征作为输入,采用Bi-GRU网络对文本中的词进行编码,进而应用改进的多注意力机制为句子不同部分分配权重提取句子级别特征,最后通过全连接层实现论元识别和角色分类。在基准数据集上进行了实验验证,结果表明论元识别和角色分类任务的F1-score值分别达到了69.2%和61.6%,优于现有方法。
  • 图  1  基于双向门控循环单元和多注意力机制的事件论元抽取模型

    表  1  特征编码层不同的单词编码方式对模型性能的影响

    词向量论元识别/%论元角色分类/%
    PrecisionRecallF1 PrecisionRecallF1
    word2vec 67.7 60.2 63.7 58.6 53.4 55.8
    GloVe 68.3 58.1 62.7 59.4 53.2 56.1
    ELMo 70.2 65.7 67.9 67.1 54.7 60.2
    BERT 73.3 65.6 69.2 69.9 55.1 61.6
    下载: 导出CSV

    表  2  Bi-GRU-MATT模型相关消融实验

    模型论元识别/%论元角色分类/%
    PrecisionRecallF1 PrecisionRecallF1
    Bi-GRU-MATT73.365.669.2 69.955.161.6
    Multi Attention70.964.567.5 68.253.660.0
    Bi-GRU72.664.468.2 68.954.460.8
    下载: 导出CSV

    表  3  不同注意力权重函数对模型性能的影响

    注意力函数论元识别/%角色分类/%
    PrecisionRecallF1 PrecisionRecallF1
    Multiplicative72.764.968.6 69.255.261.4
    Additive72.864.768.5 68.854.760.9
    Symmetric multi73.065.268.8 69.454.961.3
    Symmetric multi (ReLU)73.665.169.0 69.755.061.5
    Scaled multi(ReLU)73.365.669.2 69.955.161.6
    下载: 导出CSV

    表  4  Bi-GRU-MATT模型在单论元事件句(1/1)和多论元事件句(1/N)上的抽取性能

    模型性能/%
    1/11/NF1-score
    Embedding+T37.415.532.6
    CNN51.636.648.9
    DMCNN54.648.753.5
    JMEE59.357.660.3
    JRNN50.055.255.4
    Bi-GRU-MATT60.158.761.6
    下载: 导出CSV

    表  5  Bi-GRU-MATT与其他先进方法的性能比较

    模型论元识别/%论元角色分类/%
    PrecisionRecallF1 PrecisionRecallF1
    Cross-Event 50.9 49.7 50.3 45.1 44.1 44.6
    Cross-Entity 53.4 52.9 53.1 51.6 45.5 48.3
    DMCNN 68.8 51.9 59.1 62.2 46.9 53.5
    S-CNNs 69.2 50.8 58.6 63.3 45.8 53.1
    RBPB 63.2 59.4 61.2 54.1 53.5 53.8
    JRNN 61.4 64.2 62.8 54.2 56.7 55.4
    dbRNN 71.3 64.5 67.7 66.2 52.8 58.7
    JMEE 71.4 65.6 68.4 66.8 54.9 60.3
    Ding’s model 64.7 65.0 64.8 57.4 55.8 56.6
    Joint3EE 59.9 59.8 59.9 52.1 52.1 52.1
    Bi-GRU-MATT 73.3 65.6 69.2 69.9 55.1 61.6
    下载: 导出CSV
  • [1] RILOFF E. Automatically constructing a dictionary for information extraction tasks[C]//Proceedings of the Eleventh National Conference on Artificial Intelligenc. Menlo Park, CA: AAAI, 1993, 1(1): 811-816.
    [2] RILOFF E, SHOEN J. Automatically acquiring conceptual patterns without an annotated corpus[C]//The 3rd Workshop on Very Large Corpora. [S.l.]: Association for Computational Linguistics, 1995: 148-161.
    [3] 姜吉发. 一种事件信息抽取模式获取方法[J]. 计算机工程, 2005, 31(15): 96-98. doi:  10.3969/j.issn.1000-3428.2005.15.035

    JIANG J F. An event IE pattern acquisition method[J]. Computer Engineering, 2005, 31(15): 96-98. doi:  10.3969/j.issn.1000-3428.2005.15.035
    [4] ARENDARENKO E, KAKKONEN T. Ontology-based information and event extraction for business intelligence[C]//International Conference on Artificial Intelligence: Methodology, Systems, and Applications. Heidelberg: Springer, 2012: 89-102.
    [5] KIM J T, MOLDOVAN D I. Acquisition of linguistic patterns for knowledge-based information extraction[J]. IEEE Transactions on Knowledge and Data Engineering, 1995, 7(5): 713-724. doi:  10.1109/69.469825
    [6] CHIEU H L, NG H T. A maximum entropy approach to information extraction from semi-structured and free text[C]//The 18th National Conference on Artificial Intelligence. [S.l.]: AAAI, 2002: 786-791.
    [7] LLORENS H, SAQUETE E, NAVARRO B. TimeML events recognition and classification: Learning CRF models with semantic roles[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Beijing: Tsinghua University Press, 2010: 725-733.
    [8] 丁效, 宋凡, 秦兵, 等. 音乐领域典型事件抽取方法研究[J]. 中文信息学报, 2011, 25(2): 15-21. doi:  10.3969/j.issn.1003-0077.2011.02.003

    DING X, SONG F, QIN B, et al. Research on typical event extraction method in the field of music[J]. Journal of Chinese Information Processing, 2011, 25(2): 15-21. doi:  10.3969/j.issn.1003-0077.2011.02.003
    [9] LIAO S S, GRISHMAN R. Using prediction from sentential scope to build a pseudo co-testing learner for event extraction[C]//Proceedings of 5th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2011: 714-722.
    [10] LIU S L, LIU K, HE S Z, et al. A probabilistic soft logic based approach to exploiting latent and global information in event classification[C]//The 30th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI, 2016: 2993-2999.
    [11] LI P F, ZHU Q M, DIAO H J, et al. Joint modeling of trigger identification and event type determination in Chinese event extraction[C]//Proceedings of COLING 2012. Mumbai: The Coling 2012 Organizing Committee, 2012: 1635-1652.
    [12] LI Q, JI H, HUANG L. Joint event extraction via structured prediction with global features[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2013: 73-82.
    [13] MCCLOSKY D, SURDEANU M, MANNING C D. Event extraction as dependency parsing[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2011: 1626-1635.
    [14] RIEDEL S, SAETRE R, CHUN H W, et al. Bio-molecular event extraction with Markov logic[J]. Computational Intelligence, 2011, 27(4): 558-582. doi:  10.1111/j.1467-8640.2011.00400.x
    [15] VENUGOPAL D, CHEN C, GOGATE V, et al. Relieving the computational bottleneck: Joint inference for event extraction with high-dimensional features[C]//Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2014: 831-843.
    [16] TONG M H, XU B, WANG S, et al. Improving event detection via open-domain trigger knowledge[C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: Association for Computational Linguistics, 2020: 5887-5897.
    [17] CHEN Y B, XU L H, LIU K, et al. Event extraction via dynamic multi-pooling convolutional neural networks[C]//Proceedings of the 53th Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 167-176.
    [18] NGUYEN T H, GRISHMAN R. Event detection and domain adaptation with convolutional neural networks[C]//Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2015: 365-371.
    [19] NGUYEN T H, CHO K, GRISHMAN R. Joint event extraction via recurrent neural networks[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg: Association for Computational Linguistics, 2016: 300-309.
    [20] ZHANG W B, DING X, LIU T. Learning target-dependent sentence representations for Chinese event detection[C]//China Conference on Information Retrieval. Switzerland: Springer, 2018: 251-262.
    [21] DUAN S Y, HE R F, ZHAO W L. Exploiting document level information to improve event detection via recurrent neural networks[C]//Proceedings of the Eighth International Joint Conference on Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2017: 352-361.
    [22] LEI S, QIAN F, CHANG B B, et al. Jointly extracting event triggers and arguments by dependency-bridge RNN and tensor-based argument interaction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI, 2018: 5916-5923.
    [23] LIU X, LUO Z C, HUANG H Y. Jointly multiple events extraction via attention-based graph information aggregation[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: Association for Computational Linguistics, 2018: 1247-1256.
    [24] ZHANG Z K, XU W R, CHEN Q Q. Joint event extraction based on skip-window convolutional neural networks[M]//Natural Language Understanding and Intelligent Applications. Switzerland: Springer, 2016: 324-334.
    [25] DING R X, LI Z J. Event extraction with deep contextualized word representation and multi-attention layer[C]//International Conference on Advanced Data Mining and Applications. Switzerland: Springer, 2018: 189-201.
    [26] NGUYEN T M, NGUYEN T H. One for all: Neural joint modeling of entities and events[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI, 2019: 6851-6858.
  • [1] 郁湧, 杨雨洁, 李虓晗, 高悦, 于倩.  基于全局图注意力元路径异构网络的药物−疾病关联预测 . 电子科技大学学报, 2024, 53(4): 576-583. doi: 10.12178/1001-0548.2023235
    [2] 陈欣, 李闯, 金凡.  量子自注意力神经网络的时间序列预测 . 电子科技大学学报, 2024, 53(1): 110-118. doi: 10.12178/1001-0548.2022340
    [3] 要媛媛, 付潇, 杨东瑛, 王洁宁, 郑文.  结合全局信息增强的医学领域命名实体识别研究 . 电子科技大学学报, 2024, 53(3): 431-439. doi: 10.12178/1001-0548.2023064
    [4] 刘志刚, 张国辉, 高月, 刘苗苗.  多因素引导的行人重识别数据增广方法研究 . 电子科技大学学报, 2024, 53(2): 235-242. doi: 10.12178/1001-0548.2023056
    [5] 崔少国, 独潇, 张宜浩.  基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
    [6] 黄颖, 许剑, 周子祺, 陈树沛, 周帆, 曹晟.  高效长序列水位预测模型的研究与实现 . 电子科技大学学报, 2023, 52(4): 595-601. doi: 10.12178/1001-0548.2022133
    [7] 莫太平, 黄巧人, 陈德鸿, 伍锡如, 张向文.  改进可逆缩放网络的图像超分辨率重建 . 电子科技大学学报, 2023, 52(5): 739-746. doi: 10.12178/1001-0548.2022261
    [8] 赵云龙, 田生祥, 李岩, 罗龙, 齐鹏文.  基于注意力模型和Soft-NMS的输电线路小目标检测方法 . 电子科技大学学报, 2023, 52(6): 906-914. doi: 10.12178/1001-0548.2022290
    [9] 张凤荔, 王雪婷, 王瑞锦, 汤启友, 韩英军.  融合动态图表示和自注意力机制的级联预测模型 . 电子科技大学学报, 2022, 51(1): 83-90. doi: 10.12178/1001-0548.2021100
    [10] 王磊, 孙志成, 王磊, 陈端兵, 蒋家玮.  基于DRSN-CW和LSTM的轴承故障诊断 . 电子科技大学学报, 2022, 51(6): 921-927. doi: 10.12178/1001-0548.2021385
    [11] 毛文清, 徐雅斌.  基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
    [12] 周丰丰, 牛甲昱.  细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
    [13] 代翔.  基于事件模式及类型的事件检测模型 . 电子科技大学学报, 2022, 51(4): 592-599. doi: 10.12178/1001-0548.2021377
    [14] 郭磊, 王邱龙, 薛伟, 郭济.  基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
    [15] 头旦才让, 仁青东主, 尼玛扎西, 于永斌, 邓权芯.  基于改进字节对编码的汉藏机器翻译研究 . 电子科技大学学报, 2021, 50(2): 249-255, 293. doi: 10.12178/1001-0548.2020218
    [16] 赵磊, 高联丽, 宋井宽.  面向视觉对话的自适应视觉记忆网络 . 电子科技大学学报, 2021, 50(5): 749-753. doi: 10.12178/1001-0548.2021057
    [17] 吴劲, 陈树沛, 杨庆, 周帆.  基于图神经网络的用户轨迹分类 . 电子科技大学学报, 2021, 50(5): 734-740. doi: 10.12178/1001-0548.2020435
    [18] 李学明, 岳贡, 陈光伟.  基于多模态注意力机制的图像理解描述新方法 . 电子科技大学学报, 2020, 49(6): 867-874. doi: 10.12178/1001-0548.2019228
    [19] 邓钰, 雷航, 李晓瑜, 林奕欧.  用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
    [20] 李明奇, 李玉柏, 彭启琮.  基于循环神经网络的OFDM系统的失真补偿 . 电子科技大学学报, 2007, 36(4): 677-680.
  • 加载中
图(1) / 表(5)
计量
  • 文章访问数:  5945
  • HTML全文浏览量:  1816
  • PDF下载量:  74
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-06-07
  • 修回日期:  2021-09-03
  • 网络出版日期:  2022-01-14
  • 刊出日期:  2022-01-15

基于双向门控循环神经网络的事件论元抽取方法

doi: 10.12178/1001-0548.2021153
    基金项目:  国家自然科学基金(61872186)
    作者简介:

    葛唯益(1985-),男,博士,高级工程师,主要从事知识图谱、自然语言处理等方面的研究

    通讯作者: 徐建,dolphin.xu@njust.edu.cn
  • 中图分类号: TP183

摘要: 事件抽取是构建知识图谱的关键前置任务之一,而事件论元抽取是事件抽取的子任务,对事件抽取质量有显著影响。针对现有的流水线式事件抽取方法在论元抽取时忽略了触发词和论元间、论元和论元间相互关系导致抽取质量低的问题,该文提出了一种基于双向门控循环神经网络(Bi-GRU)的事件论元抽取方法。该方法融合Bert词向量、词性特征、词位置特征和触发词类型特征作为输入,采用Bi-GRU网络对文本中的词进行编码,进而应用改进的多注意力机制为句子不同部分分配权重提取句子级别特征,最后通过全连接层实现论元识别和角色分类。在基准数据集上进行了实验验证,结果表明论元识别和角色分类任务的F1-score值分别达到了69.2%和61.6%,优于现有方法。

English Abstract

葛唯益, 程思伟, 王羽, 徐建. 基于双向门控循环神经网络的事件论元抽取方法[J]. 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
引用本文: 葛唯益, 程思伟, 王羽, 徐建. 基于双向门控循环神经网络的事件论元抽取方法[J]. 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
GE Weiyi, CHENG Siwei, WANG Yu, XU Jian. Bi-GRU-Based Event Argument Extraction Approach[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
Citation: GE Weiyi, CHENG Siwei, WANG Yu, XU Jian. Bi-GRU-Based Event Argument Extraction Approach[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
  • 文本事件抽取旨在从句子或文档中识别发生的事件,以结构化的方式描述事件的触发词、事件类型、事件论元及其角色,通常是信息检索中的重要前置任务之一,在诸多领域有着广泛应用。如在政府公共事务管理领域,及时捕获社会事件的爆发和掌握演变动态将有助于快速应急响应和事件处置,维护社会安定。因此,面向以自然语言形式存在的文本数据,研究满足应用场景需要的事件抽取方法成为当前热点研究课题之一。

    尽管已经开展了相关的研究工作,事件抽取仍然是一项颇具挑战性的任务,主要原因有以下几个方面。首先,自然语言形式表达的文本信息通常具有语义歧义和多样化的话语风格,增加了处理难度。其次,事件抽取还依赖于自然语言处理(natural language processing, NLP)中若干子任务的性能,如命名实体识别、词性标记和语法解析等。为了应对上述挑战,文献[1-5]提出了基于模式匹配的事件抽取方法。该方法先构造一些特定的事件模板,然后执行模板匹配从文本中提取带有参数的事件。代表性的工作有AutoSlog[1]、GenPAM[3]、BEECON[4]和PALKA[5]。虽然由具有专业知识的专家手动构建事件模式质量非常高,且针对特定领域通常可以实现较高的抽取精度,但是手动构建耗时费力,且无法迁移应用到其他领域中。随着机器学习方法在事件抽取方面的广泛应用,研究人员又提出了基于机器学习的事件抽取方法克服人工构建模板的局限性。该方法的基本思路是从训练数据中学习分类器,并将分类器应用于从新文本中提取事件。由于事件抽取可以进一步分为触发词抽取和论元抽取两个子任务,根据两个子任务的完成时间顺序,可以划分为基于流水线式的事件抽取模型[6-10]和联合抽取模型[11-15]。前者将触发词抽取和论元抽取任务以串行的方式进行,且针对任务特点采用不同的分类器,更注重结构性,针对性模型能够收获更好的效果;而后者同时完成触发词抽取和论元抽取任务,考虑两个任务之间的信息交互,注重任务的整体性。最近,神经网络在NLP任务中不断取得突破,基于深度神经网络的事件抽取方法[16-23]研究得到了很多关注,寻找抽取效果更佳的深度学习模型成为主要难点问题。代表性的工作有:基于卷积神经网络(convolutional neural networks, CNN)的事件抽取方法DMCNN[17],基于递归神经网络(recurrent neural networks, RNN)的事件抽取方法JRNN[19]和dbRNN[22],基于图卷积神经网络的事件抽取方法JMEE[23]。基于CNN的事件抽取方法的缺点是无法很好地捕捉到距离较远的单词之间的相互关系,因为CNN是将单词嵌入级联作为输入的。RNN刻画可以利用直接或者间接连接的两个任意的词之间的潜在依赖关系,但也存在长距离遗忘的问题。此外,现有的基于深度神经网络的事件抽取方法大多忽略触发词与触发词之间的关联,在多事件句上的效果不佳。

    针对上述问题,本文提出一种基于双向门控循环神经网络(bidirectional gated recurrent neural network, Bi-GRU)和多注意力机制的事件论元抽取模型,该模型在输入层结合深度上下文词向量和基础特征编码句子,经过Bi-GRU层特征提取后,输入改进的多注意力机制层,从3个方向计算注意力权重,编码语义结构之间的相似度,最后进行分类,完成事件论元抽取任务。

    • 为了提高论元抽取精度,本文提出了基于Bi-GRU和多注意力机制的事件论元抽取模型,命名为Bi-GRU-MATT,其框架如图1所示。该模型由特征编码层、Bi-GRU层、多注意力机制层和全连接层组成。每一层的输入输出和作用如下。

      图  1  基于双向门控循环单元和多注意力机制的事件论元抽取模型

      1)特征编码层结合经过预训练的深度语言模型编码的单词复杂特征、触发词类型特征、位置特征和词性特征,将每个单词token编码为定长的具有原始句子语义和上下文信息的向量;

      2)将编码层得到的实值向量输入Bi-GRU进行进一步编码,GRU相较于长短期记忆网络(long short-term memory, LSTM)计算效率较高,且模型简单,适合于构建较大的模型。通过Bi-GRU进一步捕捉长距离依赖后,输出完整的融合深层语义信息的句子表示。

      3)考虑到同一个单词在不同触发词表示的事件下可能扮演不同的事件论元角色,将Bi-GRU编码得到的深层语义信息向量通过改进的注意力神经网络明确编码为句子的表示向量,提取深层的语义信息,输出最终编码向量。

      4)将之前编码得到的深层语义向量和事件向量结合输入全连接网络,结合Softmax对句子中的单词token进行分类,分类器的输出计为每个论元角色计算置信度得分。

    • 为了编码深层的上下文信息,在特征编码层考虑4个方面的特征对词进行编码,分别是词向量、词性标注(part-of-speech tagging, POS)、词位置特征和触发词类型特征。具体地,选用当前先进的预训练语言模型(bidirectional encoder representation from transformers, BERT)来代替传统的预训练词向量。句子通过BERT编码得到的动态词向量表示为$ {{\boldsymbol{e}}}_{B,i} $,其中$ i $表示句子在第$ i $个位置的单词。考虑到确定论元角色的词性是非常重要的一部分,如“Attack”触发的事件承受者通常是名词,因此将词性特征加入编码,用one-hot向量表示为$ {w}_{p,i} $,词性特征的标签共有46类(含标点符号和“<unk>”、“<pad>”)。触发词的事件类型是影响事件论元检测的最重要特征,用one-hot向量表示为$ {w}_{t,i} $。同时,将触发词位置信息包括在编码中代表触发词与候选单词的空间关系,这需要给定一个输入的位置序列$ \left\{{w}_{r,1},{w}_{r,2}, \cdots, {w}_{r,n}\right\} $$ {w}_{r,i} $在0和1上取值,1表示触发词,0表示不是触发词,第i个单词表示为$ {w}_{r,i} $。3个基本特征中的$ i $均表示句子的第i个位置的单词,$ p,t,r $用来区分不同的特征。$ {w}_{p,i},{w}_{t,i},{w}_{r,i} $可映射成向量,分别为$ {{\boldsymbol{e}}}_{p,i} $, $ {{\boldsymbol{e}}}_{t,i} $, $ {{\boldsymbol{e}}}_{r,i} $

      $${{\boldsymbol{e}}}_{p,i}={{\boldsymbol{M}}}_{p}{w}_{p,i}$$ (1)
      $${{\boldsymbol{e}}}_{t,i}={{\boldsymbol{M}}}_{t}{w}_{t,i}$$ (2)
      $${{\boldsymbol{e}}}_{r,i}={{\boldsymbol{M}}}_{r}{w}_{r,i}$$ (3)

      式中,$ {{\boldsymbol{M}}}_{p},{{\boldsymbol{M}}}_{t} $$ {{\boldsymbol{M}}}_{r} $表示映射矩阵。映射得到$ {{\boldsymbol{e}}}_{p,i} $, $ {{\boldsymbol{e}}}_{t,i} $, $ {{\boldsymbol{e}}}_{r,i} $后,特征编码层将$ {{\boldsymbol{e}}}_{B,i} $和映射得到的3个特征级联,用矩阵$ {M}_{f} $映射成维度为$ d $的单词嵌入$ {{\boldsymbol{e}}}_{i} $

      $${{\boldsymbol{e}}}_{i}={{\boldsymbol{M}}}_{f}*\left[{{\boldsymbol{e}}}_{B,i};{{\boldsymbol{e}}}_{p,i};{{\boldsymbol{e}}}_{t,i};{{\boldsymbol{e}}}_{r,i}\right]$$ (4)

      式中,$ {{\boldsymbol{e}}}_{i} $为第$ i $个句子的向量表示;$ {{\boldsymbol{M}}}_{f} $为映射矩阵。

      得到句子中的每个单词$ {x}_{i} $编码为实值向量$ {{\boldsymbol{e}}}_{i} $后,输入的句子$ {\boldsymbol{W}} $被转换为向量序列$ E $,可表示为$ {E}=\left({{\boldsymbol{e}}}_{1},{{\boldsymbol{e}}}_{2},\cdots, {{\boldsymbol{e}}}_{n}\right) $。设词嵌入的维度为$ {d}_{w} $,触发词嵌入的维度为$ {d}_{t} $,位置嵌入的维度为$ {d}_{s} $,词性嵌入的维度为$ {d}_{p} $,级联之后,$ {{\boldsymbol{e}}}_{i} $的维度$ {d}_{i} $可表示为:

      $${d}_{i}={d}_{w}+{d}_{t}+{d}_{s}+{d}_{p}$$ (5)

      级联起来的包含丰富语义的特征向量作为Bi-GRU层的输入,为$ {n} \times {d}_{i} $维的矩阵,$ n $为句子中的单词个数。将编码好的特征向量输入后面Bi-GRU-MATT的其他层进行进一步的分类任务。

    • 得到特征编码层输出的句子表示向量序列$ {\boldsymbol{W}} $后,将向量序列输入一个Bi-GRU,通过RNN编码来进一步捕获长距离的依赖关系和上下文信息。选用Bi-GRU作为RNN编码层的原因在于与具有相同功效的LSTM相比,GRU计算更容易,具有更高的模型训练效率,能捕获原始输入中包含的长距离依赖信息。

      在模型Bi-GRU-MATT中,模型中采用的更新门状态和重置门状态分别为:

      $${{\boldsymbol{z}}}_{i}=\sigma \left({{\boldsymbol{W}}}_{z}{{\boldsymbol{e}}}_{i}+{{\boldsymbol{U}}}_{z}{{\boldsymbol{h}}}_{i-1}+{{\boldsymbol{b}}}_{z}\right)$$ (6)
      $${{\boldsymbol{r}}_i} = \sigma \left( {{{\boldsymbol{W}}_r}{{\boldsymbol{e}}_i} + {{\boldsymbol{U}}_r}{{\boldsymbol{h}}_{i - 1}} + {{\boldsymbol{b}}_r}} \right)$$ (7)

      式中,$ \sigma $是sigmoid函数,负责转换门控信号;$ {{\boldsymbol{W}}_z}、{{\boldsymbol{W}}_r} $$ {{\boldsymbol{U}}_z}、{{\boldsymbol{U}}_r} $$ {{\boldsymbol{b}}_z}、{{\boldsymbol{b}}_r} $都是模型自主学习的参数;$ {{\boldsymbol{h}}}_{i-1} $是第$ i-1 $步的输出向量;$ {{\boldsymbol{z}}}_{i} $是更新门得到的向量;$ {{\boldsymbol{r}}}_{i} $是重置门得到的向量。门控信号计算出来后,先用重置门来重置$ {{\boldsymbol{h}}}_{t-1} $,重置后的$ {{\boldsymbol{h}}}_{t-1} $记为$ {{\boldsymbol{h}}}_{t-1}^{'} $,再将其与输入$ {x}_{t} $拼接后通过$ \mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h} $激活函数缩放数据到$ [-\mathrm{1,1}] $内,如式(8)和式(9)所示:

      $${{\boldsymbol{h}}}_{t-1}^{'}={\boldsymbol{h}}_{t-1}\odot {{\boldsymbol{r}}}_{t}$$ (8)
      $$\widetilde {{{\boldsymbol{h}}}_{t}}=\mathrm{tanh}\left({\boldsymbol{W}}\cdot\left[{{\boldsymbol{h}}}_{t-1}^{'},{{\boldsymbol{x}}}_{t}\right]\right)$$ (9)

      模型中该步骤可以表示为:

      $$\widetilde {{{\boldsymbol{h}}}_{i}}=\mathrm{tanh}\left({\boldsymbol{W}}\cdot {{\boldsymbol{e}}}_{i}+{{\boldsymbol{r}}}_{i}{\boldsymbol{U}}{{\boldsymbol{h}}}_{i-1}+{\boldsymbol{b}}\right)$$ (10)

      最后在更新阶段更新记忆,使用之前得到的$ {{\boldsymbol{z}}}_{t} $,可同时进行遗忘和选择步骤,得到第$ i $步的输出$ {{\boldsymbol{h}}}_{i} $

      $${{\boldsymbol{h}}}_{i}=\left(1-{{\boldsymbol{z}}}_{i}\right)\widetilde {{{\boldsymbol{h}}}_{i}}+{{\boldsymbol{z}}}_{i}{{\boldsymbol{h}}}_{i-1}$$ (11)

      考虑到部分依赖与过去的状态和未来的状态有关,模型在Bi-GRU层从正向和反向两个方向使用门控循环单元编码,捕捉丰富的长距离依赖,通过Bi-GRU将句子的表示$ E $从两个方向编码为:

      $$\overrightarrow{{{\boldsymbol{p}}}_{t}}=\overrightarrow{{\bf{GRU}}}\left(\overrightarrow{{{\boldsymbol{h}}}_{t-1}},{{\boldsymbol{e}}}_{t}\right)$$ (12)
      $$\overleftarrow{{{\boldsymbol{p}}}_{t}}=\overleftarrow{{\bf{GRU}}}\left(\overleftarrow{{{\boldsymbol{h}}}_{t-1}},{{\boldsymbol{e}}}_{t}\right)$$ (13)

      经过双向编码之后,第$ t $个单词的编码为${{{\boldsymbol{e}}}_{t}}=[\overrightarrow{{{\boldsymbol{p}}}_{t}},\overleftarrow{{{\boldsymbol{p}}}_{t}}]$,即将双向门控循环单元的两个方向的编码拼接起来得到编码向量序列$ {E} $=(${{{\boldsymbol{e}}}_{1}}, {{{\boldsymbol{e}}}_{2}},\cdots , {{{\boldsymbol{e}}}_{n}}$),这在特征编码层初始特征的基础上融合了更为丰富的长距离依赖信息的句子向量表示。

    • 多注意力机制层为Bi-GRU-MATT模型的核心层。事件抽取的难点之一是句子中的某个事件论元可能在两个不同的触发词触发的事件中承担着不同的论元角色。因此,句子的特征与事件触发词、事件候选论元高度相关,在计算句子的特征表示时,这些信息十分重要。所以,在Bi-GRU-MATT模型中,使用融合注意力机制的神经网络代替传统的卷积神经网络,进行句子级别特征提取。

      注意力机制通常用于将向量序列编码为固定长度的句子表示形式。鉴于同一个句子中可能包含多个事件并且同一个参数可能表示的论元不同,本文采用了一种改进的注意力机制,将变化的触发词明确地编码为句子表示向量,称之为多注意力机制。

      句子${{\boldsymbol{W}}}=({{w}}_{1},{{w}}_{2},\cdots ,{{w}}_{n})$经过特征编码层和Bi-GRU层编码之后的输出为向量序列${E}=\left( {{{\boldsymbol{e}}}_{1}}, {{{\boldsymbol{e}}}_{2}},\cdots , {{{\boldsymbol{e}}}_{n}}\right)$,句子中第$ i $个单词$ {w}_{i} $对应的向量编码为${{{\boldsymbol{e}}}_{1}}$,通过向量序列$ {E}=\left( {{{\boldsymbol{e}}}_{1}}, {{{\boldsymbol{e}}}_{2}},\cdots, {{{\boldsymbol{e}}}_{n}}\right)$可以生成事件向量${{\boldsymbol{q}}}_{{\rm{event}}}$。事件向量代表的是词汇级别的特征表示,考虑到事件向量包含更为丰富的上下文信息,有助于分类准确度的提高,本模型的多注意力机制层的事件向量采用候选触发词和候选事件论元参数的特征编码,以及它们的上一个词和下一个词的特征编码拼接生成的事件向量,如式(14)所示:

      $${{\boldsymbol{q}}}_{{\rm{event}}}=\left[{ {{\boldsymbol{e}}}}_{{i}_{t}-1};{ {{\boldsymbol{e}}}}_{{i}_{t}};{ {{\boldsymbol{e}}}}_{{i}_{t}+1};{ {{\boldsymbol{e}}}}_{{i}_{c}-1};{ {{\boldsymbol{e}}}}_{{i}_{c}};{ {{\boldsymbol{e}}}}_{{i}_{c}+1}\right]$$ (14)

      式中,$ {i}_{t} $表示候选触发词的位置;$ {i}_{c} $表示候选事件论元的位置。相较于单纯使用候选词(候选事件触发词和候选事件论元参数),拼接生成的事件向量包含了候选词的邻近上下文信息,能得到更好的分类效果。

      事件向量是词汇级别的特征编码,还需要句子级别的特征向量来完成分类任务。在Bi-GRU-MATT模型中采用改进的多注意力机制来得到句子表示$ {{\boldsymbol{s}}}_{{\rm{sen}}} $。根据候选触发词和候选事件论元,每个句子可以分割为3部分,分别与事件向量$ {{\boldsymbol{q}}}_{{\rm{event}}} $进行注意力运算,得到句子表示$ {{\boldsymbol{s}}}_{{\rm{sen}}} $。由于候选触发词和候选事件论元的位置$ {i}_{t} $$ {i}_{c} $前后顺序在不同句子中可能有区别,不失一般性,假设$ {i}_{t} < {i}_{c} $,因此,句子表示$ {{\boldsymbol{s}}}_{{\rm{sen}}} $的计算可表述为:

      $${{\boldsymbol{s}}}_{{\rm{sen}}}=\left[\begin{array}{c}{\rm{att}}\left( {E},1,{i}_{t}\right);{\rm{att}}\left( {E},{i}_{t}+1,{i}_{c}\right);\\ {\rm{att}}\left( {E},{i}_{c}+1,n\right)\end{array}\right]$$ (15)

      式中,$ {\rm{att}}\left( {E},a,b\right) $是注意力权重计算函数,表示对句子中所有单词向量做加权的线性组合:

      $${\rm{attention}}\left( {E},a,b\right)=\sum\limits_{a}^{b}{\alpha }_{i}{ {{\boldsymbol{e}}}}_{i}$$ (16)

      式中,$ {\alpha }_{i} $是注意力权重,每个单词的注意力权重为:

      $${\alpha }_{i}=\frac{\mathrm{exp}\left({o}_{i}\right)}{\displaystyle\sum\limits _{j}\mathrm{exp}({o}_{j})}$$ (17)

      式中,$ {o}_{i} $为Attention计算的注意力权重:

      $${o}_{i}=a\left({{\boldsymbol{e}}}_{i},{{\boldsymbol{q}}}_{{\rm{event}}}\right)$$ (18)

      式中,$ a(x,y) $表示注意力权重函数,是注意力机制的核心,在注意力机制中用于对Query和key计算注意力权重,在本模型事件论元抽取任务中用于对事件向量$ {{\boldsymbol{q}}}_{{\rm{event}}} $和句子$ W $位置$ i $处的单词的匹配程度进行评分,计算注意力权重。注意力权重函数没有固定的形式,只需要对两个输入向量得到一个相似度分数即可。这里使用非线性标度乘积函数,如式(19)所示,它考虑了隐藏层的维度和非线性,使得该函数更具有表达性:

      $$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)=\frac{1}{\sqrt{k}}{f\left({{\boldsymbol{W}}}_{1}{\boldsymbol{s}}\right)}^{{\rm{T}}}f\left({{\boldsymbol{W}}}_{2}{\boldsymbol{h}}\right)$$ (19)

      式中,$ {{\boldsymbol{W}}}_{1} $$ {{\boldsymbol{W}}}_{2} $代表权重矩阵;$ f $表示非线性函数,这里选用$ \mathrm{R}\mathrm{e}\mathrm{L}\mathrm{U} $函数。经过多注意力机制层编码后,得到了事件向量$ {{\boldsymbol{q}}}_{{\rm{event}}} $和M-ATT编码的句子表示向量$ {{\boldsymbol{s}}}_{{\rm{sen}}} $,分别代表了词汇级别的特征和句子级别的特征,共同输入全连接层完成分类任务。

    • 在多注意力层之后,接上一层全连接层完成最后的分类任务。全连接层的输入$ k $是由事件向量$ {{\boldsymbol{q}}}_{{\rm{event}}} $和学习到的M-ATT编码的句子表示向量$ {{\boldsymbol{s}}}_{{\rm{sen}}} $级联起来得到的,表示为:

      $$k=\left[{{\boldsymbol{q}}}_{{\rm{event}}};{{\boldsymbol{s}}}_{{\rm{sen}}}\right]$$ (20)

      式中,全连接层输入$ k $的维度是9$ {d}_{e} $$ k\in {R}^{9{d}_{e}} $$ {d}_{e} $是输入句子$ {\boldsymbol{W}} $中每个单词经过特征编码层和Bi-GRU层编码后的输出向量的维度。将$ k $输入全连接层来抽取事件论元的参数标签:

      $$ {{\boldsymbol{y}}}={\rm{softmax}}\left({{\boldsymbol{W}}}_{t}{\boldsymbol{k}}+{{\boldsymbol{b}}}_{t}\right)$$ (21)

      式中,softmax表示的是$ {\rm{softmax}} $函数;$ {{\boldsymbol{y}}}\in {R}^{m} $$ {{\boldsymbol{W}}}_{t}\in {R}^{m\times {9d}_{e}} $$ {{\boldsymbol{b}}}_{t}\in {R}^{m} $$ m $指待抽取的事件论元角色数量,包括非事件论元“NONE”;$ {W}_{t} $$ {b}_{t} $是模型待学习的参数;$ {{\boldsymbol{y}}} $是模型的输出,为每一个事件论元角色提供了置信度得分,并且使用softmax归一化。

    • 和事件触发词检测任务相同,使用全连接层输出$ \overline {y} $的负对数似然作为整个模型的损失函数:

      $$J\left( \theta \right) = - \frac{1}{N}\sum\limits_{p = 1}^N {\sum\limits_{i = 1}^n {{y_{{p_i}}}} } {\rm{log}}\left( {{{\bar y}_{{p_i}}},\theta } \right)$$ (22)

      式中,$ \mathrm{\theta } $表示整个模型的参数集合;$ N $为输入的句子总数;$ n $为事件论元类型的标签数量,包括NONE类型的标签;${{y_{{p_i}}}}$是一个二值的指标,当$ {y}_{i} $代表真正的事件论元角色时,它的值为1,其他情况下为0;${{{\bar y}_{{p_i}}}}$是模型预测输入实例p属于事件论元类别$ i $的概率。

    • 在事件抽取基准数据集ACE2005开展实验。该数据集中定义了35个事件论元类型,加上NONE类型,共36个类型。为了与已有研究工作进行比较,使用与它们相同的数据分割方案,即40个新闻类的文章(共有881个句子)作为测试集,30个其他类型的文本(共有1087个句子)作为验证集,剩下的529个文本(共有21090个句子)用作训练集。

      基于pytorch框架实现模型,使用standford CoreNLP工具包和自然语言处理库torchtext来进行数据预处理,将句子分词并获得句子中每个单词$ {w}_{i} $的词性标注。使用Google官方的预训练模型BERT-Base获取特征编码层上下文相关的词向量表示,该预训练模型包含12层transformer,隐藏层维度768维,参数量1.1亿个。对于编码层的词性POS特征、触发词类型特征以及位置特征,维度均为50,最大句子长度设置为50,比50短的句子用padding操作补上,比50长的句子则进行截断操作。Bi-GRU隐藏层维度为200,dropout设为0.5,且batch的大小为64。和大部分模型相同,模型中使用ReLU作为非线性激活函数。同时使用mini-batch小批量随机梯度下降和AdaDelta更新规则,应用反向传播来计算梯度。模型训练20个epoch。Bi-GRU-MATT模型采用正交矩阵和高斯分布来分别初始化参数矩阵和其他参数。

      为了评估Bi-GRU-MATT模型在事件论元抽取任务上的性能,使用精确率(Precision)、召回率(Recall)和F1(F1-score)作为评价指标:

      $${\rm{Precision}}=\frac{{\rm{TP}}}{{\rm{TP}}+{\rm{FP}}}$$ (23)
      $${\rm{Recall}}=\frac{{\rm{TP}}}{{\rm{TP}}+{\rm{FN}}}$$ (24)
      $${\rm{F1}}=\frac{2 \times \mathrm{P}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n} \times \mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}{{\rm{P}}\mathrm{r}\mathrm{e}\mathrm{c}\mathrm{i}\mathrm{s}\mathrm{i}\mathrm{o}\mathrm{n}+\mathrm{R}\mathrm{e}\mathrm{c}\mathrm{a}\mathrm{l}\mathrm{l}}$$ (25)

      式中,TP是混淆矩阵中将正类预测为正类的数目;FP是混淆矩阵中将负类预测为正类的错误预测数;FN是混淆矩阵中将正类预测为负类的错误预测数。

    • 为了更清晰地展示Bi-GRU-MATT模型每个层对于模型的贡献,进行消融实验,分别从BERT预训练语言模型,Bi-GRU层和多注意力机制层评估了各层的作用。

    • 本实验旨在揭示BERT预训练模型对Bi-GRU-MATT论元抽取性能的影响。考虑到训练集标注数据量大和梯度消失的问题,将词嵌入作为可训练的参数去训练模型,会大幅度增加参数量进而引起过拟合问题,因此实验中不直接剔除预训练语言模型来做消融实验,而是替换为其他典型的预训练词向量并比较几种不同词向量编码下模型的抽取效果,结果如表1。可以看出,采用BERT深度预训练上下文语言模型编码句子中各个单词,在事件论元识别和论元角色分类任务中均达到了最佳效果。具体地,在两个具体任务上,采用了上下文相关的词向量编码BERT和ELMo的结果都显著优于采用传统的上下文无关词向量word2vec和GloVe,这表明包含深层语义和上下文信息的词向量具有更好的表示能力。进一步地,将BERT与ELMo相比比较,两个任务的F1-score值分别提升了1.3%和1.4%,这得益于BERT采用了完全双向信息弥补了ELMo的缺陷,且句子级负采样使得BERT的编码级别提升至句子级,将句子信息融入编码中使得采用BERT的Bi-GRU-MATT在实验中取得了最佳效果。

      表 1  特征编码层不同的单词编码方式对模型性能的影响

      词向量论元识别/%论元角色分类/%
      PrecisionRecallF1 PrecisionRecallF1
      word2vec 67.7 60.2 63.7 58.6 53.4 55.8
      GloVe 68.3 58.1 62.7 59.4 53.2 56.1
      ELMo 70.2 65.7 67.9 67.1 54.7 60.2
      BERT 73.3 65.6 69.2 69.9 55.1 61.6
    • 本节通过单独移除Bi-GRU层和多注意力机制层的方式来评估它们对模型的性能影响,结果如表2所示。从表中可以看出,多注意力机制层在事件论元识别和角色分类任务中分别使模型的F1-score值提升了1.7%和1.6%,而Bi-GRU层在事件论元识别和角色分类任务中分别使模型的F1-score值提升了1.0%和0.8%,这表明经过Bi-GRU编码后特征向量包含了更加丰富的长距离依赖关系以及句子特征。上述结果验证了多注意力网络和Bi-GRU编码的有效性。

      表 2  Bi-GRU-MATT模型相关消融实验

      模型论元识别/%论元角色分类/%
      PrecisionRecallF1 PrecisionRecallF1
      Bi-GRU-MATT73.365.669.2 69.955.161.6
      Multi Attention70.964.567.5 68.253.660.0
      Bi-GRU72.664.468.2 68.954.460.8
    • 多注意力机制层是Bi-GRU-MATT模型的核心层。本实验针对多注意力机制层使用的不同注意力权重函数进行对比实验,目的是为了验证选择非线性标度乘积函数作为注意力函数的合理性。

      具体地,用$ a\left({\boldsymbol{s}},{\boldsymbol{h}}\right) $代表注意力权重函数,$ \boldsymbol{s} $$ \boldsymbol{h} $代表参与注意力计算的两个向量。考虑以下5种不同的注意力权重函数来训练模型,其中函数4和5的非线性激活函数统一使用ReLU函数。

      1. 乘积函数:$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)={{\boldsymbol{s}}}^{{\rm{T}}}{{\boldsymbol{W}}}_{1}^{{\rm{T}}}{{\boldsymbol{W}}}_{2}{\boldsymbol{h}}$

      2. 加和性函数:$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)={v}^{{\rm{T}}}{\rm{tan}}{\boldsymbol{h}}\left({{\boldsymbol{W}}}_{1}{\boldsymbol{s}}+{{\boldsymbol{W}}}_{2}{\boldsymbol{h}}\right)$

      3. 对称乘积函数:$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)={{\boldsymbol{s}}}^{{\rm{T}}}{{\boldsymbol{W}}}^{{\rm{T}}}{\boldsymbol{DWh}}$

      4. 非线性对称乘积函数:$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)={f\left({\boldsymbol{W}}s\right)}^{{\rm{T}}}{\boldsymbol{D}}f\left({\boldsymbol{Wh}}\right)$

      5. 非线性标度乘积函数:$a\left({\boldsymbol{s}},{\boldsymbol{h}}\right)=\dfrac{1}{\sqrt{k}}{f\left({{\boldsymbol{W}}}_{1}{\boldsymbol{s}}\right)}^{{\rm{T}}}f\left({{\boldsymbol{W}}}_{2}{\boldsymbol{h}}\right)$

      在事件论元识别和角色分类两个任务上的实验结果如表3所示。可以看出,以ReLU为激活函数的非线性标度乘积函数作为注意力权重函数的模型在两个任务上获得了最高的F1-score值,表现优于线性的注意力函数,非线性标度乘积函数在两个任务上的F1-score值比表现最好的线性注意力函数分别高出0.4%和0.2%。

      表 3  不同注意力权重函数对模型性能的影响

      注意力函数论元识别/%角色分类/%
      PrecisionRecallF1 PrecisionRecallF1
      Multiplicative72.764.968.6 69.255.261.4
      Additive72.864.768.5 68.854.760.9
      Symmetric multi73.065.268.8 69.454.961.3
      Symmetric multi (ReLU)73.665.169.0 69.755.061.5
      Scaled multi(ReLU)73.365.669.2 69.955.161.6
    • 为了进一步验证Bi-GRU-MATT模型在事件论元抽取任务上的有效性,特别是对于不止一个论元的句子。根据句子中论元的数量将句子分成两部分,其中仅有一个论元的事件句占整个数据集的76.8%,包含至少两个论元的事件句占整个数据集的23.2%。将Bi-GRU-MATT与基线模型Embedding+T、CNN,以及DMCNN、JRNN和JMEE 3个前沿事件抽取模型进行对比,获得的F1-score值如表4所示。

      表 4  Bi-GRU-MATT模型在单论元事件句(1/1)和多论元事件句(1/N)上的抽取性能

      模型性能/%
      1/11/NF1-score
      Embedding+T37.415.532.6
      CNN51.636.648.9
      DMCNN54.648.753.5
      JMEE59.357.660.3
      JRNN50.055.255.4
      Bi-GRU-MATT60.158.761.6

      表4可以看出,Bi-GRU-MATT模型无论是在单论元事件句(1/1)还是多论元事件句(1/N)上都有最高的F1-score值。在多论元事件句上,Bi-GRU-MATT比动态多池化网络DMCNN的F1-score值高出了7.1%,这验证了Bi-GRU-MATT方法的有效性。和同样使用了循环神经网络的模型JMEE和JRNN相比,F1-score值分别提高了1.3%和5.2%,这是因为本模型采用包含丰富语义的BERT模型编码单词,并且多注意力机制有助于学习到更多的语义信息,提高模型的精度。

    • 将Bi-GRU-MATT与当前先进的事件抽取方法在事件论元识别和论元角色分类任务上进行对比。采用的对比方法分为3类,基于特征的抽取模型、基于流水线式的抽取模型和联合抽取模型,其中基于特征的抽取模型包括Cross-Event、Cross-Entity和RBPB,基于流水线式的抽取模型有DMCNN、JRNN、dbRNN,而联合抽取模型有JMEE、S-CNNs[24]、Ding’s model[25]和Joint3EE[26]

      表5给出了Bi-GRU-MATT模型与这些对比方法在事件论元抽取任务上的性能。可以看出,提出的Bi-GRU-MATT模型在事件论元识别和角色分类任务上均取得了最佳的F1-score值。Bi-GRU-MATT模型和代表性的基于特征的抽取模型相比,精确率、召回率和F1-score值均显著优于后者,在两大任务上的F1-score值比最佳的基于特征的模型(RBPB)高8.0%和7.8%,性能提升显著。与联合抽取模型对比,Bi-GRU-MATT的F1-score值也优于它们。在事件论元检测任务上F1-score值比表现最好的联合抽取模型(JMEE)高0.8%,且精确率和召回率也有提升。在论元角色分类任务上,单独执行触发词抽取和论元抽取任务的性能优于联合抽取的,主要原因在于事件类型是时间论元抽取任务中的重要特征,同时标记触发词和参数的联合模型容易忽视触发词类型特征相关的信息。

      表 5  Bi-GRU-MATT与其他先进方法的性能比较

      模型论元识别/%论元角色分类/%
      PrecisionRecallF1 PrecisionRecallF1
      Cross-Event 50.9 49.7 50.3 45.1 44.1 44.6
      Cross-Entity 53.4 52.9 53.1 51.6 45.5 48.3
      DMCNN 68.8 51.9 59.1 62.2 46.9 53.5
      S-CNNs 69.2 50.8 58.6 63.3 45.8 53.1
      RBPB 63.2 59.4 61.2 54.1 53.5 53.8
      JRNN 61.4 64.2 62.8 54.2 56.7 55.4
      dbRNN 71.3 64.5 67.7 66.2 52.8 58.7
      JMEE 71.4 65.6 68.4 66.8 54.9 60.3
      Ding’s model 64.7 65.0 64.8 57.4 55.8 56.6
      Joint3EE 59.9 59.8 59.9 52.1 52.1 52.1
      Bi-GRU-MATT 73.3 65.6 69.2 69.9 55.1 61.6
    • 本文提出了一个基于Bi-GRU和改进注意力机制的事件论元抽取模型Bi-GRU-MATT。该模型在特征编码层同样使用了深度的上下文预训练语言模型BERT,并结合词性特征和位置特征,以及触发词特征来编码单词向量,之后送入Bi-GRU网络中编码长距离的依赖关系,再输入多注意力机制层计算注意力权重,生成事件向量和句子表示向量,级联输入全连接层完成最后的分类工作。实验表明该模型可以显著提升事件论元抽取的效果,在事件论元识别和论元角色分类任务上达到了较好的效果,F1-score值分别为69.2%和61.6%。

      本文的研究工作得到了信息系统工程重点实验室开放基金项目(05201901)的支持,在此深表感谢!

参考文献 (26)

目录

    /

    返回文章
    返回