-
实体关系抽取[1]是自然语言处理中的一项基本任务,主要应用于信息抽取、问答系统、自动文本摘要等,其任务是将实体间的关系形式化地描述为三元组
$ \left\langle E_{1}, R, E_{2}\right\rangle $ 。关系抽取的定义如下,给定一个句子$ S $ ,存在一对标记实体$ E_{1} $ 和$ E_{2} $ ,其目的是抽取出$ E_{1} $ 和$ E_{2} $ 之间的关系$ R $ 。如在句子“马云创办了阿里巴巴”中,包含了实体“马云”和“阿里巴巴”,以及之间的关系“创办”。实体关系抽取的目的是识别句子中标注的实体,并对关系进行抽取。在实体关系抽取的发展过程中,学者们提出了各种关系抽取方法。早期的抽取方法主要是基于规则的方法[2]和基于词典驱动的方法[3]。基于规则的抽取方法对跨领域的可移植性较差,人力物力消耗大。基于词典驱动的抽取方法灵活性不高,难以解决以动词为关系词之外的识别抽取,同时在关系抽取的过程中存在特征依赖和关系重叠的问题,对抽取的性能产生很大影响。基于传统机器学习的抽取方法[4]优于早期的关系抽取方法,在提高抽取结果准确率和召回率方面有所改善,但存在实体关系重叠的问题。随着深度学习[5]和远程监督方法[6]的发展,上述方法中存在的问题得到了较好的解决。然而,远程监督方法在处理数据时会引入大量的噪声数据。深度学习虽然减少了专家提取特征的数量,但仍然需要依赖词汇资源来获取高级特征。因此,实体关系抽取的主要问题集中在噪声数据和特征提取两个方面。
随着强化学习[7]在自然语言处理领域的应用,强化学习为解决实体关系抽取问题提供了新的研究思路,同时对于任务中远程监督的噪声问题提供了一种十分有效的解决方法。
因此,本文提出了一种新的融合强化学习的实体关系联合抽取模型。该模型包括两部分:联合网络模型和强化学习(Reinforcement Learning, RL)代理。本文的联合网络模型用于抽取实体及实体之间的关系,强化学习代理通过与联合网络模型进行交互,识别并过滤掉带有噪声的句子,从而提高联合网络模型抽取的性能。
-
为了全面评估本文提出的模型性能,本次实验在远程监督开发的纽约时报(New York Times, NYT)语料库上进行,且所有数据集都包含噪声数据。所用数据集的统计数据如表1所示。
类型 句子 实体对 关系 训练集 522611 281270 18252 测试集 172448 96678 1950 -
为了评价模型的性能,本文采用精确率(Precision)、召回率(Recall)和F1作为评价指标,计算公式分别如下:
式中,TP表示模型正确地预测为正例(正确的实体或关系)的数量,即模型正确地将实际存在的实体或关系标识出来的数量;FP表示模型错误地预测为正例的数量,即错误地将不存在的实体或关系标识为存在的情况;FN表示模型错误地预测为负例(未标识的实体或关系)的数量,即模型未能正确地识别出实际存在的实体或关系。
-
在本实验的设置中,将单词嵌入的维度设置为50,位置嵌入的维度为5。为Bi-LSTM设置的隐藏单元数为128,GCN的维度为256。学习率和丢失率分别设置为0.02和0.5,更新率设置为0.01。具体设置如表2所示。
参数 值 词嵌入维度 50 位置嵌入维度 5 Bi-LSTM隐藏单元数 128 GCN维度 256 GCN层数 3 学习率 0.02 丢失率 0.5 更新率 0.01 权重因子 0.01 注意力头的大小 8 -
针对实体关系抽取任务,本文选择了不同的基线方法来进行对比。
1)Bi-LSTM[27]:对分词后的词嵌入进行深层Bi-LSTM网络处理以获取上下文语义信息。然后在时间步维度做最大池化降维获取其句子级别特征,最后结合实体尾部的隐藏层向量进行分类。
2)Bi-LSTM-ATT[28]:将双向长短期记忆(Bi-LSTM)和注意机制作为一个联合模型来处理句子的文本特征,并对两个实体之间的关系进行分类。
3)Bi-LSTM-ATT-RL[28]:将RL模型引入Bi-LSTM-ATT中,使用RL过滤掉数据集中带有噪声的句子,在句子级别上取得较好的关系分类性能。
4)GCN:该模型为一种多层的图卷积神经网络,每个卷积层只处理一阶领域信息,通过叠加几个卷积层可以实现多阶领域的信息传递。
5)GAT:在图卷积神经网络中加入注意力机制,来给每个邻居结点分配不同的权重,从而能够识别出更加重要的邻居结点。
-
为了证明本文提出模型的有效性,从两个方面对实验结果进行分析,并通过Precision、Recall和F1值对模型的性能进行评判。
-
在网络模型训练中,本文使用Bi-LSTM、Bi-LSTM-ATT、GCN、GAT和本文提出的联合网络模型(GCN-MHATT)进行比较,实验结果如表3所示。
根据表3的实验结果显示,相较于Bi-LSTM模型,GCN在Precision、Recall和F1评分方面都有所提高,验证了GCN在关系抽取任务中比Bi-LSTM模型更加有效。同时,实验结果表明,在融合了注意力机制的Bi-LSTM-ATT模型中,其效果优于普通的Bi-LSTM模型。GAT和GCN的实验结果也表明,联合使用注意力机制和GCN能够显著改善各项性能指标,证明注意力机制可以进一步提高关系抽取任务的性能。本文提出的联合抽取模型(GCN-MHATT)由GCN和多头自注意力机制组成,在与Bi-LSTM-ATT和GAT相比较时,它的Precision分别提高了4.3%和2.1%,F1值分别提高了4.5%和1.8%。证明GCN和多头自注意力机制对于关系抽取任务的有效性,并在抽取任务中实现了良好的效果。
模型 Precision Recall F1 Bi-LSTM 0.615 0.414 0.495 Bi-LSTM-ATT 0.650 0.447 0.524 GCN 0.635 0.426 0.510 GAT 0.672 0.465 0.551 GCN-MHATT 0.693 0.482 0.569 根据图6的结果可以更加直观地发现,相较于之前的模型,GCN模型在性能上表现更好且训练后的模型精确率更高。此外,在GCN模型的基础上,分别加入了自注意力机制和多头自注意力机制,使得模型的训练效果均有所提升,其中采用多头自注意力机制的模型表现最佳。
联合训练中,对联合网络模型和RL模型进行总体实验,使用Bi-LSTM-ATT、Bi-LSTM-ATT-RL、GCN-MHATT和GCN-MHATT-RL进行比较,实验结果如表4所示。
根据表4可以发现,相较于Bi-LSTM-ATT模型,采用RL方法的Bi-LSTM-ATT-RL模型在Precision、Recall和F1评分方面均有所提高,这证明了RL方法能够有效提高实体关系抽取模型的性能。为了进一步验证本文提出模型中RL方法的效果,在联合抽取模型基础上加入RL方法进行共同训练。结合RL方法可以改善联合抽取模型的实验结果,使精确率提高了4.9%,F1值提高了4.7%。这些实验结果表明,RL方法可以提高联合抽取模型的性能,并且在本文提出的联合抽取模型基础上,性能表现更佳。与Bi-LSTM-ATT-RL模型进行比较,本文提出的基于强化学习的实体关系联合抽取模型在Precision、Recall和F1值上的结果分别为74.2%、52.7%和61.6%,在实体关系抽取任务上表现出了非常理想的效果。
模型 Precision Recall F1 Bi-LSTM-ATT 0.650 0.447 0.524 Bi-LSTM-ATT-RL 0.661 0.452 0.528 GCN-MHATT 0.693 0.482 0.569 GCN-MHATT-RL 0.742 0.527 0.616 通过观察图7中的柱形数据变化,发现在Bi-LSTM-ATT和GCN-MHATT模型的基础上加入强化学习能够显著提高新模型的抽取效果。此外,本文提出的模型效果明显优于Bi-LSTM-ATT-RL,表明该模型能够有效处理数据噪声问题,在实体关系抽取方面获得了良好的性能。
在带有噪声的数据集中,将本文提出的模型与GCN、GCN-MHATT进行性能比较。根据图8中的精确/召回曲线所示,融合了强化学习的GCN-MHATT-RL方法在性能上优于GCN方法和GCN-MHATT方法,这表明采用强化学习可以有效去除原始数据集中的噪声数据。
-
为检测模型组件的有效性,本文引入了GCN-MHATT-RL的3种变体,在数据集上进行消融研究。
1)GCN:从GCN-MHATT-RL中移除强化学习模型和多头自注意力机制,在实验中只包含图卷积神经网络模型;
2)GCN-RL:从GCN-MHATT-RL中移除多头自注意力机制,检测实验中只含有强化学习对模型的效果;
3)GCN-MHATT:从GCN-MHATT-RL中移除强化学习模型,检测实验中只含有多头自注意力机制对模型的效果。
模型 Precision Recall F1 GCN 0.635 0.426 0.510 GCN-RL 0.681 0.463 0.576 GCN-HMATT 0.693 0.482 0.569 GCN-MHATT-RL 0.742 0.527 0.616 由表5可看出,模型在仅含有图卷积神经网络的情况下效果较差,说明通过融合强化学习代理和多头自注意力机制模型的性能得到了显著的提高。图卷积神经网络分别对强化学习和多头自注意力机制进行融合,效果均有提升,但相较GCN-MHATT-RL模型,实验结果低于本文提出的模型,说明了本文所提出的联合抽取模型对于抽取任务的有效性,并在抽取模型上取得了不错的效果。
Entity-Relationship Joint Extraction Model Infused with Reinforcement Learning
doi: 10.12178/1001-0548.2023107
- Received Date: 2023-04-13
- Accepted Date: 2023-06-01
- Rev Recd Date: 2023-07-07
- Available Online: 2024-04-01
- Publish Date: 2024-03-30
-
Key words:
- joint extraction of entities and relationships /
- noisy data /
- reinforcement learning /
- multi-head self-attention mechanism /
- graph convolutional network
Abstract: Existing joint extraction tasks of entities and relationships introduce distant supervision strategies to automatically generate large-scale training data, leading to severe problems of noisy data during data processing. To address the issue of noisy data, this paper proposes an entity relation joint extraction model with reinforcement learning integration. The model consists of two components: reinforcement learning and joint extraction model. The joint extraction model is composed of a graph convolutional network and a multi-head self-attention mechanism. Firstly, reinforcement learning is utilized to eliminate noisy sentences from the original dataset, and the denoised high-quality sentences are input into the joint extraction model. Secondly, the joint extraction model is employed to predict and extract entities and relationships from the input sentences, and provide feedback rewards to the reinforcement learning component to guide it in selecting high-quality sentences. Finally, the reinforcement learning and joint extraction models are jointly trained and iteratively optimized. The experiments demonstrating that the proposed model can effectively address the issue of data noise and outperform baseline methods in entity relationship extraction.
Citation: | ZHAI Sheping, LI Hang, KANG Xinnian, YANG Rui. Entity-Relationship Joint Extraction Model Infused with Reinforcement Learning[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(2): 243-251. doi: 10.12178/1001-0548.2023107 |