-
随着认知智能技术的不断发展,富含实体、概念、属性、关系等复杂信息的知识图谱已成为机器认识和理解文本大数据所依赖的核心体系。如何从地理文本大数据中快速准确地抽取地理文本的实体关系信息是构建地理领域知识图谱的重点。有监督的方法需要大量且高质量的标注语料,但中文数据集较少,人工标注成本较高,而半监督和无监督的实体关系抽取方法效果较差,因此远程监督(distant supervision, DS)已逐渐成为实体关系抽取的主要方法。文献[1]首次将远程监督理论用于实体关系抽取领域,但存在数据集标签的噪声问题。文献[2]将实体间的关系表示为“实体—实体=关系”,利用分段卷积神经网络(piecewise convolutional neural networks, PCNN)采集实体描述页面特征来丰富实体表示,再在模型中加入注意力机制,通过计算句子与关系的相似度赋予句子权重。文献[3]将生成预训练变换器(generative pre-trained transformer, GPT)扩展到远程监督领域,并结合自注意力机制对多实例进行处理,有效降低了显式特征的提取和错误累积的风险,明显改善了长尾关系的抽取效果。文献[4]提出的交叉关系注意(cross-relation attention)机制,能够注意到关系类型之间的相互作用且考虑了一个训练实例包含多个实体对的特殊情况,并能减少知识库中过时或未表示的信息带来的噪声。文献[5]对实体类型标注错误的噪声数据进行了优化,并提出使用联合学习(joint learning)方法缓解了噪声数据的影响。文献[6]设计了同时具有词级别和关系级别记忆网络的神经网络模型,词级记忆网络能够捕捉上下文词对目标词的重要程度,并自动对句子的语义表示进行建模,关系级记忆网络能够捕捉关系之间的相关性,并结合多实例多标签学习(multi-instance multi-label learning, MIML)最终有效抑制了标签噪声。文献[7]将课程学习(curriculum learning)引入远程监督关系抽取任务中,提出的模型通过协同训练关系抽取器和导师网络来提高模型的泛化能力。文献[8]利用生成式对抗网络学习句子级的生成器,将生成的正样本视为负样本来训练判别器,直到判别器的判断能力下降最大,再使用生成器将数据集中的负例分配到负样本集中,从而得到噪声更小的数据集。
实际中,标注的数据通常会存在大量噪声,文献[1]的方法没有考虑噪声问题,导致抽取效果不理想。而目前基于深度学习的方法大多从包(bag)级别进行关系分类,相当依赖包中句子的质量,并且不能处理句子级别的关系分类。本文提出了一个基于深度强化学习的框架来进行文本数据实体关系的抽取,能够在提高分类效果的同时降低标签噪声。
-
针对存在噪声的数据集,本文提出了基于深度强化学习的框架进行实体关系抽取,此框架包含关系抽取器与标签学习器两部分,如图1所示。
在实体关系抽取方面,首先,构造了基于实体周围词文本实体注意力机制和依存句法分析的双向长短期记忆网络关系抽取器,该抽取器能够对输入句子的关系进行分类预测,通过实体注意力机制考虑了实体周围词语在关系抽取中的重要性,能改善编码效果;其次,由于实体对的关系受实体类型的约束,因此该框架利用了实体类型嵌入模块,以实体类型丰富句子编码信息,从而帮助关系抽取器过滤错误关系;此外,该框架还利用了依存句法分析模块句子结构,通过句子中各词与其他词语之间的语法相关性进行实体和关系的匹配度比较,帮助关系抽取器从句子中得到更多信息,进一步提高了关系抽取器的预测效果。
针对训练样本中错误标签的影响,该框架还利用强化学习方法实现了标签级别的降噪。首先,使用标签学习器对关系抽取器预测的关系进行打分,将分数与DS关系标签结合作为强化学习的状态,再根据一个策略网络的结果采取下一步行动,即选择DS的标签还是关系抽取器抽取的结果作为软标签;然后,关系抽取器根据软标签进行学习训练,并提供一个奖励给标签学习器,为下一轮(episode)强化学习提供输入状态;最后,对关系抽取器与标签学习器进行联合训练,使关系抽取器对软标签的预测更加可靠,从而提高关系抽取的性能。
-
本文方法的词向量表示由词嵌入和位置嵌入组合而成,使用Word2Vec模型生成包含词语语义信息的词嵌入[9],而位置嵌入是用输入词语与实体的相对距离作为特征编码而成的向量,用来表示输入词语相对于实体的位置信息。
关系抽取器的任务是获取关系概率,为强化学习提供表示状态的信息。关系抽取器的输出与关系模式的语义相关。为了降低数据集噪声,初步提高关系抽取的效果,本文设计的关系抽取器将句子粒度级别的数据划分为训练数据信息、实体类型信息和依存句法信息,通过引入实体注意力机制来进行实体关系判定,并通过依存句法分析模块来增强实体与关系的交互性,从而能够有效提高实体关系抽取的效果,具体结构如图2所示。
-
利用结合实体周围词注意力机制的双向长短期记忆网络(bi-directional long short-term memory, BiLSTM)来学习句子表示[10],简称BiLSTM+attention,结构如图3所示。相较于传统循环神经网络(recurrent neural network, RNN),长短时记忆(long short-term memory, LSTM)可以处理较长句子中距离较远的词语之间的依赖信息,其通过3个门结构来丢弃无用的前文信息,再加入当前输入的部分信息,并最终整合到当前状态中以产生输出状态。但是LSTM只能从前到后对句子进行编码,无法考虑下文信息,而BiLSTM由前向网络和后向网络结合而成。
对于包含n个词语的句子,通过BiLSTM得到的隐向量可以表示为:
$$ {\boldsymbol{H}} = \{ {{\boldsymbol{h}}_1},{{\boldsymbol{h}}_2}, \cdots ,{{\boldsymbol{h}}_n}\} $$ (1) 对于句子中第i个词的隐向量hi,可以通过前向隐向量
$\overrightarrow {{h_i}} $ 和后向隐向量$\overleftarrow {{h_i}} $ 拼接得到。图3中hi表示了句子中第i个词语的高维语义信息,但是在实际应用中句子中的不同词语对句子的语义而言具有不同程度的重要性。因此本模型通过计算词语与实体之间的重要性程度构建词注意力机制来充实词语的语义信息,经过词注意力层的句子可以表示为:
$$ {\boldsymbol{x}} = \sum\limits_{i = 1}^n {{\alpha _i}{{\boldsymbol{h}}_i}} $$ (2) 式中,αi表示词注意力机制的权重,且
$\displaystyle\sum {{\alpha _i} = 1} $ ,词语与实体的语义相关性通过一个简单的神经网络来计算,激活函数的计算公式为:$$ {\lambda _i} = \tanh ({{\boldsymbol{W}}_a}[{{\boldsymbol{h}}_i},{{\boldsymbol{h}}_{e_1}},{{\boldsymbol{h}}_{e_2}}] + {b_a}) $$ (3) 式中,Wa表示词语重要性权重矩阵;he1和he2分别表示头实体和尾实体;ba为偏置量,然后通过Softmax函数计算得到权重αi:
$$ {\alpha _i} = \frac{{\exp ({\lambda _i})}}{{\displaystyle \sum\limits_{k = 1}^n {\exp ({\lambda _k})} }} $$ (4) 最后,使用最大池化层捕获句子中最关键的特征信息,句子的向量表示为:
$$ {{\boldsymbol{s}}_a} = {{\rm{max}}\;{\rm{pool}}} ({\boldsymbol{x}}) $$ (5) -
文本中不同类型的实体对所对应的关系一般也不同。文献[11-12]也证明了实体类型信息对于关系抽取任务有着积极影响。为了得到实体类型信息的嵌入表示,将实体类型信息映射到一个k维向量空间中,若实体有多个类型,那么取对应类型的平均向量作为实体类型的嵌入表示。对于实体对(e1, e2),将两者的类型嵌入连接起来,作为实体类型对关系的约束,计算方法如下:
$$ {\bf{Typ}}{{\text{e}}_e} = [{\bf{Typ}}{{\text{e}}_{{e_1}}},{\bf{Typ}}{{\text{e}}_{{e_2}}}] $$ (6) 式中,Typee1表示实体e1的类型嵌入表示向量;Typee2表示实体e2的类型嵌入表示向量,将这两者连接起来再整合到关系提取器中。
-
本文的关系抽取器还引入了基于依存树的特征表示[13],但并不使用整个句子的依存树结构,而是获得句子中包含实体对的依存子树,并将包含实体对的依存子树编码为局部特征向量,这样可以减少噪声并强化实体对之间的关系特征。包含实体对的依存子树可以表示为如下形式:
$$ {\bf{Tree}} = [{{\boldsymbol{t}}_1},{{\boldsymbol{t}}_2}, \cdots ,{{\boldsymbol{t}}_n}]\begin{array}{*{20}{c}} {}&{i = 1,2, \cdots ,n} \end{array} $$ (7) 式中,ti表示依存子树上第i个节点的词向量表示,这些词向量连接起来组成最终的依存子树表示。
结合上述三者,便得到最终的句子表示为:
$$ {\boldsymbol{s}} = [{{\boldsymbol{s}}_a},{\bf{Typ}}{{\bf{e}}_e},{\bf{Tree}}] $$ (8) 由于基于远程监督的实体关系抽取方法通常都将含有共同实体对的句子打包成一个包,利用多条正实例包进行训练得到正确的实体关系。因此,为了克服同一实体对的句子信息不足和噪声影响的问题,在包中获得高质量的句子,本文采用了一个句子注意力机制来计算包中句子的注意力权重,再根据权重来判断句子质量的高低。对于第i个句子,它的权重βi为:
$$ {\beta _i} = \frac{{\exp (({{\boldsymbol{s}}_i} \odot {\boldsymbol{u}}){\boldsymbol{v}})}}{{\displaystyle \sum\limits_k {\exp (({{\boldsymbol{s}}_k} \odot {\boldsymbol{u}}){\boldsymbol{v}})} }} $$ (9) 式中,s表示句子向量;u和v表示两个加权向量;⊙表示对逐个元素进行乘积,那么经过加权之后的包表示形式为:
$$ {\boldsymbol{g}} = \sum\limits_i {{\beta _i}{{\boldsymbol{s}}_i}} $$ (10) 基于式(10),便可通过Softmax函数计算得到实体关系的概率分布:
$$ {p_j} = \frac{{\exp ({\boldsymbol{W}}{{\boldsymbol{g}}_j} + b)}}{{\displaystyle \sum\limits_k {\exp ({\boldsymbol{W}}{{\boldsymbol{g}}_k} + b)} }} $$ (11) 式中,pj表示模型对j种关系的预测结果;W是由参数组成的矩阵;b表示偏置值。包的预测标签计算方法为:
$$ {y^ * } = \arg \max \{ {p_1},{p_2}, \cdots ,{p_n}\} $$ (12) 式中,n表示标签的总体数量。而目标函数则表示为:
$$ {\text{loss}}(\hat y,p) = - \hat y\log p $$ (13) 式中,ŷ表示潜在标签的向量,本文采用最小化式(13)优化来关系抽取器,并使用小批量Adam优化器来更新关系抽取器中的所有参数[14]。
-
本文采用的标签学习器是基于强化学习中智能体思想构建的,它能够通过一个策略网络更正噪声标签,并产生软标签,其主要组成部分为:
1) 状态
为了符合马尔可夫决策过程[15],本文将包的当前信息和被纠正的标签信息结合起来作为当前的状态。将状态表示为连续实值向量st,它编码以下信息:① 从序列标注模型中获得的当前句子的向量表示;② 已选句子集的表示,它是所有已选句子的向量的平均值;③ 当前集合包都包含的实体向量。
2) 动作
为了对噪声标签进行纠正,本文将动作设计成一个选择标签的二分类:根据当前时刻的状态表示向量,选择关系抽取器预测的标签或语料库DS标签中的一个,记为包的软标签。通过这种手段,就能得到经过标签降噪的数据,用于关系抽取器的训练,进而提高其关系预测的性能。
3) 策略
标签学习器的动作at只有两种选择,因此定义at∈{0, 1},0表示标签学习器选择DS标签,1代表标签学习器选择预测标签。本文依据概率分布函数
$\pi \left( {{a_t}|{\boldsymbol{s}_t};\varTheta } \right) = \sigma \left( {{\boldsymbol{W}}{{{\boldsymbol{s}}}_t} + b} \right)$ 在状态st时获取at的值,其中Θ={W, b}是需要学习的参数集,W为训练矩阵,b为偏置,σ(·)表示Sigmoid函数。在训练中,通过策略函数,标签学习器能采取高概率的动作,且采取的动作具有随机性,实现了对软标签的学习。4) 奖励
设计的奖励是一个经典的延迟奖励。在所有动作都完成之后,确定了软标签并将软标签作为正确标签来更新关系抽取器,然后使用验证集对更新后的关系抽取器进行验证,并将结果反馈给标签学习器以得到奖励,奖励的计算函数为:
$$ R = \frac{1}{{\left| {{\mathop{\rm Val}\nolimits} } \right|}}\sum\limits_{{{\boldsymbol{g}}_i} \in {\rm{Val}}} {\log p({y_i}{\rm{|}}{{\boldsymbol{g}}_i})} $$ (14) 式中,Val表示验证集;gi表示第i个包;yi表示gi的DS关系;
$p\left( {{y_i}|{\boldsymbol{g}_i}} \right)$ 表示关系抽取器经过含有软标签的数据训练之后预测的关系概率。根据在验证集上的测试结果,这里使用平均对数似然量来估计关系抽取器的性能。由于关系抽取器会被软标签更新,标签学习器选择的动作能够影响关系抽取器的性能,所以奖励能够反映标签学习器的动作是否合理。5) 目标函数
本文选择基于目标函数的方法对标签学习器的策略进行更迭,目标函数为:
$$ J\left( \varTheta \right) = {E_{\pi ({a_{1:T}}:T\left| {{{\boldsymbol{s}}_{1:T}}} \right.;\varTheta )}}[R] $$ (15) 式中,T表示含有噪声标记的包的个数;R表示标签学习器的奖励;Θ是标签学习器的参数,本文使用式(16)迭代地更新参数:
$$ {\nabla _\varTheta }J\left( \varTheta \right) = \sum\limits_{t = 1}^T {{\nabla _\varTheta }\log \pi ({a_t}{\rm{|}}{{\boldsymbol{s}}_t};\varTheta )} R$$ (16) 在模型训练时,奖励的大小与其选择的动作相关,当动作选择的是正确的关系标签时会获得一个较大的奖励,从而通过该方法提升抽取模型识别关系的性能。
-
本文提出的关系抽取方法需要对模型的两个模块进行预训练。首先使用公开数据集或自建语料库预训练关系抽取器;其次使用上一步得到的模型参数,通过选择远程监督标签或预测标签的方法预训练标签学习器;最后将关系抽取器和标签学习器进行联合训练。具体过程可用伪码表示如下:
输入:训练集Tra,验证集Val,关系抽取器的预训练参数集Φ0,标签学习器的预训练参数集Θ0;
输出:关系抽取器参数集Φ,标签学习器参数集Θ;
for episode l=1 to L do
计算关系抽取器在训练集Tra上的关系预测概率;
得到含有噪声标签的数据集合Noi,并使用它来表示强化学习的状态;
for xt∈Noi do
通过π(at|st;Θ)来采样动作at,获取软标签;
end for
根据软标签更新关系抽取器的参数集合;
计算验证集Val的预测分数;
计算标签学习器的奖励;
更新标签学习器的参数集合;
end for
算法首先用关系抽取器的预测标签或远程监督标签来表示强化学习的状态,并获取错误标记的训练集,其次标签学习器通过策略来捕获动作,获取软标签集合,再次使用软标签来更新关系抽取器的参数集,通过验证集上的验证结果,使用式(18)获得期望奖励,最后更新标签学习器的参数。参数集Φ和Θ的更新公式由加权因子λ和上一轮的参数
$ \hat \varPhi $ 和$ \hat \varTheta $ 表示,计算方法为:$$ \varPhi {\text{ = }}\lambda \varPhi {\text{ + (1 }} - \lambda {\text{)}}\hat \varPhi $$ (17) $$ \varTheta {\text{ = }}\lambda \varTheta {\text{ + (1 }} - \lambda {\text{)}}\hat \varTheta $$ (18) -
本文实验所采用的服务器配置为:Intel Xeon E51620 v4处理器(3.5 GHz主频)、8 GB内存,GPU为NVIDIA Quadro P4000,Windows10 64位操作系统,编程环境为PyCharm,代码基于Python3.6编写。文本研究侧重于解决地理领域文本的关系抽取问题,所以实验的数据集分为两部分:1) 通过非结构化文本与某百科的知识库自动标注、对齐获得的地理领域文本数据集,共有21万条标注预料和10种关系,其中训练集有13万个句子,验证集有4万个句子,测试集有4万个句子。2) 来自多语种公开数据集ACE2005和中文公开数据集Chinese-Literature-NER-RE-Dataset,这两个数据集通过对齐百度百科知识库生成,原始训练集按照3:1的比例划分为一个训练集和测试集。其中从ACE2005数据集中选取了关系类型数据量最大的10种标签组成的一个子集ACE2005-small,Chinese-Literature-NER-RE-Dataset则选取了它所有9种关系类型和其他组成10种关系类型。
-
使用深度强化学习进行文本实体关系抽取之前,需要对模型的参数进行设置,主要包括句子编码器、标签学习器的预训练参数以及联合训练的参数等,主要参数设置如表1所示。
表 1 模型参数设置
参数 参数值 词向量维度 300 位置向量维度 5 实体向量维度 50 BiLSTM隐藏层维度 300 Dropout 0.5 学习率 0.001 批次大小 50 标签学习器迭代轮数 3 动作采样数 3 联合训练权重 0.01 替换软标签轮数
迭代次数5
100 -
关系抽取算法主要采用精度(precision)、召回率(recall)和前N个样本的精度(P@N)进行评估,其中精度为:
$$ {{\rm{Precision}}} = \frac{{{T_r}}}{{{T_a}}} $$ (19) 召回率为:
$$ {{\rm{Recall}}} = \frac{{{T_r}}}{{{T_t}}} $$ (20) 式中,Tr表示抽取结果中正确的关系数量;Ta表示抽取的结果总数;Tt表示测试集中的关系总数。
-
本文验证了几种改进策略对提高模型实体关系抽取的效果,使用的实验数据集为公开的ACE2005-small数据集。实验结果使用P-R曲线图来展示加入实体关系类型模块和依存句法树模块对模型性能产生的影响,如图4所示,其中ATT表示注意力机制(attention),Etype表示实体关系类型模块,DSP(dependency syntactic parsing)表示依存句法树模块。从图4a中可以看出,各改进模块在关系抽取性能提高方面都发挥了一定的作用。在加入实体对类型约束模块后,改进模型的精度在召回率为0.025左右时几乎达到了所有算法中的最大值,但之后随着召回率的提升精度下降较快,在加入实体对类型模块后改进模型的精度与原始模型相比提升较大。进一步加入依存句法树模块之后,随着召回率的提升,模型精度的下降速度得到了有效缓解,且在召回率大于0.1之后,模型精度均高于仅加入实体对类型的模型。最后加入强化学习模块之后,改进模型在召回率大于0.05之后其精度在所有算法中仍为最优,并且与不加入强化学习的模型相比提升较大,这就表明加入强化学习进行标签降噪之后能够进一步提升模型关系抽取的效果。
-
本文还在自建测试集和公开数据集上比较了所提算法与其他基准模型在处理专业领域文本方面的性能。传统方法的基准模型选择了远程监督的基础Mintz模型[1]和基于特征的多实例学习方法(MIML)。其中Mintz模型是出的远程监督经典模型,MIML模型是传统方法中解决Mintz问题的最佳模型[6]。在深度学习的方法中,将BiLSTM和PCNN方法与注意力机制(ATT)[16-17]以及PCNN与强化学习(reinforcement learning, RL)结合使用[18],并与本文提出方法进行对比。
从图4b的自建数据集测试结果可以看出,传统方法Mintz和MIML的效果远低于基于深度学习的方法,并且在召回率为0.20左右时精度就下降到0。而BiLSTM+ATT模型在召回率为0.025左右时精度优于其他3种方法,但随着召回率的增大精度下降速度较快。在自建数据集上PCNN+ATT算法达到了较高的精度,但随着召回率的增加,其精度优势不太明显。PCNN+RL模型在召回率大于0.10之后,性能优于其他几种算法,这也表明强化学习能有效提升深度学习关系抽取模型的性能。本文在其基础上进行优化,提出的方法在召回率为0.01时精度明显超过了PCNN+RL模型和其他几种方法,并且在召回率大于0.07之后,其精度基本都高于其他方法。因此,本文所提算法的P-R曲线面积也大于其他几种方法,从而验证了本文所提关系抽取模型的优越性。
从图4c的Chinese-Literature-NER-RE-Dataset中未公开数据集的P-R曲线来看,Mintz和MIML与深度学习的几种方法相比效果仍较差。BiLSTM+ATT的整体效果较差,它在召回率低于0.05时精度下降速度过快,但是在召回率为0.2之后与其他深度学习模型的性能相差不大。PCNN+ATT虽然在召回率大于0.2之后的性能比BiLSTM+ATT优秀,精度优势并不明显。PCNN+RL在召回率为0.05时精度达到最大值,但是当召回率大于0.20,它的精度相比其他深度学习模型就显得较低。本文提出的方法在低召回率时精度小于PCNN+RL,这可能是由于本文采用的是专业领域的文本数据对实体关系抽取模型进行训练,因此通用数据集的其他领域的标注数据都会被模型视作噪声标签,从而导致错误发生,但是当召回率大于0.15之后本文所提方法的精度一直高于其他4个模型,而且本文所提方法的P-R曲线面积也大于其他几个模型,这就证明了本文算法的专业领域的泛化性也较好。
为了进一步检验本文提出方法的性能,本文分别采用自建数据集和中文公开数据集里超过一个句子的包中前N个结果的精度(P@N)来判断抽取性能。表2和表3分别给出了几种关系抽取方法采用自建数据集和公共数据集的P@100,P@200、P@300值和平均值。从表2和表3的结果中都可以看出,传统方法Mintz和基于特征工程的MIML方法的P@N值与后4种基于深度神经网络的方法差距仍较大,且精度也普遍较低。比较4种基于深度神经网络的方法,在自建数据集上,本文模型比PCNN+ATT等深度学习方法的平均精度提高了5%左右,而与深度强化学习的PCNN+RL模型相比,本文方法的P@N也均提高了2%左右;在公共数据集上,本文模型比深度学习方法中的BiLSTM+ATT模型的平均精度提高了7%左右,而与PCNN+RL模型和深度强化学习的PCNN+RL模型相比,本文方法的P@N也均提高了3%左右。此外,表2的结果普遍要略高于表3的结果,主要可能是因为自建数据集中存在一对实体间具有多种关系的情况,而公共数据集中基本不存在此类情况。
表 2 不同方法在自建数据集上的P@N结果
Model P@100/% P@200/% P@300/% Mean/% Mintz 68.4 66.9 60.1 65.1 MIML 77.2 73.6 70.8 73.9 BiLSTM+ATT 81.4 77.1 73.5 77.3 PCNN+ATT 82.2 79.4 76.8 79.5 PCNN+RL 84.1 81.7 76.4 80.7 本文模型 86.6 83.2 80.7 83.5 表 3 不同方法在中文公开数据集的P@N结果
Model P@100/% P@200/% P@300/% Mean/% Mintz 64.0 60.5 62.3 62.3 MIML 73.0 70.5 68.0 70.5 BiLSTM+ATT 78.0 77.0 71.3 75.4 PCNN+ATT 82.0 77.5 79.0 79.5 PCNN+RL 82.0 79.5 76.0 79.2 本文模型 85.0 81.5 80.0 82.2 结合P-R曲线与P@N结果分析,本文模型在不同程度上都有最优结果,证明了本文的改进策略对关系抽取都有促进作用,表明了本文模型的优越性。
Entity Relationship Extraction from Text Data Based on Deep Reinforcement Learning
-
摘要: 从文本大数据中快速准确地抽取文本的实体关系信息是构建知识图谱的关键。针对目前主流的远程监督关系抽取方法常常忽略实体对的类型信息和句子语法信息的问题,该文提出了一种基于深度强化学习的文本实体关系抽取方法。首先,利用结合实体周围词注意力机制的双向长短期记忆网络作为句子编码的第一个模块;然后,在此基础上加入实体类型嵌入模块,利用实体类型来丰富句子编码信息;最后,将一个依存句法分析模块纳入模型,共同组成了关系抽取器。同时,为实现标签级别的降噪,该文结合强化学习方法,设计了一个标签学习器来学习句子的软标签,以纠正错误标签。设计的标签学习器与关系抽取器结合,构成了基于深度强化学习的文本关系抽取框架。在公开数据集ACE2005、Chinese-Literature-NER-RE-Dataset和自建的数据集上进行实验,结果表明本文提出的方法在精度和召回率上都优于目前几种主流的模型。Abstract: Extracting entity relationship information from text big data quickly and accurately is very important to build knowledge maps. The existing main methods for remote supervised relationship extraction often ignore the type information and syntactic information of entity pairs. In this work, a bi-directional long short-term memory (BiLSTM) model combined with an attention mechanism layer of words around entities is utilized as the first module of sentence encoding. Then, an entity type embedding module is added to the model to enrich sentence encoding information. Finally, a semantic dependency parsing module is also included to the model. Thus, the three modules form a relation extractor. In addition, most of distant supervised relationship extraction models are designed to reduce noises in packets and sentences, they ignore the impacts of noise labels on model performances. Focused on noise reduction of labels, this work designs a label learner, which can learn soft labels of sentences on the basis of reinforcement learning so as to modify noisy labels. A novel relationship extraction framework for text entities based on deep reinforcement learning is built from our designed relationship extractor and label learner. The experiment results for a self-constructed dataset and two public datasets, ACE2005 and Chinese-Literature-NER-RE-Dataset show that our proposed method outperforms several state-of-the-art models in precision and recall rate.
-
Key words:
- deep learning /
- entity relationship extraction /
- reinforcement learning /
- remote supervision /
- text data
-
表 1 模型参数设置
参数 参数值 词向量维度 300 位置向量维度 5 实体向量维度 50 BiLSTM隐藏层维度 300 Dropout 0.5 学习率 0.001 批次大小 50 标签学习器迭代轮数 3 动作采样数 3 联合训练权重 0.01 替换软标签轮数
迭代次数5
100表 2 不同方法在自建数据集上的P@N结果
Model P@100/% P@200/% P@300/% Mean/% Mintz 68.4 66.9 60.1 65.1 MIML 77.2 73.6 70.8 73.9 BiLSTM+ATT 81.4 77.1 73.5 77.3 PCNN+ATT 82.2 79.4 76.8 79.5 PCNN+RL 84.1 81.7 76.4 80.7 本文模型 86.6 83.2 80.7 83.5 表 3 不同方法在中文公开数据集的P@N结果
Model P@100/% P@200/% P@300/% Mean/% Mintz 64.0 60.5 62.3 62.3 MIML 73.0 70.5 68.0 70.5 BiLSTM+ATT 78.0 77.0 71.3 75.4 PCNN+ATT 82.0 77.5 79.0 79.5 PCNN+RL 82.0 79.5 76.0 79.2 本文模型 85.0 81.5 80.0 82.2 -
[1] MINTZ M, BILLS S, SNOW R, et al. Distant supervision for relation extraction without labeled data[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec: ACL, 2009, 47: 1003-1011. [2] JI G L, LIU K, HE S Z, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//Proceedings of the AAAI Conference on Artificial Intelligence. San Francisco: AAAI, 2017, 31: 3060-3066. [3] ALT C, HÜBNER M, HENNIG L. Fine-tuning pre-trained transformer language models to distantly supervised relation extraction[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence: ACL, 2019, 57: 1388-1398. [4] YUAN Y J, LIU L Y, TANG S L, et al. Cross-relation cross-bag attention for distantly-supervised relation extraction[C]//Proceedings of the AAAI Conference on Artificial Intelligence. Hawaii: AAAI, 2019, 33: 419-426. [5] YAGHOOBZADEH Y, ADEL H, SCHÜTZE H. Noise mitigation for neural entity typing and relation extraction[C]//Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia: ACL, 2017, 15: 1183-1194. [6] FENG X C, GUO J, QIN B, et al. Effective deep memory networks for distant supervised relation extraction[C]// Proceedings of the 26th International Joint Conference on Artificial Intelligence. Melbourne: IJCAI, 2017, 26: 4002-4008. [7] LIU Q X, WANG P, WANG J S, et al. Curriculum learning for distant supervision relation extraction[J]. Journal of Web Semantics, 2020, 18(1): 61-62. [8] QIN P D, XU W R, WANG W Y. DSGAN: Generative adversarial training for distant supervision relation extraction[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Melbourne: ACL, 2018, 56: 496-505. [9] MIKOLOV T, CHEN K, CORRADO G, DEAN J. Efficient estimation of word representations in vector space[C]//International Conference on Learning Representations. Scottsdale, Arizona: ICLR, 2013: 1. [10] WANG Z H, YANG B. Attention-based bidirectional long short-term memory networks for relation classification using knowledge distillation from BERT[C]//Proceedings of the IEEE 18th International Conference on Dependable, Autonomic and Secure Computing, IEEE 18th International Conference on Pervasive Intelligence and Computing, IEEE 6th International Conference on Cloud and Big Data Computing and IEEE 5th Cyber Science and Technology Congress. Calgary, AB: IEEE, 2020, 18: 562-568. [11] VASHISHTH S, JOSHI R, PRAYAGA S, et al. RESIDE: Improving distantly-supervised neural relation extraction using side information[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: ACL, 2018, 15: 1257-1266. [12] HAN X, YU P F, LIU Z Y, et al. Hierarchical relation extraction with coarse-to-fine grained attention[C]//Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing. Brussels: ACL, 2018, 15: 2236-2245. [13] SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island: ACL, 2012, 9: 1201-1211. [14] KINGMA D, BA J. Adam: A method for stochastic optimization[EB/OL]. [2020-10-19]. http://de.arxiv.org/pdf/1412.6980/. [15] ARULKUMARAN K, DEISENROTH M P, BRUNDAGE M, et al. A brief survey of deep reinforcement learning[J]. IEEE Signal Processing Magazine, 2017, 34(6): 26-38. doi: 10.1109/MSP.2017.2743240 [16] ZHOU P, SHI W, TIAN J, et al. Attention-based bidirectional long short-term memory networks for relation classification[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin: ACL, 2016, 54: 207-212. [17] LIN Y K, SHEN S Q, LIU Z Y, et al. Neural relation extraction with selective attention over instances[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistic. Berlin: ACL, 2016, 54: 2124-2133. [18] SUN T T, ZHANG C H, JI Y, et al. Reinforcement learning for distantly supervised relation extraction[J]. IEEE Access, 2019, 7: 98023-98033. doi: 10.1109/ACCESS.2019.2930340