-
信息时代信息容量呈指数级增长,人们通常需要一份好的摘要来帮助自己处理如此庞大的信息,然而人工进行的摘要总结无论是从时间成本上还是经济成本上都已经变得越来越难以实施,因此依靠计算机的自动文本摘要技术已经成为了研究的热点。
自动文本摘要就是要在保留原文本主要思想的同时,对其进行压缩凝练,并最终产生一个简明流畅摘要的过程。一般来说,自动文本摘要按照其生成方式可以分为抽取式(extractive)摘要和生成式(abstractive)摘要[1]。生成式摘要对文本进行深度分析,产生一个由新生成的句子构成的摘要;而抽取式摘要则是选择原文本中重要的句子或段落,并把它们组合起来组成摘要。与生成式摘要相比,抽取式摘要具有语义正确性高、语法错误少、摘要速度快等优点,因此,本文关注的是抽取式摘要。
在抽取式文本摘要的研究中,最重要的是如何对句子的重要性进行评价。传统的方法通常是基于统计信息的方法,该类方法使用一些统计信息,如句子位置、词频等来识别文档中的重要句子。尽管这类方法具有实现简单、计算迅速等优点,但由于它们没有考虑句子和词语的语义信息,所以生成的摘要质量相对较差。
语义信息是指文本中的语义单元(如字、词、句子等)所携带的符合人类认知的有意义的信息。人类正是通过感知语义信息,才能理解文本所表达的含义。而结构信息则更侧重于语义单元在文本中的布局信息,如开头和结尾的语义单元通常更重要,再如两个语义单元之间的距离通常能反映二者之间的联系。
为了更好地获得句子的语义信息和结构信息,基于深度学习的抽取式文本摘要方法开始变得流行起来。这类方法通常采用的是编码器−解码器框架,并使用循环神经网络(Recurrent Neural Network, RNN)对句子进行编码。然而,基于循环神经网络的模型通常难以捕获句子级的长程依赖,进而导致模型表示的跨句关系不够丰富,影响摘要的质量。
一种直观的捕获跨句关系的方法是将文本表示为图。基于图的抽取式文本摘要方法将文本单元(如词语、句子等)建模为图中的节点,根据其在文本中的关系(如共现关系、语法关系等)进行连边,之后在图上进行节点的排序算法得到摘要。大多数基于图的抽取式文本摘要方法构建的是同构图,只考虑句子一种节点,而忽视了词语等其他类型的文本单元,而少数基于异构图的方法又严重依赖外部工具,存在着错误传播的问题。
与摘要类似,关键词也能表示文本的主要信息,而且从某种程度上来讲,关键词可以看作是一种更细粒度的摘要。容易发现,关键词常常贯穿于整个文本中,且集中出现在参考摘要中,因此关键词对于跨句关系的捕获以及摘要的抽取有着至关重要的指导作用。然而目前的抽取式文本摘要方法却常常忽视这一重要信息,对其利用程度还远远不够。
基于此,本文研究了基于异构图和关键词的抽取式文本摘要模型HGKSum(Summarization Based on Heterogeneous Graph and Keywords)。为了丰富句子间的关系,此模型不仅依靠句子节点构图,还引入了词语节点,构造一种异构图。词语节点可以看作是句子节点之间的桥梁,让没有直接相邻的句子也间接联系在了一起。在如何对文本图进行学习的方面,模型采用图注意力网络来学习节点特征,可以很好地捕获图的结构信息。在如何利用关键词信息方面,模型使用关键词信息来缓解噪声词语节点对文本结构的影响,此外,由于关键词抽取任务和文本摘要任务具有互补性,模型使用多任务学习的思想,将关键词抽取任务作为文本摘要任务的辅助任务,在训练阶段,不仅对句子节点进行预测,对词语节点也进行预测,二者联合训练,能够获得更佳的摘要。
-
目前文本摘要领域的大部分数据集每篇文档篇幅相对较短,且并不提供适用于抽取式文本摘要训练的标签,难以直接将其应用在有监督的抽取式文本摘要训练中来。此外许多数据集并非开源数据集,需要付费获得授权才能使用,门槛较高。为了确保实验的公平性和可靠性,本文选择使用CNN/DailyMail数据集[34-35]作为实验数据集。
CNN/DailyMail数据集是目前单文档文本摘要领域中最常用的测试基准,其主要内容为摘自CNN和DailyMail上的新闻,平均文档长度为781个单词,平均摘要长度为3个句子。本文使用该数据集的非匿名版本[36],其中训练集、验证集和测试集的样本数分别为287226、13368和11490。
-
本文采用自动文本摘要领域中最常用的ROUGE[37]指标作为摘要质量的评价指标。ROUGE指标中常用的有ROUGE-N和ROUGE-L。ROUGE-N基于n元语法(n-gram)在系统摘要和参考摘要间的重叠程度来评价系统摘要的质量,ROUGE-L则依据的是最长公共子序列的重叠程度,二者计算公式分别如下:
式中,
$ \text{{Ref}} $ 代表参考摘要组成的集合;Sys代表系统摘要;$ {\text{gram}}_{{n}} $ 代表n元语法;$ {\text{Count}}_{\text{match}}\text{(}{\text{gram}}_{{n}}\text{)} $ 代表系统摘要和参考摘要重叠的n元语法个数;$ \text{Count(}{\text{gram}}_{{n}}\text{)} $ 代表参考摘要中n元语法个数;LCS表示以词语为单位的最长公共子序列的长度;Length表示以词语为单位的摘要长度。 -
实验中模型的超参数设置如下:采用6头图注意力网络,初始化的词向量维度
$ {d}_{\mathrm{w}} $ 、句向量维度$ {d}_{\mathrm{s}} $ 以及图注意力网络中的节点向量维度$ {d}_{\mathrm{h}} $ 均设为300,前馈神经网络的隐层节点维度$ {d}_{\mathrm{f}} $ 设为1200,权重向量维度$ {d}_{\mathrm{e}} $ 设为54。在训练过程中,本文使用Adam[38]作为优化器,学习率设为5×10−5,批尺寸设为32,损失函数摘要句类别权重设为9.98,非摘要句类别权重设为0.55,关键词类别权重设为13.47,非关键词类别权重设为0.53。为了防止过拟合,本文采用早停策略,如果连续3轮训练中验证集上的指标都未下降,就提前停止训练。在测试阶段,摘要预期长度设为3个句子,并使用版本为1.5.5的官方ROUGE脚本进行测评,测评选项为“-m -n 2”。每个实验进行3次,实验结果取平均值。 -
首先,评估重要节点数目对HGKSum性能的影响。为了探索重要词语节点数目k和重要句子节点数目l的影响,固定任务权重λ为0.7,将k和l分别表示为
$ \gamma $ m和$ \gamma $ n,其中m和n分别为词语节点数目和句子节点数目,设置$ \mathrm{\gamma } $ 为0~1进行实验,实验结果如表1所示。当$ \mathrm{\gamma }= $ 0,即不考虑重要节点,模型的效果最差;当$ \mathrm{\gamma } $ =0.7,模型的效果最好,两种情形在ROUGE-1、ROUGE-2、ROUGE-L的差距分别为1.49、1.31和1.56。为了更清楚地观察重要节点数目与模型性能之间的关系,进一步地绘制了重要节点数目与平均的ROUGE指标的变化曲线,如图2所示。结合图2与表1,可以发现,随着重要节点数目的增加,模型的性能先快速上升,当$ \mathrm{\gamma }\ge 0.3 $ ,模型性能缓慢上升;当在$ \mathrm{\gamma }=0.7 $ 时,模型性能最好而后缓慢下降。主要原因在于重要节点数目过少会导致异构节点特征之间的学习机会变少,在$ \mathrm{\gamma }=0 $ 的极端情况下模型完全不进行异构节点特征之间的学习,严重制约模型的表达能力;而重要节点数目过多则会引入大量噪声节点,在$ \mathrm{\gamma }=1 $ 的极端情况下所有节点包括噪声节点均被视作重要节点,同样会干扰节点特征的学习过程。指标 γ=0.0 γ=0.1 γ=0.2 γ=0.3 γ=0.4 γ=0.5 γ=0.6 γ=0.7 γ=0.8 γ=0.9 γ=1.0 R-1 41.26 42.08 41.91 42.41 42.54 42.59 42.71 42.75 42.78 42.67 42.60 R-2 18.33 19.06 18.98 19.27 19.43 19.39 19.58 19.64 19.62 19.40 19.52 R-L 37.57 38.39 38.31 38.73 38.86 38.87 39.03 39.13 39.12 39.03 38.92 其次,探索任务权重λ对HGKSum性能的影响,将重要节点数目k和l分别固定为0.7m和0.7n,λ设置为0.5~1进行实验。之所以仅选择λ≥0.5来进行实验,是因为本文将摘要任务定义为主任务,其权重理应最大。实验结果如表2所示。当λ=0.7时,模型效果最好;当λ=1时,模型效果最差,二者在ROUGE-1、ROUGE-2和ROUGE-L上分别相差0.51、0.49和0.61。主要原因在于当λ=1时,完全不考虑关键词抽取任务,多任务学习退化为单任务学习,最终使得模型性能下降。与实验1类似,同样绘制了任务权重与平均ROUGE指标的变化曲线,如图3所示。由图3和表2可以发现,在不考虑λ=1的极端情况时,随着任务权重λ的增加,模型性能的起伏不大。具体来说, ROUGE-1、ROUGE-2和ROUGE-L的极差分别为0.02、0.09和0.1,表明模型对于该参数不敏感,有鲁棒性。
指标 λ=0.5 λ=0.6 λ=0.7 λ=0.8 λ=0.9 λ=1.0 R-1 42.76 42.75 42.75 42.74 42.74 42.24 R-2 19.58 19.55 19.64 19.57 19.59 19.15 R-L 39.10 39.08 39.13 39.03 39.13 38.52 -
为了验证使用HGKSum进行摘要的有效性,选择8种基准模型与HGKSum进行对比实验。需要说明的是,受限于计算资源,HGKSum并未引入大规模预训练模型,为了确保公平性,选择的基准模型同样不是基于大规模预训练模型的抽取式文本摘要模型。基准模型包括:
1) ORACLE[14]表示选择数据集的标签作为摘要,可以在一定程度上看作是抽取式文本摘要在此数据集上的性能上限;
2) LEAD-3[36]模型简单地选择文章开头的几个句子作为摘要;
3) REFRESH[39]将抽取式文本摘要任务视作句子排序任务,使用强化学习的方式生成摘要;
4) BanditSum[40]将抽取式文本摘要任务视作上下文老虎机(contextual bandit)问题,使用强化学习的方式生成摘要;
5) NeuSUM[41]将抽取式文本摘要中的句子评分和句子选择整合为一个步骤进行整体学习;
6) PNBERT[42]使用BERT作为编码器,指针网络作为解码器来生成摘要;
7) MatchSum[13]将抽取式文本摘要任务视作语义匹配问题,使用孪生BERT网络选择最佳的候选摘要成为最终摘要;
8) HSG[43]与本文模型类似,也是基于异构图的模型,主要不同点在于该模型没有引入关键词信息,也没有进行同构节点之间的特征学习。
实验结果如表3所示。表3中模型可以分为3类,分别是无监督的模型(LEAD-3)、基于BERT的深度学习模型(PNBERT、MatchSum)和不基于BERT的深度学习模型(REFRESH、BanditSum、NeuSUM、HSG和HGKSum),可以得出如下观测结果。
1)与ORACLE相比,所有模型的性能仍有较大提升空间,这说明抽取式文本摘要任务远未达到研究瓶颈,尚有广阔的探索空间。
2)与基于BERT的深度学习基准模型相比,HGKSum的性能强于PNBERT,表明HGKSum在不依赖预训练语言模型的情形下有较好的性能表现。
3)HGKSum的性能弱于MatchSum,原因在于MatchSum模型复杂度高于HGKSum,MatchSum有1.7亿参数,而HGKSum仅有360万个。计算方式如下:假设输入特征维度数为H,从模型参数量角度进行对比,HGKSum的参数量可近似表示为
$ 4(2{H}^{2}+H+8{H}^{2}) $ ,其中4表示进行了4次节点特征学习,$ {2H}^{2} $ 是变换矩阵W的参数量,H是注意力向量a的参数量,$ 8{H}^{2} $ 是前馈神经网络的参数量;而MatchSum的参数量可近似表示为$ 2\times 12({H}^{2}+3{H}^{2}+ 8{H}^{2}) $ ,其中2表示孪生BERT网络中包含两个BERT网络,12表示一个BERT网络堆叠了12层Transformer块,$ {H}^{2} $ 是变换矩阵的参数量,$ 3{H}^{2} $ 是3个注意力矩阵QKV的参数量,$ 8{H}^{2} $ 是前馈神经网络的参数量。特征维度H在HGKSum中取值为300,在MatchSum中取值为768。4)与无监督的基准模型和不采用基于BERT的基准模型相比,HSG模型是表现最好的,而与HSG相比,HGKSum在ROUGE-1、ROUGE-2和ROUGE-L上分别提升了0.72、0.20和0.62,表明HGKSum使用异构图建模文本以及引入关键词信息的有效性。
模型 R-1 R-2 R-L ORACLE 52.59 31.24 48.87 LEAD-3 40.34 17.70 36.57 REFRESH 40.00 18.20 36.60 BanditSum 41.50 18.70 37.60 NeuSUM 41.59 19.01 37.98 PNBERT 42.69 19.60 38.85 MatchSum 44.41 20.86 40.55 HSG 42.03 19.44 38.51 HGKSum 42.75 19.64 39.13 -
为了探索HGKSum模型中不同组件对摘要的贡献程度,本文设计了以下消融实验。首先,在文本向量化阶段,实验移除了预训练的GloVe词向量,采用随机初始化的方式初始化词向量,记为M1。其次,在异构图构建过程中,实验不再进行重要节点的筛选,即所有的节点均设为重要节点,记为M2。再次,在节点特征学习过程中,实验分别移除了异构节点特征之间的学习和同构节点特征之间的学习过程,分别记为M3和M4,在训练阶段,实验移除了多任务学习中的关键词抽取任务,采用单任务学习的方式进行训练,记为M5。实验还移除摘要精炼模块,直接使用得分最高的3个句子构成摘要,记为M6。最后,为了验证节点学习次序的正确性,实验选择先进行异构节点之间的学习,再进行同构节点之间的学习,记为M7,之后,实验选择先进行词−句节点特征学习,再进行句−词节点特征学习,记为M8。
实验结果如表4所示。值得说明的是,不进行重要节点筛选(M2)和不进行异构节点特征学习(M3)实际上分别对应了实验1中的γ设置为1和0,同样地,不进行关键词抽取任务(M5)实际上对应了实验2中的λ设置为1。观察表4,可以发现不论移除哪一组件,HGKSum的性能都有所下降,说明了所有组件均具有正向效用,同时也验证了前面提及的节点学习次序的正确性。为了进一步探索哪一组件贡献最大,本文绘制了柱状图来表示不同消融模型对应组件的贡献,横坐标为消融模型,纵坐标为HGKSum与消融模型在指标上的差值ΔROUGE,如图4所示。由图4可以清楚地发现,M3对应的组件(异构节点特征之间的学习)贡献最大,其在ROUGE-1、ROUGE-2和ROUGE-L上分别贡献了1.49、1.31和1.56,这说明文本摘要关注的句子关系更多地为复杂的跨句关系,难以通过简单的同构节点来学习,体现了HGKSum引入异构节点的必要性。
模型 R-1 R-2 R-L HGKSum 42.75 19.64 39.13 M1 42.12 19.04 38.43 M2 42.60 19.52 38.92 M3 41.26 18.33 37.57 M4 42.51 19.40 38.81 M5 42.24 19.15 38.52 M6 41.65 19.08 38.07 M7 42.30 19.20 38.58 M8 42.46 19.35 38.74
Extractive Document Summarization Model Based on Heterogeneous Graph and Keywords
doi: 10.12178/1001-0548.2023019
- Received Date: 2023-01-13
- Rev Recd Date: 2023-06-17
- Available Online: 2024-04-01
- Publish Date: 2024-03-30
-
Key words:
- extractive document summarization /
- heterogeneous graph /
- keywords /
- graph attention network /
- multi-task learning
Abstract: Extractive document summarization uses certain strategies to select some sentences from lengthy texts to form a summary, whose key is to use as much semantic and structural information of the text as possible. In order to better mine such information and then use it to guide the summarization, an extractive document summarization model based on heterogeneous graph and keywords (HGKSum) is proposed, which models the text as a heterogeneous graph composed of sentence nodes and word nodes. The model uses the graph attention networks to learn the features of the nodes in the graph. The multi-task learning is applied to the model, which considers the keywords extraction task as an auxiliary task of the document summarization task. The candidate summary which derived from the prediction of the neural networks in the model is often highly redundant, so the model refines it to create the final summary of low redundancy. The comparative experiment on the document summarization benchmark shows that the proposed model outperforms the baselines. Besides, ablation studies also demonstrate the necessity of introducing heterogeneous nodes and keywords.
Citation: | ZHU Qilin, WANG Yu, XU Jian. Extractive Document Summarization Model Based on Heterogeneous Graph and Keywords[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(2): 259-270. doi: 10.12178/1001-0548.2023019 |