-
由于知识图谱技术在多个领域表现出了强大的态势感知和关系表征的能力,各领域构建知识图谱的需求愈发强烈,而作为构建知识图谱的关键技术之一的命名实体识别(named entities recognition,NER),已经成为自然语言处理领域的热点研究方向。
传统的NER模型将NER视为序列标注任务,注重对文本数据中特定实体的提取,有 CNN-based[1]、RNN[2]以及BiLSTM-CRF[3]等对序列文本处理效果不错的NER模型,但它们由于模型能力的限制,无法很好地完成特定领域内专业性强的实体抽取任务。
随着计算机性能的提高,研究人员提出了基于预训练的模型方法,即使用高性能计算机通过构筑千万级语料的预训练任务,对单词或字符向量进行预先训练,以提高模型的起点,如wor2vec[4]和Glove[5],但它们是静态的词袋模型,不能很好地从文本序列中捕获上下文背景信息。而文献[6]采用BERT作为预训练模型,在NER任务中取得了较好的效果。而谷歌公司面向所有NLP工作者开源了多个预先训练好的BERT模型,针对不同的任务特点,微调BERT的模型参数就可以达到很好的效果,这极大地促进了NLP领域的发展。
虽然目前在通用知识领域,各类模型在NER任务中已经取得了极高的成效,但对于一些专业知识要求高的特定领域,如医疗、金融、军事、民用航空等,由于传统模型不能很好地利用行业内已有的数据集作为先验知识,导致领域知识图谱的构建总需要从头开始训练模型,造成了大量的资源浪费。
针对特定领域知识图谱构建的问题,本文以医疗领域中文NER为主要场景,提出了一种基于BERT的外部知识图谱融合嵌入的NER模型(BERT-FKG),通过将领域内已有的知识图谱进行融合嵌入,结合BERT预训练模型的强大文本处理能力,实现对外部先验知识的充分学习,减少模型领域化的训练耗费,实现对领域文本中实体的准确识别。
-
本节采用Msra-NER和Medical-NER两个数据集来评估模型在开放域和医疗领域NER的效果。MSRA-NER是微软发布的NER数据集。这个任务是识别文本中的实体名称,包括人名、地名、机构名等。而Medical-NER是CCKS 201716中发布的临床命名实体识别(CNER)任务,目标是从电子病历中提取与医疗相关的实体名称。在外部知识库方面,选择CN-Dbpedia、中文词语语义图谱HowNet、疾病百科图谱Medical。
CN-DBpedia是复旦大学知识工作实验室开发的大规模开放域百科KG,覆盖数千万实体、数亿关系。本文所使用的是精炼版的CN-DBpedia,即去除了实体名称长度小于2或包含特殊字符的三元组,总共包含517万个三元组。
HowNet是一个大规模的汉语词汇和概念的语言知识库,其中每个汉语词汇都用语义类型注释。与K-BERT一样,把{word, contain, sememes}作为知识三元组,为句子中的中文分词补充语义知识。本文使用的是精炼的HowNet,共包含52576个三元组。
Medical-NER是由文献[15]提供的疾病知识图谱,包括了疾病名称、症状以及医疗部位等信息,共13864条三元组。
本文的基线模型选择了基于单知识图嵌入的K-BERT和中文预训练模型BERT-Chinese,并且在模型设置上采用transformer层L=12、多头注意力为12、嵌入向量的隐藏维数H=768。
-
通过召回率、准确率、F1评分对命名实体标注进行评价。
召回率(R)表示正确抽取的实体在实际实体中的比例:
式中,TP为 true positive,即实体标签预测结果与实际实体一致的样本;FN为 false negative,即未预测出的实体标签的样本。
准确率(P)表示正确抽取的实体在所有抽取实体中的比例:
式中,FP为 false positive,即错误预测的实体标签样本。
F1分数(F1)是一种综合衡量命名实体识别结果召回率和准确性的指标:
-
分别在开放域数据集Msra和特定医疗领域数据集上通过与基线模型K-BERT和BERT在两个数据集上NER任务的性能比较,评估了本文知识融合模块对开放域中文NER以及中文医疗NER的改进效果,最后通过比较模型间的收敛速度评估知识融合加速模型训练的效果。上述两个数据集都分为3个部分:训练、开发和测试。使用训练部分来微调模型,然后在开发和测试部分评估其性能。实验结果如表1和表2所示。
模型 知识图谱 Msra-Ner 开发集 测试集 P R F1 P R F1 BERT-Chinese (With out knowledge) 0.938 0.950 0.945 0.936 0.943 0.936 K-BERT HowNet 0.958 0.954 0.958 0.951 0.956 0.945 Cn-Dbpedia 0.961 0.960 0.963 0.953 0.956 0.957 (本文)BERT-FKG Cn-Dbpedia + HowNet(with knowledge fusion) 0.971 0.965 0.968 0.958 0.961 0.963 模型 知识图谱 Medical-Ner 开发集 测试集 P R F1 P R F1 BERT-Chinese (With out knowledge) 0.919 0.931 0.925 0.919 0.931 0.925 K-BERT Cn-Dbpedia 0.937 0.941 0.939 0.939 0.938 0.938 Medical 0.939 0.942 0.941 0.940 0.944 0.942 (本文)BERT-FKG Cn-Dbpedia + Medical(with knowledge fusion) 0.945 0.947 0.945 0.950 0.947 0.950 从表1的实验结果可以看到知识图谱的嵌入能够有效提升BERT模型的中文NER性能,而本文模型在融合了HowNet和Cn-Dbpedia的知识后,在MSRA数据集上的NER性能相较于K-BERT取得了一定的提升,证明了两个知识图谱之间的相似实体的属性共享能够为句子提供更丰富的语义嵌入,从而使得BERT模型中的注意力能够学习到更多的语义知识,提高对文本的理解能力。
在特定医疗领域数据集的实验结果如表2所示,从结果上可以看出知识融合在特定领域的中文NER取得了更明显的性能提升,融合了Cn-Dbpedia和Medical两个知识图谱中的相似实体的多知识嵌入相比于单个知识图谱的嵌入为句子中的医疗实体提供了更多的医疗语义知识,既能嵌入疾病的类型、别名信息还能嵌入疾病的治疗方式、易感人群等背景信息,在进行医疗命名实体识别时,能够使BERT模型更有效地识别医疗实体边界。
如图7所示,在医疗领域做中文NER时,多知识图的融合可以在一定程度上加速模型的收敛,并且在相同的训练步数下取得更高的精度,证明了多知识图的嵌入在进行知识抽取任务时能够为模型提供先验知识,使得模型能够更快地完成对已有知识的吸纳,进而减少重复提取已有知识的耗费。
A Chinese NER Model Based on BERT with Multi Knowledge Graph Fusion and Embedding
doi: 10.12178/1001-0548.2021400
- Received Date: 2021-12-27
- Accepted Date: 2022-11-01
- Rev Recd Date: 2022-10-11
- Available Online: 2023-05-26
- Publish Date: 2023-05-28
-
Key words:
- BERT /
- Chinese named entity recognition /
- medical field /
- multi knowledge graph fusion and embedding
Abstract: Aiming at the problems of low efficiency in the construction of knowledge graph in specific fields, insufficient utilization of existing knowledge graph in the field, and difficulty in extracting domain semantic professional entities from traditional models, a Chinese named entity recognition (NER) model based on Bert (bidirectional encoder representations from transformers) multi knowledge graph fusion and embedding (BERT-FKG) is proposed in this paper. It realizes the attribute sharing among entities through semantic fusion for multiple knowledge graphs and enriches the knowledge of sentence embedding. The proposed model shows better performance in Chinese NER tasks in open domain and medical field. The experimental results show that multiple domain knowledge graphs share the attributes of similar entities by calculating semantic similarity, which can make the model absorb more domain knowledge and improve the accuracy in NER tasks.
Citation: | ZHANG Fengli, HUANG Xin, WANG Ruijin, ZHOU Zhiyuan, HAN Yingjun. A Chinese NER Model Based on BERT with Multi Knowledge Graph Fusion and Embedding[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 390-397. doi: 10.12178/1001-0548.2021400 |