基于上下文语义的新闻人名纠错方法

杨越; 黄瑞章; 魏琴; 陈艳平; 秦永彬

doi:10.3969/j.issn.1001-0548.2019.06.002

基于上下文语义的新闻人名纠错方法

doi: 10.3969/j.issn.1001-0548.2019.06.002

杨越^1,2,
黄瑞章^1,2,
魏琴^2, ,,
陈艳平^1,2,
秦永彬^1,2

1.
贵州大学计算机科学与技术学院贵阳 550025
2.
贵州大学贵州省公共大数据实验室贵阳 550025

基金项目:

国家自然科学基金联合基金重点项目 U1836205

国家自然科学基金重大研究计划 91746116

贵州省自然科学基金黔科合基础[2018]1035

贵州省重大应用基础研究项目黔科合JZ字[2014]2001

贵州省科技重大专项计划黔科合重大专项字[2017]3002

详细信息

作者简介:
杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

通讯作者: 魏琴, E-mail:weiq@gzu.edu.cn

中图分类号: TP391.1

A News Name Correction Method Based on Context Semantics

1.
School of Computer Science and Technology, Guizhou University Guiyang 550025
2.
Public Big Data Laboratory of Guizhou, Guizhou University Guiyang 550025

摘要: 新闻文本中的人名纠错存在以下难点：1）人名中含有错误字段会影响甚至改变文本语义表达，故无法用传统命名实体识别方法识别句中人名；2）人名字段的特殊性极易产生重名或者歧义，使得误报率增加，并提升了人名纠错的难度。为此，本文提出了一种基于上下文语义的新闻人名纠错方法。该方法使用卷积神经网络提取文本语义信息，并使用词激活力模型计算文本中其他词语与人名字段的关联程度来捕捉并使用文本上下文语义信息。同时，针对文本中人名字段中含有错误而导致的识别效果低下的问题，使用人名实体边界识别算法提高对文本中疑似含有错误人名的识别提取效果。实验结果表明，该方法能够有效地识别文本中的人名并对其中的错误内容进行纠正。
- 边界识别 /
- 上下语义 /
- 命名实体识别 /
- 人名纠错
Abstract: In news texts, incorrect fields in names will affect or even change the semantic expression of the text and the particularity of name fields will generate duplicate name or ambiguity. For solving these problems, this paper proposes a novel news name correction method based on context semantics. This method uses convolutional neural network to extract the semantic information of texts, and adopts word activation model to calculate the degree of association between other words and name fields in texts to capture and use the semantic information of text context. At the same time, aiming at the problem of low recognition caused by errors in the field of human name in texts, the entity boundary recognition algorithm of names is used to improve the recognition and extraction effect of names that are suspected to contain errors in the text. The experimental results show that the method can effectively identify the names in the text and correct the errors.
- boundary recognition /
- contextual semantics /
- named entity recognition /
- name error correction

图 1 基于上下文语义的新闻人名纠错方法框架图

下载: 全尺寸图片幻灯片

图 2 人名边界识别模型，以“马”为模型当前字为例

下载: 全尺寸图片幻灯片

图 3 全连接层网络模型

下载: 全尺寸图片幻灯片

表 1 人名识别实验对比效果

算法	P/%	R/%	F/%
本算法	93.12	92.79	93.11
CRF	86.62	86.98	86.53
LSTM	90.23	92.08	91.66
BiLSTM-CRF	91.79	92.08	91.66

下载: 导出CSV

表 2 新闻人名纠错实验对比效果

算法	${J_\Delta }/\% $	${T_\Delta }/\% $	${F_\beta }/\% $
本算法	78.35	79.02	77.15
文献[17]的方法	66.27	66.27	66.35
文献[18]的方法	71.66	71.68	71.92
文献[19]的方法	70.25	70.78	71.72

下载: 导出CSV

[1]	HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL]. (2015-05-06). https://arxiv.org/abs/1508.01991v1.
[2]	LAMPLE G, BALLESTEROS M, SUBRAMANIAN S, et al. Neural architectures for named entity recognition[EB/OL]. (2016-04-07). https://arxiv.org/abs/1603.01360.
[3]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8):1735-1780. doi: 10.1162/neco.1997.9.8.1735
[4]	ZHANG Y, YANG J. Chinese NER using lattice LSTM[EB/OL]. (2018-07-05). https://arxiv.org/pdf/1805.02023.pdf.
[5]	HOFFART J, YOSEF M A, BORDINO I, et al. Robust disambiguation of named entities in text[C]//Conference on Empirical Methods in Natural Language Processing.[S.l.]: ACM, 2015: 782-792.
[6]	BEKKERMAN R, MCCALLUM A. Disambiguating Web appearances of people in a social network[C]//International Conference on World Wide Web.[S.l.]: ACM, 2005: 463-470.
[7]	张伟莉, 黄廷磊, 梁霄.基于半监督协同训练的百科知识库实体对齐[J].计算机与现代化, 2017(12):92-97. http://d.old.wanfangdata.com.cn/Periodical/jsjyxdh201712017 ZHANG Wei-li, HUANG Ting-lei, LIANG Xiao. Instance alignment algorithm between encyclopedia based on semisupervised co-training[J]. Computer and Modernization, 2017(12):92-97. http://d.old.wanfangdata.com.cn/Periodical/jsjyxdh201712017
[8]	王凯, 洪宇, 邱盈盈, 等.融合上下文依赖和句子语义的事件线索检测研究[J].计算机科学与探索, 2018, 12(3):423-431. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201803010 WANG Kai, HONG Yu, QIU Yin-yin, et al. Combining context dependency and sentence semantic representation for event nugget detection[J]. Journal of Frontiers of Computer Science & Technology, 2018, 12(3):423-431. http://d.old.wanfangdata.com.cn/Periodical/jsjkxyts201803010
[9]	YAO Y, HUANG Z. Bi-directional LSTM recurrent neural network for Chinese word segmentation[C]//ICONIP 2016.[S.l.]: Springer, 2016: 345-353.
[10]	MA X, HOVY E. End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[EB/OL]. (2016-05-29). https://arxiv.org/abs/1603.01354.
[11]	CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[EB/OL]. (2016-07-16). https://arxiv.org/abs/1511.08308.
[12]	周飞燕, 金林鹏, 董军.卷积神经网络研究综述[J].计算机学报, 2017, 40(6):1229-1251. http://d.old.wanfangdata.com.cn/Periodical/jsjxb201706001 ZHOU Fei-yan, JIN Lin-peng, DONG Jun. Review of convolutional neural network[J]. Chinese Journal of Computers, 2017, 40(6):1229-1251. http://d.old.wanfangdata.com.cn/Periodical/jsjxb201706001
[13]	KIM Y. Convolutional neural networks for sentence cl-assification[EB/OL]. (2014-09-03). https://arxiv.org/abs/1408.5882.
[14]	高彦琳, 战学刚, 迟呈英.基于CNN-LSTM模型的情感分析研究[J].辽宁科技大学学报, 2018, 12(6):469-474. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=asgtxyxb201806012 GAO Yan-lin, ZHAN Xue-gang, CHI Cheng-yin. Sentiment analysis based on CNN-LSTM model[J]. Journal of University of Science and Technology Liaoning, 2018, 12(6):469-474. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=asgtxyxb201806012
[15]	GUO J, GUO H, WANG Z. An activation force-based affinity measure for analyzing complex networks[J]. Scientific Reports, 2011, 1:1-9. doi: 10.1038/srep00001
[16]	LIN C J, CHU W C. A study on Chinese spelling check using confusion sets and N-gram statistics[J]. International Journal of Computational Linguistics & Chinese Language Processing, 2015, 20(1):23-27.
[17]	CHIU H, WU J, JASON S. Chinese spelling checker based on statistical machine translation[C]//Proceedings of the 7th SIGHAN Workshop on Chinese Language Processing.[S.l]: ACL, 2013: 50-53.
[18]	ZHANG S, XIONG J, HOU J, et al. HANSpeller++: A unified framework for chinese spelling correction[C]//Proceedings of the 8th SIGHAN Workshop on Chinese Language Processing.[S.l.]: ACL-IJCNLP, 2015: 38-45.
[19]	LIU X, CHENG F, DUH K, et al. A hybrid ranking approach to Chinese spelling check[J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2015, 14(4):1-17. http://www.wanfangdata.com.cn/details/detail.do?_type=perio&id=17397342811bd9993651636209032255

[1]	要媛媛, 付潇, 杨东瑛, 王洁宁, 郑文. 结合全局信息增强的医学领域命名实体识别研究 . 电子科技大学学报, 2024, 53(): 1-9. doi: 10.12178/1001-0548.2023064
[2]	崔少国, 陈俊桦, 李晓虹. 融合语义及边界信息的中文电子病历命名实体识别 . 电子科技大学学报, 2022, 51(4): 565-571. doi: 10.12178/1001-0548.2021350
[3]	头旦才让, 仁青东主, 尼玛扎西, 于永斌, 邓权芯. 基于改进字节对编码的汉藏机器翻译研究 . 电子科技大学学报, 2021, 50(2): 249-255, 293. doi: 10.12178/1001-0548.2020218
[4]	蒋伟, 王瑞锦, 余苏喆, 秦圣智, 李蝉娟, 李冬芬. 基于步态识别的移动设备身份认证模型 . 电子科技大学学报, 2019, 48(2): 272-277. doi: 10.3969/j.issn.1001-0548.2019.02.018
[5]	陈启明, 黄瑞. 下肢外骨骼机器人意图识别算法研究 . 电子科技大学学报, 2018, 47(3): 330-336. doi: 10.3969/j.issn.1001-0548.2018.03.002
[6]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[7]	张小骏, 刘志镜, 薛鸿民. 跨摄像机目标的频域再识别 . 电子科技大学学报, 2016, 45(2): 258-262.
[8]	夏虎, 黄文茜. 基于上下文相关的未知实体词识别方法 . 电子科技大学学报, 2016, 45(5): 839-844. doi: 10.3969/j.issn.1001-0548.2016.05.022
[9]	赵继东, 李晶晶, 鲁珂, 吴跃. 一种鲁棒的多态人脸识别算法 . 电子科技大学学报, 2015, 44(2): 278-282. doi: 10.3969/j.issn.1001-0548.2015.02.020
[10]	刘昶, 周激流, 何坤, 张健. 正交非负CP分解的图像表示和识别 . 电子科技大学学报, 2011, 40(6): 905-910. doi: 10.3969/j.issn.1001-0548.2011.06.019
[11]	王宏, 周正欧, 李廷军, 孔令讲. 基于EEMD穿墙雷达人的运动模式识别 . 电子科技大学学报, 2011, 40(3): 346-351. doi: 10.3969/j.issn.1001-0548.2011.03.003
[12]	李楠, 曲长文, 苏峰, 平殿发. 雷达辐射源模糊识别算法改进 . 电子科技大学学报, 2010, 39(2): 182-185. doi: 10.3969/j.issn.1001-0548.2010.02.006
[13]	琚生根, 周激流, 何坤, 夏欣, 王刚. 频域光照归一化的人脸识别 . 电子科技大学学报, 2009, 38(6): 1021-1025. doi: 10.3969/j.issn.1001-0548.2009.06.027
[14]	刘健, 谢锘, 周希元. RS码的盲识别方法 . 电子科技大学学报, 2009, 38(3): 363-367. doi: 10.3969/j.issn.1001-0548.2009.03.011
[15]	董韵涵, 杨万麟. 改进最优聚类中心雷达目标识别法 . 电子科技大学学报, 2006, 35(2): 183-185,192.
[16]	刘晓玲, 张晓辉. 系统参数对全息法识别噪声源的影响 . 电子科技大学学报, 2005, 34(4): 541-544.
[17]	孙鑫, 刘本永. 基于局部本征谱的人脸识别 . 电子科技大学学报, 2005, 34(4): 493-496.
[18]	陈怀新, 南建设, 肖先赐. 基于统计特征主分量的信号调制识别 . 电子科技大学学报, 2004, 33(3): 231-234,238.
[19]	聂伟荣, 朱继南, 郭亚军, 夏虹. 地震动信号的分析与目标识别 . 电子科技大学学报, 2003, 32(1): 26-30.
[20]	李众立, 王成端. 参数频域识别的最优采样频率研究 . 电子科技大学学报, 1997, 26(4): 414-419.

点击查看大图

图(3) / 表(2)

计量

文章访问数: 5232
HTML全文浏览量: 1598
PDF下载量: 75
被引次数: 0

全文HTML

在网络新闻中，人名表述错误较为常见，造成诸多不良影响。特别是时政类新闻，对人名的准确性要求很高，因此对文本中人名信息进行检查并纠错是一项重要的工作。

常见人名表述错误一般有两种情况：1)拼写错误。在对目标人名进行输入时由于输入法拼写相似或者字体字型相似键入的错误人名；2)语义错误。在编写文本时对文本语义不了解或是混淆，对人物的描述和其对应人名并不匹配，或者是人名实体字段对应属性表达错误。

针对第一种情况，通常使用编辑相似度方法来对文本进行纠错。但在实际应用场景中，单纯用编辑相似度来对疑似错误的人名进行纠错的效果并不理想，一是因为阀值不一定准确，会由于过于敏感或不敏感而纠错失败，另一个原因是使用存在错误字段的人名对其本身进行纠错会有很多不可控因素。而除了目标人名字段之外的句子上下文中含有比人名目标字段更多的语义信息，这些上下文信息能为人名纠错提供更多正确信息。

针对第二种情况，传统纠错方法无法应对语义错误，需要引入上下文语义信息，并根据语义关系判断识别错误信息来进行纠错。

因此，本文提出一种基于上下文语义的新闻人名纠错方法，使用实体边界识别模型来识别句中疑似含有错误字符的人名字段，避免了因为目标字段中含有错误字符而导致的人名实体识别效果低下问题；同时利用卷积神经网络提取文本中人名所涉及的上下文语义，并加入词激活力模型计算文本中其他词语与人名字段的关联程度，从而得出该文本能否激活目标人名。

1. 相关工作

对文本中的人名进行纠错，首先需要识别文本中的人名。文献[1-2]提出了LSTM-CRF模型来解决序列标注问题。文献[2]提出在英文NER任务中先使用LSTM来为每个单词由字母构造词并拼接到词向量再输入到LSTM^[3]中，以捕捉单词前后缀等字母形态。文献[4]提出了在LSTM中加入基于词典的细胞，以提高针对特定实体的识别效果。但在实际的文本人名纠错应用场景中，由于人名中存在错误字符，影响文本的整体语义，使得人名识别效果并不理想。

针对实体消歧和实体对齐，文献[5]提出了一种提升文本中命中实体消歧鲁棒性的方法。文献[6]则结合社交网络的链接信息和聚类两种非监督框架对社交网络中的人名实体进行消歧。文献[7]提出了一种基于半监督协同训练的百科知识库实体对齐的方法，将实体对齐建模为一个带约束的二分类问题，使用半监督协同训练方法进行实体对齐。文献[8]则使用文本上下文依赖和句子语义进行事件线索检测。

上述方法都只考虑了某一个维度的特征，没有使用多个特征对其进行验证和特征综合。并且上述方法都没有提出一个针对文本中人名纠错的具体算法。

3. 实验

3.1. 实验数据

为了验证本文提出的基于深度学习的人名纠错方法的性能，从新浪网、人民网的新闻页面抓取共6 000篇时政类涉及共16个领导人的相关新闻作为模型训练集和测试集。对文档进行知识清洗，包括切词、停用词过滤、人名及其属性边界标注、语义标注等步骤。并人工标注加入人名及其属性相关错误负例句子级文本7 600句。以句子级文本对模型进行训练和测试，共57 000个句子，涉及16个人物和39个相关属性事件。

3.2. 人名实体边界识别实验

进行人名实体边界实验计算时使用3.1节中提到人名属性数据集，对文本数据进行形如图 2中所示标注。

本节采用准确率P(Precision)、召回率R(Recall)以及中和指标F值3项来进行评价。对于每个人名实体，E为使用本文中人名边界识别方法实验中得到的人名实体总数，${E_1}$是E中识别正确的人名实体数，${E_2}$是实验中涉及的人名实体总数。实验结果的准确率P、召回率R和F值分别为：

$$P = \frac{{{E_1}}}{E}$$ (9)

$$R = \frac{{{E_1}}}{{{E_2}}}$$ (10)

$$F = \frac{{2PR}}{{R + P}}$$ (11)

人名实体边界识别也是命名实体识别(NER)中的一项相关任务，本文使用BiLSTM-CRF、LSTM、CRF模型作为对比^[1]。实验结果如表 1中所示。

表 1 人名识别实验对比效果

算法 P/% R/% F/%

本算法 93.12 92.79 93.11

CRF 86.62 86.98 86.53

LSTM 90.23 92.08 91.66

BiLSTM-CRF 91.79 92.08 91.66

实验结果表明，在句子级文本中人名实体含有疑似错误字段时，人名实体边界识别模型对人名实体识别的效果更好。

3.3. 新闻人名纠错实验

进行人名及其属性纠错实验时，对算法模型的训练需要分为以下几步：1)人名边界模型训练；2)对卷积神经网络进行语义提取识别训练和词激活力模型数据收录计算；3)利用拼写相似度、语义相似度、词语关联程度3个特征训练全连接层。

将文本中含有人名及其属性错误信息的数量，即模型应该识别错误信息并纠错的内容数量记为K，无错文本内容数量记为N。将需要纠错的内容正确纠错的数量记为TK，对文本中的错误内容未能识别到错误或者纠错错误的内容数量记为FK。对于原本就是正确的文本，模型判断该内容正确并未对其进行的内容数量记为TN，对正确文本进行纠错的内容数量记为FN。对纠错任务构造以下评价指标^[16]，${F_\beta }$为文本纠错效率，${J_\Delta }$为查准率，${T_\Delta }$为查全率：

$$\frac{1}{{{F_\beta }}} = \frac{2}{{{J_\Delta }}} + \frac{1}{{{T_\Delta }}}$$

(12)

其中：

$$ {J_\Delta } = \frac{{{\rm{TK}}}}{{{\rm{TK}} + {\rm{FK}}}} $$

(13)

$${T_\Delta } = \frac{{{\rm{TK}}}}{{{\rm{TK}} + 2{\rm{FN}}}}$$

(14)

为了验证方法的效果，本文与字符级N-gram阀值替换模型^[17]、利用HMM思想纠错生成候选项的方法^[18]及利用SMT进行纠错的方法^[19]进行对比。实验结果如表 2所示。

表 2 新闻人名纠错实验对比效果

算法	${J_\Delta }/\% $	${T_\Delta }/\% $	${F_\beta }/\% $
本算法	78.35	79.02	77.15
文献[17]的方法	66.27	66.27	66.35
文献[18]的方法	71.66	71.68	71.92
文献[19]的方法	70.25	70.78	71.72

实验结果表明，基于概率模型的传统纠错方法中，大多只考虑了基于N-gram模型上下字词出现的频率关系而很少考虑到文本间的语义关系，所以能识别的错误类型少，对未出现过的错误不能识别，纠错效果一般。而本文提出针对人名字段及其属性的纠错方法，从文本上下文语义和文本中词语和人名字段的相关联度两个方面较为准确地把握了文中的语义信息，减少了传统纠错方法对固定短语字词的依赖，所以本方法很大程度上增强了对文本的容错程度。同时，使用编辑距离作为一个特征也考虑了实际应用中由于拼写造成错误的情况，而使用全连接层对这3个特征进行整合，也平衡了各方面权值，增加了本方法对各种错误文本计算的稳定性。

4. 结束语

本文提出了一种基于上下文语义的新闻人名纠错方法。使用卷积神经网络来提取深层语义信息，对于语义上的错误，由于句子级文本中含有错误信息，其本身含有的信息量对其进行纠错，不易发现其深层语义错误。同时，使用词激活力模型计算文本中其他词语与人名字段的相关联程度，从词的角度充分捕捉了文本上下文语义信息，并使用了左右双向边界识别模型来提高对文本中含有错误的人名字段识别的效果。实验结果表明，本文提出的基于深度学习的人名及其属性纠错方法能有效解决人名及其属性纠错问题。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于上下文语义的新闻人名纠错方法

doi: 10.3969/j.issn.1001-0548.2019.06.002

作者简介:
杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

通讯作者: 魏琴, E-mail:weiq@gzu.edu.cn

A News Name Correction Method Based on Context Semantics

计量

基于上下文语义的新闻人名纠错方法

doi: 10.3969/j.issn.1001-0548.2019.06.002

1. 贵州大学计算机科学与技术学院贵阳 550025

2. 贵州大学贵州省公共大数据实验室贵阳 550025

作者简介:
杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

通讯作者: 魏琴, E-mail:weiq@gzu.edu.cn

English Abstract

A News Name Correction Method Based on Context Semantics

1. School of Computer Science and Technology, Guizhou University Guiyang 550025

2. Public Big Data Laboratory of Guizhou, Guizhou University Guiyang 550025

全文HTML

2.1. 基于字的左右双向实体边界识别模型

2.2. 文本中人名相关信息提取

2.2.1. 卷积神经网络提取语义信息

2.2.2. 基于词激活力模型的词语相关联度

2.2.3. 人名字段字体拼写相似度计算

2.3. 相似度整合

3.1. 实验数据

3.2. 人名实体边界识别实验

3.3. 新闻人名纠错实验

目录

期刊在线

编辑办公

友情链接

留言板

基于上下文语义的新闻人名纠错方法

doi: 10.3969/j.issn.1001-0548.2019.06.002

作者简介: 杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

通讯作者: 魏琴, E-mail:weiq@gzu.edu.cn

A News Name Correction Method Based on Context Semantics

计量

出版历程

基于上下文语义的新闻人名纠错方法

doi: 10.3969/j.issn.1001-0548.2019.06.002

1. 贵州大学计算机科学与技术学院 贵阳 550025 2. 贵州大学贵州省公共大数据实验室 贵阳 550025

作者简介: 杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

通讯作者: 魏琴, E-mail:weiq@gzu.edu.cn

English Abstract

A News Name Correction Method Based on Context Semantics

1. School of Computer Science and Technology, Guizhou University Guiyang 550025 2. Public Big Data Laboratory of Guizhou, Guizhou University Guiyang 550025

全文HTML

2.1. 基于字的左右双向实体边界识别模型

2.2. 文本中人名相关信息提取

2.2.1. 卷积神经网络提取语义信息

2.2.2. 基于词激活力模型的词语相关联度

2.2.3. 人名字段字体拼写相似度计算

2.3. 相似度整合

3.1. 实验数据

3.2. 人名实体边界识别实验

3.3. 新闻人名纠错实验

目录

期刊在线

编辑办公

友情链接

作者简介:
杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

1. 贵州大学计算机科学与技术学院贵阳 550025

2. 贵州大学贵州省公共大数据实验室贵阳 550025

作者简介:
杨越(1995-), 女, 主要从事机器学习与自然语言处理方面的研究

1. School of Computer Science and Technology, Guizhou University Guiyang 550025

2. Public Big Data Laboratory of Guizhou, Guizhou University Guiyang 550025