-
命名实体是文本中承载信息的重要语言单位,命名实体的识别在网络信息抽取、网络内容分析和知识工程等领域都占有非常重要的地位。传统的命名实体识别主要针对人名、地名、机构名以及产品命名实体等具有特定结构的实体词[1]。然而,随着互联网的快速发展,网络上出现了大量结构不确定的专有领域未知实体词,例如电子商务中大量出现的新商品名称、网络用语“酱紫(这样子)、斑竹(版主)”等,这类未知词结构多样,没有特定的规律,用传统的未知词识别方法难以有效识别。
目前未知词识别领域的研究主要有3种方法:基于统计的方法、基于规则的方法以及两者结合的方法。基于统计的方法认为:如果若干个相邻的字或词经常同时出现,它们则可能是一个新词。这种方法简单高效易实现,但需要大量训练数据,而且由于未考虑不同词的构词能力[2]和构词模式,识别的准确率不高。基于规则的方法通过标注词典和成词规则来识别新词,这些规则往往需要专家针对特定领域来具体制定,该方法准确率高,但规则制定费时费力,且不同领域需要重新制定相应规则,领域适应性差。针对上述两种方法中的问题,越来越多的研究者采用统计与规则相结合的思路,取得了许多显著的成果,本文采用的基于上下文相关的算法即为其中一种。
一个字或词的上下文是指出现在它前后的那些字或词,在文本中相邻的字词共同出现的次数越多,它们越有可能是一个“未知词”,例如“清仓/圣/丽/奴/时尚/女/挎包”、“横款/圣/丽/奴/两用/包”、“高级/提花布/深/咖/圣/丽/奴/女/挎包”的分词结果可以看出,“丽”的上下文信息中总是包括“圣”和“奴”,也就是说“圣”、“丽”、“奴”3个字经常依此顺序共同出现,而“圣丽奴”整体并没有固定的上下文信息,因此本文认为“圣丽奴”有较大概率为一个未知实体词。
以上述理论为基础,本文提出了两种基于上下文信息进行未知词识别的方法。其中,基于最大组合的上下文相关算法(MC)利用统计的手段,获取由二元组、三元组、四元组、五元组构成的候选未知实体词集,然后利用上下文信息对候选未知实体词进行支持度过滤、歧义过滤和最大组合过滤,获取真正的未知实体词。
进一步,本文提出了一种基于关联规则的上下文相关算法(FPC),在FP树构建和频繁模式挖掘过程中加入各“项”(分词后的字或词)在文中出现的下标信息,利用此信息保证挖掘出的频繁模式中各项在文中的相邻关系以及前后顺序。从而避免了传统FP-growth算法不能保证挖掘出各项之间原始的相邻关系和前后顺序而不适合用于未知实体词识别的问题。
实验结果表明,在某电子商务网站的2 000个商品网页源文件上进行的3个类别数据集上,本文的两种方法均能有效地对结构不确定的专有领域未知实体词进行识别,具有较高的准确率。
-
本文利用爬虫程序采集了某电商网站2000个商品源文件,涉及项链、凉鞋、包、羽绒服、帽子、连衣裙、围巾、灯饰、针织衫和牛仔裤等10个类别的商品,每个类别中商品数量均为200。按商品类别等比例选取其中1000份作为数据集1,剩余1000份作为数据集2。
实验首先针对网页进行数据预处理,去除包括网页标签在内的无效字段,处理过程非本文重点,在此不再赘述。
为检验本文算法对不同分词工具的适应性,实验过程分别采用MMAnalyzer和IKanalyzer[13]进行测试。本文实验采用Precision(准确率)和Recall(召回率)作为评价指标。
-
1) 不同数据集结果比较
表 1为MC算法和FPC算法使用不同分词工具在不同数据集上识别效果。对于每一个(算法,分词工具,数据集)的组合,随着支持度阈值min_sup阈值的增加,Precision和Recall也不断变化,表 1中所有结果均选取最佳识别效果时的准确率召回率。其中MMAnalyzer和IKAnalyzer分词工具分别简写为MM和IK。
表 1 不同数据集上的结果
复合特征模板 特征模板含义描述 MC算法-MM 准确率/% 92.90 91.50 召回率/% 60.30 57.90 MC算法-IK 准确率/% 99.60 95.80 召回率/% 68.80 67.40 FPC算法-MM 准确率/% 93.60 91.00 召回率/% 49.70 50.20 FPC算法-IK 准确率/% 100 94.80 召回率/% 60.50 55.70 由上表可以看出:对于MC算法、FPC算法、MMAnalyzer分词工具、IKAnalyzer分词工具的任意组合,均有较好的准确率和召回率。
2) 不同分词工具结果比较
观察两个算法在分别使用两个分词工具时识别结果的好坏,实验结果如图 3所示。
由图中可以看出,MC算法和FPC算法在两个分词工具上Precision和Recall的走势一致,Precision随着最小支持度参数min_Sup的增加而呈现上升趋势,在min_Sup=3时突变到一个高点,并在min_Sup>3后趋于稳定;Recall随着min_Sup的增加而呈现下降趋势,在min_Sup=4时突变到0%附近,并在之后稳定于0%。
准确率突变点的存在是因为电商网站商品网页经过数据预处理后的待识别的未知词支持度普遍大于等于3,而其他候选未知词中错误的未知词的支持度普遍小于3,从而导致当min_Sup<3时识别出许多错误的未知词并拉低准确率。召回率突变类似。
MC算法和FPC算法在使用IKAnalyzer分词工具时,均可以得到更好的准确率和召回率。这主要是由于算法1和算法2均先对输入文本进行了分词处理,分词的效果将直接影响到未知词识别的效果。如果分词工具将一个待识别未知词的某一部分和其他词分到了一起,则通过两个算法都无法识别出正确的未知词。例如,若未知词xyz(其中x、y、z为单字或者字串)被分成了xy和zh,则经过算法1和算法2都无法识别出xyz,而分成xy和z则可以很容易地被两个算法识别出来。IKAnalyzer分词工具比MMAnalyzer分词工具更能避免此类错误的分词结果,故而具备更高的准确率,又由于在同等情况下能识别出更多的未知词而具备更高的召回率。算法表现仍然依赖于分词效果,粒度越细的分词工具理论上将获得越好的表现。
3) 算法的对比
将使用相同分词工具时两个算法的结果进行对比,如图 4所示。
由图 4可以看出,FPC算法准确率明显优于MC算法,但召回率则明显弱于MC算法。由于本文所述的未知词识别更为强调较高的准确率,因此本文实验最终选取minSup=3,牺牲部分召回率换取令人满意的准确率。
综合整个对比分析过程,本文实验中最终未知词识别的最佳组合方式为:FPC算法,IKAnalyzer分词工具,min_Sup=3。
Unknown Words Recognition Based on Context-Sensitive Algorithm
-
摘要: 现有的未知实体词识别方法主要针对人名、地名、机构名等具有特定结构的实体词进行识别,而随着电子商务和社交网络的快速发展,出现了大量结构不确定的专有领域未知实体词。针对该问题,提出两种基于上下文相关的未知词识别算法,通过计算词(字)和词(字)之间的上下文相关性,得到其潜在组合的支持度,并通过过滤模块过滤掉错误的组合,实现具有非确定型结构的未知实体词识别。实验表明,该算法具有较高的准确率,并且可以通过调整参数适应不同的应用场景。Abstract: Existing unknown words recognition methods mainly focus on unknown words with some specific structure, such as names, places and organizations. However, with the booming of e-commerce and social networking, more and more unknown entity words with uncertain structures appear in specific areas. In order to handle this problem, this paper presents two algorithms of unknown words recognition based on context-sensitive method. We first calculate correlations between any two words in sequence to get support of any potential combination, then filter out wrong combinations by filtering module, and achieve the recognition aiming at the non-deterministic structure of unknown words. Experiment results indicate that two algorithms can achieve a high accuracy. Besides, they can adapt to different application scenarios by adjusting the parameters.
-
表 1 不同数据集上的结果
复合特征模板 特征模板含义描述 MC算法-MM 准确率/% 92.90 91.50 召回率/% 60.30 57.90 MC算法-IK 准确率/% 99.60 95.80 召回率/% 68.80 67.40 FPC算法-MM 准确率/% 93.60 91.00 召回率/% 49.70 50.20 FPC算法-IK 准确率/% 100 94.80 召回率/% 60.50 55.70 -
[1] 秦文, 苑春法. 基于决策树的汉语未登录词识别[J]. 中文信息学报, 2004, 18(1):14-19. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS200401002.htm QIN Wei, YUAN Chun-fa. Identification of Chinese unknown word based on decision tree[J]. Journal of Chinese Information Processing, 2004, 18(1):14-19. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS200401002.htm [2] 王文荣, 乔晓东, 朱礼军. 针对特定领域的新词发现和新技术发现[J]. 现代图书情报技术, 2008, 161(2):35-40. http://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ200802008.htm WANG Wen-rong, QIAO Xiao-dong, ZHU Li-jun. New word and technology discovery of specific domain[J]. New Technology of Library and Information Service, 2008, 161(2):35-40. http://www.cnki.com.cn/Article/CJFDTOTAL-XDTQ200802008.htm [3] ZHANG K, LIU Q, ZHANG H, et al. Automatic recognition of Chinese unknown words based on roles tagging[C]//In SIGHAN '02:Proceedings of the First SIGHAN Workshop on Chinese Language Processing. Association for Computational Linguistics. Stroudsburg:ACM Press, 2002:1-7. [4] ZHOU G D, SU J. Named entity recognition using an HMM-based chunk tagger[C]//In ACL '02:Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Stroudsburg:ACM Press, 2002:473-480. [5] ISOZAKI H, KAZAWA H. Efficient support vector classifiers for named entity recognition[C]//In COLING '02:Proceedings of the 19th International Conference on Computational linguistics. Stroudsburg:ACM Press, 2002:1-7. [6] KAZAMA J, MAKINO T, OHTA Y, et al. Tuning support vector machines for biomedical named entity recognition[C]//In BioMed '02:Proceedings of the ACL-02 Workshop on Natural Language Processing in the Biomedical Domain. Association for Computational Linguistics. Stroudsburg:ACM Press, 2002:1-8. [7] FLORIAN R, ITTYCHERIAH A, JING H, et al. Named entity recognition through classifier combination[C]//In CONLL '03:Proceedings of the Seventh Conference on Natural Language Learning at HLT-NAACL 2003.Stroudsburg:ACM Press, 2003:168-171. [8] CHIEU H L, NG H T. Named entity recognition:a maximum entropy approach using global information[C]//In COLING '02:Proceedings of the 19th International Conference on Computational Linguistics. Stroudsburg:ACM Press, 2002:1-7. [9] 韩艳, 林煜熙, 姚建民. 基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报, 2009, 23(3):24-30. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS200903005.htm HAN Yan, LIN Yu-xi, YAO Jian-min, Study on Chinese OOV identification based on extension[J]. Journal of Chinese Information Processing, 2009, 23(3):24-30. http://www.cnki.com.cn/Article/CJFDTOTAL-MESS200903005.htm [10] 周蕾, 朱巧明. 基于统计和规则的未登录词识别方法研究[J]. 计算机工程, 2007, 33(8):196-198. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJC200708068.htm ZHOU Lei, ZHU Qiao-ming. Research on recognition method of unknown Chinese words based on statistic and regulation[J]. Computer Engineering, 2007, 33(8):196-198. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJC200708068.htm [11] 韩洁, 周勇, 刘少辉, 等. 基于WWW的未登录词识别研究[J]. 计算机科学, 2002, 29(12):155-156. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA200212044.htm HAN Jie, ZHOU Yong, LIU Shao-hui, et al. WWW-based recognition of non-login words[J]. Computer Science, 2002, 29(12):155-156. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA200212044.htm [12] HAN J, KAMBER M, PEI J. Data mining:Concepts and techniques[M]. San Francisco:Morgan Kaufmann, 2006. [13] WANG Kun-shan. IKAnalyzer[EB/OL].[2015-01-17]. https://github.com/wks/ik-analyzer.