基于百科词条的本体概念聚类方法研究

于娟; 曹晓

doi:10.3969/j.issn.1001-0548.2017.03.026

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名

邮箱

手机号码

标题

留言内容

验证码

基于百科词条的本体概念聚类方法研究

福州大学经济与管理学院福州 350116

基金项目:

国家自然科学基金 71201032

福建省社会科学规划项目 FJ2016C044

详细信息

作者简介:
于娟 (1981-), 女, 博士, 副教授, 主要从事领域本体、信息管理方面的研究

中图分类号: TP181

摘要: 该文面向本体关系集合的自动构建，提出一种基于百科词条的本体概念聚类方法，用于发现领域概念之间的语义关系。在给定领域本体概念集合的条件下，该方法首先获取相关的百科词条并建立每一概念的向量模型，然后根据距离判别法进行概念聚类，得到概念间的相近关系。采用该方法对3个领域中的领域概念集合进行聚类，实验结果表明，该文方法比传统聚类算法有更好的聚类结果，有助于概念间关系的自动获取和领域本体自动构建。

关键词:

Abstract: To build the set of ontology relations automatically, this paper presents a preliminary study on a concept clustering method based on encyclopedia entries of obtaining semantic relations among concepts. Given a set of domain ontology concepts, this method clusters concepts in 3 steps: 1) obtaining encyclopedia entries; 2) modeling each of the concepts into a vector; 3) clustering concepts using the distance discrimination method. Clustering experiments on 3 sets of domain ontology concepts demonstrate that the proposed method shows better results compared with classical clustering methods and has good potentials for identifying related concepts automatically in the ontology building tasks.

Key words:

评价指标

电子商务领域

知识管理领域

管理信息系统领域

本文方法

k-means

本文方法

k-means

本文方法

k-means

候选
关系数

888

2 179

621

745

1 616

3 324

准确数

258

357

195

152

350

539

关系数

698

580

1 149

Precision

0.291

0.164

0.314

0.204

0.217

0.162

Recall

0.370

0.511

0.336

0.262

0.305

0.469

F-Score

0.326

0.248

0.325

0.230

0.254

0.241

0.815

0.626

0.773

0.714

0.827

0.716

匹配度

0.373

0.191

0.333

0.198

0.334

0.223

基于百科词条的本体概念聚类方法研究

福州大学经济与管理学院福州 350116

基金项目:

国家自然科学基金 71201032

福建省社会科学规划项目 FJ2016C044

作者简介:
于娟 (1981-), 女, 博士, 副教授, 主要从事领域本体、信息管理方面的研究

收稿日期: 2015-10-19

修回日期: 2016-05-31

刊出日期: 2017-05-01

中图分类号: TP181

关键词:

全文HTML

作为语义Web和知识管理系统的关键基础，本体描述某个领域甚至更广范围内的概念以及概念之间的关系，使得这些概念和关系在共享的范围内具有共同认可的、明确的、唯一的定义，以供人之间以及机器之间进行交流^[1]。目前，本体在语义检索、知识管理和人工智能等相关领域得到了广泛的理论和应用研究。

本体学习是采用机器学习方法 (半) 自动构建本体的过程。根据学习的本体对象不同，本体学习主要包括概念学习、关系学习和公理学习。其中，关系学习试图采用计算机 (半) 自动地快速地发现概念间关系。在这个信息迅速增长的时代，新概念层出不穷，概念间关系发生着变化，因此关系学习是当前本体研究的重点和热点之一。

本文研究一种基于百科词条的本体概念聚类方法，用于支持自动发现概念间的关系。该方法首先依据百科词条建立概念的向量模型，然后根据距离判别法进行概念聚类，进而获取概念间的相关关系。

1. 研究现状

聚类是将对象的集合分成相似的对象类的过程^[2]。概念聚类是将概念集合分成相似的几类的过程。由于同一类的术语会在相同的上下文出现，所以可以通过聚类算法将上下文相似的术语进行聚类，进而发现概念间关系。概念聚类算法主要分为：划分聚类、层次聚类、形式概念分析和基于图结构的聚类。

1) 划分聚类。首先，构建对象的k个划分，然后采用迭代重定位技术，尝试通过对象在组间移动来改进划分。典型的划分方法有k均值 (k-means) 和k中心点，一般都是对k-means算法的优化。文献[3]在计算聚类中心时，先删掉向量与平均向量相差超过10%的术语，再重新计算每个类的平均向量优化聚类中心。文献[4]依据类中元素分布计算类中聚集程度最大的p个概念，将距离这p个概念的平均向量最近的概念作为类的新中心，优化聚类中心。

2) 层次聚类。对给定概念集合进行层次的分解，构造一棵聚类树。层次聚类算法分为凝聚层次聚类和分裂层次聚类。文献[5]通过内部和外部凝聚层次聚类进行概念聚类。文献[6]对层次聚类算法适应性进行改造，通过计算层次的耦合-内聚比，计算类数目的分布密度。文献[7]计算最小增加值或最大减少值作为概念层次聚类的合并策略。

3) 形式概念分析。使用二元关系来表示领域中的形式背景，从形式背景中抽取概念层，即概念格，通过概念格结构将对象分层。文献[8]构造模糊概念格，对对象进行模糊概念聚类。文献[9]采用模糊k-means聚类算法约简概念格。

4) 基于图结构的聚类。文献[10]提出遍历树的蚂蚁聚类算法对术语进行聚类，用标准化的谷歌距离和Wikipedia测量术语间距离和相似度。文献[11]依据词性树路径长度、术语词汇相同词、连续词、开始结束词和术语概念层次树路径长度计算概念相似度，采用SOM自组织神经网络进行概念聚类。

前述研究中，聚类算法大多需要根据实验或者经验来设定阈值，而阈值对聚类结果的影响很大。阈值设置过大，可能丢失有趣的关联；阈值设置过小，可能产生大量的弱相关的交叉支持模式关联。并且，阈值的设定存在不确定因素，设置适当的阈值较为困难。另一方面，根据语境构建概念模型以计算概念间相似度时，少有研究将整个语料作为共现窗口。因此，本文以百科词条为语料，研究了一种无监督的概念聚类方法。

4. 结束语

本文提出了一种基于百科词条的本体概念聚类方法，用于支持本体关系的自动获取。在给定领域概念集合的情况下，该方法首先获取概念的百科词条并从中获取文本信息，然后进行分词和信息熵过滤，增加建立的概念向量模型，最后采用距离判别法进行概念聚类。该方法不必确定阈值，使聚类算法更加自动化。实验结果表明该概念聚类方法有较好的聚类结果。

今后的研究方向将是，改进概念向量建模过程中的词语选取方法以及向量建模算法，在保证准确率的基础上提高召回率。

参考文献 (15)

[1]	GRUBER T R. A translation approach to portable ontology specifications[J]. Knowledge Acquisition, 1993, 5(2): 199-220. doi: 10.1006/knac.1993.1008
[2]	HAN Jia-wei, KAMBER M, PEI Jian. Data mining: Concepts and techniques[M]. 3rd ed. Beijing: China Machine Press, 2012: 443-444.
[3]	徐德智, JUNAID. Cluster-Merge本体构造算法[J].计算技术与自动化, 2010, 59(3): 49-52. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJH201003009.htm XU De-zhi, JUNAID. An ontology learning based on documents clustering[J]. Computing Technology and Automation, 2010, 59(3): 49-52. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJH201003009.htm
[4]	胡云飞. 本体学习中关系获取的研究[D]. 西安: 西安建筑科技大学, 2012. HU Yun-fei. Research on relations acquisition of ontology learning[D]. Xi'an: Xi'an University of Architecture and Technology, 2012.
[5]	LEUNG K W T, LEE D L. Deriving concept-based user profiles from search engine logs[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(7): 969-982. doi: 10.1109/TKDE.2009.144
[6]	何琳, 侯汉清.基于统计自然语言处理技术的领域本体半自动构建研究[J].情报学报, 2009, 28(2): 201-207. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA200706061.htm HE Lin, HOU Han-qing. Research on semi-automatic construction of domain ontology based on statistical NLP technique[J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(2): 201-207. http://www.cnki.com.cn/Article/CJFDTOTAL-JSJA200706061.htm
[7]	CHEN Shi-xi, WANG Hai-xun, ZHOU Shui-geng. Concept clustering of evolving data[C]//IEEE 25th International Conference on Data Engineering. Shanghai, China: IEEE Computer Society, 2009: 1327-1330.
[8]	THO Q T, HUI S C, FONG A C M, et al. Automatic fuzzy ontology generation for semantic web[J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(6): 842-856. doi: 10.1109/TKDE.2006.87
[9]	KUMAR C A, SRINIVAS S. Concept lattice reduction using fuzzy k-means clustering[J]. Expert Systems with Applications, 2010, 37(3): 2696-2704. doi: 10.1016/j.eswa.2009.09.026
[10]	WONG W, LIU W, BENNAMOUN M. Tree-traversing ant algorithm for term clustering based on featureless similarities[J]. Data Mining and Knowledge Discovery, 2007, 15(3): 349-381. doi: 10.1007/s10618-007-0073-y
[11]	LEE C S, KAO Y F, KUO Y H, et al. Automated ontology construction for unstructured text documents[J]. Data & Knowledge Engineering, 2007, 60(3): 547-566. https://www.researchgate.net/publication/222823015_Automated_ontology_construction_for_unstructured_text_documents
[12]	于娟. 基于文本的领域本体学习方法及其应用研究[D]. 大连: 大连理工大学, 2010. YU Juan. Learning domain ontologies from Chinese text corpora[D]. Dalian: Dalian University of Technology, 2010.
[13]	全国科学技术名词审定委员会. 全国科学技术名词审定委员会简介[EB/OL]. [2016-12-24]. http://www.cnctst.cn/. China National Committee for Terms in Sciences and Technologies. An introduction of China national committee for terms in sciences and technologies [EB/OL]. [2016-12-24]. http://www.cnctst.cn/.
[14]	刘金岭.基于《现代汉语语义分类词典》的文本聚类方法[J].情报杂志, 2010, 29(11): 170-173. doi: 10.3969/j.issn.1002-1965.2010.11.037 LIU Jin-ling. Text clustering method based on thesaurus of modern Chinese[J]. Journal of Intelligence, 2010, 29(11): 170-173. doi: 10.3969/j.issn.1002-1965.2010.11.037
[15]	张明卫, 刘莹, 张斌, 等.一种基于概念的数据聚类模型[J].软件学报, 2009, 20(9): 2387-2396. http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB200909011.htm ZHANG Ming-wei, LIU Ying, ZHANG Bin, et al. Concept-based data clustering model[J]. Journal of Software, 2009, 20(9): 2387-2396. http://www.cnki.com.cn/Article/CJFDTOTAL-RJXB200909011.htm

[1]	章坚武, 戚可寒, 章谦骅, 孙玲芬. 车辆边缘计算中基于深度学习的任务判别卸载 . 电子科技大学学报, 2024, 53(1): 29-39. doi: 10.12178/1001-0548.2022376
[2]	陈柄任, 袁淏木, 吴涵卿, 吴磊, 李鑫, 李晓瑜. 基于量子判别分析法的量子连续投资组合优化算法 . 电子科技大学学报, 2023, 52(6): 802-808. doi: 10.12178/1001-0548.2022109
[3]	王一宾, 杨思春. 基于三支概念格合并的决策背景规则提取 . 电子科技大学学报, 2018, 47(6): 913-920. doi: 10.3969/j.issn.1001-0548.2018.06.018
[4]	陈莉, 刘弘. 基于跨本体语义相关的三维模型检索方法 . 电子科技大学学报, 2017, 46(4): 585-590. doi: 10.3969/j.issn.1001-0548.2017.04.018
[5]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422.
[6]	陶晓玲, 韦毅, 王勇. 一种基于本体的并行网络流量分类方法 . 电子科技大学学报, 2016, 45(3): 417-422. doi: 10.3969/j.issn.1001-0548.2016.02.018
[7]	张静, 刘忠宝. 基于流形判别分析的全局保序学习机 . 电子科技大学学报, 2015, 44(6): 911-916. doi: 10.3969/j.issn.1001-0548.2015.06.020
[8]	符红光, 刘莉, 钟秀琴, 蒋彦, 孙媛媛. 基于WordNet与Wikipedia的平面几何本体的构建 . 电子科技大学学报, 2014, 43(4): 575-580. doi: 10.3969/j.issn.1001-0548.2014.04.018
[9]	邓晓政, 焦李成. 流形距离的自动免疫克隆聚类图像分割算法 . 电子科技大学学报, 2014, 43(5): 742-748. doi: 10.3969/j.issn.1001-0548.2014.05.019
[10]	贾真, 杨燕, 何大可. 基于弱监督学习的中文百科数据属性抽取 . 电子科技大学学报, 2014, 43(5): 758-763. doi: 10.3969/j.issn.1001-0548.2014.05.022
[11]	魏玲, 李强. 面向属性概念格基于覆盖的压缩 . 电子科技大学学报, 2012, 41(2): 299-304. doi: 10.3969/j.issn.1001-0548.2012.02.024
[12]	刘兴华, 曹云峰, 王彪, 庄丽葵, 周在华. 基于SysML与Simulink的飞控系统概念样机设计 . 电子科技大学学报, 2011, 40(6): 887-891. doi: 10.3969/j.issn.1001-0548.2011.06.016
[13]	钟秀琴, 符红光, 丁盘苹. 基于本体与Prolog的平面几何定理证明 . 电子科技大学学报, 2011, 40(3): 429-434. doi: 10.3969/j.issn.1001-0548.2011.03.020
[14]	蒲晓蓉, 樊科, 黄东. 类内子流形局部间隔对齐的人脸图像判别方法 . 电子科技大学学报, 2010, 39(6): 915-919. doi: 10.3969/j.issn.1001-0548.2010.06.023
[15]	赵飞, 周涛, 张良, 马鸣卉, 刘金虎, 余飞, 查一龙, 李睿琪. 维基百科研究综述 . 电子科技大学学报, 2010, 39(3): 321-334. doi: 10.3969/j.issn.1001-0548.2010.03.001
[16]	于江德, 李学钰, 樊孝忠. 信息抽取中领域本体的设计和实现 . 电子科技大学学报, 2008, 37(5): 746-749.
[17]	祝金荣, 胡望斌. 聚类电价预测方法研究 . 电子科技大学学报, 2007, 36(6): 1278-1281.
[18]	艾未华, 宋自林, 魏磊, 吴量. 基于领域本体的Web服务发现 . 电子科技大学学报, 2007, 36(3): 506-509.
[19]	耿技, 印鉴. 改进的共享型最近邻居聚类算法 . 电子科技大学学报, 2006, 35(1): 70-72.
[20]	董韵涵, 杨万麟. 改进最优聚类中心雷达目标识别法 . 电子科技大学学报, 2006, 35(2): 183-185,192.

留言板