基于PageRank的新闻关键词提取算法

顾亦然; 许梦馨

doi:10.3969/j.issn.1001-0548.2017.05.021

基于PageRank的新闻关键词提取算法

doi: 10.3969/j.issn.1001-0548.2017.05.021

南京邮电大学自动化学院南京 210023

基金项目:

教育部人文社会科学研究规划基金 15YJZH016

详细信息

作者简介:
顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

中图分类号: TP311;TP391.1

Keyword Extraction from News Articles Based on PageRank Algorithm

College of Automation, Nanjing University of Posts and Telecommunications Nanjing 210023

摘要: 现有的基于复杂网络的关键词提取算法在构建加权文本网络时没有考虑文本的自然语言特性，且在提取关键词时较少涉及复杂网络领域经典算法。本文引入词频分享权重，利用词频特性为节点之间的连边加权。在此基础上，基于PageRank算法，并结合人类语言习惯特性定义位置权重系数，提出了一个新的新闻关键词提取算法——LTWPR算法，综合考虑了文本网络的局部特征和全局特征。采用新浪新闻语料进行了大量实验，结果表明该算法能够快速有效的覆盖新闻作者标注的关键词，且提取效果更佳。
- 复杂网络 /
- 关键词提取 /
- 自然语言 /
- PageRank /
- 词频分享权重
Abstract: Most of the existing methods of extracting keyword based on complex networks ignore the natural language characters when building the weighted text network. In the meantime, they involve less the classical algorithms in complex network field. Based on PageRank algorithm, we propose a keyword extraction method, named LTWPR (located and TF-weighted PageRank), which takes into consideration term-frequency character and human language characters. The algorithm creates a term-frequency-shared weight in order to share the node's term-frequency value to its links, and defines a position weight coefficient to express different importance of words in different positions of news articles. LTWPR brings text networks' local and global features into consideration, making the results more accurate. Comprehensive experiments are conducted based on news articles grabbed from Sina News. Experimental results show that LTWPR algorithm is more effective and can better cover the keywords tagged by authors.
- complex networks /
- keyword extraction /
- natural language /
- PageRank /
- term-frequencyshared weight

图 1 文本网络构建算法流程图

下载: 全尺寸图片幻灯片

图 2 新闻文本格式

下载: 全尺寸图片幻灯片

图 3 新闻标准关键词分布

下载: 全尺寸图片幻灯片

图 4 按关键词提取个数实验结果

下载: 全尺寸图片幻灯片

图 5 提取关键词M+1时各项指标结果

下载: 全尺寸图片幻灯片

图 6 提取关键词M+2时各项指标结果

下载: 全尺寸图片幻灯片

表 1 3种算法提取结果对比

算法	关键词	召回率R/%	准确率P/%	综合F值/%
TF-IDF	中国海军、无害通航李杰、日本领海	66.667	50	57.143
TextRank	中国海军、军舰无害通航、日本	33.333	25	28.571
LTWPR	中国海军、日本领海军舰、中国军舰	100	75	85.714

下载: 导出CSV

[1]	SALTON G. Developments in automatic text retrieval[J]. Science, 1991, 253(5023):974-979. doi: 10.1126/science.253.5023.974
[2]	杨凯艳. 基于改进的TFIDF关键词自动提取算法研究[D]. 湖南, 湘潭: 湘潭大学, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10530-1015620766.htm YANG Kai-yan. Research on automatic keyword extraction algorithm based on improved TFIDF[D]. Xiangtan, Hunan:Xiangtan University, 2015. http://cdmd.cnki.com.cn/Article/CDMD-10530-1015620766.htm
[3]	GUO A, YANG T. Research and improvement of feature words weight based on TFIDF algorithm[C]//Proceedings of the Information Technology, Networking, Electronic and Automation Control Conference(ITNEC 2016). Chongqing, China:IEEE, 2016:415-419.
[4]	MIHALCEA R, TARAU P. TextRank:Bringing order into texts[C]//Conference on Empirical Methods in Natural Language Processing, EMNLP 2004. Barcelona, Spain:[s.n.], 2004:404-411.
[5]	BRIN S, PAGE L. The anatomy of a large-scale hyper textual web search engine[C]//Proceedings of the 7th World Wide Web Conference (WWW7). Brisbane, Australia:[s.n.], 1998:107-117.
[6]	CANCHO R F I, SOLÉ R V. The small world of human language[J]. Proceedings Biological Sciences, 2001, 268(1482):2261-2266. doi: 10.1098/rspb.2001.1800
[7]	MATSUO Y, ISHIZUKA M. Keyword extraction from a single document using word co-occurrence statistical information[J]. Transactions of the Japanese Society for Artificial Intelligence, 2011, 13(17):217-223. doi: 10.1142/S0218213004001466
[8]	任晓龙, 吕琳媛.网络重要节点排序方法综述[J].科学通报, 2014, 59(13):1175-1197. http://www.cnki.com.cn/Article/CJFDTOTAL-KXTB201413004.htm REN Xiao-long, LÜ Lin-yuan. Review of ranking nodes in complex networks[J]. Chin Sci Bull, 2014, 59(13):1175-1197. http://www.cnki.com.cn/Article/CJFDTOTAL-KXTB201413004.htm
[9]	谢凤宏, 张大为, 黄丹, 等.基于加权复杂网络的文本关键词提取[J].系统科学与数学, 2010, 30(11):1592-1596. http://www.cnki.com.cn/Article/CJFDTOTAL-STYS201011017.htm XIE Feng-hong, ZHANG Da-wei, HUANG Dan, et al. Keywords extraction based on weighted complex network[J]. Journal of Systems Science and Mathematical Sciences, 2010, 30(11):1592-1596. http://www.cnki.com.cn/Article/CJFDTOTAL-STYS201011017.htm
[10]	唐俊.复杂网络在新闻网页关键词提取中的应用[J].云南民族大学学报(自然科学版), 2012, 21(4):305-308. http://www.cnki.com.cn/Article/CJFDTOTAL-HBYD201606072.htm TANG Jun. Application of complex networks to keyword extraction of news web pages[J]. Journal of Yunnan Nationalities University:Natural Sciences Edition, 2012, 21(4):305-308. http://www.cnki.com.cn/Article/CJFDTOTAL-HBYD201606072.htm
[11]	左晓飞. 基于复杂网络的关键词提取研究[D]. 西安: 西安电子科技大学, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10701-1013295588.htm ZUO Xiao-fei. Research on keyword extraction based on complex network[D]. Xian:XiDian University, 2013. http://cdmd.cnki.com.cn/Article/CDMD-10701-1013295588.htm
[12]	CHEN Q, JIANG Z, BIAN J. Chinese keyword extraction using semantically weighted network[C]//International Conference on Intelligent Human-Machine Systems & Cybernetics.[S.l.]:IEEE, 2014:83-86.
[13]	NAN J, XIAO B, LIN Z, et al. Keywords extraction from Chinese document based on complex network theory[C]//2014 Seventh International Symposium on Computational Intelligence and Design (ISCID).[S.l.]:IEEE, 2015:383-386.
[14]	刘通.基于复杂网络的文本关键词提取算法研究[J].计算机应用研究, 2016, 33(2):365-369. http://youxian.cnki.com.cn/yxdetail.aspx?filename=RJXB20170605002&dbname=CAPJ2015 LIU Tong. Algorithm research of text key word extraction based on complex networks[J]. Application Research of Computers, 2016, 33(2):365-369. http://youxian.cnki.com.cn/yxdetail.aspx?filename=RJXB20170605002&dbname=CAPJ2015
[15]	张华平. ICTCLAS汉语分词系统[EB/OL]. [2014-06-25]. http://ictclas.nlpir.org/. ZHANG Hua-ping. ICTCLAS Chinese word segmentation system[EB/OL].[2014-06-25]. http://ictclas.nlpir.org/.

[1]	邢玲, 邓凯凯, 吴红海, 谢萍. 复杂网络视角下跨社交网络用户身份识别研究综述 . 电子科技大学学报, 2020, 49(6): 905-917. doi: 10.12178/1001-0548.2019182
[2]	张帆, 郭强, 刘建国. 基于二阶信息的复杂系统弹性度量研究 . 电子科技大学学报, 2019, 48(3): 456-461. doi: 10.3969/j.issn.1001-0548.2019.03.023
[3]	赵紫娟, 李小珂, 郭强, 杨凯, 刘建国. 基于LDA的复杂网络整体研究态势主题分析 . 电子科技大学学报, 2019, 48(6): 931-938. doi: 10.3969/j.issn.1001-0548.2019.06.019
[4]	邵鹏, 胡平. 复杂网络特殊用户对群体观点演化的影响 . 电子科技大学学报, 2019, 48(4): 604-612. doi: 10.3969/j.issn.1001-0548.2019.04.019
[5]	吴宗柠, 樊瑛. 复杂网络视角下国际贸易研究综述 . 电子科技大学学报, 2018, 47(3): 469-480. doi: 10.3969/j.issn.1001-0548.2018.03.023
[6]	朱为华, 刘凯, 闫小勇, 汪明, 吴金闪. 识别流网络关键节点的虚拟外界投入产出分析法 . 电子科技大学学报, 2018, 47(2): 292-297. doi: 10.3969/j.issn.1001-0548.2018.02.021
[7]	顾亦然, 朱梓嫣. 基于LeaderRank和节点相似度的复杂网络重要节点排序算法 . 电子科技大学学报, 2017, 46(2): 441-448. doi: 10.3969/j.issn.1001-0548.2017.02.020
[8]	苟智坚, 范明钰, 王光卫. 复杂网络中无信任边界限制的连续观点演化研究 . 电子科技大学学报, 2015, 44(5): 749-756. doi: 10.3969/j.issn.1001-0548.2015.05.019
[9]	尚可可, 许小可. 基于置乱算法的复杂网络零模型构造及其应用 . 电子科技大学学报, 2014, 43(1): 7-20. doi: 10.3969/j.issn.1001-0548.2014.01.002
[10]	汤蓉, 唐常杰, 徐开阔, 杨宁. 基于局部聚合的复杂网络自动聚簇算法 . 电子科技大学学报, 2014, 43(3): 329-335. doi: 10.3969/j.issn.1001-0548.2014.03.002
[11]	周涛, 张子柯, 陈关荣, 汪小帆, 史定华, 狄增如, 樊瑛, 方锦清, 韩筱璞, 刘建国, 刘润然, 刘宗华, 陆君安, 吕金虎, 吕琳媛, 荣智海, 汪秉宏, 许小可, 章忠志. 复杂网络研究的机遇与挑战 . 电子科技大学学报, 2014, 43(1): 1-5. doi: 10.3969/j.issn.1001-0548.2014.01.001
[12]	唐雪飞, 杨陈皓, 牛新征. 复杂网络链路危险度预测模型研究 . 电子科技大学学报, 2013, 42(3): 442-447. doi: 10.3969/j.issn.1001-0548.2013.03.024
[13]	王伟, 杨慧, 龚凯, 唐明, 都永海. 复杂网络上的局域免疫研究 . 电子科技大学学报, 2013, 42(6): 817-830.
[14]	张昌利, 龚建国, 闫茂德. 基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
[15]	陈娟, 陆君安. 复杂网络中尺度研究揭开网络同步化过程 . 电子科技大学学报, 2012, 41(1): 8-16. doi: 10.3969/j.issn.1001-0548.2012.01.002
[16]	张聪, 沈惠璋. 网络自然密度社团结构模块度函数 . 电子科技大学学报, 2012, 41(2): 185-191. doi: 10.3969/j.issn.1001-0548.2012.02.003
[17]	谢福鼎, 张大为, 黄丹, 张永, 孙岩. 寻找复杂网络社团的稠密集算法 . 电子科技大学学报, 2011, 40(4): 483-490. doi: 10.3969/j.issn.1001-0548.2011.04.001
[18]	张昊, 陈超, 王长春. 基于空穴理论的复杂网络传染病传播控制 . 电子科技大学学报, 2011, 40(4): 491-496.
[19]	吕琳媛. 复杂网络链路预测 . 电子科技大学学报, 2010, 39(5): 651-661. doi: 10.3969/j.issn.1001-0548.2010.05.002
[20]	汪小帆, 刘亚冰. 复杂网络中的社团结构算法综述 . 电子科技大学学报, 2009, 38(5): 537-543. doi: 10.3969/j.issn.1001-0548.2009.05.007

点击查看大图

图(6) / 表(1)

计量

文章访问数: 4236
HTML全文浏览量: 1216
PDF下载量: 173
被引次数: 0

全文HTML

随着信息时代的到来以及互联网的蓬勃发展，关键词成为用户搜索信息必不可少的工具。关键词以凝练简洁的形式对文本主题进行有效概括，通过提取关键词，可以结构化地表示目标文本，提高人们的文献管理与检索效率。

关键词在新闻领域有十分重要的作用。目前，网页新闻如新浪新闻会在网页源代码中标注keywords或tags属性的词语，并在网页新闻下端贴出标签或文章关键词，使得用户在搜索相关新闻时能快速定位。由于个体语言的差异性，手动标注关键词可能存在不规范或不准确的问题，且核对工作较繁琐。因此，找到一种规范化、合理高效的文本关键词自动提取方法具有十分重要的意义。

传统的关键词提取算法是基于TF-IDF^[1-2]计算词语的特征权重，利用词频TF发现高频词，再通过引入逆文本频率指数IDF^[3]来降低高频却不具代表性的词语对文本的重要度，提高提取关键词的准确率，算法思想十分简单。但此方法计算复杂度较高，需将所有文本均考虑在内才能计算词语的逆文本频率指数，因此，其提取关键词准确度受文档集合大小的影响较大。另一经典算法是以TextRank^[4]为典型代表的基于词图模型的关键词抽取算法。受著名的Google网页排名算法PageRank^[5]的启发，文献[4]把词看做网页，将词与词之间的语义关系看作链接，开发了TextRank算法，因其不需要事先对多篇文本进行训练，仅利用单篇文档本身就能实现关键词提取，实现方法简单高效并得到广泛应用。然而，该方法采用的是词语节点影响力均分的无权图模型，在进行关键词抽取时仅考虑了词语的词性信息，未考虑词语节点之间的相互影响力，导致非重要词语吸收的贡献值相对增加。

基于复杂网络的关键词提取方法是近年来随着复杂网络研究的兴起而出现的一种新的关键词提取算法。文本网络已被证实具有小世界特性^[6]，可以使用复杂网络理论进行关键词的提取。在一个文本网络中，词语被视为节点，词语之间的联系抽象为连边。所有词语和连边即构成一个文本复杂网络。已被研究出的基于复杂网络的关键词提取方法大多基于词语在同一句子中共现次数为连边加权^[7]，再应用复杂网络统计参数度、聚类系数、介数、接近中心性、最短路径等^[8]两参数加权或三参数加权计算得到词语节点的特征权重，进而得到一篇文章的关键词。文献[9]利用特征词共现次数为连边加权，通过节点的加权聚类系数和介数两参数加权计算节点的综合特征值。文献[10]利用词语共现次数为连边加权，通过加权度及聚类系数两参数加权计算节点的特征权重。文献[11]利用两个词语在同一句话中共现次数的倒数为连边加权，通过节点的加权中心度和介数两参数加权计算节点的综合特征值，从而提取文本关键词。文献[12]提出应用语义加权网络提取中文关键词的方法，利用词共现频率和语义相似度构造语义加权网络，通过节点的介数、聚类系数变化值和平均最短路径变化值三参数加权计算得到节点的综合特征值。文献[13]提出的基于复杂网络的关键词提取方法也通过词语共现次数的倒数为连边加权，利用偏向中心性和度中心性两参数归一再加权计算节点的综合特征值。文献[14]依据词汇在文本中的共现关系构造词汇概念复杂网络，提出了一种利用词汇概念本身频率以及其相邻节点的数量及重要性指标为节点加权，计算出文本词汇的重要性指标获取候选关键词集。

已有的基于复杂网络的关键词提取研究大部分只应用了复杂网络统计参数，较少应用复杂网络经典方法计算词语节点的权重，且忽略了可以利用自然语言词频特性对节点和节点之间的连边赋予权重的方法。本文针对上述问题进行研究分析，在较好构建文本复杂网络的基础上，基于PageRank算法提出一种新的新闻关键词提取算法，实现对关键词的有效提取。

3. 结束语

本文的LTWPR算法基于PageRank算法，在考虑词频重要性的同时，融合了邻居节点对目标节点的重要度贡献，同时将人类的语言习惯列入考虑，对位于标题的词语赋予更高的语义权重系数，构造出一种新的新闻关键词提取算法。通过将爬取的新浪新闻语料抽象为文本复杂网络进行实验验证，利用召回率$ R$、准确率$ P$、和综合$ F$值3个指标评价本文所构造算法的有效性。本文主要得出结论如下：

1) 将新闻语料按关键词提取个数分类进行的实验结果表明，不管提取的关键词个数多或者少，本文LTWPR算法提取出的关键词能够更好地覆盖新闻作者标注的关键词，提取结果优于TF-IDF算法和TextRank算法，具有较高的有效性；

2) 将新闻语料按领域分类进行的实验结果表明，在财经、国际、国内、政务、军事、社会6个领域，本文LTWPR算法的关键词提取有效性更高，应用于新闻关键词的提取时实用性更强，且对于国际领域新闻的提取效果最优。

本文研究工作还存在一些不足。由于基于复杂网络的关键词提取方法仍依赖于分词软件进行分词才能构造文本网络，而构建文本网络的优劣将直接影响提取关键词的各项指标。本文算法在提取关键词时，提取结果也在一定程度上受分词软件分词准确率的影响。因此，在分词软件分词准确率受限的情况下，如何提高文本网络构建的完备性仍需进一步研究。

参考文献 (15)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于PageRank的新闻关键词提取算法

doi: 10.3969/j.issn.1001-0548.2017.05.021

作者简介:
顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

Keyword Extraction from News Articles Based on PageRank Algorithm

计量

基于PageRank的新闻关键词提取算法

doi: 10.3969/j.issn.1001-0548.2017.05.021

南京邮电大学自动化学院南京 210023

作者简介:
顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

English Abstract

Keyword Extraction from News Articles Based on PageRank Algorithm

College of Automation, Nanjing University of Posts and Telecommunications Nanjing 210023

全文HTML

1.1. 基于连边规则的文本网络构建

1.2. 文本网络构建算法

1.3. 新闻关键词提取算法LTWPR

2.1. 单篇新闻实验

2.2. 按关键词提取个数对比实验

2.3. 按新闻领域对比实验

目录

期刊在线

编辑办公

友情链接

留言板

基于PageRank的新闻关键词提取算法

doi: 10.3969/j.issn.1001-0548.2017.05.021

作者简介: 顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

Keyword Extraction from News Articles Based on PageRank Algorithm

计量

出版历程

基于PageRank的新闻关键词提取算法

doi: 10.3969/j.issn.1001-0548.2017.05.021

南京邮电大学自动化学院 南京 210023

作者简介: 顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

English Abstract

Keyword Extraction from News Articles Based on PageRank Algorithm

College of Automation, Nanjing University of Posts and Telecommunications Nanjing 210023

全文HTML

1.1. 基于连边规则的文本网络构建

1.2. 文本网络构建算法

1.3. 新闻关键词提取算法LTWPR

2.1. 单篇新闻实验

2.2. 按关键词提取个数对比实验

2.3. 按新闻领域对比实验

目录

期刊在线

编辑办公

友情链接

作者简介:
顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究

南京邮电大学自动化学院南京 210023

作者简介:
顾亦然(1972-), 女, 博士, 教授, 主要从事复杂网络理论与应用、嵌入式系统及通信网络等方面的研究