基于FP序列树的法文词语提取方法研究

于娟; 吴晓鹏; 廖晓; 刘建国

doi:10.12178/1001-0548.2020273

基于FP序列树的法文词语提取方法研究

doi: 10.12178/1001-0548.2020273

1.
福州大学经济与管理学院　福州　350108
2.
广东金融学院互联网金融与信息工程学院　广州　510521
3.
上海财经大学会计与财务研究院　上海杨浦区　200433

基金项目: 国家自然科学基金(71771054)

详细信息

作者简介:
于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

中图分类号: TP182

Extracting Terms Form French Corpora with FP Sequence Tree

1.
School of Economics and Management, Fuzhou University　Fuzhou　350108
2.
School of Internet Finance and Information Engineering, Guangdong University of Finance　Guangzhou　510521
3.
Institute of Finance and Accounting, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

摘要: 法语复杂的语法和词形变化规则导致N-gram等词语提取方法的效果无法保证，影响法语文本挖掘的准确性。该文提出一种高效的法文词语提取方法，从待分析的法语文本中自动获取包括单词和短语的词语集合，构建法语文本挖掘所需的词库。该方法把文本中的单词共现信息压缩为FP序列树结构，快速提取频繁词串并计算其成词度，得到法文词语集合。实验表明，该方法的准确率高达90%，且具有比现有法文词语提取方法更高的召回率，能有效支持法语文本挖掘应用。
- FP序列树 /
- 法语文本挖掘 /
- 词语提取 /
- 成词度 /
- 文本压缩
Abstract: French is one of the working languages of the United Nations. Its complex grammar and part-of-speech rules result in the inability of term extraction methods such as N-gram and thus affect the accuracy of French text mining. This paper proposes an effective and efficient French term extraction method, which can be used to extract words and phrases from the analyzing French text corpora and provide a complete lexicon for French text mining. Firstly, word co-occurrence information of the corpora being analyzed is compressed into an FP (Frequent Pattern) sequence tree for extracting frequent word sequences rapidly, and then the termhood of each frequent word sequence is calculated to obtain the term set. The FP sequence tree is a newly-designed data structure for reducing the time complexity of word co-occurrence statistics to linear time. Experiments show that the proposed method has a high accuracy of approximate 90% with a much higher than normal recall rate and thus has good potentials for French text mining applications.
- FP sequence tree /
- French text mining /
- term extraction /
- termhood /
- text compression
图 1 基于FP序列树的法文词语提取方法流程图

下载: 全尺寸图片幻灯片

图 2 法语文本与其中文翻译示例

下载: 全尺寸图片幻灯片

图 3 图2法语文本的文本预处理结果

下载: 全尺寸图片幻灯片

图 4 图3文本的FP序列树

下载: 全尺寸图片幻灯片

图 5 法文词语提取方法的准确率比较

下载: 全尺寸图片幻灯片

表 1 图4的FP序列树的频繁词串提取结果

频繁词串中文意思频次

traitement du donnée 数据处理 2
volume du donnée stocker 数据存储量 2
big data 大数据 2

下载: 导出CSV

表 2 法文词语提取方法正确提取的词语数目比较

词语数目本文方法二元词组法词性规则法

联合国平行语料库 17 478 12 711 11 327
Europarl 1 526 1 443 1 028

下载: 导出CSV

[1]	WIKIPEDIA. French language[EB/OL]. [2020-05-10]. http://en.wikipedia.org/wiki/French.
[2]	UNITED NATIONS. Official languages[EB/OL]. [2020-06-27]. https://www.un.org/en/sections/about-un/official-languages/index.html.
[3]	MARTIN L, MULLER B, SUAREZ P J O, et al. Camembert: A tasty French language model[EB/OL]. [2020-05-21]. https://arxiv.org/abs/1911.03894v1.
[4]	HAN Jia-wei, WANG Chi, EL-KISHKY A. Bringing structure to text: Mining phrases, entities, topics, and hierarchies[C]//The 20th ACM Conference on Knowledge Discovery and Data Mining (KDD’14). New York, NY, USA: ACM, 2014: 1968.
[5]	PRINCE V, LABADIE A. Text segmentation based on document understanding for information retrieval[C]//Proceedings of the 12th International Conference on Applications of Natural Language to Information Systems (NLDB'07). Berlin, Heidelberg: Springer-Verlag, 2007: 295-304.
[6]	PAIS S, DIAS G, WEGRZYN-WOLSKA K, et al. Textual entailment by generality[J]. Procedia-Social and Behavioral Sciences, 2011, 27: 258-266.
[7]	ABDAOUI A, NZALI M D T, AZE J, et al. ADVANSE: Sentiment, opinion and emotion analysis in French Tweets[C]//22nd Conference on Natural Language Processing. Caen, France: [s.n.], 2015: 78-87.
[8]	BOUGOUIN A, BOUDIN F, DAILLE B. The impact of domains for keyphrase extraction[C]//21st Conference on Natural Language Processing. Marseille, France: [s.n.], 2014: 13-24.
[9]	PANCKHURST R, LOPEZ C, ROCHE M. A French text-message corpus: 88milSMS. synthesis and usage[EB/OL]. [2020-05-10]. http://journals.openedition.org/corpus/4852.
[10]	ALI C B, WANG R, HADDAD H. A two-level keyphrase extraction approach[C]//International Conference on Intelligent Text Processing & Computational Linguistics. [S.l.]: Springer, 2015: 390-401.
[11]	LOSSIO-VENTURA J A, JONQUET C, ROCHE M, et al. Biomedical term extraction: Overview and a new methodology[J]. Information Retrieval, 2016, 19(1-2): 59-99.
[12]	于娟, 党延忠. 结合词性分析与串频统计的词语提取方法[J]. 系统工程理论与实践, 2010, 30(1): 105-111. doi: 10.12011/1000-6788(2010)1-105 YU Juan, DANG Yan-zhong. Chinese term extraction based on POS analysis & string frequency[J]. Systems Engineering—Theory & Practice, 2010, 30(1): 105-111. doi: 10.12011/1000-6788(2010)1-105
[13]	HASAN K S, NG V. Automatic keyphrase extraction: A survey of the state of the art[C]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (ACL 2014). Baltimore, Maryland, USA: [s.n.], 2014: 1262-1273.
[14]	祁依虹, 茅于杭. 汉法机器翻译的难点分析[J]. 计算机工程, 2002, 28(9): 235-237. doi: 10.3969/j.issn.1000-3428.2002.09.091 QI Yi-hong, MAO Yu-hang. Analysis on difficulities of Chinese-French machine translation[J]. Computer Engineering, 2002, 28(9): 235-237. doi: 10.3969/j.issn.1000-3428.2002.09.091
[15]	BROWN P F, PIETRA S D, PIETRA V J D, et al. The mathematics of statistical machine translation: Parameter estimation[J]. Computational Linguistics, 1993, 19(2): 263-311.
[16]	SCHMID H. Treetagger[EB/OL]. [2020-05-10]. https://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/#Linux.
[17]	SCHMID H. Probabilistic part-of-speech tagging using decision trees[C]//Proceedings of International Conference on New Methods in Language Processing. Manchester, UK: [s.n.], 1994, 12: 44-49.
[18]	EXPLOSION. Spacy[EB/OL]. [2020-05-10]. https://spacy.io/models/.
[19]	JONGEJAN B, DALIANIS H. Automatic training of lemmatization rules that handle morphological changes in pre-, in- and suffixes alike[C]//Proceedings of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Suntec, Singapore: [s.n.], 2009: 145-153.
[20]	HAN Jia-wei, PEI Jian, YIN Yi-wen. Mining frequent patterns without candidate generation[C]//Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data (SIGMOD'00). Dallas, Texas, USA: ACM, 2000: 1-12.
[21]	FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: The C-value/NC-value method[J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
[22]	于娟, 党延忠. 领域特征词的提取方法研究[J]. 情报学报, 2009, 28(3): 368-373. doi: 10.3772/j.issn.1000-0135.2009.03.007 YU Juan, DANG Yan-zhong. Domain feature and its extracting approach[J]. Journal of the China Society for Scientific and Technical Information, 2009, 28(3): 368-373. doi: 10.3772/j.issn.1000-0135.2009.03.007
[23]	周浪, 张亮, 冯冲, 等. 基于词频分布变化统计的术语抽取方法[J]. 计算机科学, 2009, 36(5): 177-180. doi: 10.3969/j.issn.1002-137X.2009.05.045 ZHOU Lang, ZHANG Liang, FENG Chong, et al. Terminology extraction based on statistical word frequency distribution variety[J]. Computer Science, 2009, 36(5): 177-180. doi: 10.3969/j.issn.1002-137X.2009.05.045
[24]	ZIEMSKI M, JUNCZYS-DOWMUNT M, POULIQUEN B. The united nations parallel corpus[C]//Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16). Portorož, Slovenia: [s.n.], 2016: 3530-3534.
[25]	KOEHN P. Europarl: A parallel corpus for statistical machine translation[EB/OL]. [2020-06-25]. http://www.statmt.org/europarl/.

[1]	朱颀林, 王羽, 徐建. 基于异构图和关键词的抽取式文本摘要模型 . 电子科技大学学报, 2024, 53(2): 259-270. doi: 10.12178/1001-0548.2023019
[2]	李海林, 张丽萍. 时间序列数据挖掘中的聚类研究综述 . 电子科技大学学报, 2022, 51(3): 416-424. doi: 10.12178/1001-0548.2022055
[3]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[4]	李丽霞, 任卓明, 张子柯. 基于关键词的知识图谱挖掘信息技术学科演化趋势 . 电子科技大学学报, 2020, 49(5): 780-787. doi: 10.12178/1001-0548.2019221
[5]	钱志森, 黄瑞章, 魏琴, 秦永彬, 陈艳平. 半监督语义动态文本聚类算法 . 电子科技大学学报, 2019, 48(6): 803-808. doi: 10.3969/j.issn.1001-0548.2019.06.001
[6]	孙晶涛, 张秋余. 不均衡大数据集下的文本特征基因提取方法 . 电子科技大学学报, 2018, 47(1): 125-131. doi: 10.3969/j.issn.1001-0548.2018.01.019
[7]	张安安, 何聪, 孙茂一, 李茜. 基于峭度和时域能量的局放脉冲提取算法 . 电子科技大学学报, 2017, 46(4): 559-564. doi: 10.3969/j.issn.1001-0548.2017.04.014
[8]	许悦雷, 吕超, 马时平, 李帅, 邹洪中, 张文达, 辛鹏. 仿视皮层机制的随机点视频序列运动特征提取 . 电子科技大学学报, 2017, 46(4): 630-635. doi: 10.3969/j.issn.1001-0548.2017.04.025
[9]	顾亦然, 许梦馨. 基于PageRank的新闻关键词提取算法 . 电子科技大学学报, 2017, 46(5): 777-783. doi: 10.3969/j.issn.1001-0548.2017.05.021
[10]	牛新征, 牛嘉郡, 苏大壮, 佘堃. 基于FP-Tree模型的频繁轨迹模式挖掘方法 . 电子科技大学学报, 2016, 45(1): 86-90. doi: 10.3969/j.issn.1001-0548.2016.01.014
[11]	李英, 崔艳鹏, 高新波. 一种基于算术编码的文本数据压缩算法 . 电子科技大学学报, 2016, 45(6): 929-933. doi: 10.3969/j.issn.1001-0548.2016.06.009
[12]	廖一星, 潘雪增. 面向不平衡文本的特征选择方法 . 电子科技大学学报, 2012, 41(4): 592-595. doi: 10.3969/j.issn.1001-0548.2012.04.022
[13]	陈俊, 陈运, 吴震. 一类大集合p元低相关序列集的线性复杂度研究 . 电子科技大学学报, 2011, 40(3): 379-382. doi: 10.3969/j.issn.1001-0548.2011.03.010
[14]	张玉芳, 熊忠阳, 彭燕, 刘君. 基于兴趣度含正负项目的关联规则挖掘方法 . 电子科技大学学报, 2010, 39(3): 407-411. doi: 10.3969/j.issn.1001-0548.2010.03.018
[15]	王金龙, 徐从富. 研究者出版记录中的会议序列提取研究 . 电子科技大学学报, 2010, 39(1): 110-113. doi: 10.3969/j.issn.1001-0548.2010.01.025
[16]	李献礼, 陈业纲. FP-array在计算机犯罪挖掘中的应用 . 电子科技大学学报, 2009, 38(4): 592-595. doi: 10.3969/j.issn.1001-0548.2009.04.027
[17]	朱君, 曲超, 汤庸. 利用单词超团的二分图文本聚类算法 . 电子科技大学学报, 2008, 37(3): 439-442.
[18]	李艳玲, 戴冠中, 覃森. 快速的文本倾向性分类方法 . 电子科技大学学报, 2007, 36(6): 1232-1236.
[19]	杨翰深, 钟守铭, 杨恒. p-距离空间中压缩映像序列的不动点定理 . 电子科技大学学报, 2001, 30(1): 100-102.
[20]	郑勇, 周正华, 朱维乐. 一种快速零树编码的小波图像压缩算法 . 电子科技大学学报, 2001, 30(4): 331-334.

点击查看大图

图(5) / 表(2)

计量

文章访问数: 4745
HTML全文浏览量: 1464
PDF下载量: 36
被引次数: 0

全文HTML

法语是联合国工作语言之一，是欧盟、北约、世贸等众多国际组织的官方语言及正式行政语言，是全球29个国家的官方语言，是除英语之外最多国家使用的官方语言，其影响力仅次于英语^[1-2]。法语的使用范围主要集中于欧洲、非洲、北美洲的一些国家和地区。随着“一带一路”的建设和全球化进程的加快，我国与欧洲、非洲国家的经济文化交流越来越广泛和深入，相关的新闻、政策文件、社交媒体文件等文本数据成为跨国组织管理决策的重要依据。因此，我国亟需有效的法语文本挖掘方法技术来实现海量法语文本高效的自动分析和及时的信息提取。

但目前，国内外针对法语文本挖掘方法的研究成果较少^[3]。其中，法文词语提取是法语文本挖掘的基础和关键步骤^[4]，是指自动获取法语文本中出现的所有词语的集合，包括法文单词原形和由多单词组成的短语。由于文本的关键词或特征词大多是短语而非单词，所以短语的完整提取是法文词语提取方法的关键。尽管法文词语提取方法已应用于法语文本信息检索、命名实体识别、情感分析等法语文本挖掘任务^[5-7]，但均为早期的N-gram词语提取方法^[8-9]或基于形容词与名词组合的方法^[10-11]。这些方法受限于规则的不完备性，不能为文本建模提供完备的词库，影响法语文本挖掘的效果和效率。

另一方面，尽管中文和英文的短语提取方法研究已较为成熟^[12-13]，但由于法文与中、英文在词法和语法方面有较大差异^[14-15]，不能直接使用这些方法。例如，与中、英文相比，在词法方面，法文单词具有阴阳性的区别，动词、形容词、冠词需根据名词的阴阳性而变化；且不同语境的法文单词还有阴阳性的改变。在语法方面，法文中的定语需要根据具体语境搭配在名词前或名词后，搭配顺序不同则意思可能不同，如“un homme grand”意为“高大的人”，而“un grand homme”意为“伟大的人”。因此，法语文本的预处理和词语提取方法是法语所特有的，无法直接采用针对其他语言研发的方法。

上述原因导致法文词语提取成为当前制约法语文本挖掘准确性和高效性的瓶颈。因此，本文提出一种结合法语词法分析和单词共现统计规律的法文词语自动提取方法，并设计一种新的数据结构—FP序列树，用于存储具有先后顺序的法文单词串，降低单词共现统计的时间复杂度。

5. 结束语

目前，关于法语文本挖掘的研究还在起步阶段。由于法语特殊的词法和语法规则与中、英文存在巨大差异，导致当前较为成熟的中、英文文本挖掘方法无法直接应用于法语文本挖掘。

为了支持基于法语信息的管理决策，本文提出了一种基于FP序列树的法文词语提取方法。该方法能够高效准确地从待分析的法语文本中自动获取包含法文单词原形和由多单词组成的法文短语的法文词语集合，为法语文本主题发现、分/聚类等文本挖掘任务提供词库。采用本文设计的FP序列树的数据结构压缩文本，能够快速提取文本中不同频次的频繁词串，将词语提取的时间复杂度降低到线性时间，从而提高文本自动分析的效率。同时，本文的法文词语提取方法在文本预处理阶段所使用的词形还原工具影响着最终结果的准确性。

参考文献 (25)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于FP序列树的法文词语提取方法研究

doi: 10.12178/1001-0548.2020273

作者简介:
于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

Extracting Terms Form French Corpora with FP Sequence Tree

计量

基于FP序列树的法文词语提取方法研究

doi: 10.12178/1001-0548.2020273

1. 福州大学经济与管理学院　福州　350108

2. 广东金融学院互联网金融与信息工程学院　广州　510521

3. 上海财经大学会计与财务研究院　上海杨浦区　200433

作者简介:
于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

English Abstract

Extracting Terms Form French Corpora with FP Sequence Tree

1. School of Economics and Management, Fuzhou University　Fuzhou　350108

2. School of Internet Finance and Information Engineering, Guangdong University of Finance　Guangzhou　510521

3. Institute of Finance and Accounting, Shanghai University of Finance and Economics　Yangpu Shanghai　200433

全文HTML

2.1. FP序列树构建

2.2. 频繁词串提取

4.1. 数据介绍

4.2. 评价指标

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

频繁词串	中文意思	频次
traitement du donnée	数据处理	2
volume du donnée stocker	数据存储量	2
big data	大数据	2

词语数目	本文方法	二元词组法	词性规则法
联合国平行语料库	17 478	12 711	11 327
Europarl	1 526	1 443	1 028

留言板

基于FP序列树的法文词语提取方法研究

doi: 10.12178/1001-0548.2020273

作者简介: 于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

Extracting Terms Form French Corpora with FP Sequence Tree

计量

出版历程

基于FP序列树的法文词语提取方法研究

doi: 10.12178/1001-0548.2020273

1. 福州大学经济与管理学院 福州 350108 2. 广东金融学院互联网金融与信息工程学院 广州 510521 3. 上海财经大学会计与财务研究院 上海 杨浦区 200433

作者简介: 于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

English Abstract

Extracting Terms Form French Corpora with FP Sequence Tree

1. School of Economics and Management, Fuzhou University Fuzhou 350108 2. School of Internet Finance and Information Engineering, Guangdong University of Finance Guangzhou 510521 3. Institute of Finance and Accounting, Shanghai University of Finance and Economics Yangpu Shanghai 200433

全文HTML

2.1. FP序列树构建

2.2. 频繁词串提取

4.1. 数据介绍

4.2. 评价指标

4.3. 实验结果与分析

目录

期刊在线

编辑办公

友情链接

作者简介:
于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn

1. 福州大学经济与管理学院　福州　350108

2. 广东金融学院互联网金融与信息工程学院　广州　510521

3. 上海财经大学会计与财务研究院　上海杨浦区　200433

作者简介:
于娟(1981-)，女，博士，副教授，主要从事数据挖掘、信息与知识管理等方面的研究. E-mail：yujuan@fzu.edu.cn