知识标签网络生成机制研究

韩仪; 冯鑫; 周金连; 吴晔; 肖井华

doi:10.12178/1001-0548.2020084

知识标签网络生成机制研究

doi: 10.12178/1001-0548.2020084

韩仪¹,
冯鑫^2, ,,
周金连³,
吴晔⁴,
肖井华¹

1.
北京邮电大学理学院　北京海淀区　100876
2.
燕山大学经济管理学院　河北秦皇岛　066004
3.
中山大学传播与设计学院　广州　510275
4.
北京师范大学计算传播学研究中心　北京海淀区　100875

基金项目: 国家自然科学基金(11905042，61672108)；教育部人文社会科学研究青年基金(16YJC630022)；河北省“三三三人才工程”(A202001015)

详细信息

作者简介:
韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

通讯作者: 冯鑫，E-mail：149987543@qq.com

中图分类号: O157.5; TP393.0

The Generation Mechanism of Label Network

1.
School of Science, Beijing University of Posts and Telecommunications　Haidian Beijing　100876
2.
School of Economics and Management, Yanshan University　Qinhuangdao Hebei　066004
3.
School of Communication and Design, Sun Yat-sen University　Guangzhou　510275
4.
Center for Computational Communication Research, Beijing Normal University　Haidian Beijing　100875

摘要: 在知识生成社区中，现实中的网络关系由于具有一些人为实际演化特征，而与传统经典模型并不相符。该文将网络的批量增长和交叉连接特征引入到知乎社区标签网络中，对于网络演化过程进行动态分析，提出了一种标签网络优先连接模型，用来模拟知识标签网络中参数时间序列的复杂性。结果发现，该模型的仿真效果与实际情况下的知识标签网络吻合良好，且用时变方法分析网络的动态趋势较静态分析方法更为合理，该模型有助于后期深入了解现实世界中的复杂网络。
- 可调指数 /
- 知识生成 /
- 标签网络 /
- 网络动力学 /
- 幂律分布
Abstract: In the knowledge generation community, the network relationship in the real world does not match the traditional classic model because of some artificial evolution characteristics. In this paper, the parameter distribution and time-varying characteristics of the network are introduced into the network, and the evolution process of the network is analyzed dynamically, which provides an objective reference for the construction of the network. Based on the quantitative analysis of label network parameters, this paper proposes a knowledge label connection model based on Barbési-Albert (BA) model, named batch cross-linking BA model, to simulate the complexity of the time-varying parameter series in generation process of the knowledge label network. The simulation results of the model are in good agreement with the actual knowledge label network. This model is helpful for us to understand the complex network in the real world. At the same time, it is more reasonable to use time-varying analysis method to analyze the dynamic trend of the network than static analysis method.
- adjustable index /
- knowledge generation /
- label network /
- network dynamics /
- power law distribution

图 1 问题数量和标签数量的概率分布密度曲线图(小图分别代表问题数量和标签数量的概率分布密度曲线)

下载: 全尺寸图片幻灯片

图 2 知乎标签被使用次数与排名的的概率分布密度曲线图

下载: 全尺寸图片幻灯片

图 3 知乎不同标签的数量与累积标签使用数的概率分布密度曲线图

下载: 全尺寸图片幻灯片

图 4 2011−2018年数据构建的标签网络的度分布和拟合结果图

下载: 全尺寸图片幻灯片

图 5 2011−2018年年度标签网络的度分布与拟合结果图

下载: 全尺寸图片幻灯片

图 6 2011−2018年8个子网络的幂律分布的指数和全局集聚系数的变化图

下载: 全尺寸图片幻灯片

图 7 度分布数据和使用幂律分布拟合

下载: 全尺寸图片幻灯片

图 8 对数正态分布的网络图

下载: 全尺寸图片幻灯片

图 9 度分布数据图

下载: 全尺寸图片幻灯片

表 1 2011−2018年幂律分布拟合指数的标准差

年份	标准差	年份	标准差
2011	0.020 9	2015	0.008 91
2012	0.020 1	2016	0.007 72
2013	0.013 8	2017	0.006 347
2014	0.012 3	2018	0.003 72

下载: 导出CSV

表 2 2011−2018年的8个子标签网络直径

年份	2011	2012	2013	2014	2015	2016	2017	2018
网络直径	10	8	8	8	8	9	8	8

下载: 导出CSV

表 3 tag链条示例表

年份	通路实例
2011	[经济全球化，经济形势，欧洲联盟(EU)，经济，生活，Microsoft Windows，软件推荐，网络日记本，日记，雷锋]
2012	[ZARD，日本流行乐(J-Pop)，动漫，互联网，世纪佳缘，艾尚派，交友网站，恋爱交友网站]
2013	[康复治疗，康复医学，医疗，美国，流行音乐，韩国流行音乐团体(GROUP)，韩国流乐歌(SOLO)，希澈]
2014	[弱者，强大，咨询，职业规划，私募证券投资基金，黑石集团(Blackstone)，投资机构职场，Bridgewater Associates]
2015	[交规(待合并话题)，驾驶，学习，数据库，集群，dubbo，微服务架构，面向服务的架构(SOA)]

下载: 导出CSV

[1]	ZHANG Z K, ZHOU T, ZHANG Y C, et al. Tag-aware recommender systems: A state-of-the-art survey[J]. Journal of Computer Science and Technology, 2012, 26(5): 767-777.
[2]	ZHANG Z K, ZHOU T, ZHANG Y C. Personalized recommendation via integrated diffusion on user-Item-tag tripartite graphs[J]. Physica A: Statistical Mechanics and Its Applications, 2010, 389(1): 179-186. doi: 10.1016/j.physa.2009.08.036
[3]	SEUFERT A, BACK A, VON KROGH G. Knowledge management an networked environments: leveraging intellectuacl capital in virtual business commuties[M]. New York: Amacom, 2003.
[4]	SIGURBJÖRNSSON B, VAN ZWOL R. Flickr tag recommendation based on collective knowledge[C]// Proceedings of the 17th international conference on World Wide Web. [S. l.]: ACM, 2008: 327-336.
[5]	NIE L, ZHAO Y L, WANG X, et al. Learning to recommend descriptive tags for questions in social forums[J]. ACM Transactions on Information Systems (TOIS), 2014, 32(1): 5.
[6]	WU Y, WU W, LI Z, et al. Improving recommendation of tail tags for questions in community question answering[C]//The 30th AAAI Conference on Artificial Intelligence. Phoenix, Arizona, USA: [s.n.], 2016: 3066-3072.
[7]	HALPIN H, ROBU V, SHEPHERD H. The complex dynamics of collaborative tagging[C]//Proceedings of the 16th International Conference on World Wide Web. [S. l.]: ACM, 2007: 211-220.
[8]	CATTUTO C, BARRAT A, BALDASSARRI A, et al. Collective dynamics of social annotation[J]. Proceedings of the National Academy of Sciences of the United States of America, 2009, 106(26): 10511-10515. doi: 10.1073/pnas.0901136106
[9]	DELLSCHAFT K, STAAB S. An epistemic dynamic model for tagging systems[C]//Proceedings of the 19th ACM conference on Hypertext and Hypermedia. Pittsburgh, PA, USA: ACM, 2008: 19-21.
[10]	LÜ Lin-yuan, ZHANG Zi-ke, ZHOU Tao, et al. Zipf’s law leads to heaps’ law: Analyzing their relation in finite-size systems[J]. PLoS One, 2010, 5(12): e14139. doi: 10.1371/journal.pone.0014139
[11]	BARABÁSI A L, ALBERT R. Emergence of scaling in random networks[J]. Science, 1999, 286(5439): 509-512. doi: 10.1126/science.286.5439.509
[12]	KRAPIVSKY P L, REDNER S. Organization of growing random networks[J]. Physical Review E, 2001, 63(6): 066123. doi: 10.1103/PhysRevE.63.066123
[13]	DOROGOVTSEV S N, MENDES J F F. Evolution of networks[J]. Advances in Physics, 2002, 51(4): 1079-1187. doi: 10.1080/00018730110112519
[14]	DOROGOVTSEV S N, MENDES J F F. Evolution of networks: From biological nets to the internet and WWW[M]. Oxford: OUP Oxford, 2013.
[15]	KRAPIVSKY P L, REDNER S. Network growth by copying[J]. Physical Review E, 2005, 71(3): 036118. doi: 10.1103/PhysRevE.71.036118
[16]	NEWMAN M E J. The structure and function of complex networks[J]. SIAM Review, 2003, 45(2): 167-256. doi: 10.1137/S003614450342480
[17]	REDNER S. Citation characteristics from 110 years of physical review[J]. Phys Today Online, 2005, 58(6): 49-54. doi: 10.1063/1.1996475
[18]	CLAUSET A, SHALIZI C R, NEWMAN M E J. Power-law distributions in empirical data[J]. SIAM Review, 2009, 51(4): 661-703. doi: 10.1137/070710111
[19]	ALSTOTT J, BULLMORE D P. Powerlaw: A python package for analysis of heavy-tailed distributions[J]. PloS One, 2014, 9(1): e85777. doi: 10.1371/journal.pone.0085777
[20]	SHERIDAN P, ONODERA T. A preferential attachment paradox: How preferential attachment combines with growth to produce networks with log-normal in-degree distributions[J]. Scientific Reports, 2018, 8(1): 1-11. doi: 10.1038/s41598-017-17765-5
[21]	WATTS D J, STROGATZ S H. Collective dynamics of ‘small-world’networks[J]. Nature, 1998, 393(6684): 440. doi: 10.1038/30918
[22]	BARABÂSI A L, JEONG H, NÉDA Z, et al. Evolution of the social network of scientific collaborations[J]. Physica A: Statistical Mechanics And Its Applications, 2002, 311(3-4): 590-614. doi: 10.1016/S0378-4371(02)00736-7
[23]	PALLA G, BARABÁSI A L, VICSEK T. Quantifying social group evolution[J]. Nature, 2007, 446(7136): 664-667. doi: 10.1038/nature05670
[24]	顾明毅, 周忍伟. 网络舆情及社会性网络信息传播模式[J]. 新闻与传播研究, 2009, 16(5): 67-73. GU Ming-yi, ZHOU Ren-wei. A research on social network information distribution pattern with internet public opinion formation[J]. Journalism & Communication, 2009, 16(5): 67-73.

[1]	郭志成, 刘影, 陈钰书, 唐明. 复杂网络上具有自适应行为的故障-恢复传播动力学研究 . 电子科技大学学报, 2024, 53(): 1-9. doi: 10.12178/1001-0548.2023080
[2]	陈丽, 许思扬, 刘芳, 冯奇, 刘承享, 徐福琛, 田淼, 刘光辉. 基于生成对抗网络的OFDM信号生成 . 电子科技大学学报, 2023, 52(6): 841-850. doi: 10.12178/1001-0548.2022253
[3]	刘益安, 马瑞辰, 李国, 于奇, 刘洋, 胡绍刚. 负阻态忆阻Hopfield神经网络动力学 . 电子科技大学学报, 2023, 52(1): 38-43. doi: 10.12178/1001-0548.2022294
[4]	贾春晓, 李明, 刘润然. 多层复杂网络上的渗流与级联失效动力学 . 电子科技大学学报, 2022, 51(1): 148-160. doi: 10.12178/1001-0548.2021184
[5]	林自展, 肖井华, 周金连, 吴晔. 基于观点动力学的在线点评研究 . 电子科技大学学报, 2020, 49(1): 155-160. doi: 10.12178/1001-0548.2018320
[6]	乔晓华, 徐毅, 孙玉霞, 武花干. 忆阻超混沌Lü系统的隐藏动力学特性研究 . 电子科技大学学报, 2018, 47(3): 402-409. doi: 10.3969/j.issn.1001-0548.2018.03.013
[7]	王润祯, 杨春, 陈全, 付传技, 高雅纯, 贾啸, 李嘉阳. 初始条件对网络渗流变换的影响 . 电子科技大学学报, 2018, 47(2): 303-306. doi: 10.3969/j.issn.1001-0548.2018.02.023
[8]	楼凤丹, 周银座, 庄晓丹, 张新荣. 时效网络结构及动力学研究进展综述 . 电子科技大学学报, 2017, 46(1): 109-125. doi: 10.3969/j.issn.1001-0548.2017.01.017
[9]	王伟, 舒盼盼, 唐明, 高辉. 网络传播动力学模拟方法评述 . 电子科技大学学报, 2016, 45(2): 288-294.
[10]	尤志强, 朱燕燕, 韩筱璞, 吕琳媛. 基于任务队列的新闻报道模型 . 电子科技大学学报, 2016, 45(2): 295-300.
[11]	许研, 王有贵. 中国收入分布演化实证及机制研究 . 电子科技大学学报, 2016, 45(5): 845-853. doi: 10.3969/j.issn.1001-0548.2016.05.023
[12]	符丁, 李明江, 黎路. 基于价值驱动的人类行为动力学实证研究和建模 . 电子科技大学学报, 2015, 44(5): 652-656. doi: 10.3969/j.issn.1001-0548.2015.05.002
[13]	陈庆华, 史定华. 网络统计——复杂网络基础问题: 为标度律提供统计支持 . 电子科技大学学报, 2013, 42(1): 1-2. doi: 10.3969/j.issn.1001-0548.2013.01.001
[14]	荣智海, 吴枝喜, 王文旭. 共演博弈下网络合作动力学研究进展 . 电子科技大学学报, 2013, 42(1): 10-22. doi: 10.3969/j.issn.1001-0548.2013.01.005
[15]	闫强, 吴联仁, 郑兰. 微博社区中用户行为特征及其机理研究 . 电子科技大学学报, 2013, 42(3): 328-333. doi: 10.3969/j.issn.1001-0548.2013.03.002
[16]	张昌利, 龚建国, 闫茂德. 基于复杂网络的社会化标签语义相似度分析 . 电子科技大学学报, 2012, 41(5): 642-648. doi: 10.3969/j.issn.1001-0548.2012.05.001
[17]	任学藻, 杨紫陌, 汪秉宏. 演化网络的Mandelbrot律 . 电子科技大学学报, 2011, 40(2): 163-167. doi: 10.3969/j.issn.1001-0548.2011.02.001
[18]	邵飞, 周琦, 李文刚. 基于网络情景意识的认知无线网络知识库构建研究 . 电子科技大学学报, 2009, 38(6): 932-937. doi: 10.3969/j.issn.1001-0548.2009.06.008
[19]	王昱青, 陈华富, 尧德中. 一种扩展的功能磁共振BOLD动力学模型研究 . 电子科技大学学报, 2007, 36(2): 291-293.
[20]	徐红兵, 吕炳朝, 陈光. 一类非线性动力学系统的变结构混沌控制 . 电子科技大学学报, 1999, 28(3): 283-285.

点击查看大图

图(10) / 表(3)

计量

文章访问数: 5324
HTML全文浏览量: 1526
PDF下载量: 41
被引次数: 0

全文HTML

知识是在社会化合作进程中的产物之一。在线问答社区是知识生成和交流的一种众包平台，用户可以在其中自主互动。以在线问答平台知乎为例，用户可以根据个人认知对问题进行标注。通过出现在同一个问题上的标签之间建立的连接，构建出一个标签的共现网络。标签信息具有可使用性，用其作为导航和推荐能有效挖掘出用户的行为和偏好^[1]，提高个性化系统推荐的准确性^[2]。标签网络是一种人工知识网络^[3]，它反映了现实世界中知识单元间的复杂关系，通过运用网络分析的方法，找出社会知识系统中的一些特征。例如：度比较大的节点代表知识元素的核心，标签网络中的度分布代表社会知识体系中的宏观主题结构等。此外，通过探索标签网络的动态演化机制，也可以进一步发现知识网络生成和演进的规律。

复杂网络的无标度特性，即幂律分布主导着复杂网络，而非度分布的特定平均指标。以往的研究大多使用抽样数据来验证静态标签网络的无标度特性，证明了高频标签相对较少，而低频标签则相反。文献[4]从2004年−2007年间用户在Flikr平台发布的照片中随机抽取了5200万张包含了至少一个标签的照片^[2]，证明标签频率分布和每张照片的标签数量分布都遵循幂律分布。另外一项研究随机选择了20万个问题，发现大约50%的问题包含3个或数量更多的标签^[4]。文献[5]对《美国国家科学院院刊》关键词的统计特性和进化性质进行了频率分布、时间缩放行为和衰减因子分析等经验研究，研究显示1991−2006年间所有关键词出现的频率近似遵循Zipf定律，指数为0.86。文献[6]从知乎和Quora社区随机抽取了100万个问题，观察到问题标签遵循重尾Zipf分布，其中98%以上的标签(Quora=99.02%，Zhihu=98.43%)出现次数不超过500次。同时，许多研究采用复杂网络动态建模的方法研究社会标签规模的增长规律。其中，文献[7]在del.icio.us(美味书签)上研究了用户对图书的标注行为，发现在平台的早期，用户的标注行为在一定程度上呈现出随机性。然而，随着时间的推移，标签规模的分布服从Zipf定律，基于用户标注行为相互模仿机制的模型能很好地解释标签的分布特征。文献[8]以del.ico.us和BibSonomy作为数据源，进一步发现标签增长符合Heaps定律。即随着新标签的增加，系统中不同标签的数量呈指数增长。文献[9]发现已有用户的背景知识可以解释标签增长的Heaps定律。事实上，Zipf定律和Heaps定律并不独立，这两个定律经常同时出现。文献[10]对Zipf定律和Heaps定律之间的关系进行了清晰描述，即Heaps定律是Zipf定律的衍生现象。这类研究探索了网络动态演化过程，但主要关注的是标签网络的增长规律。

综上所述，现有的标签网络研究还存在两个不足之处：一是大部分的研究使用了抽样数据，而在实际的社会系统和网络中，社会标签的分类具有复杂、随机、数据量巨大等特点，采样数据可能存在样本代表性的问题；二是静态网络只能表示数据采集时间节点时的网络的最终状态，不能反映标签网络的动态演化过程。而文献[11]提出无标度网络的幂律特性可以由以下两种机制产生：其一为增长，即实际的网络并不是静态的、不变的，而是通过不断地加入新的节点进行增长；其二为优先连接，即在添加新节点时，与旧节点的连接不是随机的，而是一个存在优先选择的过程；从而提出了Barbési-Albert模型(BA模型)。基于这两种机制，BA模型可以模拟无标度网络的动态演化，因此被广泛应用于互联网、科学引文网络、短信通信网络、演员合作网络等。自其被提出以来，研究者们陆续在BA模型基础上提出了许多变种模型，主要是通过增加新影响因素来拟合复杂网络的生成结构和统计特征，其中文献[12]提出可以调整优先链接中节点被选中的概率来控制网络结构；文献[13]则从增加重连功能入手讨论网络变化；文献[14]提出可增加节点老化特性来模拟节点随着“年龄”增长而竞争力下降的情形，此外还有学者增加了复制特性来描述引文网络中多重引用的情形^[15]。

上述基于BA模型的众多衍生研究都表明，BA网络作为一个基础普适性模型意义重大且影响深远，但在描述现实生活中一些具体网络时却不能较好地适配，知乎中的知识标签网络就是一个典型例子，它是一种用户生成的社会化知识标签网络，统计分析结果表明它存在无标度特性，且其在动态演化过程中也有增长和优先连接机制。因此，本文利用BA模型模拟了标签网络的形成过程。然而，基础BA模型只反映了复杂网络演化的最基本特征。本文根据知乎平台标签网络演化的特点对模型进行了以下改进：首先，新标签是以用户提出问题的形式生成的，一个问题可以由多个新标签标记，即一次可以在网络中涉及多个标记节点，其中新标记的数量并不一定是一个。其次，在生成连边的过程中，多个标签之间都会产生连边，而不是像传统的BA模型，只在新节点和旧节点之间产生连边。即知乎上问题的产生将改变网络中旧标签的连接状态。因此，本文研究主要涉及两个方面：首先，以知乎平台的数据为基础，验证标签数量的分布特征。然后，通过2011−2018年共计9年间年的数据，探索标签网络的动态演化机制，由此探究社会化知识网络的演化规律。

3. 结束语

本文基于2011−2018年知乎2034404条问答记录的实证数据，深入分析了其标签网络生成特点和统计规律，总结出了知乎标签网络“批量增长”和“交叉连接”特性，并对经典BA模型假设进行了符合上述特点的修改适配，提出了一种新的标签网络优先连接模型，能够有效地解释知乎标签网络的度分布规律和动态生成机制。

通过仿真模型和实证数据对比发现，知乎标签网络度分布从早期幂律分布逐渐趋于对数正态分布，因此经典BA模型难以解释此演化过程，且其度分布幂指数也明显小于恒为3的BA模型幂指数，但本文提出的标签网络优先连接模型却能很好地描述知乎标签网络的动态生成过程。该模型可以充分利用现有网络节点和新旧节点间相互关系，实现批量交叉连接，能够很好地拟合知乎标签网络的静态结构参数及动态演化机制，这也表明其生成机制确实受到“批量增长”及“交叉连接”这两个特性的控制，且其知识标签的连接确实是不同类型节点间交叉组合连接两两互相连接，而非只有新旧节点间简单随机连接。该模型揭示了标签网络生成机制，还原了标签网络生成过程，实现了调节参数来生成其演化过程中不同幂指数的幂律分布以及对数正态分布，它也适用于其他多种生成过程与标签网络类似的共现网络，如：引文网络和科学家合作网络^[22]等。

知乎标签网络作为一种知识网络，它可以代表社会群体对于知识的关注，知乎标签网络的度分布幂指数的减小以及从幂律分布到对数正态分布的演化在一定程度上可以代表人们对于知识的关注点从原本的集中化逐渐变得分散和多样化。同时较小的网络直径和相对较大的集聚系数也代表着不同知识点和学科之间联系比较紧密，在一定程度上体现了现在的学科融合和知识跨界的现象。对于这类知识网络的研究可以帮助我们理解知识网络的形成，为进一步研究社会知识的生成，知识结构的构成、演化与变迁^[23]，社会关注点的变化，乃至舆情监控^[24]奠定基础。

参考文献 (24)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

知识标签网络生成机制研究

doi: 10.12178/1001-0548.2020084

作者简介:
韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

通讯作者: 冯鑫，E-mail：149987543@qq.com

The Generation Mechanism of Label Network

计量

知识标签网络生成机制研究

doi: 10.12178/1001-0548.2020084

1. 北京邮电大学理学院　北京海淀区　100876

2. 燕山大学经济管理学院　河北秦皇岛　066004

3. 中山大学传播与设计学院　广州　510275

4. 北京师范大学计算传播学研究中心　北京海淀区　100875

作者简介:
韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

通讯作者: 冯鑫，E-mail：149987543@qq.com

English Abstract

The Generation Mechanism of Label Network

全文HTML

1.1. 度分布

1.2. 幂律分布指数的改变

1.3. 网络直径的改变

1.4. 全局集聚系数

2.1. 模型仿真

2.2. 模型验证

目录

期刊在线

编辑办公

友情链接

留言板

知识标签网络生成机制研究

doi: 10.12178/1001-0548.2020084

作者简介: 韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

通讯作者: 冯鑫，E-mail：149987543@qq.com

The Generation Mechanism of Label Network

计量

出版历程

知识标签网络生成机制研究

doi: 10.12178/1001-0548.2020084

1. 北京邮电大学理学院 北京 海淀区 100876 2. 燕山大学经济管理学院 河北 秦皇岛 066004 3. 中山大学传播与设计学院 广州 510275 4. 北京师范大学计算传播学研究中心 北京 海淀区 100875

作者简介: 韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

通讯作者: 冯鑫，E-mail：149987543@qq.com

English Abstract

The Generation Mechanism of Label Network

全文HTML

1.1. 度分布

1.2. 幂律分布指数的改变

1.3. 网络直径的改变

1.4. 全局集聚系数

2.1. 模型仿真

2.2. 模型验证

目录

期刊在线

编辑办公

友情链接

作者简介:
韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究

1. 北京邮电大学理学院　北京海淀区　100876

2. 燕山大学经济管理学院　河北秦皇岛　066004

3. 中山大学传播与设计学院　广州　510275

4. 北京师范大学计算传播学研究中心　北京海淀区　100875

作者简介:
韩仪(1994-)，男，主要从事系统科学、复杂网络方面的研究