-
虚假信息[1]在互联网场域中呈现出数量多、传播速度快、传播范围广等特点,带来诸多负面影响[2-3],因此研究网络中的虚假信息传播机制具有重要意义。
基于网络结构的虚假信息传播分析是其中一种研究视角。文献[4]最早提出了谣言源的网络结构定义;文献[5]在该定义上根据网络拓扑结构进行网络划分,使算法更具普适性;文献[6]采用了基于联合谣言中心性的统一推理框架,解决了以往算法中存在节点没有被表达的问题;文献[7]提出了利用部分节点信息结合节点被感染的概率来推测谣言源的方法;文献[8]提出了局部谣言中心性概念,使新方法更符合实际情况;文献[9]引入了时间积分窗口,将动态网络转化为一系列静态网络,解决了以往研究没有考虑时间属性特征的问题,但该研究并没利用时效网络的结构特性来检测虚假信息。
时效网络为深度研究虚假信息传播机制提供了更多的可能性。文献[10]对时效网络进行了定义,即加入时间维度且连边随着时间会间断性地出现和消失的网络;文献[11]提出了时效网络作为静态网络的延伸可以涵盖时间信息,可以对随时间推移连边发生变化的网络建模;文献[12]指出时效网络中的指标更有利于抑制流行病的传播。
本文基于时效网络的结构特征,提出了时效模体度探究虚假信息传播机制的方法。该方法将时间信息添加到传播网络的结构中,相对于仅使用基于模体度等网络结构统计量的方法更能刻画虚假信息的传播机制。通过多个实证数据集证明了该方法的鲁棒性。本研究丰富了信息传播的刻画方法,进一步提高了人们对于虚假信息传播机制的理解,为虚假信息的早期治理、降低其负面影响等方面提供更有效的参考。
-
本文采用两类数据集:1) 四分类数据集:twitter15和twitter16数据集[14]。数据集分为非谣言、虚假谣言、真实谣言(被确定为谣言)、未经证实的谣言4类,参数如表1所示。2) 二分类数据集:微博数据集[15]、gossipcop数据集[16]和politifact数据集[17],数据集分为虚假信息和真实信息两类,参数如表2所示。这两类数据集具有大量的用户节点和信息,使得到的结果更具鲁棒性。
表 1 四分类数据集基本参数
统计量 twitter15 twitter16 用户节点数量 276 663 173 487 源数量 1 490 818 非谣言 374 205 虚假谣言 370 205 真实谣言 372 205 未经证实的谣言 374 203 表 2 二分类数据集基本参数
统计量 微博 gossipcop politifact 用户节点数量 2 746 818 2 013 217 704 350 源数量 4 664 10 629 628 虚假信息 2 313 3 684 351 真实信息 2 351 6 945 277 -
为了研究时效模体度与虚假信息传播的关系,本文从群体和个体两个层面来进行分析,并采用多个时间尺度,即50、100、200、450、900、1 800、3 600、7 200、10 800 s。
在群体分析中,将微博数据集中所有信息的时效模体度绘制成散点图,进而分析时效模体度对于虚假信息的传播是否具有明显的影响,如图3和图4所示。在个体分析中,将50~900 s定义为小时间尺度,900~3 600 s定义为中时间尺度,3 600~10 800 s定义为大时间尺度,并从微博数据集中选取一条真实信息和一条虚假信息,将真假信息不同时间尺度下的时效模体度进行对比。
从图3和图4可以看出,随着时间尺度的取值逐渐增大,时效模体度的数量也不断增长;同时,真假信息的时效模体度分布情况也随之变化,且真假信息的区分度越来越明显。此外,虚假信息的广度时效模体度始终小于真实信息,虚假信息的时效深度模体度比真实信息更趋近于理论最大值。综上所述,在群体层面上,时效模体度对于虚假信息的传播具有较为明显的影响。
真假信息在不同时间尺度下时效模体度的变化如图5所示。可以看出与时效模体度相比,静态模体度没有考虑到时效性,只能根据整个事件的时间跨度来进行分析,无法考虑虚假信息在不同时间尺度上的传播特性。因此,基于模体度分析虚假信息的传播方法较为局限,而基于时效模体度的方法可以得到真实信息与虚假信息之间的多时间尺度上的差异,得到的结论更具有鲁棒性。
根据图5a,在小时间尺度上(50~90 s),真实信息的时效广度模体度增长幅度大于虚假信息,且比虚假信息更快地趋于稳定;但在大时间尺度上(3 600~10 800 s),虚假信息的时效广度模体度增长幅度大于真实信息。从图5b可以看出,在小时间尺度上(50~90 s),真假信息的时效深度模体度不具有明显的区分性,但是真实信息的时效深度模体度也更快地趋于稳定,在中时间尺度(900~3 600 s)和大时间尺度上(3 600~10 800 s),虚假信息的时效深度模体度值的增长幅度大于真实信息。
由此可以得出,真实信息在小时间尺度上的广度传播速度大于虚假信息,而虚假信息在大时间尺度上的广度和深度传播速度都大于真实信息。真实信息传播结构趋于平稳时,虚假信息仍呈现蔓延趋势,进而证实了虚假信息比真实信息传播范围更广,持续时间更久。
-
本文将微博数据集中的真实信息和虚假信息,在不同时间尺度下的时效模体度均值进行对比,如图6所示。将twitter16数据集中的非谣言信息、虚假谣言信息、真实谣言信息及未经证实的谣言信息,在不同时间尺度下的时效模体度均值进行对比,如图7所示。
根据图6可以看出,在小时间尺度上,真假信息的时效广度模体度的区分度大于二者的时效深度模体度。且真假信息随着时间尺度的取值逐渐增大,真假信息的时效深度模体度的区分逐渐明显。根据图7可以看出,在不同时间尺度上,4种信息的时效模体度均存在差异性。虚假谣言和真实谣言在小时间尺度上的时效广度模体度十分相近,但二者的时效深度模体度相差较大。非谣言和未经证实谣言的时效广度模体度在任何时间尺度上都有较为明显的差异,但二者的时效深度模体度几乎相同。
综上所述,利用基于时效模体度的方法不仅适用于二分类数据集,也可将四分类数据集中的信息在不同时间尺度上区分开,证实了该方法具有较广泛的适用性,刻画了真实信息与虚假信息在传播机制上的本质差别。
-
针对微博数据集,本文将时间尺度为50、100、200、450、900、1 800、3 600、7 200、10 800 s时的时效模体度,结合XGBoost模型[18]对真假信息进行分类,分类准确性结果如表3所示。
表 3 微博虚假信息检测准确率
指标 准确率 静态模体度特征 0.810 时间尺度为50 s 0.736 时间尺度为100 s 0.712 时间尺度为200 s 0.757 时间尺度为450 s 0.783 时间尺度为900 s 0.790 时间尺度为1 800 s 0.788 时间尺度为3 600 s 0.789 时间尺度为7 200 s 0.795 时间尺度为10 800 s 0.788 多尺度时效模体度 0.829 可见,相比于模体度检测方法,融合了所有时间尺度的网络结构特征的多尺度时效模体度,具有更高的准确率。因此,运用时效模体度方法能够在微博等在线社交网络平台中更准确地识别出虚假信息。
进一步,计算twitter15、twitter16、gossipcop、politifact这4个数据集的检测准确率,来验证基于时效模体度方法在其他社交网络平台上的分类准确性。为了确保检测结果尽可能客观和全面,将多尺度时效模体度的检测性能与结构异质性特征、结构病毒性特征、静态模体度特征进行比较。其中结构异质性特征(structural heterogeneity)指标反映了传播网络与其大小相同的星型网络之间的差异[9],结构性病毒特征(structural virality)指标是基于所有节点间的最短平均距离[19]。检测准确率结果如表4所示。可以看出,时效模体度方法的准确率均高于其他网络结构特性方法。
表 4 虚假信息检测准确率
指标 数据集 微博 twitter
15twitter
16gossipcop politifact 结构异质性特征 0.732 0.336 0.371 0.768 0.567 结构性病毒特征 0.797 0.285 0.288 0.660 0.588 静态模体度特征 0.810 0.399 0.371 0.770 0.581 多尺度时效模体度 0.829 0.413 0.468 0.839 0.620 此外,使用2.2节中选取的真假两条信息,计算二者发布后经过不同时间下广度模体度和深度模体度的数量,如图8所示。可以看出随着信息发布时间的推移,真假信息的区分度逐渐提高,且广度模体度比深度模体度出现差异的时间更早。
为了进一步探究在信息传播早期虚假信息的检测能力,本文计算出微博数据集中真假信息自发布后,经过10、20、30、40、50、100、200、450、900、1 800、3 600、7 200、10 800 s时的广度模体度和深度模体度数量。将广度模体度、深度模体度及两种模体度作为特征进行虚假信息检测。随机选取数据中的90%作为训练集,10%作为测试集。重复随机选取100次训练集和测试集,所得结果的平均值以及标准差如图9所示。
可以看出,在信息发布后短时间内,广度模体度可以很快达到较高的检测准确率,然而深度模体度并不能有效检测出虚假信息。综合使用两种模体度特征的方式,不仅可以在信息传播早期具有较高的检测准确率,而且随着信息发布时间的增长虚假信息识别能力不断增强。
False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif
-
摘要: 将时效网络引入虚假信息传播研究中,提出一种通过时效模体度刻画传播网络的方法来探究虚假信息的传播机制。该方法将传播网络的结构特性和信息的时间属性相融合,使用多个真实数据集检验了该方法在虚假信息检测中的普适性。数据结果表明,真假信息在不同的时间尺度下时效模体度的变化规律不同,在大时间尺度上虚假信息比真实信息的传播速度更快且传播深度更深,利用基于时效模体度的方法可以更准确地检测出虚假信息。该研究揭示了虚假信息的多时间尺度传播机制,可用于预防虚假信息的传播。Abstract: This paper tries to introduce temporal network into the study of disinformation propagation, and proposes a method to explore the propagation mechanism of disinformation by carving the propagation network through Temporal Motif, which integrates the structural characteristics of the propagation network and the temporal properties of information, and also uses several real data sets to test the generalizability of the method in disinformation detection. Based on the results of empirical data, it is shown that the change patterns of true and false information are different at different time scales Temporal Motif, and false information spreads faster and deeper than true information at large time scales, and false information can be detected more accurately using the method based on the temporal modal degree. This study reveals the multi-timescale propagation mechanism of false information, which can be used to prevent the propagation of false information.
-
表 1 四分类数据集基本参数
统计量 twitter15 twitter16 用户节点数量 276 663 173 487 源数量 1 490 818 非谣言 374 205 虚假谣言 370 205 真实谣言 372 205 未经证实的谣言 374 203 表 2 二分类数据集基本参数
统计量 微博 gossipcop politifact 用户节点数量 2 746 818 2 013 217 704 350 源数量 4 664 10 629 628 虚假信息 2 313 3 684 351 真实信息 2 351 6 945 277 表 3 微博虚假信息检测准确率
指标 准确率 静态模体度特征 0.810 时间尺度为50 s 0.736 时间尺度为100 s 0.712 时间尺度为200 s 0.757 时间尺度为450 s 0.783 时间尺度为900 s 0.790 时间尺度为1 800 s 0.788 时间尺度为3 600 s 0.789 时间尺度为7 200 s 0.795 时间尺度为10 800 s 0.788 多尺度时效模体度 0.829 表 4 虚假信息检测准确率
指标 数据集 微博 twitter
15twitter
16gossipcop politifact 结构异质性特征 0.732 0.336 0.371 0.768 0.567 结构性病毒特征 0.797 0.285 0.288 0.660 0.588 静态模体度特征 0.810 0.399 0.371 0.770 0.581 多尺度时效模体度 0.829 0.413 0.468 0.839 0.620 -
[1] 梅鹏超, 王鹏远. 网上有害信息治理的国际经验及启示[J]. 中国国情国力, 2020(4): 60-63. MEI P C, WANG P Y. International experience and enlightenment of online harmful information governance[J]. China National Conditions and Strength, 2020(4): 60-63. [2] 张诚. 重大疫情下谣言的流变与动因机制研究[J]. 新闻论坛, 2021, 35(3): 64-67. doi: 10.19425/j.cnki.cn15-1019/g2.2021.03.022 ZHANG C. Study on the evolution and motivation mechanism of rumors under major epidemic situations[J]. News Tribune, 2021, 35(3): 64-67. doi: 10.19425/j.cnki.cn15-1019/g2.2021.03.022 [3] 范敏, 周建新. 信息畸变与权力博弈: 重大疫情下网络谣言的生成与传播机制[J]. 新闻与传播评论, 2020, 73(4): 64-72. FAN M, ZHOU J X. Information distortion and power game: The generation and dissemination mechanism of network rumors under major epidemic situations[J]. Journalism & Communication Review, 2020, 73(4): 64-72. [4] SHAH D, ZAMAN T. Rumors in a network: Who's the culprit?[J]. IEEE Transactions on Information Theory, 2011, 57(8): 5163-5181. doi: 10.1109/TIT.2011.2158885 [5] SHAH D, ZAMAN T. Finding rumor sources on random trees[J]. Operations Research, 2016, 64(3): 736-755. doi: 10.1287/opre.2015.1455 [6] WANG Z, DONG W, ZHANG W, et al. Rumor source detection with multiple observations: Fundamental limits and algorithms[J]. ACM SIGMETRICS Performance Evaluation Review, 2014, 42(1): 1-33. doi: 10.1145/2637364.2591993 [7] KARAMCHANDANI N, FRANCESCHETTI M. Rumor source detection under probabilistic sampling[C]//2013 IEEE International Symposium on Information Theory. Istanbul: IEEE, 2013: 2184-2188. [8] DONG W, ZHANG W, TAN C W. Rooting out the rumor culprit from suspects[C]//2013 IEEE International Symposium on Information Theory. Istanbul: IEEE, 2013: 2671-2675. [9] JIANG J, WEN S, YU S, et al. Rumor source identification in social networks with time-varying topology[J]. IEEE Transactions on Dependable and Secure Computing, 2018, 15(1): 166-179. doi: 10.1109/TDSC.2016.2522436 [10] HOLME P, SARAMAKI J. Temporal networks[J]. Physics Reports, 2012, 519(3): 97-125. doi: 10.1016/j.physrep.2012.03.001 [11] 毕钰东方. 时效网络分析及其在人物关系网络中的应用研究[D]. 上海: 上海交通大学, 2020. BI YU D F. Temporal network analysis and its application in the character relationship network[D]. Shanghai: Shanghai Jiao Tong University, 2020. [12] HABIBA, YU Y, BERGER-WOLF T Y, et al. Finding spread blockers in dynamic networks[C]//Advances in Social Network Mining and Analysis, the 2nd International Workshop, SNAKDD 2008. Las Vegas, NV: 2008: 55-76. [13] 徐铭达, 张子柯, 许小可. 基于模体度的社交网络虚假信息传播机制研究[J]. 计算机研究与发展, 2021, 58(7): 1425-1435. doi: 10.7544/issn1000-1239.2021.20200806 XU M D, ZHANG Z K, XU X K. Research on spreading mechanism of false information in social networks by motif degree[J]. Journal of Computer Research and Development, 2021, 58(7): 1425-1435. doi: 10.7544/issn1000-1239.2021.20200806 [14] MA J, GAO W, WONG K F. Detect rumors in microblog posts using propagation structure via kernel learning[C]//The 55th Annual Meeting of the Association for Computational Linguistics (ACL 2017). Vancouver: [s.n.], 2017: 708-717. [15] KWON S, CHA M, JUNG K. Rumor detection over varying time windows[J]. PloS one, 2017, 12(1): 1-19. [16] KAI S, DEEPAK M, SUHANG W, et al. FakeNewsNet: A data repository with news content, social context and dynamic information for studying fake news on social media[EB/OL]. (2019-03-27). https://arxiv.org/abs/1809.01286. [17] KAI S, AMY S, SUHANG W, et al. Fake news detection on social media: A data mining perspective[J]. Sigkdd Explorations, 2017, 19(1): 22-36. doi: 10.1145/3137597.3137600 [18] CHEN T, GUESTRIN C. Xgboost: A scalable tre boosting system[C]//Proc of the 22nd ACM Sigkdd Int Conf on Knowledge Discovery and Data Mining. New York, ACM, 2016: 785-794.