留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

基于多尺度时效模体度的虚假信息传播机制

于运铎 徐铭达 许小可

于运铎, 徐铭达, 许小可. 基于多尺度时效模体度的虚假信息传播机制[J]. 电子科技大学学报, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
引用本文: 于运铎, 徐铭达, 许小可. 基于多尺度时效模体度的虚假信息传播机制[J]. 电子科技大学学报, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
YU Yunduo, XU Mingda, XU Xiaoke. False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
Citation: YU Yunduo, XU Mingda, XU Xiaoke. False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354

基于多尺度时效模体度的虚假信息传播机制

doi: 10.12178/1001-0548.2021354
基金项目: 国家自然科学基金(61773091,62173065);辽宁省自然科学基金(2020-MZLH-22)
详细信息
    作者简介:

    于运铎(1998-),男,主要从事社交网络数据挖掘方面的研究

    通讯作者: 许小可,E-mail: xuxiaoke@foxmail.com
  • 中图分类号: TP391

False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif

图(9) / 表(4)
计量
  • 文章访问数:  3794
  • HTML全文浏览量:  1165
  • PDF下载量:  71
  • 被引次数: 0
出版历程
  • 收稿日期:  2021-11-24
  • 修回日期:  2022-03-21
  • 录用日期:  2022-12-01
  • 网络出版日期:  2023-01-13
  • 刊出日期:  2023-01-25

基于多尺度时效模体度的虚假信息传播机制

doi: 10.12178/1001-0548.2021354
    基金项目:  国家自然科学基金(61773091,62173065);辽宁省自然科学基金(2020-MZLH-22)
    作者简介:

    于运铎(1998-),男,主要从事社交网络数据挖掘方面的研究

    通讯作者: 许小可,E-mail: xuxiaoke@foxmail.com
  • 中图分类号: TP391

摘要: 将时效网络引入虚假信息传播研究中,提出一种通过时效模体度刻画传播网络的方法来探究虚假信息的传播机制。该方法将传播网络的结构特性和信息的时间属性相融合,使用多个真实数据集检验了该方法在虚假信息检测中的普适性。数据结果表明,真假信息在不同的时间尺度下时效模体度的变化规律不同,在大时间尺度上虚假信息比真实信息的传播速度更快且传播深度更深,利用基于时效模体度的方法可以更准确地检测出虚假信息。该研究揭示了虚假信息的多时间尺度传播机制,可用于预防虚假信息的传播。

English Abstract

于运铎, 徐铭达, 许小可. 基于多尺度时效模体度的虚假信息传播机制[J]. 电子科技大学学报, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
引用本文: 于运铎, 徐铭达, 许小可. 基于多尺度时效模体度的虚假信息传播机制[J]. 电子科技大学学报, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
YU Yunduo, XU Mingda, XU Xiaoke. False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
Citation: YU Yunduo, XU Mingda, XU Xiaoke. False Information Dissemination Mechanism Based on Multi-Scale Temporal Motif[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(1): 154-160. doi: 10.12178/1001-0548.2021354
  • 虚假信息[1]在互联网场域中呈现出数量多、传播速度快、传播范围广等特点,带来诸多负面影响[2-3],因此研究网络中的虚假信息传播机制具有重要意义。

    基于网络结构的虚假信息传播分析是其中一种研究视角。文献[4]最早提出了谣言源的网络结构定义;文献[5]在该定义上根据网络拓扑结构进行网络划分,使算法更具普适性;文献[6]采用了基于联合谣言中心性的统一推理框架,解决了以往算法中存在节点没有被表达的问题;文献[7]提出了利用部分节点信息结合节点被感染的概率来推测谣言源的方法;文献[8]提出了局部谣言中心性概念,使新方法更符合实际情况;文献[9]引入了时间积分窗口,将动态网络转化为一系列静态网络,解决了以往研究没有考虑时间属性特征的问题,但该研究并没利用时效网络的结构特性来检测虚假信息。

    时效网络为深度研究虚假信息传播机制提供了更多的可能性。文献[10]对时效网络进行了定义,即加入时间维度且连边随着时间会间断性地出现和消失的网络;文献[11]提出了时效网络作为静态网络的延伸可以涵盖时间信息,可以对随时间推移连边发生变化的网络建模;文献[12]指出时效网络中的指标更有利于抑制流行病的传播。

    本文基于时效网络的结构特征,提出了时效模体度探究虚假信息传播机制的方法。该方法将时间信息添加到传播网络的结构中,相对于仅使用基于模体度等网络结构统计量的方法更能刻画虚假信息的传播机制。通过多个实证数据集证明了该方法的鲁棒性。本研究丰富了信息传播的刻画方法,进一步提高了人们对于虚假信息传播机制的理解,为虚假信息的早期治理、降低其负面影响等方面提供更有效的参考。

    • $ G = \left\{ {A,E} \right\} $ 表示社交网络,其中 $A$ 是所有用户的集合, $E$ 是用户之间关系的集合。在时效网络中 $E$ 可用 $\left( {i,j,t,\Delta t} \right)$ 四元组表示[10],即节点 $i$ $t$ 时刻发送消息至节点 $j$ ,并持续 $\Delta t$ 的时长的信息传播过程,如图1所示。将 $\Delta T$ 定义为时间尺度,通过分析不同时间尺度下传播网络中时效模体数的变化情况,来探究虚假信息的传播机制。

      图  1  信息传播过程

      定义时效广度模体度和时效深度模体度两个时效网络结构性指标,如图2所示。图2a中节点 $S$ $t_0$ 时刻将信息转发至节点 $V_1$ $V_2$ ,节点 $V_1$ $V_2$ 分别在 $t_1$ $t_2$ 时刻将信息转发至其他节点,两节点分别用时 $\Delta t_1$ $\Delta t_2$ ,其中 $\Delta t_1 = t_1 - t_0$ $\Delta t_2 = t_2 - t_0$ 图2b中节点 $S$ $t_0$ 时刻将信息转发至节点 $V_1$ ,节点 $V_1$ $t_1$ 时刻将信息转发至节点 $V_2$ ,用时 $\Delta t_1$ ,节点 $V_2$ $t_2$ 时刻将信息转发至其他节点,用时 $\Delta t_2$ ,其中 $\Delta t_1 = t_1 - t_0$ $\Delta t_2 = t_2 - t_1$

      定义 1  时效广度模体度(the degree of temporal breadth motif, TBM)。时效网络中节点符合图2a时效广度模体结构,且持续时长 $\Delta t_1$ $\Delta t_2$ 均小于规定的时间尺度 $\Delta T$ ,由单个节点产生的时效广度模体数量即为该节点的时效广度模体度,网络中所有节点的时效广度模体度之和为该信息传播网络的时效广度模体度。

      图  2  时效广度传播模体结构与时效深度传播模体结构

      定义 2  时效深度模体度(the degree of temporal depth motif, TDM)。时效网络中节点符合图2b时效深度模体结构,且持续时长 $\Delta t_1$ $\Delta t_2$ 均小于规定的时间尺度 $\Delta T$ ,此时时效网络中由单个节点所能产生的时效深度模体数量即为节点的时效深度模体度,网络中所有节点的时效深度模体度之和为该信息传播网络的时效深度模体度。

      在利用静态模体度研究整个传播网络的宏观特征时,忽略了传播网络的时效性[13]。时效模体度则充分考虑到传播网络中的时间属性,以多个不同的时间尺度为考察指标,能够更深入和准确地探析网络特征,有效弥补静态模体度的不足。

    • 本文采用两类数据集:1) 四分类数据集:twitter15和twitter16数据集[14]。数据集分为非谣言、虚假谣言、真实谣言(被确定为谣言)、未经证实的谣言4类,参数如表1所示。2) 二分类数据集:微博数据集[15]、gossipcop数据集[16]和politifact数据集[17],数据集分为虚假信息和真实信息两类,参数如表2所示。这两类数据集具有大量的用户节点和信息,使得到的结果更具鲁棒性。

      表 1  四分类数据集基本参数

      统计量 twitter15 twitter16
      用户节点数量 276 663 173 487
      源数量 1 490 818
      非谣言 374 205
      虚假谣言 370 205
      真实谣言 372 205
      未经证实的谣言 374 203

      表 2  二分类数据集基本参数

      统计量 微博 gossipcop politifact
      用户节点数量 2 746 818 2 013 217 704 350
      源数量 4 664 10 629 628
      虚假信息 2 313 3 684 351
      真实信息 2 351 6 945 277
    • 为了研究时效模体度与虚假信息传播的关系,本文从群体和个体两个层面来进行分析,并采用多个时间尺度,即50、100、200、450、900、1 800、3 600、7 200、10 800 s。

      在群体分析中,将微博数据集中所有信息的时效模体度绘制成散点图,进而分析时效模体度对于虚假信息的传播是否具有明显的影响,如图3图4所示。在个体分析中,将50~900 s定义为小时间尺度,900~3 600 s定义为中时间尺度,3 600~10 800 s定义为大时间尺度,并从微博数据集中选取一条真实信息和一条虚假信息,将真假信息不同时间尺度下的时效模体度进行对比。

      图  3  时效广度模体度在不同时间尺度下的真假信息分布情况

      图3图4可以看出,随着时间尺度的取值逐渐增大,时效模体度的数量也不断增长;同时,真假信息的时效模体度分布情况也随之变化,且真假信息的区分度越来越明显。此外,虚假信息的广度时效模体度始终小于真实信息,虚假信息的时效深度模体度比真实信息更趋近于理论最大值。综上所述,在群体层面上,时效模体度对于虚假信息的传播具有较为明显的影响。

      图  4  时效深度模体度在不同时间尺度下的真假信息分布情况

      真假信息在不同时间尺度下时效模体度的变化如图5所示。可以看出与时效模体度相比,静态模体度没有考虑到时效性,只能根据整个事件的时间跨度来进行分析,无法考虑虚假信息在不同时间尺度上的传播特性。因此,基于模体度分析虚假信息的传播方法较为局限,而基于时效模体度的方法可以得到真实信息与虚假信息之间的多时间尺度上的差异,得到的结论更具有鲁棒性。

      图  5  真假信息在不同时间尺度下时效模体度的变化

      根据图5a,在小时间尺度上(50~90 s),真实信息的时效广度模体度增长幅度大于虚假信息,且比虚假信息更快地趋于稳定;但在大时间尺度上(3 600~10 800 s),虚假信息的时效广度模体度增长幅度大于真实信息。从图5b可以看出,在小时间尺度上(50~90 s),真假信息的时效深度模体度不具有明显的区分性,但是真实信息的时效深度模体度也更快地趋于稳定,在中时间尺度(900~3 600 s)和大时间尺度上(3 600~10 800 s),虚假信息的时效深度模体度值的增长幅度大于真实信息。

      由此可以得出,真实信息在小时间尺度上的广度传播速度大于虚假信息,而虚假信息在大时间尺度上的广度和深度传播速度都大于真实信息。真实信息传播结构趋于平稳时,虚假信息仍呈现蔓延趋势,进而证实了虚假信息比真实信息传播范围更广,持续时间更久。

    • 本文将微博数据集中的真实信息和虚假信息,在不同时间尺度下的时效模体度均值进行对比,如图6所示。将twitter16数据集中的非谣言信息、虚假谣言信息、真实谣言信息及未经证实的谣言信息,在不同时间尺度下的时效模体度均值进行对比,如图7所示。

      图  6  二分类数据集下时效模体度对虚假信息传播的影响

      根据图6可以看出,在小时间尺度上,真假信息的时效广度模体度的区分度大于二者的时效深度模体度。且真假信息随着时间尺度的取值逐渐增大,真假信息的时效深度模体度的区分逐渐明显。根据图7可以看出,在不同时间尺度上,4种信息的时效模体度均存在差异性。虚假谣言和真实谣言在小时间尺度上的时效广度模体度十分相近,但二者的时效深度模体度相差较大。非谣言和未经证实谣言的时效广度模体度在任何时间尺度上都有较为明显的差异,但二者的时效深度模体度几乎相同。

      图  7  四分类数据集下时效模体度对虚假信息传播的影响

      综上所述,利用基于时效模体度的方法不仅适用于二分类数据集,也可将四分类数据集中的信息在不同时间尺度上区分开,证实了该方法具有较广泛的适用性,刻画了真实信息与虚假信息在传播机制上的本质差别。

    • 针对微博数据集,本文将时间尺度为50、100、200、450、900、1 800、3 600、7 200、10 800 s时的时效模体度,结合XGBoost模型[18]对真假信息进行分类,分类准确性结果如表3所示。

      表 3  微博虚假信息检测准确率

      指标 准确率
      静态模体度特征 0.810
      时间尺度为50 s 0.736
      时间尺度为100 s 0.712
      时间尺度为200 s 0.757
      时间尺度为450 s 0.783
      时间尺度为900 s 0.790
      时间尺度为1 800 s 0.788
      时间尺度为3 600 s 0.789
      时间尺度为7 200 s 0.795
      时间尺度为10 800 s 0.788
      多尺度时效模体度 0.829

      可见,相比于模体度检测方法,融合了所有时间尺度的网络结构特征的多尺度时效模体度,具有更高的准确率。因此,运用时效模体度方法能够在微博等在线社交网络平台中更准确地识别出虚假信息。

      进一步,计算twitter15、twitter16、gossipcop、politifact这4个数据集的检测准确率,来验证基于时效模体度方法在其他社交网络平台上的分类准确性。为了确保检测结果尽可能客观和全面,将多尺度时效模体度的检测性能与结构异质性特征、结构病毒性特征、静态模体度特征进行比较。其中结构异质性特征(structural heterogeneity)指标反映了传播网络与其大小相同的星型网络之间的差异[9],结构性病毒特征(structural virality)指标是基于所有节点间的最短平均距离[19]。检测准确率结果如表4所示。可以看出,时效模体度方法的准确率均高于其他网络结构特性方法。

      表 4  虚假信息检测准确率

      指标 数据集
      微博 twitter
      15
      twitter
      16
      gossipcop politifact
      结构异质性特征 0.732 0.336 0.371 0.768 0.567
      结构性病毒特征 0.797 0.285 0.288 0.660 0.588
      静态模体度特征 0.810 0.399 0.371 0.770 0.581
      多尺度时效模体度 0.829 0.413 0.468 0.839 0.620

      此外,使用2.2节中选取的真假两条信息,计算二者发布后经过不同时间下广度模体度和深度模体度的数量,如图8所示。可以看出随着信息发布时间的推移,真假信息的区分度逐渐提高,且广度模体度比深度模体度出现差异的时间更早。

      为了进一步探究在信息传播早期虚假信息的检测能力,本文计算出微博数据集中真假信息自发布后,经过10、20、30、40、50、100、200、450、900、1 800、3 600、7 200、10 800 s时的广度模体度和深度模体度数量。将广度模体度、深度模体度及两种模体度作为特征进行虚假信息检测。随机选取数据中的90%作为训练集,10%作为测试集。重复随机选取100次训练集和测试集,所得结果的平均值以及标准差如图9所示。

      图  8  不同信息发布时间下的模体度

      图  9  不同信息发布时间下的检测准确率

      可以看出,在信息发布后短时间内,广度模体度可以很快达到较高的检测准确率,然而深度模体度并不能有效检测出虚假信息。综合使用两种模体度特征的方式,不仅可以在信息传播早期具有较高的检测准确率,而且随着信息发布时间的增长虚假信息识别能力不断增强。

    • 本文提出了一种基于时效模体度的虚假信息传播机制研究方法,以微博数据集中典型信息为例,结合二分类和四分类数据集的检验,对时效广度模体度与时效深度模体度进行详细分析,发现了基于时效模体度的方法能够在时效网络方面更深入地探析虚假信息的传播机制,从而在虚假信息检测上体现出更高的准确性。根据5个广泛使用的真实数据集得到的虚假信息检测评分来看,基于时效模体度的虚假信息检测方法均比使用其他结构性特征的方法更准确,尤其与基于模体度特征相比,所有数据集的检测准确性均有所提高。基于时效模体度的虚假信息检测方法能够有效识别虚假信息,及时干预虚假信息的传播,最大限度地降低虚假信息的危害。

参考文献 (18)

目录

    /

    返回文章
    返回