-
社交媒体的快速发展为人们提供了获取、处理和共享信息的便捷平台,促进了海量信息的传播和扩散。其中,谣言的传播会带来不可逆、破坏性强、影响极广的负面影响[1-2]。谣言的自动识别有助于早期预防、减少损失,因此,谣言检测技术[3]应运而生。
早期的谣言检测方法主要采用监督学习[4-6],利用特征工程从文本内容[7-9]、用户信息[7]和传播模式[10-13]中提取可区别的特征,如传统机器学习模型[4]。随着深度学习模型的出现,基于RNN(recurrent neural network)、CNN(convolutional neural network)和AE(autoencoder)的方法在特征提取上有所改进,在情绪分析、机器翻译、文本分类等方面均取得了显著成果。文献[10]利用递归神经网络捕捉微博中谣言源帖及其转发帖的语义差异,从而根据语义的变化进行下一个传播点的预测。这是首个引入深度神经网络捕获谣言在整个传播过程的潜在时序变化的研究。文献[14]基于树的递归神经网络模型以捕获谣言在传播结构中的潜在语义信息特征。文献[15]使用一种变分自动编码器(variational autoencoder, VAE)获取帖子涵盖的文本特征和图像特征,以确定该帖子是否为谣言。文献[16]将源帖的传播路径建模为一个多元时间序列,利用RNN和CNN捕捉相关帖子参与者的用户特征沿传播路径的变化。上述模型多采用单一的文本内容检测模型,忽略了社会网络结构信息。此外,部分方法仅从信息个体角度进行考虑,忽略了社交网络信息之间所存在的结构相关性。如果同一用户发布或转发了多个帖子,则可以连接这些帖子。这样的关联可在连接的实例之间共享知识,帮助彼此检测以提高性能。
近年来,GCN(graph convolutional networks)从信息结构化的度检测谣言和假新闻。如文献[17]建立了一个深度扩散网络模型,学习新闻文章、创建者和主题的融合表示,挖掘社交网络的结构性特征。此外,信息在社交网络上的传播过程所构成的图网络具有异质性,从异构图的构建与分析角度可有效提高虚假信息检测模型的性能。如文献[18]通过从社交网络上的帖子、评论和相关用户构建的异构图中,捕获图结构中的语义信息。虽然目前GCN和异构图网络在谣言检测方面性能表现良好,但仍存在部分问题。首先,GCN针对图中每个学习到的节点表示采用的是标量式编码,需要逐一编码节点包含的所有属性,当数据量过大时,效率会大大降低。其次,现有异构图网络着重强调谣言传播过程的文本内容语义变化,忽略了用户之间的社交关系,在一定程度上对检测模型的性能进行了限制。此外,目前已有的谣言检测模型,对社交网络的异构性研究缺乏用户之间社交关系的考虑,而在真实的社交网络中,社交关系是一个较大的影响因素。
针对上述问题,本文提出了一种融合元路径学习和胶囊网络的社交媒体谣言检测方法(rumor detection based on meta-path learning and capsule network, CNMLRD),联合图嵌入和文本内容语义嵌入两方面对谣言在社交网络上的特征学习进行表示,利用胶囊网络以矢量编码增强学习到的特征。该方法首次将胶囊网络矢量编码模型用于谣言早期检测中,针对传统神经网络本身特性导致的检测模型编码效率低下的问题提出了一种新的解决思路。此外,该方法涉及基于元路径学习的异构图分解模型,实现了对用户潜在社交关系及图结构的全局语义信息挖掘,不仅提高了谣言早期检测模型的效率和精度,并在一定程度上增强了模型的可解释性。
-
本文采用测评数据集Twitter15和Twitter16[12]进行实验验证,2种数据集分别包含1 490和818条谣言源推文。数据集中的每一条源推特被标记为真实谣言(true rumor, TR)、虚假谣言(false rumor, FR)、未经证实的谣言(unverified rumor, UR)或非谣言(non-rumor, NR)。由于原始数据集不包括用户配置文件信息,调用Twitter API3抓取与源推文相关的所有用户的配置文件。数据集的其他细节如表1所示。
数据集 Twitter15 Twitter16 总谣言源推文数/条 1 490 818 真实谣言数/条 372 207 虚假谣言数/条 370 205 未经验证的谣言数/条 374 201 非谣言数/条 374 205 总源推文数/条 331 612 204 820 用户数/人 276 663 173 487 -
针对本文所选用的评测数据集,为验证本文所提出模型的有效性,与下列7种谣言检测模型进行对比。
1) DTR[20]:基于决策树的模型,通过正则表达式对从Twitter流中提取的集群进行排序以识别谣言。
2) DTC[1]:基于决策树模型,利用特征工程提取的推文统计特征得到识别谣言的决策树分类器[1]。
3) BU-RvN[10]:基于从叶子到根节点的传播树遍历方向的递归神经网络,捕获扩散线索和内容语义。
4) TD-RvNN[10]:基于从根节点到叶子节点的传播树遍历方向的递归神经网络,捕获传播线索和内容语义。
5) PPC[15]:由递归和卷积网络组成的传播路径分类器建模用户特征序列。
6) GLAN[9]:构建整体−局部的注意力网络捕获源帖及相关帖子传播结构的局部语义关联和全局结构关联。
7) HGAN[17]:通过构建异构图注意网络框架,捕获源帖及相关帖子在传播结构中的全局语义关联和结构关联。
-
本文所研究的谣言检测问题本质上是二分类问题,本文选用基于分类的评价指标进行谣言检测性能评测。针对本文选用的数据集,采用各类别判断的准确率(accuracy, Acc)和各类别的F1值来评估模型的性能,计算方式为:
式中,TP(true positive)表示真实类别为正例,预测类别也为正例的数量;FP(false positive)表示真实类别为负例,预测类别为正例的数量;FN (false negative)表示真实类别为正例,预测类别为负例的数量;TN(true negative)表示真实类别为负例,预测类别为负例的数量。
-
实验基于PyTorch框架实现,使用Adam优化器,初始学习率为0.005,在模型训练过程中逐渐降低。根据验证集上的性能选择最佳参数设置,并在测试集中评估方法性能。初始化词向量设置为300维。模型训练的批量大小mini batch设置为32。
如表2和表3所示,本文方法在两个数据集上的性能优于其他所有基线。具体而言,本文方法在这两个数据集上分别实现了92.5%和93.6%的分辨率,比最佳基线分别提高了1.4%和1.2%。虽然只有一个百分点,但就数据呈指数级扩增的规模而言,一个百分点带来的效应也是不可低估的,这表明本文方法能够有效地捕获谣言文本内容的全局语义关系,有助于谣言检测。
此外,基于传统机器学习方法(DTR和DTC)的对比实验模型表现不佳,深度学习方法(如BU-RvNN、TD-RvNN、PCC和GLAN)比基于传统机器学习的方法有更好的性能,这表明深度学习方法更容易捕获有效的特征用于谣言检测。此外,GLAN在所有对比模型中表现最好,因为它捕捉到谣言传播源推文的局部语义和全局结构信息,而其他基线未能捕捉到这部分信息。
模型 Acc F1 NR FR TR UR DTR 0.49 0.501 0.331 0.364 0.473 DTC 0.454 0.733 0.355 0.317 0.415 BU-RvNN 0.708 0.695 0.728 0.759 0.653 TD-RvNN 0.723 0.682 0.758 0.821 0.654 PPC 0.842 0.818 0.875 0.811 0.790 GLAN 0.890 0.936 0.908 0.897 0.817 HGAN 0.911 0.953 0.929 0.905 0.854 本文 0.925 0.962 0.936 0.910 0.875 模型 Acc F1 NR FR TR UR DTR 0.414 0.394 0.273 0.630 0.344 DTC 0.465 0.643 0.393 0.419 0.403 BU-RvNN 0.718 0.723 0.712 0.779 0.659 TD-RvNN 0.737 0.662 0.743 0.835 0.708 PPC] 0.863 0.843 0.898 0.820 0.837 GLAN 0.902 0.921 0.869 0.847 0.968 HGAN 0.924 0.935 0.913 0.947 0.899 本文 0.936 0.945 0.918 0.952 0.975
Rumor Detection Based on Meta-Path Learning and Capsule Network
doi: 10.12178/1001-0548.2021219
- Received Date: 2021-08-10
- Accepted Date: 2022-03-28
- Rev Recd Date: 2021-12-21
- Available Online: 2022-07-11
- Publish Date: 2022-07-09
-
Key words:
- CapsNet /
- data mining /
- Meta-path learning /
- rumor detection
Abstract: Aiming at taking the source Twitter texts as the research object, this paper deeply explores semantic information of Twitter body content and emphasizes structural features of heterogeneous rumor spreading social networks, so as to improve rumor detection effect. This paper combines one-hot encoding word embedding method and multi-head attention mechanism to extract primary semantic feature of source Twitter text content. Furthermore, the content-capsule module is constructed based on CapsNet to extract the deeper semantic features of text content, and the structure features of rumor propagation in social networks are extracted by combining with GCN-capsule module. In order to further enrich the input, two kinds of capsule vectors are fused with a dynamic routing mechanism. And then the classification results of source tweets are output,and source tweets rumors detection is finished. Experimental results show that the accuracy of the model proposed in this paper reaches 93.6%.
Citation: | LIU Nan, ZHANG Fengli, WANG Ruijin, ZHANG Zhiyang, LAI Jinshan. Rumor Detection Based on Meta-Path Learning and Capsule Network[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(4): 608-614. doi: 10.12178/1001-0548.2021219 |