“类人”社交机器人检测数据集扩充方法研究

刘欣然; 徐雅斌

doi:10.12178/1001-0548.2021160

“类人”社交机器人检测数据集扩充方法研究

doi: 10.12178/1001-0548.2021160

刘欣然^{1, 2},
徐雅斌^{1, 2, ,}

1.
北京信息科技大学网络文化与数字传播北京市重点实验室　北京朝阳区　100101
2.
北京信息科技大学计算机学院　北京朝阳区　100101

基金项目: 国家自然科学基金(61672101)；网络文化与数字传播北京市重点实验室开放课题(ICCD XN004)；信息网络安全公安部重点实验室开放课题(C18601)

详细信息

作者简介:
刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

通讯作者: 徐雅斌，E-mail：xyb@bistu.edu.cn

中图分类号: TP391

Research on Expansion Method of Detection Dataset for “Human-like” Socialbots

LIU Xinran^{1, 2},
XU Yabin^{1, 2
, ,}

1.
Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University　Beijing　100101
2.
School of Computer, Beijing Information Science & Technology University　Beijing　100101

摘要: 该文提出了基于海林格距离的变分进化生成式对抗网络(HVE-GAN)，实现“类人”社交机器人检测数据集的扩充。HVE-GAN将进化生成式对抗网络(E-GAN)的生成器修改为变分自编码器(VAE)结构，提高了生成数据的“真实性”及多样性程度；将E-GAN生成器Heuristic损失函数更改为改进的海林格距离，在训练过程中加快了模型收敛速度、稳定了生成器的梯度，避免了不稳定的训练过程影响生成数据质量。实验结果表明，利用HVE-GAN模型生成的“类人”社交机器人数据的“真实性”与多样性程度均明显优于基线模型。
- 检测数据集 /
- 进化生成式对抗网络 /
- 损失函数 /
- 社交机器人 /
- 变分自编码器
Abstract: A Hellinger distance based variational evolutionary generative adversarial networks (HVE-GAN) is proposed to expand the detection dataset of “human-like” Socialbots. HVE-GAN modifies the generator of evolutionary generative adversarial networks (E-GAN) to a variational autoencoder (VAE) structure to improve the “authenticity” and diversity of the generated data, and changes the Heuristic loss function of the E-GAN generator to an improved Hellinger distance to speed up the model convergence during the training process, stabilize the gradient of the generator, and further avoid unstable training processes that affect the quality of the generated data. Comparative experimental results show that the “authenticity” and diversity of the “human-like” social robot data generated by the HVE-GAN model proposed in this paper are significantly better than the baseline models.
- detection dataset /
- evolutionary generative adversarial network /
- loss function /
- socialbots /
- variational autoencoder

图 1 E-GAN模型结构图

下载: 全尺寸图片幻灯片

图 2 VE-GAN模型结构图

下载: 全尺寸图片幻灯片

图 3 特征覆盖对比

下载: 全尺寸图片幻灯片

图 4 各生成模型生成器损失函数变化趋势

下载: 全尺寸图片幻灯片

表 1 用户发微博的时序特征

特征名	含义
发布博文时间间隔均值 Interval_avg	用户发布博文的时间间隔均值
发布博文时间间隔方差 Interval_variance	用户发布博文的时间间隔方差
发布博文时间间隔最小值 Interval_variance_min	用户发布博文的最小时间间隔
发布博文时间间隔最大值 Interval_variance_max	用户发布博文的最大时间间隔
发布博文时间间隔突发性参数 Interval_paroxysmal_parameter	用户发布博文的行为突发性程度
发布博文时间间隔信息熵 Interval_information_entropy	用户发布博文的时间规律性程度

下载: 导出CSV

表 2 微博用户账号特征

特征名	含义
粉丝数 FollowerCount	用户被其他用户关注的数量
博文总数 TotalCount	用户发布的微博总数
关注数 FriendCount	用户关注其他用户的数量
是否默认头像 Pic	用户是否使用默认头像
是否默认用户名 Name	用户是否使用默认用户名
是否认证 Verified	用户是否为微博平台的认证用户

下载: 导出CSV

表 3 用户微博传播特征

特征名	含义
微博平均被转发数 ReforwardCount_Avg	用户发布的所有微博被转发数量的均值
微博平均被点赞数 RefavouritedCount_Avg	用户发布的所有微博被点赞数量的均值

下载: 导出CSV

表 4 各模型生成数据分类情况

评价指标	被测模型	分类器
评价指标	被测模型	AdaBoost	SVM	Logistic Regression
Precision	HVE-GAN	0.4754	0.4746	0.4033
	VE-GAN	0.4754	0.4664	0.4639
	E-GAN	0.4754	0.6049	0.7079
	GAN	0.4754	0.5212	0.5471
Accuracy	HVE-GAN	0.4747	0.4421	0.354
	VE-GAN	0.4747	0.4421	0.4551
	E-GAN	0.4747	0.4421	0.7977
	GAN	0.4747	0.4421	0.602
Recall	HVE-GAN	1.0000	1.0000	0.7432
	VE-GAN	1.0000	1.0000	0.9247
	E-GAN	1.0000	1.0000	0.9795
	GAN	1.0000	1.0000	0.9555
F1	HVE-GAN	0.6445	0.6437	0.5229
	VE-GAN	0.6445	0.6362	0.6178
	E-GAN	0.6445	0.7538	0.8218
	GAN	0.6445	0.6852	0.6958

下载: 导出CSV

[1]	CRESCI S, PETROCCHI M, SPOGNARDI A, et al. Better safe than sorry: An adversarial approach to improve social bot detection[C]//Proceedings of the 10th ACM Conference on Web Science. [S.l.]: ACM, 2019: 47-56.
[2]	WU B, LIU L, DAI Z, et al. Detecting malicious social robots with generative adversarial networks[J]. KSII Trans. Internet Inf Syst, 2019, 13(11): 5515-5594.
[3]	WU B, LIU L, YANG Y, et al. Using improved conditional generative adversarial networks to detect social bots on Twitter[J]. IEEE Access, 2020, 8: 36664-36680. doi: 10.1109/ACCESS.2020.2975630
[4]	GOODFELLOW I J, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks[J]. Advances in Neural Information Processing Sytems, 2014, 3: 2672-2680.
[5]	WANG C, XU C, YAO X, et al. Evolutionary generative adversarial networks[J]. IEEE Transcations on Evolutionary Computation, 2018, 23(6): 921-934.
[6]	WU Z, HE C, YANG L, et al. Attentive evolutionary generative adversarial network[J]. Applied Itelligence, 2020(6): 1-15.
[7]	MU J, ZHOU Y, CAO S, et al. Enhanced evoltionary generative adversarial networks[C]//2020 39th Chinese Control Conference (CCC). [S.l.]: IEEE, 2020: DOI: 10.23919/CCC50068.2020.9188912.
[8]	BAIOLETTI M, COELLO C A C, DI BARI G, et al. Multi-objective evolutionary GAN[C]//GECCO '20: Genetic and Evolutionary Computation Conference. LiUe: [s.n.], 2020: 1824-1831.
[9]	LI J, ZHANG J, GONG X, et al. Evolutionary generative adversarial networks with crossover based knowledge distillation[EB/OL]. [2021-01-20]. https://arxiv.org/abs/2101.11186v1.
[10]	KINGMA D P, WELLING M. Auto-encoding variational bayes[EB/OL]. [2021-02-20]. https://arxiv.org/pdf/1312.6114v1.pdf.
[11]	HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786): 504-507. doi: 10.1126/science.1127647
[12]	武广. 生成对抗网络中隐空间分布学习及其应用研究[D]. 合肥: 合肥工业大学, 2020. WU G. Latent space distribution learning in generative adversarial networks and application [D]. Hefei: Hefei University of Technology, 2020.
[13]	四川大学. 一种基于深度神经网络的微博社交机器人检测方法: CN202010509757.9[P]. 2020-07-17. Sichuan University. A deep neural network based detection method for microblog social robot: CN202010509757.9[P]. 2020-07-17.
[14]	刘蓉. 基于深度神经网络的恶意社交机器人检测技术研究[D]. 南京: 南京师范大学, 2019. LIU R. Research on detection methods for malicious social bot based on deep neural network[D]. Nanjing: Nanjing Normal University, 2019.

[1]	侯晓凯, 吴热冰, 王子竹, 王晓霆. 基于变分量子分类器的量子对抗攻击生成算法 . 电子科技大学学报, 2023, 52(2): 162-167. doi: 10.12178/1001-0548.2023006
[2]	齐鹏文, 李渊, 李岩, 罗龙, 赵云龙. 基于注意力模型的输电线路隐患检测 . 电子科技大学学报, 2023, 52(2): 240-246. doi: 10.12178/1001-0548.2022063
[3]	毛文清, 徐雅斌. 基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
[4]	龚勋, 周炀. 面向低质量数据的3D人脸识别 . 电子科技大学学报, 2021, 50(1): 43-51. doi: 10.12178/1001-0548.2020321
[5]	周书田, 颜信, 谢镇汕. 一种增强人脸识别模型训练稳定性的损失函数 . 电子科技大学学报, 2021, 50(1): 59-62. doi: 10.12178/1001-0548.2020226
[6]	尚飞, 胡潇然, 张千, 刘帅, 向勇. 面向机器人触觉的柔性压力传感器 . 电子科技大学学报, 2020, 49(4): 636-640. doi: 10.12178/1001-0548.2019222
[7]	杜娟, 刘志刚, 宋考平, 杨二龙. 基于卷积神经网络的抽油机故障诊断 . 电子科技大学学报, 2020, 49(5): 751-757. doi: 10.12178/1001-0548.2019205
[8]	肖宇峰, 黄鹤, 郑杰, 刘冉. Kinect与二维激光雷达结合的机器人障碍检测 . 电子科技大学学报, 2018, 47(3): 337-342. doi: 10.3969/j.issn.1001-0548.2018.03.003
[9]	戴晓爱, 郭守恒, 任淯, 杨晓霞, 刘汉湖. 基于堆栈式稀疏自编码器的高光谱影像分类 . 电子科技大学学报, 2016, 45(3): 382-386. doi: 10.3969/j.issn.1001-0548.2016.02.012
[10]	闫维新, 马文涛, 付庄, 赵言正, 周晓燕. 烹饪机器人翻锅运动最优化设计 . 电子科技大学学报, 2011, 40(3): 476-480. doi: 10.3969/j.issn.1001-0548.2011.03.029
[11]	骆德渊, 刘荣, 李纪文. 采用模糊逻辑的移动机器人轨迹跟踪 . 电子科技大学学报, 2008, 37(6): 943-946.
[12]	陈驰, 范守文. 四自由度并联微操作机器人的运动学分析 . 电子科技大学学报, 2007, 36(1): 150-153.
[13]	刘才铭, 张雁, 赵辉, 彭凌西, 曾金全. 多级免疫检测器集在分布式入侵检测中的应用 . 电子科技大学学报, 2007, 36(6): 1179-1182.
[14]	伍瑾斐, 秦东兴, 刘俊. 四轮式移动机器人非完整运动控制 . 电子科技大学学报, 2007, 36(2): 302-304.
[15]	于湘珍, 李美芳, 田联房. 柔性机器人的模糊神经网络控制研究 . 电子科技大学学报, 2005, 34(2): 254-257.
[16]	范守文, 徐礼钜, 甘泉. 二重八面体变几何桁架机器人工作空间解析 . 电子科技大学学报, 2001, 30(2): 134-138.
[17]	华为实. Stewart机器人用作天线支撑的分析 . 电子科技大学学报, 1999, 28(4): 443-446.
[18]	华为实. 并联机器人的奇异形位分析 . 电子科技大学学报, 1999, 28(2): 144-147.
[19]	谭营, 何振亚, 邓超. 一种机器人逆运动学求解的神经网络方法 . 电子科技大学学报, 1998, 27(3): 310-315.
[20]	郑伟强, 赵志钦, 黄顺吉. 合成孔径雷达极坐标数据编码器 . 电子科技大学学报, 1997, 26(1): 21-23.

点击查看大图

图(4) / 表(4)

计量

文章访问数: 3856
HTML全文浏览量: 1279
PDF下载量: 43
被引次数: 0

全文HTML

社交机器人是一种具有虚拟人格化形象的算法智能体，它们渗透于社交网络之中，通过大量连接社交网络用户并发送特定信息，在一定程度上影响着公众舆论。其中，部分社交机器人利用了其对于舆论的影响力，在社交网络中实施谣言传播、虚假消息散布等恶意行为，威胁着社交网络的安全与稳定。基于此，针对社交机器人的检测技术成了近年来的研究热点。

然而，为逃避检测，另有一部分社交机器人通过升级换代，具有了逼真的网络身份(头像、用户名等详细的个人资料)、发送带有情感色彩博文的能力、相当数量的粉丝及关注者等一系列更为“类人”的网络形象特征。本文将上述经过升级的社交机器人命名为“类人”社交机器人。基于其“类人”的属性，从海量的网络用户群体中识别出“类人”社交机器人的难度更大，正因如此，能够使用相应的技术手段对它们进行有效、准确的检测就显得更加重要。

与普通的社交机器人检测任务相同，“类人”社交机器人检测，旨在使用分类模型对“类人”社交机器人用户和人类用户进行二分类。然而，现实中能够直接从社交网络中识别并获取到的“类人”社交机器人用户的数量远少于正常人类用户的数量，在此情况下训练得到的检测模型将存在严重的过拟合问题。为了获得性能更为优越的检测模型，就要求在训练模型之前首先进行训练数据集的扩充。由于“类人”社交机器人已经混迹在真实人类用户之中且难以被“识破”，那么便可以学习人类用户的社交行为数据，并生成相似数据，以达到扩充其检测训练集的目的。

为实现数据扩充，文献[1]提出使用数字DNA编码社交机器人用户的行为寿命，并使用遗传算法对当前的机器人用户进行迭代优化，由此生成符合实验要求的数据。虽然该方法具有一定的作用，但是需要事先对采集到的每个数据样本进行建模，工作量大、且实现效率低。

不同于文献[1]，文献[2-3]分别提出使用生成式对抗网络(generative adversarial networks, GAN)和改进的条件对抗网络(conditional generative adversarial networks, CGAN)来扩充社交机器人数据集。文中二者均取得了良好的扩充效果，且提出的方法相较于文献[1]均更易于操作、实现效率更高。但是文献[2-3]均未考虑到GAN的固有缺点(如生成器模式崩溃问题等)对于数据扩充结果可能产生的影响，更没有提出相应的解决办法。

为缓解GAN^[4]生成器的模式崩溃问题，文献[5]提出了进化生成式对抗网络(evolutionary generative adversarial networks, E-GAN)。训练中，E-GAN借用种群进化的思想训练生成器、使用多目标函数评价各生成器的性能并保留最优个体，以此保证了生成的数据同时具有较高的“真实性”与多样性，从而缓解了模式崩溃问题。但是E-GAN的设计并非完美。首先，由单个全连接网络或卷积网络构成的生成器，难以从输入的随机噪声中充分挖掘出与训练数据相关的隐藏特征，导致生成数据的“真实性”与多样性程度差强人意。其次，E-GAN生成器损失函数的优化目标存在自相矛盾的现象，导致训练过程中模型收敛速度慢、生成器梯度不稳定；训练结束后，生成数据的质量优劣不一。

为优化E-GAN的训练效果，文献[6]提出修改E-GAN生成器的损失函数及判别器结构，以避免梯度消失的发生；文献[7]提出改变判别器的输出形式及生成器的损失函数，从而提高生成数据的多样性；文献[8]提出使用帕累托优势度(Pareto dominance)函数作为评估生成器性能的多目标评估函数；文献[9]在E-GAN的 “突变”步骤后引入“交叉”步骤，以进一步提高生成数据的多样性。文献[6-9]的实验结果较之原始E-GAN均有一定的提高，但是均未解决制约模型性能提高的本质问题。

基于此，本文提出了一种基于改进的海林格距离的变分进化生成式对抗网络(Hellinger distance based variational evolutionary generative adversarial network, HVE-GAN)模型，以提高E-GAN性能、实现“类人”社交机器人检测数据集的有效扩充。

5. 结束语

针对“类人”社交机器人检测所需的训练数据不足的问题，本文提出了一种数据集扩充模型HVE-GAN，模型将生成器修改为VAE结构，提高了生成的“类人”社交机器人数据的“真实性”与多样性；将Heuristic损失函数修改为改进的海林格距离，稳定了生成器的梯度，提高了模型收敛速度，保证了生成数据的质量。对比实验结果也充分表明，本文提出的HVE-GAN模型，在生成数据“真实性”和多样性方面优于基线模型；在训练过程中其损失函数的变化趋势更加平稳，从而证明了HVE-GAN性能的优越性及模型结构修改的有效性。

参考文献 (14)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

“类人”社交机器人检测数据集扩充方法研究

doi: 10.12178/1001-0548.2021160

作者简介:
刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

通讯作者: 徐雅斌，E-mail：xyb@bistu.edu.cn

Research on Expansion Method of Detection Dataset for “Human-like” Socialbots

计量

“类人”社交机器人检测数据集扩充方法研究

doi: 10.12178/1001-0548.2021160

1. 北京信息科技大学网络文化与数字传播北京市重点实验室　北京朝阳区　100101

2. 北京信息科技大学计算机学院　北京朝阳区　100101

作者简介:
刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

通讯作者: 徐雅斌，E-mail：xyb@bistu.edu.cn

English Abstract

Research on Expansion Method of Detection Dataset for “Human-like” Socialbots

1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University　Beijing　100101

2. School of Computer, Beijing Information Science & Technology University　Beijing　100101

全文HTML

1.1. E-GAN及变分自编码器

1.2. E-GAN的生成器结构改进方法

4.1. 模型参数设置

4.2. 实验数据获取及处理

4.3. 实验结果及评估

目录

期刊在线

编辑办公

友情链接

留言板

“类人”社交机器人检测数据集扩充方法研究

doi: 10.12178/1001-0548.2021160

作者简介: 刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

通讯作者: 徐雅斌，E-mail：xyb@bistu.edu.cn

Research on Expansion Method of Detection Dataset for “Human-like” Socialbots

计量

出版历程

“类人”社交机器人检测数据集扩充方法研究

doi: 10.12178/1001-0548.2021160

1. 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 朝阳区 100101 2. 北京信息科技大学计算机学院 北京 朝阳区 100101

作者简介: 刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

通讯作者: 徐雅斌，E-mail：xyb@bistu.edu.cn

English Abstract

Research on Expansion Method of Detection Dataset for “Human-like” Socialbots

1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University Beijing 100101 2. School of Computer, Beijing Information Science & Technology University Beijing 100101

全文HTML

1.1. E-GAN及变分自编码器

1.2. E-GAN的生成器结构改进方法

4.1. 模型参数设置

4.2. 实验数据获取及处理

4.3. 实验结果及评估

目录

期刊在线

编辑办公

友情链接

作者简介:
刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

1. 北京信息科技大学网络文化与数字传播北京市重点实验室　北京朝阳区　100101

2. 北京信息科技大学计算机学院　北京朝阳区　100101

作者简介:
刘欣然(1995-)，女，主要从事社交网络与安全方面的研究

1. Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing Information Science & Technology University　Beijing　100101

2. School of Computer, Beijing Information Science & Technology University　Beijing　100101