-
行人重识别(Person Re-Identification, Re-ID)是在多个摄像头中进行特定目标行人图像的检索问题。近年来,得益于大规模标注数据集和卷积神经网络的拟合能力,Re-ID取得了较大进展。然而,由于行人数据涉及隐私、标注代价等因素,高质量的行人标注图像数据的获取极为困难,目前有监督学习的Re-ID性能很大程度上受制于此。
随着生成对抗网络(Generative Adversarial Networks, GAN)[1]快速发展,基于GAN的行人数据增广[2-7]方法引起了重视。文献[8]首次提出将GAN用于Re-ID的研究,通过对DCGAN[9]生成行人图像,实现对标注数据集的扩充。文献[10-14]使用改进的CycleGAN[15]进行域之间的行人风格迁移。文献[16]提出AD-Cluster模型,根据源域与目标域图像的语义一致性,增强跨域Re-ID模型的特征表达能力。文献[17]利用FFGAN实现基于増广判别聚类的数据迁移。文献[18]使用UnityGAN学习不同摄像机之间的背景风格差异,生成基于这些差异的平均风格图像,提升Re-ID模型的泛化能力。此外,基于GAN的行人数据增广方法可解决行人姿态与外观发生变化而引起的精度降低问题。文献[19]提出一种基于姿态引导的生成对抗网络(Pose Guided Person Generation Network, PG2),根据给定的行人图像和目标姿态合成任意姿态。文献[20]将变分推理和GAN相结合,提出一种生成人物衣服的模型VariGAN。文献[21]提出ClonedPerson方法,将真实世界的人物图像中的服装克隆到虚拟的三维人物中,进而实现数据增广。
这些基于GAN的数据增广方法,在一定程度上提升了Re-ID模型的性能、降低了手工标注样本的代价。但是,它们更多关注图像风格变换,而忽略生成图像质量给Re-ID模型带来的噪声影响,生成的行人图像有时会面临局部细粒度特征表达较弱、图像整体视感质量降低的问题。虽然此类图像可以在一定程度上提升模型的鲁棒性,但过多低质量图像会在Re-ID模型提取到的特征中融入过多噪声,干扰模型训练的稳定性。
本文经过研究分析,传统GAN生成图像质量较差的原因主要包括:1)受到卷积核尺寸的影响,生成行人图像的局部信息表达、长距离相关性依赖均受到较大限制,进而导致生成图像局部伪影严重、图像整体视感质量欠佳;2)网络训练方法难以保证稳定性,直接影响生成行人的图像质量。在此基础上,本文提出一种基于多因素引导行人图像增广方法(Multi-factor Guidance Data Augmentation Method, MG-DAM)。首先,设计了一种多尺度引导机制(Local Multi-scale Guidance, LMG),通过在生成器网络中使用局部多尺度引导机制,对行人图像进行特征提取与特征融合,从而抑制生成图像的局部伪影,增强生成图像的细粒度特征表达能力;其次,提出一种长距离相关性引导机制(Long-distance Correlation Guidance, LCG),突破卷积核映射关系的限制,增加生成行人图像的长距离依赖;为提升网络训练的稳定性,设计对抗博弈判别网络(Adversarial Discrimination Network, AD),进而更改网络整体训练方式。最后,通过仿真实验证明本文所提算法的有效性。
-
为验证本文方法的有效性,仿真实验数据集为VIPeR[27]、Market-1501[28]以及DukeMTMC-reID。这3个数据集规模与风格差异较大,可较好地验证本方法的有效性。实验环境: Intel Xeon(R) E5-2640,32 GB,GTX2070super。模型性能评估采用标准的评价指标Rank-1和平均准确率(mean average precision, mAP),mAP反映模型的总体性能。
-
将MG-DAM与多种主流GAN模型在3个不同规模的数据集上进行数据增广,并使用相同的Re-ID方法,结果如表1。
1)在使用本文所提方法增广过的数据集上进行Re-ID,实验效果一般优于所比较的方法。其中,在小规模数据集VIPeR上,本文方法明显优于其他方法,Rank-1为67.8%,mAP为51.6%。
2)在Market-1501数据集上,本文方法略低于DGNet方法0.3%,DGNet是关注行人换装的网络,一定程度上提升了Re-ID抗干扰能力,本文方法更加关注生成行人图像的质量;在DukeMTMC-reID数据集上,本文方法识别精度超过DGNet,原因是DGNet的跨域能力与实际换装能力有限,降低了生成图像的质量和模型的识别精度。
方法 VIPeR Market-1501 DukeMTMC-reID Rank-1 mAP Rank-1 mAP Rank-1 mAP DeformGAN[29] — — 80.6 61.3 — — PTGAN[30] 62.1 49.5 87.7 75.9 71.6 46.6 AD-Cluster[16] — — 90.3 80.9 75.6 48.9 FFGAN[17] — — 89.4 77.6 76.2 52.0 UnityGAN[18] 65.3 48.6 91.3 78.3 74.3 49.7 PG2[19] 64.3 45.2 89.4 75.7 72.2 50.6 VariGAN[20] 66.2 47.7 89.3 78.8 72.2 51.3 DGNet[31] — — 91.7 84.0 77.2 52.3 ClonedPerson[32] — — 84.5 59.9 — — 本文 67.8 51.6 91.4 83.2 78.6 52.7 -
为验证局部多尺度引导机制LMG对提高生成图像的局部信息表达能力的有效性,设计以下3组实验:第一组使用ResNet作为判别器网络的主干网络结构;第二组实验在第一组实验的基础上增加LMG,不同组实验所使用的Re-ID方法完全一致。从表2可以看出:在第一组实验的基础上,加入了LMG的第二组实验在各个数据集上的表现都超越了原始模型,在小规模数据集VIPeR上尤为明显,最高的Rank-1达到了53.8%,mAP达到了36.2%。因此,局部多尺度引导机制LMG可以增强生成图像的局部特征表达能力,抑制生成图像出现局部伪影,同时有效提升了Re-ID方法的识别精度。
实验
组号方法 VIPeR Market-1501 DukeMTMC-reID Rank-1 mAP Rank-1 mAP Rank-1 mAP 第一组 GAN[1] 41.6 — 57.6 49.5 53.6 34.2 WGAN[30] 45.5 30.3 68.5 49.9 61.3 37.2 CycleGAN[15] 48.3 31.2 70.6 52.1 62.1 38.1 DualGAN[33] 44.6 30.0 72.3 51.2 60.0 37.1 第二组 GAN + LMG 47.6 — 57.6 57.6 61.5 36.1 WGAN + LMG 53.1 35.4 72.7 58.6 64.3 40.3 CycleGAN + LMG 53.8 36.2 74.5 59.0 65.8 40.6 DualGAN + LMG 50.2 34.8 71.3 58.6 62.7 40.0 -
为验证全局相关性依赖机制LCG对提高生成行人图像整体视感质量的有效性,设计以下3组实验:第一组实验选用自注意力(Self-Attention, SA)作为长距离依赖机制与相应的GAN模型结合;第二组实验选用其他较先进的基于长距离依赖的GAN方法进行数据增广;第三组实验在第一组实验的基础上,选用LCG替代自注意力。实验结果如表3。对比第一、三组实验,由于LCG可以考虑到样本间的差异,其在各个数据集上的表现均优于自注意力机制,最高的Rank-1达到了83.9%、mAP达到了73.9%;相较于第二组实验中目前较为先进的方法,虽然本文所提方法并未达到与其相同的实验效果,但是Rank-1与mAP之差基本浮动在3%左右,最小的Rank-1精度仅差2.7%,mAP精度仅差1.7%。
结合本模块的实验效果图(图3②)可以看到,生成行人图像的整体视感质量正在逐步提升。因此,不难看出,LCG可以解决因为卷积核尺寸受限导致的生成图像整体质感质量的问题,切实提升ReID方法的识别精度。
实验
组号方法 VIPeR Market-1501 DukeMTMC-Re-ID Rank-1 mAP Rank-1 mAP Rank-1 mAP 第一组 GAN[1] + SA 44.6 — — — 59.3 36.3 WGAN[30]+ SA 49.6 31.6 78.6 63.7 63.1 39.0 CycleGAN[15] + SA 50.1 32.3 79.3 68.5 63.5 40.0 DualGAN[33] + SA 48.7 30.2 79.6 69.3 61.0 39.6 第二组 DAT[25] — — 85.7 74.6 73.2 73.6 GLFA[26] — — 86.6 75.8 74.2 74.6 第三组 GAN + LCG 50.3 — 72.6 59.4 62.7 38.3 WGAN + LCG 56.2 38.2 80.6 70.8 66.3 41.7 CycleGAN[15] + LCG 56.6 39.5 83.9 73.9 67.3 43.8 DualGAN + LCG 53.7 37.0 82.4 73.3 65.8 42.5 -
为验证对抗博弈判别网络AD能够提升网络训练的稳定性,设计了基于自拟数据集进行聚类的对比仿真实验,验证各类模型生成样本种类的多样性。模型训练稳定性的验证结果如图4所示,生成样本种类已经涵盖所有类别,而其他方法达到同样效果至少需要20000个epoch。且在训练过程中并无出现因梯度弥散而导致聚类失败的状况。因此,AD可以更加快速的推进网络生产多样性样本,增加了Re-ID模型的鲁棒性。虽然该方法在GAN的基础上添加了新的判别网络模型,但仅仅引入了很少的计算量。相对于当前的GPU计算效率,引入计算量可忽略不计。同时,相较于较为主流的GAN模型,本文使用的判别网络模型均为无标签学习,这进一步提升了网络的计算效率。
Research on Pedestrian Re-Identification Data Augmentation Method Based on Multi-Factor Guidance
doi: 10.12178/1001-0548.2023056
- Received Date: 2023-02-28
- Rev Recd Date: 2023-07-02
- Available Online: 2024-04-01
- Publish Date: 2024-03-30
-
Key words:
- person re-identification /
- generative adversial network /
- data augmentation /
- local multi-scale /
- attention mechanism
Abstract: To solve the difficulty in obtaining annotated pedestrian images in the field of pedestrian re-identification research, a novel data augmentation method guided by multi-factor is proposed in this paper. Firstly, a local multi-scale guidance mechanism is designed in the generator network. It can suppress the local artifacts in generated images through feature fusion. Secondly, a long-distance correlation guidance mechanism is proposed to improve the overall visual quality of the generated pedestrian image by guiding the long-distance dependence of the generated image with external attention. Lastly, an adversarial discrimination network is designed and embed into original generative adversarial networks. The three network stability architecture model increases the stability of generative adversarial network training. The experiment are validated on the VIPeR, Market-1501 and DukeMTMC-reID benchmark datasets. The results demonstrate our method outperforms the state-of-the-art with the mAP and rank-1 scores, especially in small-scale datasets.
Citation: | LIU Zhigang, ZHANG Guohui, GAO Yue, LIU Miaomiao. Research on Pedestrian Re-Identification Data Augmentation Method Based on Multi-Factor Guidance[J]. Journal of University of Electronic Science and Technology of China, 2024, 53(2): 235-242. doi: 10.12178/1001-0548.2023056 |