行人重识别(Person Re-Identification, Re-ID)是在多个摄像头中进行特定目标行人图像的检索问题。近年来,得益于大规模标注数据集和卷积神经网络的拟合能力,Re-ID取得了较大进展。然而,由于行人数据涉及隐私、标注代价等因素,高质量的行人标注图像数据的获取极为困难,目前有监督学习的Re-ID性能很大程度上受制于此。
随着生成对抗网络(Generative Adversarial Networks, GAN)[1]快速发展,基于GAN的行人数据增广[2-7]方法引起了重视。文献[8]首次提出将GAN用于Re-ID的研究,通过对DCGAN[9]生成行人图像,实现对标注数据集的扩充。文献[10-14]使用改进的CycleGAN[15]进行域之间的行人风格迁移。文献[16]提出AD-Cluster模型,根据源域与目标域图像的语义一致性,增强跨域Re-ID模型的特征表达能力。文献[17]利用FFGAN实现基于増广判别聚类的数据迁移。文献[18]使用UnityGAN学习不同摄像机之间的背景风格差异,生成基于这些差异的平均风格图像,提升Re-ID模型的泛化能力。此外,基于GAN的行人数据增广方法可解决行人姿态与外观发生变化而引起的精度降低问题。文献[19]提出一种基于姿态引导的生成对抗网络(Pose Guided Person Generation Network, PG2),根据给定的行人图像和目标姿态合成任意姿态。文献[20]将变分推理和GAN相结合,提出一种生成人物衣服的模型VariGAN。文献[21]提出ClonedPerson方法,将真实世界的人物图像中的服装克隆到虚拟的三维人物中,进而实现数据增广。
本文经过研究分析,传统GAN生成图像质量较差的原因主要包括:1)受到卷积核尺寸的影响,生成行人图像的局部信息表达、长距离相关性依赖均受到较大限制,进而导致生成图像局部伪影严重、图像整体视感质量欠佳;2)网络训练方法难以保证稳定性,直接影响生成行人的图像质量。在此基础上,本文提出一种基于多因素引导行人图像增广方法(Multi-factor Guidance Data Augmentation Method, MG-DAM)。首先,设计了一种多尺度引导机制(Local Multi-scale Guidance, LMG),通过在生成器网络中使用局部多尺度引导机制,对行人图像进行特征提取与特征融合,从而抑制生成图像的局部伪影,增强生成图像的细粒度特征表达能力;其次,提出一种长距离相关性引导机制(Long-distance Correlation Guidance, LCG),突破卷积核映射关系的限制,增加生成行人图像的长距离依赖;为提升网络训练的稳定性,设计对抗博弈判别网络(Adversarial Discrimination Network, AD),进而更改网络整体训练方式。最后,通过仿真实验证明本文所提算法的有效性。
$$ {\boldsymbol{A}} = {(\alpha )_{i,j}} = {\rm{Norm}}({\boldsymbol{F}}{{\boldsymbol{M}}^{\rm{T}}}) $$ (1) $$ {{\boldsymbol{F}}_{{\rm{out}}}} = {\boldsymbol{AM}} $$ (2) 式中,
$ {\boldsymbol{F}} \in {{\bf{R}}^{N \times d}} $ ($ N $ 为像素个数,$ d $ 为特征维度)表示输入特征图;$ {(\alpha )_{i,j}} $ 表示第$ i $ 个元素和$ {\boldsymbol{M}} $ 的第$ j $ 行之间的相似性;记忆单元$ {\boldsymbol{M}} \in {{\bf{R}}^{S \times d}} $ 为整个训练数据集的记忆。 -
$ \{ {x_i}\} _{i = 0}^n \subseteq X $ 表示从未知的行人数据分布${P_{{\rm{data}}}}$ 中提取的训练数据集,$ \{ {z_i}\} _{i = 0}^n \subseteq Z $ 表示从先验分布噪声${P_z}$ 中采样得到的样本。在传统GAN网络模型中,将随机采样的噪声输入到生成器网络中,通过判别器网络与生成器网络进行最大最小博弈产生新的行人图像$ \{ \widetilde x\} _{i = 0}^n = G(z) $ ,其服从新的生成分布${P_G}$ ,博弈过程如下:$$ \begin{split} &\qquad\qquad\mathop {\min }\limits_{\text{G}} \mathop {\max }\limits_D V(D,G) = \\ &{E_{x\sim{P_{{\rm{data}}}}}}[\log D(x)] + {E_{z\sim{P_z}}}[\log (1 - D(G(z)))] \end{split}$$ (3) 针对传统GAN网络训练困难的问题,本文在上述GAN模型结构的基础上融入了新的对抗再判别网络,同时使用了新的数据分布形式:
$$ {P}_{{\rm{Game}}}(\forall x\subseteq {P}_{{\rm{data}}},{P}_{G}:{P}_{{\rm{Game}}}=\left[\text{ }{P}_{{\rm{data}}}+\text{ }{P}_{G}\right]/2\text{ }) $$ 新的判别网络与生成网络间的最大最小博弈过程为:
$$ \begin{split} &\qquad\qquad\mathop {\min }\limits_{\text{G}} \mathop {\max }\limits_{{{\text{D}}_{\text{1}}},{D_2}} V({D_1},{D_2},G) = \\ & {E_{x\sim P{\rm{data}}}}[\log {D_1}(x)] + {E_{z\sim Pz}}[\log (1 - {D_1}(G(z)))] + \\ & {E_{x\sim P{\rm{data}}}}[\log {D_2}(x)] + {E_{z\sim Pz}}[\log (1 - {D_2}(G(z)))] + \\ &\qquad\qquad\qquad\qquad \lambda {{\text{D}}_{s\_{\rm{Game}}}} \end{split} $$ (4) 其中,判别器网络之间的相互博弈过程如下:
$$ \begin{split} &{\text{D}}_{s\_{\rm{Game}}}={E}_{x \sim {P}_{{\rm{game}}}}[\underset{(a)}{f({D}_{1}(x),l({D}_{2}(x) > \frac{1}{2}))}-\\ &\quad \underset{(b)}{\mu f({D}_{1}({x}_{{x}_{P\_g1}}),l({D}_{2}({x}_{P\_g2}) > \frac{1}{2}))}]+\\ &\quad {E}_{x \sim {P}_{{\rm{game}}}}[\underset{(c)}{f({D}_{2}(x),l({D}_{1}(x) > \frac{1}{2}))}-\\ &\quad \underset{(d)}{\mu f({D}_{2}({x}_{{x}_{P\_g1}}),l({D}_{1}({x}_{P\_g2}) > \frac{1}{2}))}] \end{split}$$ (5) 式中,x、xp_g1、xp_g2相互独立,且xp_g1、xp_g2随机取样于PGame;
$ l( \cdot ) $ 为指示函数;$ \mu 、\lambda \in \left[0,\text{ }1\right] $ 为调节权重的超参;$ f $ 为评估函数,具体如下:$$ f({D_i}(x),y) = \left\{ \begin{gathered} \log ({D_i}(x)) \to {\rm{if}}(y = 1) \\ \log (1 - {D_i}(x)) \to {\rm{if}}(y = 0) \\ \end{gathered} \right. $$ (6) 式(4)中,
$ {D_1} $ 与$ {D_2} $ 拥有相同的网络结构与优化方式,并与生成器网络G进行对抗训练。式(5)表示判别器网络之间的对抗训练过程,针对梯度弥散问题,式(5)的$ (a) $ 与$ (c) $ 约束$ {D_1} $ 与$ {D_2} $ 具有相同的判别结果,最终使两个判别器达到彼此收敛;针对模式崩塌问题,本文在目标函数中引入$ (b) $ 与$ (d) $ 来惩罚$ {D_1} $ 与$ {D_2} $ 的判别结果。在对$ (b) $ 与$ (d) $ 的采样过程中,xp_g1、xp_g2是相互独立样本,由于独立性的作用,使得判别器网络之间的判别结果不会过度的一致,从而避免两个判别器网络的判别结果过度一致而导致梯度消失。 -
为验证本文方法的有效性,仿真实验数据集为VIPeR[27]、Market-1501[28]以及DukeMTMC-reID。这3个数据集规模与风格差异较大,可较好地验证本方法的有效性。实验环境: Intel Xeon(R) E5-2640,32 GB,GTX2070super。模型性能评估采用标准的评价指标Rank-1和平均准确率(mean average precision, mAP),mAP反映模型的总体性能。
表 1 与其他主流方法对比实验数据表
% 方法 VIPeR Market-1501 DukeMTMC-reID Rank-1 mAP Rank-1 mAP Rank-1 mAP DeformGAN[29] — — 80.6 61.3 — — PTGAN[30] 62.1 49.5 87.7 75.9 71.6 46.6 AD-Cluster[16] — — 90.3 80.9 75.6 48.9 FFGAN[17] — — 89.4 77.6 76.2 52.0 UnityGAN[18] 65.3 48.6 91.3 78.3 74.3 49.7 PG2[19] 64.3 45.2 89.4 75.7 72.2 50.6 VariGAN[20] 66.2 47.7 89.3 78.8 72.2 51.3 DGNet[31] — — 91.7 84.0 77.2 52.3 ClonedPerson[32] — — 84.5 59.9 — — 本文 67.8 51.6 91.4 83.2 78.6 52.7 -
表 2 局部多尺度特征引导机制LMG验证数据表
% 实验
组号方法 VIPeR Market-1501 DukeMTMC-reID Rank-1 mAP Rank-1 mAP Rank-1 mAP 第一组 GAN[1] 41.6 — 57.6 49.5 53.6 34.2 WGAN[30] 45.5 30.3 68.5 49.9 61.3 37.2 CycleGAN[15] 48.3 31.2 70.6 52.1 62.1 38.1 DualGAN[33] 44.6 30.0 72.3 51.2 60.0 37.1 第二组 GAN + LMG 47.6 — 57.6 57.6 61.5 36.1 WGAN + LMG 53.1 35.4 72.7 58.6 64.3 40.3 CycleGAN + LMG 53.8 36.2 74.5 59.0 65.8 40.6 DualGAN + LMG 50.2 34.8 71.3 58.6 62.7 40.0 -
为验证全局相关性依赖机制LCG对提高生成行人图像整体视感质量的有效性,设计以下3组实验:第一组实验选用自注意力(Self-Attention, SA)作为长距离依赖机制与相应的GAN模型结合;第二组实验选用其他较先进的基于长距离依赖的GAN方法进行数据增广;第三组实验在第一组实验的基础上,选用LCG替代自注意力。实验结果如表3。对比第一、三组实验,由于LCG可以考虑到样本间的差异,其在各个数据集上的表现均优于自注意力机制,最高的Rank-1达到了83.9%、mAP达到了73.9%;相较于第二组实验中目前较为先进的方法,虽然本文所提方法并未达到与其相同的实验效果,但是Rank-1与mAP之差基本浮动在3%左右,最小的Rank-1精度仅差2.7%,mAP精度仅差1.7%。
表 3 长距离相关性引导机制LCG验证数据表
% 实验
组号方法 VIPeR Market-1501 DukeMTMC-Re-ID Rank-1 mAP Rank-1 mAP Rank-1 mAP 第一组 GAN[1] + SA 44.6 — — — 59.3 36.3 WGAN[30]+ SA 49.6 31.6 78.6 63.7 63.1 39.0 CycleGAN[15] + SA 50.1 32.3 79.3 68.5 63.5 40.0 DualGAN[33] + SA 48.7 30.2 79.6 69.3 61.0 39.6 第二组 DAT[25] — — 85.7 74.6 73.2 73.6 GLFA[26] — — 86.6 75.8 74.2 74.6 第三组 GAN + LCG 50.3 — 72.6 59.4 62.7 38.3 WGAN + LCG 56.2 38.2 80.6 70.8 66.3 41.7 CycleGAN[15] + LCG 56.6 39.5 83.9 73.9 67.3 43.8 DualGAN + LCG 53.7 37.0 82.4 73.3 65.8 42.5 -
摘要: 为解决行人重识别研究领域中行人标注图像获取困难的问题,提出一种多因素引导的行人数据增广方法。首先,在生成器网络中设计了一种局部多尺度引导机制,通过特征融合抑制生成图像的局部伪影;其次,提出了长距离相关性引导机制,通过外注意力引导生成图像的长距离依赖,提高生成行人图像的整体视感质量;最后,提出一种抗博弈判别网络,通过嵌入到生成对抗网络,从而构建一种三网络稳定博弈架构模型,增加生成对抗网络训练的稳定性。通过VIPeR、Market-1501、DukeMTMC-reID这3种不同规模数据集的仿真实验,结果表明该方法与目前主流方法相比,mAP与Rank-1精度上均有不同程度的提升,在小规模数据集上的提升较为显著。Abstract: To solve the difficulty in obtaining annotated pedestrian images in the field of pedestrian re-identification research, a novel data augmentation method guided by multi-factor is proposed in this paper. Firstly, a local multi-scale guidance mechanism is designed in the generator network. It can suppress the local artifacts in generated images through feature fusion. Secondly, a long-distance correlation guidance mechanism is proposed to improve the overall visual quality of the generated pedestrian image by guiding the long-distance dependence of the generated image with external attention. Lastly, an adversarial discrimination network is designed and embed into original generative adversarial networks. The three network stability architecture model increases the stability of generative adversarial network training. The experiment are validated on the VIPeR, Market-1501 and DukeMTMC-reID benchmark datasets. The results demonstrate our method outperforms the state-of-the-art with the mAP and rank-1 scores, especially in small-scale datasets.
