基于深度学习的人体解析研究综述

邵杰; 黄茜; 曹坤涛

doi:10.3969/j.issn.1001-0548.2019.05.001

基于深度学习的人体解析研究综述

doi: 10.3969/j.issn.1001-0548.2019.05.001

电子科技大学计算机科学与工程学院成都 611731

基金项目:

国家自然科学基金 61672133

国家自然科学基金 61832001

详细信息

作者简介:
邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

中图分类号: TN97

A Review on Deep Learning Techniques Applied to Human Parsing

School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731

摘要: 人体解析的任务是对图片中人物进行像素级识别，将人体各部位和衣物配饰进行归类。该文从基础技术、数据集和评价标准、技术现状3个方面概述了基于深度学习的人体解析技术。首先，介绍了人体解析涉及的基础技术：卷积神经网络、语义分割。其次，从图像数量、类别数目、优缺点等角度，对比了人体解析领域的8种主流数据集；并介绍了4种常用的评价指标。最后，介绍了4种具有代表性的基于深度学习的人体解析方法：基于特征增强、基于人体结构、基于多任务学习、基于生成对抗网络，并归纳了实例人体解析的解决方案，提出了一些尚待发掘的研究思路。
- 深度学习 /
- 人体解析 /
- 实例人体解析 /
- 语义分割
Abstract: Human parsing aims at identifying the body parts and clothing items from human images at pixel level. This paper investigates and analyzes the approaches of human parsing based on deep learning, which mainly includes three aspects:the basic technologies involved in human parsing, the main datasets and evaluation standard, and the existing methods. Firstly, the basic technologies involved in human parsing based on deep learning, including convolutional neural network and semantic segmentation are reviewed. Secondly, this paper introduces 8 datasets for human parsing in detail according to the number of images, the number of categories, advantages and disadvantages. In addition, four commonly used evaluation metrics are summarized. Finally, existing representative schemes for human paring based on deep learning are concerned, including feature enhancement, structure of human body, multi-task learning, and generative adversarial networks. This paper summarizes the approaches of instance-level human parsing, and presents some ideas worth studying.
- deep learning /
- human parsing /
- instance-level human parsing /
- semantic segmentation

图 1 空洞卷积示例

下载: 全尺寸图片幻灯片

图 2 语义分割^[2]与人体解析^[3-4]示例

下载: 全尺寸图片幻灯片

图 3 DeepLab V3^[10]

下载: 全尺寸图片幻灯片

图 4 ASPP结构^[10](d表示dilated rate)

下载: 全尺寸图片幻灯片

Figure 5. Dual attention^[19]

下载: 全尺寸图片幻灯片

图 6 SS-JPPNet概览^[3]

下载: 全尺寸图片幻灯片

图 7 边缘图示例

下载: 全尺寸图片幻灯片

图 8 CE2P结构概览图^[33]

下载: 全尺寸图片幻灯片

图 9 生成对抗网络基本原理图

下载: 全尺寸图片幻灯片

表 1 常用人体解析数据集汇总

数据集	类	训练	测试	验证	总数
Fashionista^[20]	56	456	229	-	685
Pascal-Person^[21]	7	1 716	1 817	-	3 533
ATR^[22]	18	16 000	1 000	700	17 700
LIP^[3]	20	30 462	10 000	10 000	50 462
CIHP^[4]	20	28 280	5 000	5 000	38 280
MHP v1.0^[23]	19	3 000	980	1 000	4 980
MHP v2.0^[24]	59	15 403	5 000	5 000	25 403
VIP^[25](video)	20	354	-	50	404

下载: 导出CSV

表 2 基于深度学习的人体解析网络结构汇总

方法	时间	网络架构	贡献	准确率	实例	代码
M-CNN^[29]	2015	CNN	KNN-based	*	×	×
Co-CNN^[22]	2015	CNN	Contextualized convolutional neural network	*	×	×
HAZN^[42]	2016	FCN	Human and object parsing	*	√	×
AOG^[36]	2016	CNN+graph	Pose-guided	*	×	×
LG-LSTM^[53]	2016	CNN+LSTM	Integrate local-global layers into CNN	*	×	×
Graph LSTM^[54]	2016	CNN+graph LSTM	Graph LSTM layers	*	×	×
MH-Parser^[40]	2017	ResNet-101	Graph-GAN	*	√	×
SS-JPPNet^[3]	2017	DeepLab V2	Self-supervised structure-sensitive loss	**	×	√
RefineNet^[30]	2017	ResNet-101	Multi-path refinement network	***	×	√
文献[52]	2017	ResNet-101	Instance CRF	**	√	×
文献[51]	2018	VGG-16	Cross-domain human parsing	**	√	√
JPPNet^[37]	2018	ResNet-101	Pose subnet, parsing subnet, refinement network	**	×	√
MMAN^[50]	2018	Do-DeepLab-ASPP	Achieve local and global supervision with two discriminators	*	×	√
PGN^[4]	2018	ResNet-101	A detection-free Part Grouping Network	***	√	√
MuLA^[55]	2018	VGG16-FCN	Mutual learning to adapt for human parsing and pose estimation	**	×	√
NAN^[49]	2018	FCN-8s	Nested Adversarial Network	**	√	√
文献[39]	2018	VGG-16	Utilize pose information to weakly supervise the training	**	×	√
CE2P^[33]	2018	ResNet-101	Identify several useful properties	***	√	√
SPReID^[43]	2018	Inception V3	Multi-task learning	*	×	√
文献[38]	2018	DeepLab	Achieve human parsing using only simple object keypoints	*	×	×
Parsing R-CNN^[31]	2019	ResNet-50-FPN	An end-to-end pipeline, GCE	***	√	√
Graphonomy^[41]	2019	DeepLab V3+	Incorporate hierarchical graph transfer learning	***	×	√

下载: 导出CSV

[1]	KRIZHEVSKYA, SUTSKEVERI, HINTON G E. ImageNet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems 25: 26th AnnualConference on Neural Information Processing Systems 2012. Lake Tahoe, USA: IEEE, 2012: 1106-1114.
[2]	CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 3213-3223.
[3]	GONG Ke, LIANG Xiao-dan, ZHANG Dong-yu, et al. Lookinto person: Self-supervised structure-sensitive learning anda new benchmark for human parsing[C]//Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 6757-6765.
[4]	GONG Ke, LIANG Xiao-dan, LI Yi-cheng, et al. Instance-level human parsing via part grouping network[C]//European Conference on Computer Vision. Munich, Germany: IEEE, 2018: 805-822.
[5]	SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[C]//3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
[6]	HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Deep residual learning for image recognition[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.
[7]	SZEGEDY C, LIU Wei, JIA Yang-qing, et al. Going deeper with convolutions[C]//Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1-9.
[8]	CHEN L C, PAPANDREOU C, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[C]//3rd International Conference on Learning Representations. San Diego, USA: ICLR, 2015.
[9]	CHEN L C, PAPANDREOU C, KOKKINOS I, et al. DeepLab:Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. doi: 10.1109/TPAMI.2017.2699184
[10]	CHEN L C, PAPANDREOU C, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL].[2017-12-05]. https: //arxiv.org/pdf/1-706.05587.
[11]	CHEN L C, ZHU Y, PAPANDREOU C, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision. Munich, Germany: ECCV, 2018: 833-851.
[12]	LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]//Con-ference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 3431-3440.
[13]	BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[EB/OL].[2015-11-10]. http://arxi-v.org/abs/1511.00561.
[14]	TIAN Zhi, HE Tong, SHEN Chun-hua, et al. Decoders matter for semantic segmentation: Data-dependent decoding enables flexible feature aggregation[EB/OL].[2019-03-10]. http://ar-xiv.org/abs/1903.02120.
[15]	EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture[C]//International Conference on Computer Visi-on. Santiago, Chile: IEEE, 2015: 2650-2658.
[16]	ZHAO Heng-shuang, SHI Jian-ping, QI Xiao-juan, et al. Pyramid scene parsing network[C]//Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 6230-6239.
[17]	YANG Mao-ke, YU Kun, ZHANG Chi, et al. DenseASPP for semantic segmentation in street scenes[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 3684-3692.
[18]	CHEN LC, YANG Yi, WANG Jiang, et al. Attention to scale: Scale-aware semantic image segmentation[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 3640-3649.
[19]	FU Jun, LIU Jing, TIAN Hai-jie, et al. Dual attention network for scene segmentation[EB/OL].[2018-09-21]. htt-p://arxiv.org/abs/1809.02983.
[20]	YAMAGUCHI K, KIAPOUR M H, ORTIZ M E, et al. Parsing clothing in fashion photographs[C]//Conference on Computer Vision and Pattern Recognition. Providence, USA: IEEE, 2012: 3570-3577.
[21]	CHEN Xian-jie, MOTTAGHI R, LIU Xiao-bai, et al. Detect what you can: Detecting and representing objects using holistic models and body parts[C]//Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 1979-1986.
[22]	LIANG Xiao-dan, XU Chun-yan, SHEN Xiao-hui, et al. Human parsing with contextualized convolutional neural network[C]//International Conference on Computer Vision. Santiago, Chile: IEEE, 2015: 1386-1394.
[23]	LI Jian-shu, ZHAO Jian, WEI Yun-chao, et al. Multiple-human parsing in the wild[EB/OL].[2017-05-15]. https://ar-xiv.org/pdf/1705.07206.
[24]	ZHAO Jian, LI Jian-shu, CHENG Yu, et al. Understanding humans in crowded scenes: Deep nested adversarial learning and a new benchmark for multi-human parsing[C]//Mul-timedia Conference on Multimedia Conference. Seoul, Republic of Korea: ACM, 2018: 792-800.
[25]	ZHOU Qi-xian, LIANG Xiao-dan, GONG Ke, et al. Adaptive temporal encoding network for video instance-level human parsing[C]//Multimedia Conference on Multimedia Conference. Seoul, Republic of Korea: ACM, 2018: 1527-1535.
[26]	LIU Si, FENG Jia-shi, DOMOKOS C, et al. Fashion parsing with weak color-category labels[J]. IEEE Transactions on Multimedia, 2014, 16(1):253-265. doi: 10.1109/TMM.2013.2285526
[27]	DONG Jian, CHEN Qiang, XIA Wei, et al. A deformable mixture parsing model with parselets[C]//International Conference on Computer Vision. Sydney, Australia: IEEE, 2013: 3408-3415.
[28]	LIANG Xiao-dan, LIU Si, SHEN Xiao-hui, et al. Deep human parsing with active template regression[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(12):2402-2414. doi: 10.1109/TPAMI.2015.2408360
[29]	LIU Si, LIANG Xiao-dan, LIU Luo-qi, et al. Matching-CNN meets KNN: Quasi-parametric human parsing[C]//Conference on Computer Vision and Pattern Recognition. Boston, USA: IEEE, 2015: 1419-1427.
[30]	LIN Guo-sheng, MILAN A, SHEN Chun-hua, et al. RefineNet: Multi-path refinement networks for high-resolution semantic segmentation[C]//Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 5168-5177.
[31]	YANG Lu, SONG Qing, WANG Zhi-hui, et al. Parsing R-CNN for instance-level human analysis[EB/OL].[2018-11-30]. http://arxiv.org/abs/1811.12596.
[32]	LIN T Y, DOLLAR P, GIRSHICK R B, et al. Feature pyramid networks for object detection[C]//Conference on Computer Vision and Pattern Recognition. Honolulu, USA: IEEE, 2017: 936-944.
[33]	LIU Ting, RUAN Tao, HUANG Zi-long, et al. Devil in the details: towards accurate single and multiple human parsing[EB/OL].[2018-09-29]. http://arxiv.org/abs/1809.05-996.
[34]	LADICKY L, TORR P H S, ZISSERMAN A. Human pose estimation using a joint pixel-wise and part-wise formulation[C]//Conference on Computer Vision and Pattern Recognition. Portland, USA: IEEE, 2013: 3578-3585.
[35]	DONG Jian, CHEN Qiang, SHEN Xiao-hui, et al. Towards unified human parsing and pose estimation[C]//Conference on Computer Vision and Pattern Recognition. Columbus, USA: IEEE, 2014: 843-850.
[36]	XIA Fang-ting, ZHU Jun, WANG Peng, et al. Pose-guided human parsing by an and/or graph using pose-context features[C]//Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. Phoenix, USA: AAAI, 2016: 3632-3640.
[37]	LIANG Xiao-dan, GONG Ke, SHEN Xiao-hui, et al. Look into person:joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(4):871-885. doi: 10.1109/TPAMI.2018.2820063
[38]	WU Zhong-hua, LIN Guo-sheng, CAI Jian-fei. Keypoint based weakly supervised human parsing[EB/OL].[2018-09-14]. http://arxiv.org/abs/1809.05285.
[39]	FANG Hao-shu, LU Guan-song, FANG Xiao-lin, et al. Weakly and semi supervised human body part parsing via pose-guided knowledge transfer[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 70-78.
[40]	LI Jian-shu, ZHAO Jian, WEI Yun-chao, et al. Multi-human parsing in the wild[EB/OL].[2017-05-15]. https://arxiv.or-g/abs/1705.07206.
[41]	GONG Ke, GAO Yi-ming, LIANG Xiao-dan, et al. Graphonomy: Universal human parsing via graph transfer learning[EB/OL].[2019-04-09]. http://arxiv.org/abs/1904.0-4536.
[42]	XIA Fang-ting, WANG Peng, CHEN L C, et al. Zoom better to see clearer: Human and object parsing with hierarchical auto-zoom net[C]//European Conference on Computer Vision. Amsterdam, Netherlands: ECCV, 2016: 648-663.
[43]	KALAYEH M M, BASARAN E, GOKMEN M, et al. Human semantic parsing for person re-identifica-tion[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 1062-1071.
[44]	BASARAN E, TESFAYE Y T, SHAH M. EgoReID: Person re-identification in egocentric videos acquired by mobile devices with first-person point-of-view[EB/OL].[2019-05-16]. http://arxiv.org/abs/1812.09570.
[45]	NIE Xue-cheng, FENG Jia-shi, ZUO Yi-ming, et al. Human pose estimation with parsing induced learner[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 2100-2108.
[46]	GOODFELLOW I J, ABADIE J P, MIRZA M, et al. Generative adversarial nets[C]//Advances in Neural Information Processing Systems 27: Annual Conference on Neural Information Processing Systems 2014. Montreal, Canada: NIPS, 2014: 2672-2680.
[47]	LUC P, COUPRIE C, CHINTALA S, et al. Semantic segmentation using adversarial networks[EB/OL].[2016-11-25]. https://arxiv.org/pdf/1611.08408.
[48]	HUNG W C, TSAI Y H, LIOU Y T, et al. Adversarial learning for semi-supervised semantic segmentation[C]//Bri-tish Machine Vision Conference. Northumbria University, UK: BMVC, 2018: 65.
[49]	ZHAO Jian, LI Jian-shu, CHENG Yu, et al. Understanding humans in crowded scenes: Deep nested adversarial learning and a new benchmark for multi-human parsing[C]//2018 ACM Multimedia Conference on Multimedia Conference. Seoul, Republic of Korea: ACM, 2018: 792-800.
[50]	LUO Ya-wei, ZHENG Zhe-dong, ZHENG Liang, et al. Macro-micro adversarial network for human parsing[C]//Eu-ropean Conference on Computer Vision. Munich, Germany: ECCV, 2018: 424-440.
[51]	LIU Si, SUN Yao, ZHU De-fa, et al. Cross-domain human parsing via adversarial feature and label adaptation[C]//Pro-ceedings of the Thirty-Second AAAI Conference on Artificial Intelligence. New Orleans, USA: AAAI, 2018: 7146-7153.
[52]	LI Qi-zhu, ARNAB A, HOLISTIC P H S T. Holistic, instance-level human parsing[C]//British Machine Vision Conference. London, UK: BMVC, 2017.
[53]	LIANG Xiao-dan, SHEN Xiao-hui, XIANG Dong-lai, et al. Semantic object parsing with local-global long short-term memory[C]//Conference on Computer Vision and Pattern Recognition. Las Vegas, USA: IEEE, 2016: 3185-3193.
[54]	LIANG Xiao-dan, SHEN Xiao-hui, FENG Jia-shi, et al. Semantic object parsing with graph LSTM[C]//European Conference on Computer Vision. Amsterdam, The Netherlands: ECCV, 2016: 125-143.
[55]	NIE Xue-cheng, FENG Jia-shi, YAN Shui-cheng. Mutual learning to adapt for joint human parsing and pose estimateon[C]//European Conference on Computer Vision. Munich, Germany: ECCV, 2018: 519-534.
[56]	WANG Xiao-long, GIRSHICK R B, GUPTA A, et al. Non-local neural networks[C]//Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE, 2018: 7794-7803.

[1]	谢洲洋, 舒畅, 傅彦, 周俊临, 蒋家玮, 陈端兵. 先验知识辅助的金属涂层损伤分割方法 . 电子科技大学学报, 2024, 53(1): 76-83. doi: 10.12178/1001-0548.2022373
[2]	章坚武, 戚可寒, 章谦骅, 孙玲芬. 车辆边缘计算中基于深度学习的任务判别卸载 . 电子科技大学学报, 2024, 53(1): 29-39. doi: 10.12178/1001-0548.2022376
[3]	郭峰, 陈中舒, 代久双, 吴云峰, 刘军, 张昌华. 基于动态先验特征的包覆药多类型外观缺陷深度检测框架 . 电子科技大学学报, 2023, 52(6): 872-879. doi: 10.12178/1001-0548.2022326
[4]	郭磊, 林啸宇, 王勇, 陈正武, 常伟. 基于深度学习的直升机旋翼声信号检测与识别一体化算法 . 电子科技大学学报, 2023, 52(6): 925-931. doi: 10.12178/1001-0548.2023108
[5]	张天文, 张晓玲, 邵子康, 曾天娇. 全等级上下文压缩激励的SAR舰船实例分割 . 电子科技大学学报, 2023, 52(3): 357-365. doi: 10.12178/1001-0548.2022415
[6]	李林, 范明钰, 郝江涛. 基于对抗攻击的图像隐写策略搜索 . 电子科技大学学报, 2022, 51(2): 259-263. doi: 10.12178/1001-0548.2021335
[7]	罗欣, 陈艳阳, 耿昊天, 许文波, 张民. 基于深度强化学习的文本实体关系抽取方法 . 电子科技大学学报, 2022, 51(1): 91-99. doi: 10.12178/1001-0548.2021162
[8]	李晨亮, 龙俊辉, 唐作立, 周涛. 结合邻域知识的文档级关键词抽取方法 . 电子科技大学学报, 2021, 50(4): 551-557. doi: 10.12178/1001-0548.2021095
[9]	何凯, 刘坤, 沈成南, 李宸. 基于相似图像配准的图像修复算法 . 电子科技大学学报, 2021, 50(2): 207-213. doi: 10.12178/1001-0548.2020327
[10]	吴劲, 陈树沛, 杨庆, 周帆. 基于图神经网络的用户轨迹分类 . 电子科技大学学报, 2021, 50(5): 734-740. doi: 10.12178/1001-0548.2020435
[11]	程云飞, 叶娅兰, 侯孟书, 何文文, 李云霞. 面向可穿戴生理信号的压缩感知实时重构 . 电子科技大学学报, 2021, 50(1): 36-42. doi: 10.12178/1001-0548.2020268
[12]	王瑞, 崔佳梅, 张越, 郑文. 基于图网络的集群运动预测研究 . 电子科技大学学报, 2021, 50(5): 768-773. doi: 10.12178/1001-0548.2021107
[13]	曹占涛, 杨国武, 陈琴, 吴尽昭, 李晓瑜. 基于修正标签分布的乳腺超声图像分类 . 电子科技大学学报, 2020, 49(4): 597-602. doi: 10.12178/1001-0548.2020001
[14]	杨旺功, 淮永建, 张福泉. 基于Gabor及深度神经网络的葡萄种子分类 . 电子科技大学学报, 2020, 49(1): 131-138. doi: 10.12178/1001-0548.2019164
[15]	吴涢晖, 赵子天, 陈晓雷, 邹士亚. 大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
[16]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[17]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[18]	林奕欧, 雷航, 李晓瑜, 吴佳. 自然语言处理中的深度学习：方法及应用 . 电子科技大学学报, 2017, 46(6): 913-919. doi: 10.3969/j.issn.1001-0548.2017.06.021
[19]	陈姝, 梁文章. 结合特征点匹配及深度网络检测的运动跟踪 . 电子科技大学学报, 2016, 45(2): 246-251.
[20]	任金胜, 贾海涛. 基于改进目标检测能量项的联合语义分割和目标检测 . 电子科技大学学报, 2014, 43(5): 749-753. doi: 10.3969/j.issn.1001-0548.2014.05.020

点击查看大图

图(9) / 表(2)

计量

文章访问数: 5840
HTML全文浏览量: 1759
PDF下载量: 328
被引次数: 0

全文HTML

自2012年AlexNet^[1]在图像分类任务中取得了惊人的成果，卷积神经网络在深度学习中的地位变得不可替代。它在计算机视觉领域表现卓越，几乎替代了以前的传统机器学习方法。经众多学者进一步探索之后，基于深度学习的图片分类技术已经较为成熟，研究者们开始着重于研究更为复杂的像素级分类问题，如语义分割(semantic segmentation)。通用语义分割是目前最具挑战性的任务之一，其任务是对图片中每一个像素进行分类。

人体解析(human parsing)是语义分割的子任务。其目标是将一个人身体的各个部位或者所着衣物配饰加以识别，亦可称为服装解析(clothing parsing)。所有组成人体的像素均被标记，并且归类为对应类别。和通用语义分割不同，人体解析集中于以人为中心的分割，须识别出人体的脸部、头发、上衣、裤子等区域。人体解析在诸多领域均有应用，如人体外观转移(human appearance transfer)、行为识别(behavior recognition)、行人再识别(person re-identification)、时装合成(fashion synthesis)。因此，人体解析具有重要的研究意义和应用价值。

深度学习技术发展迅速，但目前尚缺少对于人体解析研究的总结工作。本文针对基于深度学习的人体解析研究技术进行了调研，将其归纳为以下3个方面：人体解析涉及的基础技术、人体解析的数据集和评价标准、人体解析技术现状。

2. 数据集和评价标准

2.1. 数据集

基于深度学习展开人体解析研究，必不可少的是人体数据集。通常，每个数据集的分类方法和类别数目均有差异。数据集在很大程度上决定了训练模型的鲁棒性和有效性。

随着研究者们对人体解析关注度的提升，越来越多的数据集也随之出现。本节主要从数据集图像数量、类别数目等角度出发，详细介绍近几年人体解析领域的主流数据集，并分析其优缺点。表 1汇总了8个常用数据集的基本信息。

表 1 常用人体解析数据集汇总

数据集	类	训练	测试	验证	总数
Fashionista^[20]	56	456	229	-	685
Pascal-Person^[21]	7	1 716	1 817	-	3 533
ATR^[22]	18	16 000	1 000	700	17 700
LIP^[3]	20	30 462	10 000	10 000	50 462
CIHP^[4]	20	28 280	5 000	5 000	38 280
MHP v1.0^[23]	19	3 000	980	1 000	4 980
MHP v2.0^[24]	59	15 403	5 000	5 000	25 403
VIP^[25](video)	20	354	-	50	404

1) Fashionista^[20]：该数据集于2012年公开，前几年的研究大多在此数据集上进行了验证。共包含685张图片，56个类别。但由于过多的分类和缺乏的图像资源，该数据集已逐渐被淘汰。

2) Pascal-Person-Part^[21]：该数据集是PASCAL 2010的一个子集，包含3 533张图片，训练集和测试集的划分相对平均，分别为1 716和1 817。自2014年到现在，它始终是人体解析领域的标杆性数据集，具有数据量适中、人体姿态多样性等优点。

3) ATR^[22]：ATR是人体解析领域第一个出现的大型数据集，共包含17 700张图片、18个类别。该数据集中的大多数图片是一些模特的图片，身体遮挡情况较少，故存在与实际场景有所差别的局限性，适用于研究理想情况下的人体分割或特殊场景应用任务下的解析工作。

4) LIP^[3]：目前为止，LIP是数量最大的一个人体解析数据集，共包含50 462张图片、20个类别。该数据集中，大多数图片中只包含一个人体，这为单个人体解析提供了重要研究基础。同时，由于其数据量巨大，训练时间和计算量也相对增大。

5) CIHP^[4]：CIHP是一个应对实例人体解析的数据集，每张图片均包含多个实例，相对于其他几个主流数据集，其图片更具复杂性和挑战性。关于实例人体解析的研究通常会在该数据集上加以验证。

6) MHP^[23-34]：MHP是针对实例人体解析问题建立的，有两个版本。一个是MHP v1.0^[23]，包含4 980张图片，3 000张用于训练，1 000张用于验证，980张用于测试；每张图片包含2~16个人，共标注了7个身体部位类别和11个衣物配饰类别。另一个是MHP v2.0^[24]，图片数量增加到25 403张，其中，15 403张图片用于训练，验证集和测试集分别包含5 000张图片；每张图片包含2~26个人，定义了58个身体部位类别和一个背景类；其场景、视角以及人物姿态均比1.0版本更复杂化、多样化。

7) VIP^[25]：目前为止，这是第一个也是唯一一个视频实例人体解析数据集。该数据集共包含20个类别，由404个视频序列组成，超过20 000帧。其中，354个序列用于训练，剩下的50个序列用于验证。这些数据来源于YouTube上的真实场景视频，富含多变性的姿态、不同视角、被遮挡目标。每个视频序列长度在10 s~120 s之间。每隔25帧，有一帧画面被标注。

除以上几个主流数据集外，还有一些近期鲜少使用的小型数据集，例如CFPD^[26]、DP^[27]、HPW^[28]等。这些数据集所包含的图片数量大都在2 000张左右，训练时间相对较短，可以为少量训练数据的研究提供数据基础。

2.2. 评价标准

用于人体解析的评价标准有多种。其中，最常用的评价标准是均交并比(mIoU)。本节介绍4种常用的评价指标：像素精度(pixel accuracy, PA)、均像素精度(mean pixel accuracy, MPA)、均交并比(mean intersection over union, mIoU)、F1分数(F1-score)。定义参数意义如下：k+1表示数据集定义的类别总数(包括背景类“background”，通常背景类编号为“0”，故以下公式中参数i、j均从“0”开始取值)；${p_{ij}}$表示类被识别为类j的像素总数，即${p_{ii}}$表示识别正确的真正例(true positive, TP)总数，而${p_{ij}}$和${p_{ji}}$则分别表示识别错误的假正例FP(false positive, FP)总数和假反例FN(false negative, FN)总数。

1) 像素精度(PA)：像素精度仅计算识别正确的像素占所有像素的比例。

$${\rm{PA}} = \frac{{\sum\limits_{i = 0}^k {{p_{ii}}} }}{{\sum\limits_{i = 0}^k {\sum\limits_{j = 0}^k {{p_{ij}}} } }}$$

(1)

2) 均像素精度(MPA)：均像素精度首先针对每一个类，计算其中识别正确的像素占该类所有像素的比例，接着求出所有类的平均比例。

$${\rm{MPA}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} }}} $$

(2)

3) 均交并比(mIoU)：这是人体解析任务的一个标准度量。首先需要计算得出每一个类的交并比IoU，再计算所有类别的平均值mIoU。交并比IoU，是指预测像素集和真实像素集之间的比例。

$${\rm{mIoU}} = \frac{1}{{k + 1}}\sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} + \sum\limits_{j = 0}^k {{p_{ji}}} - {p_{ii}}}}} $$

(3)

4) F1分数(F1-score)：目前，针对ATR数据集，通常以F1分数作为模型评判标准。F1分数是指查准率P(precision)和查全率R(recall)的调和平均数。

$$P = \sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ji}}} + {p_{ii}}}}} $$

(4)

$$R = \sum\limits_{i = 0}^k {\frac{{{p_{ii}}}}{{\sum\limits_{j = 0}^k {{p_{ij}}} + {p_{ii}}}}} $$

(5)

$$F1 = \frac{{2 \times P \times R}}{{P + R}}$$

(6)

4. 讨论

基于深度学习的人体解析技术已经有了大幅提升，但仍然存在不足。本节就以下几个方面进行探讨：

1) 人体解析技术水平还有很大的提升空间。依据目前的研究成果，在数据集LIP、CIHP、Pascal-Person-Part上实现的最高mIoU值分别为：53.10%^[33]、61.10%^[31]、71.14%^[41]。这个数据反映了目前的研究技术仅达到了基本水平，难以投入实际应用。因此，还有很大的提升空间等待开发。

2) 研究方案丰富，但缺乏进一步深入的工作。在调查了人体解析领域近几年基于深度学习的各种研究工作后，发现已有的研究思路各有所长，但缺乏进一步深入研究的工作。如，文献[40]于2017年提出了利用图卷积网络(graphconvolution network)的思路，但是目前依然欠缺关于这一技术的深入研究工作。图卷积网络不同于传统卷积网络结构，它可以表示图片中像素之间的拓扑关系，人体结构同时具有特殊的拓扑关系(如，“手”和“手臂”相邻，“脸部”和“头发”相邻)，基于此，深入研究图卷积网络结构在人体解析中的应用是有一定意义的。

3) 实例人体解析具有重要的研究意义。在实际生活场景中，画面中包含多个人物是很常见的，因此，研究实例人体解析具有一定的应用价值。进一步地，视频实例人体解析更具有实用性。在现有的工作中，关于实例人体解析的研究较少，有待探索。

4) 前沿深度学习技术在人体解析任务中的应用尚未发掘。深度学习的发展非常迅速，研究者们提出了许多实现人工智能的思路。目前，人体解析的研究工作涉及了其中一些前沿技术，例如生成对抗网络、多任务学习等。事实上，还有一些深度学习技术尚未被应用在人体解析任务中，如知识蒸馏(knowledge distillation)、元学习(meta learning)等技术。而这些技术是否适用于该任务，仍处于未知状态。

5. 结束语

本文从人体解析的应用价值出发，对该任务的研究意义进行了探讨。在技术层面，本文从3个方面总结了基于深度学习的人体解析研究工作：

1) 人体解析涉及的基础技术：卷积神经网络是该任务的技术支撑；作为语义分割的一个子任务，人体解析技术汲取了语义分割的许多研究技术。

2) 人体解析的数据集和评价标准：现有的数据集具有数据量大、场景复杂等特点；衡量模型的常用标准是均交并比(mIoU)。

3) 人体解析技术现状：现有的基于深度学习的人体解析方法中，具有代表性的4种思路：基于特征增强、基于人体结构、基于多任务学习、基于生成对抗网络。

最后，针对目前研究工作的现状，提出了一些不足和尚待发掘的研究思路。

本文主要针对人体解析现有技术进行概括和梳理，旨在提供技术概览和参考性研究思路，各方法细节仍须参考原文献。

参考文献 (56)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于深度学习的人体解析研究综述

doi: 10.3969/j.issn.1001-0548.2019.05.001

作者简介:
邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

A Review on Deep Learning Techniques Applied to Human Parsing

计量

基于深度学习的人体解析研究综述

doi: 10.3969/j.issn.1001-0548.2019.05.001

电子科技大学计算机科学与工程学院成都 611731

作者简介:
邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

English Abstract

A Review on Deep Learning Techniques Applied to Human Parsing

School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

1.1. 卷积神经网络

1.1.1. 卷积层

1.1.2. 池化层

1.1.3. 全连接层

1.2. 语义分割

1.2.1. 网络结构

1.2.2. 关键技术

2.1. 数据集

2.2. 评价标准

3.1. 基于特征增强

3.2. 基于人体结构

3.3. 基于多任务学习

3.4. 基于生成对抗网络

3.5. 实例人体解析

目录

期刊在线

编辑办公

友情链接

留言板

基于深度学习的人体解析研究综述

doi: 10.3969/j.issn.1001-0548.2019.05.001

作者简介: 邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

A Review on Deep Learning Techniques Applied to Human Parsing

计量

出版历程

基于深度学习的人体解析研究综述

doi: 10.3969/j.issn.1001-0548.2019.05.001

电子科技大学计算机科学与工程学院 成都 611731

作者简介: 邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

English Abstract

A Review on Deep Learning Techniques Applied to Human Parsing

School of Computer Science and Engineering, University of Electronic Science and Technology of China Chengdu 611731

全文HTML

1.1. 卷积神经网络

1.1.1. 卷积层

1.1.2. 池化层

1.1.3. 全连接层

1.2. 语义分割

1.2.1. 网络结构

1.2.2. 关键技术

2.1. 数据集

2.2. 评价标准

3.1. 基于特征增强

3.2. 基于人体结构

3.3. 基于多任务学习

3.4. 基于生成对抗网络

3.5. 实例人体解析

目录

期刊在线

编辑办公

友情链接

作者简介:
邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn

电子科技大学计算机科学与工程学院成都 611731

作者简介:
邵杰(1982-), 男, 博士, 教授, 主要从事多媒体大数据方面的研究.E-mail:shaojie@uestc.edu.cn