基于多视图循环神经网络的三维物体识别

董帅; 李文生; 张文强; 邹昆

doi:10.12178/1001-0548.2019017

基于多视图循环神经网络的三维物体识别

doi: 10.12178/1001-0548.2019017

电子科技大学中山学院　广东中山　528406

基金项目: 国家青年科学基金(61502088)；广东省自然科学基金(2016A030313018)；广东省高等学校优秀青年教师培养计划(Yq2013206)

详细信息

作者简介:
董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

通讯作者: 邹昆，E-mail：cszoukun@foxmail.com

中图分类号: TP391.4

Recognition of 3D Object Based on Multi-View Recurrent Neural Networks

Zhongshan Institute, University of Electronic Science and Technology of China　Zhongshan Guangdong　528406

摘要: 对于三维物体的识别任务，基于多视图卷积神经网络的方法（MVCNN）在准确性和训练速度等方面都优于基于三维数据表示的方法。但MVCNN依赖于三维模型，且采用了固定视角的视图，不符合实际的应用场景；此外，其视图特征融合采用了最大值池化操作，会损失部分原始特征信息。针对这一问题，该文提出了一种基于多视图循环神经网络（MVRNN）的三维物体识别方法，从3个方面对MVCNN进行改进。首先，在交叉熵损失函数中引入特征辨识度指标，以提高不同物体特征之间的辨识度；其次，使用循环神经网络代替MVCNN的最大值池化操作来融合多个自由视觉视图特征，得到一个更加紧凑且物体外观信息完备的融合特征；最后，利用二分类网络对自由视角单视图特征和融合特征进行匹配，实现三维物体的细粒度识别。为了验证MVRNN的性能，分别在公开数据集ModelNet和自建数据集MV3D上进行对比实验。实验结果表明，与MVCNN相比，MVRNN提取的多视图特征具有更高的辨识度，在两个数据集上的识别准确率均较有明显提升。
- 三维物体 /
- 特征提取 /
- 特征融合 /
- 图像检索 /
- 多视图
Abstract: Multi-view convolutional neural networks (MVCNN) is more accurate and faster than those methods based on state-of-the-art 3D shape descriptors in 3D object recognition tasks. However, the input of MVCNN are views rendered from cameras at fixed positions, which is not the case of most applications. Furthermore, MVCNN uses max-pooling operation to fuse multi-view features and the information of original features may be lost. To address those two problems, a new recognition method of 3D objects based on multi-view recurrent neural networks (MVRNN) is proposed based on MVCNN with improvements on three aspects. First, a new item which is defined as the measure of discrimination is introduced into the cross-entropy loss function to enhance the discrimination of features from different objects. Second, a recurrent neural networks (RNN) is used to fuse multi-view features from free positions into a compact one, instead of the max-pooling operation in MVCNN. RNN can keep the completeness of information about appearance feature. At last, single view feature from free positon is matched with fused features via a bi-classification network to attain fine-grained recognition of 3D objects. Experiments are conducted on the open dataset ModelNet and the private dataset MV3D separately to validate the performance of MVRNN. The results show that MVRNN can exact multi-view features with higher degree of discrimination, and achieve higher accuracy than MVCNN on both datasets.
- 3D object /
- feature extraction /
- feature fusion /
- image retrieval /
- multi-view

图 1 ModelNet数据集固定视角示例

下载: 全尺寸图片幻灯片

图 2 MV3D数据集示例

下载: 全尺寸图片幻灯片

图 3 三维物体识别框架

下载: 全尺寸图片幻灯片

图 4 多视图特征融合网络

下载: 全尺寸图片幻灯片

图 5 聚合网络模型

下载: 全尺寸图片幻灯片

图 6 相似度匹配模型

下载: 全尺寸图片幻灯片

图 7 原始特征分布

下载: 全尺寸图片幻灯片

图 8 采用最大值池化进行融合后的特征分布

下载: 全尺寸图片幻灯片

图 9 采用均值池化进行融合后的特征分布

下载: 全尺寸图片幻灯片

图 10 采用RNN进行融合后的特征分布

下载: 全尺寸图片幻灯片

图 11 训练样本数量对训练结果的影响

下载: 全尺寸图片幻灯片

图 12 商品注册

下载: 全尺寸图片幻灯片

图 13 商品识别

下载: 全尺寸图片幻灯片

表 1 MVCNN和MVRNN准确率对比(ModelNet)

任务描述	准确率/%
任务描述	MVCNN	MVRNN
6视图分类任务	93.2	94.3
6视图检索任务	96.1	99.0
12视图分类任务	95.4	95.9
12视图检索任务	94.3	100.0

下载: 导出CSV

表 2 MVRNN性能对比(MV3D)

实验	acc/%		特征辨识度
实验	分类	检索	top2_dst	top1_dst	$\log \dfrac{{{\rm{top2\_dst}}}}{{{\rm{top1\_dst}}}}$
1	80.737	64.197	0.149 76	0.014 04	1.028 03
2	80.737	72.737	0.041 19	0.003 32	1.093 65
3	100.000	80.452	0.328 26	0.015 80	1.317 56
4	98.175	83.530	0.223 67	0.008 82	1.404 14
5	99.965	85.254	0.318 46	0.007 64	1.619 96
6	100.000	86.540	0.216 93	0.002 00	2.035 29
7	100.000	89.080	0.234 95	0.001 75	2.127 94

下载: 导出CSV

表 3 L_rect效果对比

实验	acc/%
实验	单视图分类	融合特征分类	融合特征检索
6	80.737	100.000	86.540
7	82.281	100.000	89.080

下载: 导出CSV

[1]	LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444. doi: 10.1038/nature14539
[2]	WAN J, WANG D, HOI S C H, et al. Deep learning for content-based image retrieval: A comprehensive study[C]//The 22nd ACM International Conference on Multimedia. New York: ACM, 2014: 157-166.
[3]	YAO H, ZHANG S, ZHANG Y, et al. One-shot fine-grained instance retrieval[C]//The 25th ACM International Conference on Multimedia. New York: ACM, 2017: 342-350.
[4]	KAZHDAN M M, FUNKHOUSER T A, RUSINKIEWICZ S. Rotation invariant spherical harmonic representation of 3D shape descriptors[C]//The 2003 Eurographics/ACM SIGGRAPH Symposium on Geometry Processing. Goslar: Eurographics Association, 2003: 156-164.
[5]	KNOPP J, PRASAD M, WILLEMS G, et al. Hough transform and 3D SURF for robust three dimensional classification[C]//The 2010 European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2010: 589-602.
[6]	CHAUDHURI S, KOLTUN V. Data-driven suggestions for creativity support in 3D modeling[J]. ACM Transactions on Graphics, 2010, 29(6): 183.
[7]	KOKKINOS I, BRONSTEIN M M, LITMAN R, et al. Intrinsic shape context descriptors for deformable shapes[C]//The 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 159-166.
[8]	WU Z, SONG S, KHOSLA A, et al. 3D ShapeNets: A deep representation for volumetric shapes[C]//The 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2015: 1912-1920.
[9]	QI C R, SU H, MO K, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]//The 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2017: 77-85.
[10]	QI C R, YI L, SU H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]//The 2017 Neural Information Processing Systems Conference. Nice: Curran Associates. 2017: 5099-5108.
[11]	WANG Y, SUN Y, LIU Z, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5): 146.
[12]	HUA B, TRAN M, YEUNG S. Pointwise convolutional neural networks[C]//The 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2018: 984-993.
[13]	KEHL W, MANHARDT F. SSD-6D: Making RGB-Based 3D detection and 6D Pose estimation great again[C]//The 2017 IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE, 2017: 1530-1538.
[14]	QI C R, LITANY O, HE K, et al. Deep hough voting for 3D object detection in point clouds[C]//The 2019 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2019: 9277-9286.
[15]	SU H, MAJI S, KALOGERAKIS E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]//The 2015 International Conference on Computer Vision. Piscataway, NJ: IEEE, 2015: 945-953.
[16]	SU J, GADELHA M, WANG R, et al. A deeper look at 3D shape classifiers[C]//The 2018 European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2018: 545-561.
[17]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//The 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[18]	SUTSKEVER I, MARTENS J, DAHL G E, et al. On the importance of initialization and momentum in deep learning[C]//The 30th International Conference on Machine Learning. Cambridge, MA: MIT Press, 2013: 1139-1147.
[19]	SRIVASTAVA N, HINTON G E, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929-1958.

[1]	崔少国, 张乐迁, 文浩. GCFF-Net：一种面向视网膜血管精细分割的多层级图卷积特征融合神经编解码网络 . 电子科技大学学报, 2024, 53(): 1-11. doi: 10.12178/1001-0548.2023131
[2]	谭露露, 张鑫鑫, 周银座. 多特性融合图卷积方法的分子生物活性预测 . 电子科技大学学报, 2021, 50(6): 921-929. doi: 10.12178/1001-0548.2021158
[3]	郜东瑞, 周晖, 冯李逍, 张云霞, 彭茂琴, 张永清. 基于特征融合和粒子群优化算法的运动想象脑电信号识别方法 . 电子科技大学学报, 2021, 50(3): 467-475. doi: 10.12178/1001-0548.2020107
[4]	赵夫群, 戴翀, 耿国华. 基于特征融合的文物碎片模型检索 . 电子科技大学学报, 2021, 50(2): 225-230. doi: 10.12178/1001-0548.2020281
[5]	吴斌, 王利龙, 邵延华. 改进双向二维局部保持投影的人脸识别算法 . 电子科技大学学报, 2019, 48(6): 904-909, 924. doi: 10.3969/j.issn.1001-0548.2019.06.015
[6]	田坤, 李晋. 太赫兹频段微动特征边缘检测及提取方法 . 电子科技大学学报, 2018, 47(1): 19-24, 36. doi: 10.3969/j.issn.1001-0548.2018.01.003
[7]	黄颖, 王文斌, 郑弘晖. 基于代数多重网格的图像传感器物体识别技术 . 电子科技大学学报, 2015, 44(5): 743-748. doi: 10.3969/j.issn.1001-0548.2015.05.018
[8]	闫海, 李国辉, 李建勋. 雷达抗欺骗式干扰信号特征提取方法 . 电子科技大学学报, 2015, 44(1): 50-54. doi: 10.3969/j.issn.1001-0548.2015.01.008
[9]	鲁珂, 赵继东, 吴跃. 新型的图像检索最优实验设计算法 . 电子科技大学学报, 2012, 41(2): 269-273. doi: 10.3969/j.issn.1001-0548.2012.02.019
[10]	韩杰思, 沈建京. 采用图像滤波的多特征JPEG盲检测 . 电子科技大学学报, 2011, 40(2): 255-260. doi: 10.3969/j.issn.1001-0548.2011.02.020
[11]	蒲晓蓉, 樊科, 黄东. 类内子流形局部间隔对齐的人脸图像判别方法 . 电子科技大学学报, 2010, 39(6): 915-919. doi: 10.3969/j.issn.1001-0548.2010.06.023
[12]	龙文, 马坤, 辛阳, 杨义先. 适用于协议特征提取的关联规则改进算法 . 电子科技大学学报, 2010, 39(2): 302-305. doi: 10.3969/j.issn.1001-0548.2010.02.032
[13]	李建勋, 唐斌, 吕强. 双谱特征提取在欺骗式干扰方式识别中的应用 . 电子科技大学学报, 2009, 38(3): 329-332. doi: 10.3969/j.issn.1001-0548.2009.03.003
[14]	刘德平, 刘晓宇, 陈建军. 逆向工程特征参数提取技术研究 . 电子科技大学学报, 2008, 37(3): 474-477.
[15]	孟庆宇, 刘本永, 姚宏达. 基于分数本征特征的手写数字识别 . 电子科技大学学报, 2006, 35(3): 289-291.
[16]	鲁珂, 赵继东, 叶娅兰, 曾家智. 一种用于图像检索的新型半监督学习算法 . 电子科技大学学报, 2005, 34(5): 669-671.
[17]	许仕海, 张晓玲, 江勇, 吉宗海. 一维运动目标的特征估计 . 电子科技大学学报, 2005, 34(6): 767-770.
[18]	韩春林, 雷飞, 王建国, 向敬成. 合成孔径雷达图像目标分类研究 . 电子科技大学学报, 2004, 33(1): 1-4.
[19]	居琰, 汪同庆, 彭建, 王贵新, 刘建胜, 袁祥辉. 特征融合用于手写体汉字识别研究 . 电子科技大学学报, 2002, 31(3): 229-233.
[20]	王贵新, 刘建胜, 居琰, 汪同庆, 彭健, 杨波. “有效行”特征对手写体字符的识别 . 电子科技大学学报, 2001, 30(3): 287-291.

点击查看大图

图(13) / 表(3)

计量

文章访问数: 7160
HTML全文浏览量: 2088
PDF下载量: 65
被引次数: 0

全文HTML

近5年，基于深度学习的计算机视觉技术^[1]飞速发展，已广泛应用于智能安防和无人驾驶等多个领域。在大规模目标数据集中，针对具体的识别或检测任务，深层卷积网络可以通过端对端的方式自适应地学习如何从输入数据中提取和抽象特征，以及如何基于该特征进行决策。深层卷积网络既可作为图像特征提取和分类操作的统一体，又可以只作为特征提取网络供实例检索任务使用^[2-3]。目前大多数基于深度学习的图像分类网络和目标检测框架都是针对二维图像提出的，但随着深度学习逐步应用到机器人导航和无人超市等领域，三维物体的识别技术也逐渐得到了研究人员的广泛关注。与二维图像相比，三维物体识别的难点在于，同一物体的不同侧面可能存在较大差异，从不同角度观察会呈现出不同的形态，而不同物体在某个侧面上的差异可能很小，甚至呈现出相同的形态。这使得直接使用单视图(即二维图像或投影)分类网络的识别效果较差。

在深度学习受到广泛关注之前，有许多学者采用了SURF等传统几何方法^[4-7]对三维物体的识别技术进行了探索，取得了一定的成果，但这类方法的鲁棒性和泛化能力较差。近几年，研究者逐渐将深度学习推广到三维物体识别领域，提出了多种方法。这些方法可以大致分为两类：基于三维数据表示的方法和基于多视图表示的方法。文献[8]提出了基于体素网格和三维卷积的VoxelNet，该网络是二维平面卷积到三维空间卷积的直接推广，由于计算量过大，输入模型的体素分辨率一般较低，进而导致识别精度也较低。文献[9-10]提出了针对三维点云的PointNet及后续的一系列方法，这些方法基于点云的无序性提出多种非欧卷积网络^[11-12]，具有较大的影响力，但同样存在计算量大和训练困难的问题。文献[13]提出了基于SSD的6维位姿估计目标检测框架，开创性地将位姿估计和目标检测二者结合，具有启发性。文献[14]提出了基于深度霍夫投票的3D目标检测框架VoteNet，该框架主要用于场景的识别，未关注单个实例的分类和检索问题。文献[15]提出的基于多视图的卷积神经网络(MVCNN)，与基于三维数据的方法并行。MVCNN在分类和检索任务上的表现均优于基于三维数据的识别方法。在文献[16]中，对MVCNN、PointNet++和VoxelNet等多种方法进行对比，并指出多视图方法的优异表现主要得益于庞大的二维图像数据集。但MVCNN存在两个方面的不足：1)依赖于精确的3D模型，且采用了固定视角的视图，这并不符合真实的应用场景，导致算法泛化能力不足；2) 采用了最大值池化操作来对多视图进行融合，融合后的特征会损失大量信息。

针对MVCNN存在的问题，本文提出了一种基于MVRNN的三维物体识别方法。首先，设计了一个包含特征辨识度指标的目标函数用于训练网络，能够得到辨识度更高的物体单视图特征和融合特征；其次，使用循环神经网络(recurrent neural network, RNN)对多个视图特征进行融合，得到一个更加紧凑且包含更丰富信息的融合特征作为物体的注册特征；最后，利用单视图特征对注册特征进行检索。与MVCNN相比，MVRNN存在以下优点：1)不依赖于3D模型，在实际应用中，只需要采集2D图片提取特征并进行融合；2)对视图的视角和数量没有要求，对不同视图的特征信息利用更充分；3)利用循环结构网络进行特征融合，兼具紧凑性和完备性。

5. 结束语

针对三维物体的分类和检索问题，本文对MVCNN进行改进，提出了MVRNN。通过在损失函数中引入特征辨识度指标，能够有效提升分类和检索的准确率；利用RNN代替最大值池化操作，使得融合特征具有信息完备性。在ModelNet数据集和MV3D数据集上，MVRNN的表现较MVCNN有了明显提升。在未来的研究中，拟制作大规模商品数据集以开展MVRNN的应用研究；此外，将MVRNN与SSD等目标检测框架结合来估计物体的六维位姿也是一个比较有前景的方向。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多视图循环神经网络的三维物体识别

doi: 10.12178/1001-0548.2019017

作者简介:
董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

通讯作者: 邹昆，E-mail：cszoukun@foxmail.com

Recognition of 3D Object Based on Multi-View Recurrent Neural Networks

计量

基于多视图循环神经网络的三维物体识别

doi: 10.12178/1001-0548.2019017

电子科技大学中山学院　广东中山　528406

作者简介:
董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

通讯作者: 邹昆，E-mail：cszoukun@foxmail.com

English Abstract

Recognition of 3D Object Based on Multi-View Recurrent Neural Networks

Zhongshan Institute, University of Electronic Science and Technology of China　Zhongshan Guangdong　528406

全文HTML

1.1. 多视图数据集

1.2. MVRNN三维物体识别框架

2.1. 特征提取网络

2.2. 循环多视图特征融合网络

2.3. 检索匹配网络

目录

期刊在线

编辑办公

友情链接

留言板

基于多视图循环神经网络的三维物体识别

doi: 10.12178/1001-0548.2019017

作者简介: 董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

通讯作者: 邹昆，E-mail：cszoukun@foxmail.com

Recognition of 3D Object Based on Multi-View Recurrent Neural Networks

计量

出版历程

基于多视图循环神经网络的三维物体识别

doi: 10.12178/1001-0548.2019017

电子科技大学中山学院 广东 中山 528406

作者简介: 董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

通讯作者: 邹昆，E-mail：cszoukun@foxmail.com

English Abstract

Recognition of 3D Object Based on Multi-View Recurrent Neural Networks

Zhongshan Institute, University of Electronic Science and Technology of China Zhongshan Guangdong 528406

全文HTML

1.1. 多视图数据集

1.2. MVRNN三维物体识别框架

2.1. 特征提取网络

2.2. 循环多视图特征融合网络

2.3. 检索匹配网络

目录

期刊在线

编辑办公

友情链接

作者简介:
董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

电子科技大学中山学院　广东中山　528406

作者简介:
董帅(1986-)，男，博士，主要从事机器学习、智能优化和先进控制等方面的研究

Zhongshan Institute, University of Electronic Science and Technology of China　Zhongshan Guangdong　528406