基于结构化损失的单目深度估计算法研究

霍智勇; 乔璐

doi:10.12178/1001-0548.2020386

基于结构化损失的单目深度估计算法研究

doi: 10.12178/1001-0548.2020386

霍智勇,
乔璐^,

南京邮电大学通信与信息工程学院　南京　210023

详细信息

作者简介:
霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

通讯作者: 乔璐，E-mail：13851603316@163.com

中图分类号: TP3

Research on Monocular Depth Estimation Algorithm Based on Structured Loss

HUO Zhiyong,
QIAO Lu^,

College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications,　Nanjing　210023

摘要: 为了提高单目图像深度估计的精度，针对图像中几何形状无法准确预测以及边缘模糊的问题，该文提出了一种基于多尺度结构相似度和梯度匹配的单目深度估计算法，利用多尺度结构相似度损失和尺度不变梯度匹配损失组成联合结构化损失，对相对深度点对进行排序来实现单目深度估计，实现了对图像中几何形状的准确预测，减小了边缘模糊，提高了深度预测精度。在Ibims、NYUDv2、DIODE、Sintel 4个不同类型的数据集进行了数值实验和主观评测，结果表明该算法降低了深度预测误差，有效提高了预测的准确性，并具有一定的泛化性能。
- 卷积网络 /
- 深度估计 /
- 梯度匹配损失 /
- 单目图像 /
- 多尺度结构相似度损失 /
- 排序损失
Abstract: This paper proposes a monocular depth estimation algorithm based on multi-scale structure similarity and gradient matching for improving the accuracy of monocular image depth estimation and solving the problems of inaccurate prediction of geometric shapes and blurred edges in the image. In this algorithm, a joint structured loss is formed by using multi-scale structure similarity degree loss and scale-invariant gradient matching loss. The relative depth points are sorted to achieve monocular depth estimation, which realizes accurate prediction of geometric shapes in the image, reduces edge blur, and improves depth prediction accuracy. Numerical experiments and subjective evaluations are performed on four different types of data sets: Ibims, NYUDv2, DIODE, and Sintel. The results show that the algorithm significantly reduces the depth prediction error, effectively improves the accuracy of the prediction, and has a certain generalization performance.
- convolutional network /
- depth estimation /
- gradient matching loss /
- monocular image /
- multi-scale structural similarity loss /
- ranking loss

图 1 深度估计网络架构

下载: 全尺寸图片幻灯片

图 2 特征融合模块

下载: 全尺寸图片幻灯片

图 3 Ibims测试集上的主观比较

下载: 全尺寸图片幻灯片

图 4 NYUDv2测试集上的主观比较

下载: 全尺寸图片幻灯片

图 5 DIODE测试集_上的主观比较

下载: 全尺寸图片幻灯片

图 6 Sintel测试集上的主观比较

下载: 全尺寸图片幻灯片

表 1 4种数据集下排序误差数值比较 %

方法	数据集
方法	Ibims	NYUDv2	DIODE	Sintel
ReDWeb	25.55	21.10	37.94	22.09
Youtube3D	22.81	19.03	35.86	21.05
HR-WSI	22.46	18.68	35.89	21.20
Ours_MS-SSIM	21.68	18.58	34.64	21.16
Ours_MGM	22.12	18.82	35.55	20.64
Ours_ALL	21.56	18.43	34.94	20.76

下载: 导出CSV

表 2 Ibims数据集下深度边界误差(DBE)数值比较

方法	DBE
方法	准确误差$ ({\varepsilon }_{{\rm{DBE}}}^{{\rm{acc}}}) $	完整误差$ ({\varepsilon }_{{\rm{DBE}}}^{{\rm{comp}}}) $
ReDWeb	2.640	7.379
Youtube3D	9.899	9.992
HR-WSI	2.413	6.995
Ours_MS-SSIM	2.311	7.065
Ours_MGM	1.944	6.834
Ours_ALL	2.007	6.690

下载: 导出CSV

[1]	VO M, NARASIMHAN S G, SHEIKH Y. Spatiotemporal bundle adjustment for dynamic 3d reconstruction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 1710-1718.
[2]	LU S, HANCA J, MUNTEANU A, et al. Depth-based view synthesis using pixel-level image inpainting[C]//2013 18th International Conference on Digital Signal Processing (DSP). Fira: IEEE, 2013: 1-6.
[3]	ANANTRASIRICHAI N, GERAVAND M, BRAENDLER D, et al. Fast depth estimation for view synthesis[EB/OL]. [2021-01-15]. https://arxiv.org/abs/2003.06637.
[4]	SCHONBERGER J L, FRAHM J M. Structure-from-motion revisited[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 4104-4113.
[5]	EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network[C]//Advances in Neural Information Processing Systems. [S.l.]: IEEE, 2014: 2366-2374.
[6]	LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks[C]//2016 Fourth International Conference on 3D Vision (3DV). [S.l.]: IEEE, 2016: 239-248.
[7]	ZHOU T, BROWN M, SNAVELY N, et al. Unsupervised learning of depth and ego-motion from video[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Honolulu, HI: IEEE, 2017: 1851-1858.
[8]	LIU F, SHEN C, LIN G. Deep convolutional neural fields for depth estimation from a single image[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2015: 5162-5170.
[9]	CHEN W, FU Z, YANG D, et al. Single-image depth perception in the wild[C]//Advances in Neural Information Processing Systems. [S.l.]: ACM, 2016: 730-738.
[10]	CHEN W, QIAN S, DENG J. Learning single-image depth from videos using quality assessment networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2019: 5604-5613.
[11]	XIAN K, SHEN C, CAO Z, et al. Monocular relative depth perception with web stereo data supervision[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 311-320.
[12]	HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision And Pattern Recognition. Las Vegas, USA: IEEE, 2016: 770-778.
[13]	WANG Z, SIMONCELLI E P, BOVIK A C. Multiscale structural similarity for image quality assessment[C]//The Thirty-Seventh Asilomar Conference on Signals, Systems & Computers. [S.l.]: IEEE, 2003: 1398-1402.
[14]	LI Z, SNAVELY N. Megadepth: Learning single-view depth prediction from internet photos[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 2041-2050.
[15]	KOCH T, LIEBEL L, FRAUNDORFER F, et al. Evaluation of cnn-based single-image depth estimation methods[C]//Proceedings of the European Conference on Computer Vision (ECCV). Munich: Springer, 2018: 8-14.
[16]	SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images[C]//European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2012: 746-760.
[17]	VASILJEVIC I, KOLKIN N, ZHANG S, et al. DIODE: A dense indoor and outdoor depth dataset[EB/OL]. [2021-01-15]. https://arxiv.org/abs/1908.00463.
[18]	BUTLER D J, WULFF J, STANLEY G B, et al. A naturalistic open source movie for optical flow evaluation[C]//European conference on computer vision. Berlin, Heidelberg: Springer, 2012: 611-625.
[19]	ZORAN D, ISOLA P, KRISHNAN D, et al. Learning ordinal relationships for mid-level vision[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 388-396.

[1]	王美萱, 刘志亮, 杨磊磊, 刘嘉轩, 于川凯, 王离. 基于PCB线圈的钢丝绳金属横截面积损失检测方法 . 电子科技大学学报, 2024, 53(): 1-8. doi: 10.12178/1001-0548.2023111
[2]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[3]	范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅. 基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
[4]	毛文清, 徐雅斌. 基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
[5]	鲁华祥, 尹世远, 龚国良, 刘毅, 陈刚. 基于深度确定性策略梯度的粒子群算法 . 电子科技大学学报, 2021, 50(2): 199-206. doi: 10.12178/1001-0548.2020420
[6]	邢文革, 桂佑林, 顾万里. 多传感器系统误差特性匹配的动态估计与补偿算法 . 电子科技大学学报, 2021, 50(2): 186-192. doi: 10.12178/1001-0548.2020117
[7]	储岳中, 汪佳庆, 张学锋, 刘恒. 基于改进深度残差网络的图像分类算法 . 电子科技大学学报, 2021, 50(2): 243-248. doi: 10.12178/1001-0548.2020314
[8]	赵学功, 邓佳坤, 魏浩然, 彭真明. 基于卷积神经网络的眼底图像微血管瘤检测方法 . 电子科技大学学报, 2021, 50(6): 915-920. doi: 10.12178/1001-0548.2021186
[9]	周书田, 颜信, 谢镇汕. 一种增强人脸识别模型训练稳定性的损失函数 . 电子科技大学学报, 2021, 50(1): 59-62. doi: 10.12178/1001-0548.2020226
[10]	艾斯卡尔·艾木都拉, 武文成. 基于多尺度局部梯度的点目标检测技术 . 电子科技大学学报, 2019, 48(6): 893-903. doi: 10.3969/j.issn.1001-0548.2019.06.014
[11]	唐贤伦, 刘庆, 张娜, 周家林. 混合PSO优化卷积神经网络结构和参数 . 电子科技大学学报, 2018, 47(2): 230-234. doi: 10.3969/j.issn.1001-0548.2018.02.011
[12]	周雪, 曹爽, 何香静, 邹见效. 基于特征点匹配对平面相似度的图像拼接 . 电子科技大学学报, 2017, 46(6): 877-882. doi: 10.3969/j.issn.1001-0548.2017.06.015
[13]	顾亦然, 朱梓嫣. 基于LeaderRank和节点相似度的复杂网络重要节点排序算法 . 电子科技大学学报, 2017, 46(2): 441-448. doi: 10.3969/j.issn.1001-0548.2017.02.020
[14]	陈姝, 梁文章. 结合特征点匹配及深度网络检测的运动跟踪 . 电子科技大学学报, 2016, 45(2): 246-251.
[15]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[16]	冯春, 吴洪涛, 乔兵, 张家驹. 基于改进形状上下文的双焦图像深度估计 . 电子科技大学学报, 2013, 42(2): 266-271. doi: 10.3969/j.issn.1001-0548.2013.02.017
[17]	李迅波, 蒋东升, 王振林. 梯度相似性的椒盐图像加权中值滤波算法 . 电子科技大学学报, 2012, 41(1): 114-119. doi: 10.3969/j.issn.1001-0548.2012.01.022
[18]	佘堃, 蒲红梅, 郑方伟, 周明天. 快速单像素多目独立成分设计 . 电子科技大学学报, 2008, 37(3): 421-423,449.
[19]	余静, 傅强, 吴鹍. 多机场地面等待问题中的损失系数研究 . 电子科技大学学报, 2007, 36(3): 598-600.
[20]	邹琪, 皮亦鸣, 黄顺吉. 极化SAR图像的多纹理最大似然估计 . 电子科技大学学报, 2001, 30(2): 120-123.

点击查看大图

图(6) / 表(2)

计量

文章访问数: 4062
HTML全文浏览量: 1580
PDF下载量: 51
被引次数: 0

全文HTML

从单目图像中获取深度信息是理解场景几何关系的重要方法，也是三维重建^[1]和视点合成^[2-3]的关键性技术。传统的基于光流或运动恢复结构(structure from motion, SfM)^[4]的算法可以获取单目运动图像序列或单目视频的深度信息，却无法预测单帧静止图像的深度。近年来，利用深度学习的方法预测单目静止图像的深度图成为研究热点。文献[5]首次提出采用卷积神经网络进行单目深度估计，运用神经网络获取全局粗略深度图以及改善局部细节。文献[6]提出了一种包含残差网络模块的全卷积网络对单目图像和深度图之间的模糊映射进行建模的方法，为了提高输出分辨率，再提出了特征上采样的学习方法以及引入反向Huber损失进行优化。文献[7]对未作标记的单目图像序列，采用无监督的方式实现对单目深度估计网络和相机姿态估计网络的训练。文献[8]将卷积神经网络与连续条件随机场相结合，估计单目图像深度。文献[9]提出了采用相对深度进行深度预测的方法，即对输入图像中由人工标注的相对深度注释点对之间的相对关系进行排序估计。之后，文献[10]又通过采用质量评价网络识别出基于SfM方法获得的高质量重构图像，作为监督视图以获取估计深度。文献[11]对由双目图像获得的GT(ground-truth )深度图和由深度卷积网络生成的预测深度图进行随机采样，从而训练出相对深度预测网络模型。上述提到的相对深度方法均采用排序损失，仅针对输入图像中的全局相对深度信息进行训练，忽略了图像中的几何信息以及局部边缘信息，在几何形状以及深度不连续处不能获得准确的预测结果。因此，本文提出了一种基于多尺度结构相似度和梯度匹配的联合损失函数，对输入的单目图像获得更准确的深度预测，深度不连续处也更加清晰。

3. 结束语

为了提高单目深度估计精度，本文提出了基于多尺度结构相似度和梯度匹配的单目深度估计算法。针对图像中几何形状无法准确预测以及边缘模糊的问题，在排序损失基础上添加了多尺度结构相似度和尺度不变梯度匹配损失，在单目深度估计过程中明显降低了排序误差和深度边界误差，有效提高了深度预测的准确性。实验对Ibims、NYUDv2、DIODE、Sintel 4个不同类型的数据集进行了评估，数值实验和主观评测结果表明，本文方法在定量和定性上都取得了更优的结果，并具有一定的泛化性能。

参考文献 (19)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于结构化损失的单目深度估计算法研究

doi: 10.12178/1001-0548.2020386

作者简介:
霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

通讯作者: 乔璐，E-mail：13851603316@163.com

Research on Monocular Depth Estimation Algorithm Based on Structured Loss

计量

基于结构化损失的单目深度估计算法研究

doi: 10.12178/1001-0548.2020386

南京邮电大学通信与信息工程学院　南京　210023

作者简介:
霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

通讯作者: 乔璐，E-mail：13851603316@163.com

English Abstract

Research on Monocular Depth Estimation Algorithm Based on Structured Loss

College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications,　Nanjing　210023

全文HTML

1.1. 网络架构

1.2. 联合损失函数

2.1. 实验设置

2.2. 数值实验

2.2.1. Ibims数据集

2.2.2. NYU Depth数据集

2.2.3. DIODE数据集

2.2.4. Sintel数据集

2.3. 主观评价

目录

期刊在线

编辑办公

友情链接

留言板

基于结构化损失的单目深度估计算法研究

doi: 10.12178/1001-0548.2020386

作者简介: 霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

通讯作者: 乔璐，E-mail：13851603316@163.com

Research on Monocular Depth Estimation Algorithm Based on Structured Loss

计量

出版历程

基于结构化损失的单目深度估计算法研究

doi: 10.12178/1001-0548.2020386

南京邮电大学通信与信息工程学院 南京 210023

作者简介: 霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

通讯作者: 乔璐，E-mail：13851603316@163.com

English Abstract

Research on Monocular Depth Estimation Algorithm Based on Structured Loss

College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications, Nanjing 210023

全文HTML

1.1. 网络架构

1.2. 联合损失函数

2.1. 实验设置

2.2. 数值实验

2.2.1. Ibims数据集

2.2.2. NYU Depth数据集

2.2.3. DIODE数据集

2.2.4. Sintel数据集

2.3. 主观评价

目录

期刊在线

编辑办公

友情链接

作者简介:
霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

南京邮电大学通信与信息工程学院　南京　210023

作者简介:
霍智勇(1976-)，男，博士，教授，主要从事模式识别与计算机视觉等方面的研究

College of Communication and Information Engineering, Nanjing University of Posts and Telecommunications,　Nanjing　210023