基于多模态注意力机制的图像理解描述新方法

李学明; 岳贡; 陈光伟

doi:10.12178/1001-0548.2019228

基于多模态注意力机制的图像理解描述新方法

doi: 10.12178/1001-0548.2019228

重庆大学计算机学院　重庆沙坪坝区　400044

基金项目: 国家重点研发项目(2017YFB1402405-5)；重庆市技术创新与应用发展专项重点项目(CSTC2019JSCX-MBDXX2012)；中央高校基本科研项目(2020CDCGJSJ042)

详细信息

作者简介:
李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

中图分类号: TP312

A Novel End-to-End Image Caption Based on Multimodal Attention

School of Computer, Chongqing University　Shapingba Chongqing　400044

摘要: 针对现有的图像理解描述方法存在描述句子不丰富、不准确、模型结构复杂、难以训练等问题，该文提出了一种端到端的基于多模态注意力机制(M-AT)的图像理解描述新方法。该方法首先通过关键词图像特征提取模型(K-IFE)提取更优的空间特征和关键词特征，并利用关键词注意力机制模型(K-AT)关注重要描述词语、空间注意机制模型(S-AT)关注图像更重要的区域并简化模型结构，且K-AT和S-AT两种注意力机制可以相互矫正，最终生成更加准确、丰富的图像描述语句。在MSCOCO数据集的实验结果表明该方法是有效的，部分评价指标有2%左右的提升。
- 注意力机制 /
- 图像理解 /
- 关键词 /
- 多模态 /
- 空间
Abstract: The existing image caption methods have some problems that the caption sentences are not rich and accurate, and the model structures are complicated and difficult to train. We propose a novel end-to-end image caption method called image caption based on multimodal attention mechanism (M-AT). Firstly, it takes the keyword image feature extraction model (K-IFE) to extract better spatial features and keyword features, uses the keyword attention mechanism model (K-AT) to focus on important description words, and applies the spatial attention mechanism model (S-AT) to pay attention to more important areas of the image and simplify the model structure. The two attention mechanisms, K-AT and S-AT, can correct each other. The proposed method can generate more accurate and rich image description sentences. The experimental results on the MSCOCO data set show that the proposed method is effective, has around 2% improvement in some evaluation indicators.
- attention mechanism /
- image caption /
- keyword /
- multimodal /
- spatial

图 1 M-AT模型结构

下载: 全尺寸图片幻灯片

图 2 构造关键词类别数据集

下载: 全尺寸图片幻灯片

图 3 K-IFE模型的关键词预测

下载: 全尺寸图片幻灯片

图 4 K-AT模型结果展示与对比

下载: 全尺寸图片幻灯片

图 5 空间注意力机制的热力图

下载: 全尺寸图片幻灯片

图 6 M-AT模型结果对比

下载: 全尺寸图片幻灯片

图 7 K-AT和S-AT相互矫正

下载: 全尺寸图片幻灯片

表 1 不同模型之间的结果对比

模型	评估指标
模型	CIDEr	METEOR	ROUGE-L	BLEU-1	BLEU-2	BLEU-3	BLEU-4
Human	0.85	0.25	0.48	0.66	0.47	0.32	0.22
m-RNN^[6]	0.79	0.23	0.50	0.68	0.51	0.37	0.27
Google NIC^[9]	0.86	0.24	0.51	0.69	0.51	0.38	0.28
Hard-AT^[19]	0.87	0.24	0.52	0.71	0.53	0.38	0.28
VAE^[31]	0.90	0.24	−	0.72	0.52	0.37	0.24
Attribute AT^[32]	−	0.24	−	0.71	0.53	0.40	0.30
本文K-NIC	0.87	0.24	0.51	0.70	0.51	0.39	0.29
本文K-AT	0.87	0.24	0.52	0.70	0.53	0.39	0.29
本文S-AT	0.89	0.25	0.52	0.71	0.53	0.39	0.29
本文M-AT	0.91	0.25	0.52	0.71	0.53	0.40	0.30

下载: 导出CSV

[1]	MITCHELL M, HAN X, DODGE J, et al. Midge: Generating image descriptions from computer vision detections[C]//Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics. Avignon, France: Association for Computational Linguistics, 2012: 747-756.
[2]	FARHADI A, HEJRATI M, SADEGHI M A, et al. Every picture tells a story: Generating sentences from images[C]//European Conference on Computer Vision. Berlin, Heidelberg: Springer, 2010: 15-29.
[3]	LI S, KULKARNI G, BERG T L, et al. Composing simple image descriptions using web-scale n-grams[C]//Proceedings of the Fifteenth Conference on Computational Natural Language Learning. Portland, Oregon, USA: Association for Computational Linguistics, 2011: 220-228.
[4]	HODOSH M, YOUNG P, HOCKENMAIER J. Framing image description as a ranking task: Data, models and evaluation metrics[J]. Journal of Artificial Intelligence Research, 2013, 47: 853-899. doi: 10.1613/jair.3994
[5]	KUZNETSOVA P, ORDONEZ V, BERG A C, et al. Collective generation of natural image descriptions[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers-Volume 1. Jeju Island, Korea: Association for Computational Linguistics, 2012: 359-368.
[6]	MAO Jun-hua, XU Wei, YANG Yi, et al. Explain images with multimodal recurrent neural networks [EB/OL]. [2019-07-19]. https://arxiv.org/pdf/1410.1090.
[7]	SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014, 27: 3104-3112.
[8]	KIROS R, SALAKHUTDINOV R, ZEMEL R. Multimodal neural language models[C]//International Conference on Machine Learning. Beijing, China: JMLR, 2014: 595-603.
[9]	VINYALS O, TOSHEV A, BENGIO S, et al. Show and tell: A neural image caption generator[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2015: 3156-3164.
[10]	PEDERSOLI M, LUCAS T, SCHMID C, et al. Areas of attention for image captioning[C]//Proceedings of the IEEE International Conference on Computer Vision. New York, USA: IEEE, 2017: 1242-1250.
[11]	ANEJA J, DESHPANDE A, SCHWING A G. Convolutional image captioning[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2018: 5561-5570.
[12]	GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. New York, USA: IEEE, 2015: 1440-1448.
[13]	HE Kai-ming, GKIOXARI G, DOLLÁR P, et al. Mask r-cnn[C]//Proceedings of the IEEE International Conference on Computer Vision. New York, USA: IEEE, 2017: 2980-2988.
[14]	LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2017: 936-944.
[15]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. doi: 10.1162/neco.1997.9.8.1735
[16]	DONAHUE J, ANNE H L, GUADARRAMA S, et al. Long-term recurrent convolutional networks for visual recognition and description[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. LOS Alamtions, USA: IEEE, 2015: 2625-2634.
[17]	LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]//European Conference on Computer Vision. Cham, Switzerland: Springer, 2014: 740-755.
[18]	LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551. doi: 10.1162/neco.1989.1.4.541
[19]	XU K, BA J, KIROS R, et al. Show, attend and tell: Neural image caption generation with visual attention[C]//International Conference on Machine Learning. Lille, France: DBLP, 2015: 2048-2057.
[20]	CHEN Xin-lei, LAWRENCE Z C. Mind’s eye: A recurrent visual representation for image caption generation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2015: 2422-2431.
[21]	KARPATHY A, LI Fei-fei. Deep visual-semantic alignments for generating image descriptions[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Los Alamtions, USA: IEEE Computer Soc, 2017: 664-676.
[22]	BENGIO S, VINYALS O, JAITLY N, et al. Scheduled sampling for sequence prediction with recurrent neural networks[J]. Advances in Neural Information Processing Systems, 2015, 1: 1171-1179.
[23]	SZEGEDY C, LIU Wei, JIA Yang-qing, et al. Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2015: 1-9.
[24]	HE Kai-ming, ZHANG Xiang-yu, REN Shao-qing, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2016: 770-778.
[25]	WU Bao-yuan, CHEN Wei-dong, FAN Yan-bo, et al. Tencent ML-images: A large-scale multi-label image database for visual representation learning[J]. IEEE Access, 2019, 7: 172683-172693. doi: 10.1109/ACCESS.2019.2956775
[26]	PAPINENI K, ROUKOS S, WARD T, et al. BLEU: A method for automatic evaluation of machine translation[C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Somerset, USA: Association Computational Linguistics, 2002: 311-318.
[27]	BANERJEE S, LAVIE A. METEOR: An automatic metric for MT evaluation with improved correlation with human judgments[J]. Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization, 2005, 12(5): 65-72.
[28]	LIN C Y. Rouge: A package for automatic evaluation of summaries[J]. Text Summarization Branches Out, 2004, 1: 74-81.
[29]	VEDANTAM R, LAWRENCE Z C, PARIKH D. Cider: Consensus-based image description evaluation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York, USA: IEEE, 2015: 4566-4575.
[30]	ABADI M, AGARWAL A, BARHAM P, et al. Tensorflow: Large-scale machine learning on heterogeneous distributed systems[EB/OL]. (2019-07-10). https://arxiv.org/pdf/1603.04467.
[31]	PU Yun-chen, GAN Zhe, HENAO R, et al. Variational autoencoder for deep learning of images, labels and captions[J]. Advances in Neural Information Processing Systems, 2016, 29: 2352-2360.
[32]	ZHOW Luo-wei, XU Chen-liang, KOCH P, et al. Watch what you just said: Image captioning with text-conditional attention[C]//Proceedings of the on Thematic Workshops of ACM Multimedia. [S.l.]: ACM, 2017, 1: 305-313.

[1]	要媛媛, 付潇, 杨东瑛, 王洁宁, 郑文. 结合全局信息增强的医学领域命名实体识别研究 . 电子科技大学学报, 2024, 53(): 1-10. doi: 10.12178/1001-0548.2023064
[2]	刘志刚, 张国辉, 高月, 刘苗苗. 多因素引导的行人重识别数据增广方法研究 . 电子科技大学学报, 2024, 53(2): 235-242. doi: 10.12178/1001-0548.2023056
[3]	崔少国, 独潇, 张宜浩. 基于兴趣注意力网络的会话推荐算法 . 电子科技大学学报, 2024, 53(1): 67-75. doi: 10.12178/1001-0548.2022307
[4]	朱颀林, 王羽, 徐建. 基于异构图和关键词的抽取式文本摘要模型 . 电子科技大学学报, 2024, 53(2): 259-270. doi: 10.12178/1001-0548.2023019
[5]	黄颖, 许剑, 周子祺, 陈树沛, 周帆, 曹晟. 高效长序列水位预测模型的研究与实现 . 电子科技大学学报, 2023, 52(4): 595-601. doi: 10.12178/1001-0548.2022133
[6]	莫太平, 黄巧人, 陈德鸿, 伍锡如, 张向文. 改进可逆缩放网络的图像超分辨率重建 . 电子科技大学学报, 2023, 52(5): 739-746. doi: 10.12178/1001-0548.2022261
[7]	赵云龙, 田生祥, 李岩, 罗龙, 齐鹏文. 基于注意力模型和Soft-NMS的输电线路小目标检测方法 . 电子科技大学学报, 2023, 52(6): 906-914. doi: 10.12178/1001-0548.2022290
[8]	毛文清, 徐雅斌. 基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
[9]	王磊, 孙志成, 王磊, 陈端兵, 蒋家玮. 基于DRSN-CW和LSTM的轴承故障诊断 . 电子科技大学学报, 2022, 51(6): 921-927. doi: 10.12178/1001-0548.2021385
[10]	葛唯益, 程思伟, 王羽, 徐建. 基于双向门控循环神经网络的事件论元抽取方法 . 电子科技大学学报, 2022, 51(1): 100-107. doi: 10.12178/1001-0548.2021153
[11]	代翔. 基于事件模式及类型的事件检测模型 . 电子科技大学学报, 2022, 51(4): 592-599. doi: 10.12178/1001-0548.2021377
[12]	周丰丰, 牛甲昱. 细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
[13]	郭磊, 王邱龙, 薛伟, 郭济. 基于注意力机制的光线昏暗条件下口罩佩戴检测 . 电子科技大学学报, 2022, 51(1): 123-129. doi: 10.12178/1001-0548.2021222
[14]	赵磊, 高联丽, 宋井宽. 面向视觉对话的自适应视觉记忆网络 . 电子科技大学学报, 2021, 50(5): 749-753. doi: 10.12178/1001-0548.2021057
[15]	头旦才让, 仁青东主, 尼玛扎西, 于永斌, 邓权芯. 基于改进字节对编码的汉藏机器翻译研究 . 电子科技大学学报, 2021, 50(2): 249-255, 293. doi: 10.12178/1001-0548.2020218
[16]	邓钰, 雷航, 李晓瑜, 林奕欧. 用于目标情感分类的多跳注意力深度模型 . 电子科技大学学报, 2019, 48(5): 759-766. doi: 10.3969/j.issn.1001-0548.2019.05.016
[17]	秦志光, 陈浩, 丁熠, 蓝天, 陈圆, 沈广宇. 基于多模态卷积神经网络的脑血管提取方法研究 . 电子科技大学学报, 2016, 45(4): 573-581. doi: 10.3969/j.issn.1001-0548.2016.04.010
[18]	张利勋, 刘永智, 王康宁. 二阶分布参数系统反射反馈的极点配置 . 电子科技大学学报, 2006, 35(4): 557-559.
[19]	王定成, 曾勇. B值同分布鞅随机变元序列矩收敛的注记 . 电子科技大学学报, 2001, 30(4): 424-428.
[20]	王定成. B值同分布鞅随机变元序列矩完全收敛性 . 电子科技大学学报, 2000, 29(6): 658-661.

点击查看大图

图(7) / 表(1)

计量

文章访问数: 5540
HTML全文浏览量: 1596
PDF下载量: 68
被引次数: 0

全文HTML

早期的图像理解是基于模板的方式进行图像描述，通过识别图像中的对象、对象属性、对象关系来匹配语言模板以此生成描述语句。文献[1]选择构造语法树的方式生成描述语句；文献[2]使用三元组的方式生成描述语句；文献[3]通过选定短语，再将短语组合成描述语句实现图像的理解。

通过改进基于模板的图像理解方法，产生了基于图像和图像描述语句相似度检索的图像理解方法，即将图像及对应描述语句映射到同一特征空间，通过计算图像和语句特征之间的相似度来生成描述语句。文献[4]将图像及其对应语句映射到两个不同的特征空间，然后利用核典型相关分析(kernel kanonical correlation analyses, KCCA)将特征映射到同一个特征空间，最后通过计算特征相似度来选择描述语句。文献[5]使用随机树形结构抽取描述语句中的词组，树枝为词组，通过检索与测试图片相似的图片及其对应的树枝，选择组合的方式生成描述语句。

随着深度学习(deep learning, DL)的快速发展，文献[6]首先使用深度学习方法解决图像理解问题，提出利用多模态递归神经网络进行图像描述语句生成。图像理解本质上是从视觉信息到语义信息的转换。受机器翻译中基于神经网络的编码器/解码器方法^[7]的启发，文献[6, 8-11]将图像理解视为对视觉信息进行编码和对语义信息进行解码，这样的编码器−解码器框架已经成为图像理解的主流框架。通常，人们使用卷积神经网络(convolutional neural networks, CNN)^[12-14]提取图像的特征向量，并将图像特征向量输入到长短时记忆网络(long short term memory, LSTM)^[15]中以生成图像描述语句。为了获得更好的结果，通常使用注意力机制^{[10, 16]}。

当前的图像理解模型存在问题：1) 传统的卷积神经网络(CNN)^[12]的图像特征提取能力不能满足图像理解的需要，在图像特征提取时未能考虑图像特征与描述语句的关联性。2) 视觉特征的错误会直接导致生成的描述语句错误。3) 当前图像理解方法使用的注意力机制模型复杂且不方便训练。

为解决这些问题，本文提出了一种端到端的基于多模态的注意力机制(M-AT)的图像理解方法。多模态的注意力机制包括基于关键词的图像特征提取(K-IFE)模型、关键词注意力机制(K-AT)和空间注意力机制(S-AT)。该方法可以生成准确而丰富的图像描述语句，本文使用MSCOCO^[17]数据集对提出的模型进行评估。

本文的主要贡献：1) 通过将关键词与视觉特征进行关联，提出了基于关键词的图像特征提取(K-IFE)方法，让模型能更好地提取与图像理解相关的图像特征。2) 基于关键词注意力机制(K-AT)让模型能关注到重要的关键词，从而生成更丰富而准确的描述语句。3) 基于空间特征注意机制(S-AT)使用抽象程度较高的图像空间特征来引导模型关注图像的重要区域，生成更为准确的描述语句，同时使用抽象程度较高的图像空间特征简化了模型。4) 最后，结合K-IFE、S-AT和K-AT提出了基于多模态注意力机制的图像理解(M-AT)新方法，当两种注意力机制其中一个出现错误时，另一个可以对其进行矫正，从而提高了描述语句的准确性。

1. 相关工作

1.1. 长短期记忆网络

循环神经网络(recurrent neural networks, RNN)^[18]与传统的神经网络相比通过添加隐藏状态保留过去的信息来减轻依赖关系问题，但是初始信息会随着连接长度的增加渐变消失。长短期记忆网络LSTM ^[15]能有效地解决梯度失调问题，在视觉−语言任务^{[9, 19-21]}中有广泛的运用。

1.2. 编码器−解码器

编码器−解码器结构在序列−序列任务中表现良好。受该结构启发，文献[9]使用了编码器−解码器结构解决图片理解问题，对视觉信息进行编码，对语义信息解码。编码器−解码器模型已在图像理解任务^{[8, 16, 22]}中广泛被使用，本文采用CNN^[23]作为编码器，LSTM ^[15]作为解码器。

1.3. 注意力机制

LSTM^[15]的存储容量是有限的，生成语句时靠后的词更依赖于选择的语言模型。为了解决这个问题，文献[19]将注意力机制引入了图像理解任务。在生成每个时间步的单词时，首先对每个区域的视觉特征都加一个权重，通过该权重计算出新的视觉特征来引导每个时间步单词的生成，这种基于注意力机制的方式能够有效引导描述语句单词的生成。

4. 结束语

本文提出了K-IFE、K-AT、S-AT方法，基于上述工作提出基于多模态注意力机制的图像理解方法(M-AT)，该方法通过K-IFE提取更优的图像特征、关键词特征、空间特征，通过关键词注意力机制(K-AT)关注重要词语，通过空间注意力机制(S-AT)能够关注图像更重要的区域并简化模型结构，并且两种注意力机制可以相互增强矫正，最终生成更加准确和丰富的图像描述语句。

参考文献 (32)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于多模态注意力机制的图像理解描述新方法

doi: 10.12178/1001-0548.2019228

作者简介:
李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

A Novel End-to-End Image Caption Based on Multimodal Attention

计量

基于多模态注意力机制的图像理解描述新方法

doi: 10.12178/1001-0548.2019228

重庆大学计算机学院　重庆沙坪坝区　400044

作者简介:
李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

English Abstract

A Novel End-to-End Image Caption Based on Multimodal Attention

School of Computer, Chongqing University　Shapingba Chongqing　400044

全文HTML

1.1. 长短期记忆网络

1.2. 编码器−解码器

1.3. 注意力机制

2.1. 基于关键词的图像特征提取

2.1.1. 关键词数据集

2.1.2. 基于关键词的图像特征抽取

2.2. 关键词注意力机制

2.3. 空间注意力机制

2.4. 多模态注意力机制

3.1. 数据集

3.1.1. 关键词数据集

3.1.2. 评估指标

3.2. 实验细节

3.3. 实验

目录

期刊在线

编辑办公

友情链接

留言板

基于多模态注意力机制的图像理解描述新方法

doi: 10.12178/1001-0548.2019228

作者简介: 李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

A Novel End-to-End Image Caption Based on Multimodal Attention

计量

出版历程

基于多模态注意力机制的图像理解描述新方法

doi: 10.12178/1001-0548.2019228

重庆大学计算机学院 重庆 沙坪坝区 400044

作者简介: 李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

English Abstract

A Novel End-to-End Image Caption Based on Multimodal Attention

School of Computer, Chongqing University Shapingba Chongqing 400044

全文HTML

1.1. 长短期记忆网络

1.2. 编码器−解码器

1.3. 注意力机制

2.1. 基于关键词的图像特征提取

2.1.1. 关键词数据集

2.1.2. 基于关键词的图像特征抽取

2.2. 关键词注意力机制

2.3. 空间注意力机制

2.4. 多模态注意力机制

3.1. 数据集

3.1.1. 关键词数据集

3.1.2. 评估指标

3.2. 实验细节

3.3. 实 验

目录

期刊在线

编辑办公

友情链接

作者简介:
李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

重庆大学计算机学院　重庆沙坪坝区　400044

作者简介:
李学明(1967-)，男，博士，教授，主要从事计算机视觉和数据挖掘方面的研究. E-mail：lixuemin@cqu.edu.cn

School of Computer, Chongqing University　Shapingba Chongqing　400044

3.3. 实验