留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

轻量型胶囊网络语音情感识别方法

王颖 高胜

王颖, 高胜. 轻量型胶囊网络语音情感识别方法[J]. 电子科技大学学报, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
引用本文: 王颖, 高胜. 轻量型胶囊网络语音情感识别方法[J]. 电子科技大学学报, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
WANG Ying, GAO Sheng. A Speech Emotion Recognition Method Based on Lightweight Capsule Network[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
Citation: WANG Ying, GAO Sheng. A Speech Emotion Recognition Method Based on Lightweight Capsule Network[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086

轻量型胶囊网络语音情感识别方法

doi: 10.12178/1001-0548.2022086
基金项目: 国家自然科学基金(61702093);国家重点研发计划(2018YFE0196000);黑龙江省自然科学基金(F2018003);黑龙江省博士后专项(LBH-Q20077)
详细信息
    作者简介:

    王颖(1986 − ),女,副教授,主要从事深度学习、情感计算、智能优化等方面的研究

    通讯作者: 王颖,E-mail:nepuwy@163.com
  • 中图分类号: TN912.3

A Speech Emotion Recognition Method Based on Lightweight Capsule Network

  • 摘要: 针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层图像特征,利用语谱图来微调整个网络,减弱模型在小数据集上的过拟合现象。再利用夹角余弦来计算动态路由结构中向量的相似度,提高动态路由算法性能。实验结果表明,轻量型胶囊网络的识别率和运算速度均优于对比的7种深度学习网络模型。
  • 图  1  胶囊结构

    图  2  LCN模型结构

    图  3  LCN在测试集和验证集上准确率和损失值的迭代曲线

    表  1  DSC模块各层参数

    层号层/卷积核大小卷积核个数/个参数个数/个输出形状
    1DSC-DC 3×3×133×3×3+1×1×3×64=219256, 256, 64
    DSC-PC 1×1×364
    2DSC-DC 3×3×1643×3×64+1×1×64×64=4672256, 256, 64
    DSC-PC 1×1×6464
    3Maxpool 2×20128, 128, 64
    4DSC-DC 3×3×1643×3×64+1×1×64×128=8768128, 128, 128
    DSC-PC 1×1×64128
    5DSC-DC 3×3×11283×3×128+1×1×128×128=17536128, 128, 128
    DSC-PC 1×1×128128
    6Maxpool 2×2064, 64, 128
    7DSC-DC 3×3×11283×3×128+1×1×128×256=3392064, 64, 256
    DSC-PC 1×1×128256
    8DSC-DC 3×3×12563×3×256+1×1×256×256=6784064, 64, 256
    DSC-PC 1×1×256256
    9Maxpool 2×2032, 32, 256
    10DSC-DC 5×5×12565×5×256+1×1×256×256=7193628, 28, 256
    下载: 导出CSV

    表  2  模型结构

    CNNVGG-16ResNet-50
    ${\rm{Conv}}:\left[3\times \mathrm{3,64}\right]\times 1$ ReLU
    ${\rm{MP} }:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{C}}\text{{\rm{onv}}}:\left[3\times \mathrm{3,64}\right]\times 3$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{C} }\text{{\rm{onv}}}:\left[7\times \mathrm{7,64}\right]\times 1$
    ${\rm{MP}}:\left[3\times 3\right],{\rm{stride}}=2$
    ${\rm{Conv}}:\left[3\times \mathrm{3,128}\right]\times 1$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv}}:\left[3\times \mathrm{3,128}\right]\times 3$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{strid}}e=2$
    ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,64}\\ 3\times \mathrm{3,64}\\ 1\times \mathrm{1,256}\end{array}\right]\times 3$
    ${\rm{Conv}}:\left[3\times \mathrm{3,256}\right]\times 1$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv}}:\left[3\times \mathrm{3,256}\right]\times 3$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,128}\\ 3\times \mathrm{3,128}\\ 1\times \mathrm{1,512}\end{array}\right]\times 4$
    ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 1$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 3$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,256}\\ 3\times \mathrm{3,256}\\ 1\times \mathrm{1,1\;024}\end{array}\right]\times 6$
    ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 3$ ReLU
    ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
    ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,512}\\ 3\times \mathrm{3,512}\\ 1\times \mathrm{1,2\;048}\end{array}\right]\times 3$
    ${\rm{FC}}$${\rm{FC}}$${\rm{FC}}$
    下载: 导出CSV

    表  3  不同方案的实验结果

    模型情感类型准确率平均值/%耗时/h
    高兴悲哀生气惊吓中性害怕
    CNN80.5584.1985.7581.4482.6184.8383.239.6
    VGG-1679.6583.6385.0580.5781.8284.0982.479.8
    ResNet-5078.0183.7184.3680.6581.2383.7281.9510.7
    CN83.4288.4590.0484.9386.9188.7487.089.5
    CN-DSC86.4592.7993.1689.1690.4392.5890.767.0
    CN-DSC-PM92.3193.9395.4192.5893.1294.3293.605.1
    CN-DSC-DR90.7193.7194.2891.8792.1193.5992.715.9
    LCN90.9595.196.6293.4694.8595.1494.354.9
    下载: 导出CSV

    表  4  迁移不同DSC层参数结果对比

    迁移层准确率/%耗时/h
    前三层91.245.4
    前四层92.385.3
    前五层93.605.1
    前六层92.105.0
    前七层91.075.0
    下载: 导出CSV
  • [1] 郑丽. 语音情感识别及其在服务机器人中的应用研究[D]. 长春: 东北师范大学, 2018.

    ZHENG L. Research on speech emotion recognition and its application in the service robot[D]. Changchun: Northeast Normal University, 2018.
    [2] 韩文静, 李海峰, 阮华斌, 等. 语音情感识别研究进展综述[J]. 软件学报, 2014, 25(1): 37-50. doi:  10.13328/j.cnki.jos.004497

    HAN W J, LI H F, RUAN H B, et al. Review on speech emotion recognition[J]. Journal of Software, 2014, 25(1): 37-50. doi:  10.13328/j.cnki.jos.004497
    [3] DAHAKE P P, SHAW K, MALATHI P. Speaker dependent speech emotion recognition using MFCC and support vector machine[C]//International Conference on Automatic Control and Dynamic Optimization Techniques. India: IEEE, 2016: 1080-1084.
    [4] LI L, ZHAO Y, JIANG D, et al. Hybrid deep neural network hidden markov model (DNN-HMM) based speech emotion recognition[C]//Affective Computing and Intelligent Interaction. [S.l.]: IEEE, 2013: 312-317.
    [5] SAINATH T N, VINYALS O, SENIOR A, et al. Convolutional, long short-term memor, fully connected deep neural networks[C]//IEEE International Conference on Acoustics, Speech and Signal Processing. New York: IEEE, 2015: 4580-4584.
    [6] BADSHAH A M, AHMAD J, RAHIM N, et al. Speech emotion recognition from spectrograms with deep convolu-tional neural network[C]//Proceedings of the International Conference on Platform Technology and Service. [S.l.]: IEEE, 2017: 1-5.
    [7] XIE Y, LIANG R, LIANG Z, et al. Speech emotion classification using attention-based LSTM[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2019, 27(11): 1675-1685. doi:  10.1109/TASLP.2019.2925934
    [8] 张晓宇, 张华熊, 高强. 基于深度学习的多模式权重网络语音情感识别[J]. 大连理工大学学报, 2022, 62(5): 526-534. doi:  10.7511/dllgxb202205011

    ZHANG X Y, ZHANG H X, GAO Q. Multi-Modal weighted network for speech emotion recognition based on deep learning[J]. Journal of Dalian University of Technology, 2022, 62(5): 526-534. doi:  10.7511/dllgxb202205011
    [9] CHO Y I. Modeling speech emotion recognition via attention-oriented parallel CNN encoders[J]. Electronics, 2022, 11: 4047. doi:  10.3390/electronics11234047
    [10] ISSA D, DEMIRCI M F, YAZICI A. Speech emotion recognition with deep convolutional neural networks[J]. Biomedical Signal Processing and Control, 2020, 59: 101894. doi:  10.1016/j.bspc.2020.101894
    [11] 李靓, 孙存威, 谢凯, 等. 基于深度学习的小样本声纹识别方法[J]. 计算机工程, 2019, 45(3): 262-267. doi:  10.19678/j.issn.1000-3428.0049975

    LI J, SUN C W, XIE K, et al. Small sample voiceprint recognition method based on deep learning[J]. Computer Engineering, 2019, 45(3): 262-267. doi:  10.19678/j.issn.1000-3428.0049975
    [12] HINTON G E, OSINDERO S, TEH Y W. A fast learning algoritm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554. doi:  10.1162/neco.2006.18.7.1527
    [13] HUANG R, LI J, LI W, et al. Deep ensemble capsule network for intelligent compound fault diagnosis using multisensory data[J]. IEEE Transactions on Instrumentation and Measurement, 2020, 69(5): 2304-2314. doi:  10.1109/TIM.2019.2958010
    [14] WANG Y, NING D, FENG S. A novel capsule network based on wide convolution and multi-scale convolution for fault diagnosis[J]. Applied Sciences-Basel, 2020, 10(10): 3659-3675. doi:  10.3390/app10103659
    [15] 董建伟, 王衍学. 基于残差胶囊网络的滚动轴承故障诊断研究[J]. 机电工程, 2021, 8(10): 1292-1298. doi:  10.3969/j.issn.1001-4551.2021.10.010

    DONG J W, WANG Y X. Fault diagnosis of rolling bearing based on residual capsule network[J]. Journal of Mechanical & Electrical Engineering, 2021, 8(10): 1292-1298. doi:  10.3969/j.issn.1001-4551.2021.10.010
    [16] 孙岩, 彭高亮. 改进胶囊网络的滚动轴承故障诊断方法[J]. 哈尔滨工业大学学报, 2021, 53(1): 23-28. doi:  10.11918/202004163

    SUN Y, PENG G L. Improved capsule network method for rolling bearing fault diagnosis[J]. Journal of Harbin Institute of Technology, 2021, 53(1): 23-28. doi:  10.11918/202004163
    [17] KAMAL K C, YIN Z D, WU M Y, et al. Depthwise separable convolution architectures for plant disease classification[J]. Computers and Electronics in Agriculture, 2019, 165(10): 104948.
    [18] HOWARD A, ZHU M L, CHEN B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[J]. Applied Intelligence, 2019, 50(1): 107-118.
    [19] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 4510-4520.
    [20] 杨平, 苏燕辰, 张振. 基于卷积胶囊网络的滚动轴承故障诊断研究[J]. 振动与冲击, 2020, 39(4): 55-62. doi:  10.13465/j.cnki.jvs.2020.04.006

    YANG P, SU Y C, ZHANG Z. A study on rolling bearing fault diagnosis based on convolution capsule network[J]. Journal of Vibration and Shock, 2020, 39(4): 55-62. doi:  10.13465/j.cnki.jvs.2020.04.006
    [21] 张天柱, 邹承明. 使用模糊聚类的胶囊网络在图像分类上的研究[J]. 计算机科学, 2019, 46(12): 279-285. doi:  10.11896/jsjkx.190200315

    ZHANG T Z, ZOU C M. Sutdy on image classification of capsule network using fuzzy clustering[J]. Computer Science, 2019, 46(12): 279-285. doi:  10.11896/jsjkx.190200315
    [22] 张文风, 周俊. 基于Droput-CNN的滚动轴承故障诊断研究[J]. 轻工机械, 2019, 37(2): 62-67. doi:  10.3969/j.issn.1005-2895.2019.02.012

    ZHANG W F, ZHOU J. Fault diagnosis method of rolling bearing based on Dropout-CNN[J]. Light Industry Machinery, 2019, 37(2): 62-67. doi:  10.3969/j.issn.1005-2895.2019.02.012
    [23] CHEN T, WANG Z, YANG X, et al. A deep capsule neural network with stochastic delta rule for bearing fault diagnosis on raw vibration signals[J]. Measurement, 2019, 148(12): 106857.
    [24] CAI W, ZHOU J, WANG J, et al. A novel method for intelligent fault diagnosis of bearing based on capsule neural network[J]. Complexity, 2019(7): 1-17.
    [25] 缪裕青, 邹巍, 刘同来, 等. 基于参数迁移和卷积循环神经网络的语音情感识别[J]. 计算机工程与应用, 2019, 55(10): 135-140. doi:  10.3778/j.issn.1002-8331.1802-0089

    MIAO Y Q, ZOU W, LIU T L, et al. Speech emotion recognition model based on parameter transfer and convolutional recurrent neural network[J]. Computer Engineering and Applications, 2019, 55(10): 135-140. doi:  10.3778/j.issn.1002-8331.1802-0089
    [26] 赵小强, 张和慧. 基于交叉熵的改进NPE间歇过程故障检测算法[J]. 控制与决策, 2021, 36(2): 411-417. doi:  10.13195/j.kzyjc.2019.0725

    ZHAO X Q, ZHANG H H. Improved NPE batch process fault detection algorithm based on cross entropy[J]. Control and Decision, 2021, 36(2): 411-417. doi:  10.13195/j.kzyjc.2019.0725
  • [1] 刘颖, 袁莉, 祖铄迪, 范有腾, 谢宁, 杨阳.  基于多模态生理数据的情感识别综述 . 电子科技大学学报, 2024, 53(5): 720-731. doi: 10.12178/1001-0548.2024176
    [2] 张林鍹, 郑兴, 陈飞, 李名洪, 邱朝洁, 常乾坤.  深度学习的红外热成像电路板元器件识别研究 . 电子科技大学学报, 2024, 53(4): 560-567. doi: 10.12178/1001-0548.2023215
    [3] 张柏林, 姬港, 朱宇轩, 许向楠, 唐万斌.  基于深度学习的半监督信号调制样式识别算法 . 电子科技大学学报, 2024, 53(4): 511-518. doi: 10.12178/1001-0548.2022252
    [4] 李鑫尧, 陈洪波, 沈力源, 冯雪松, 李晶晶.  锂电池状态跨域估计算法综述 . 电子科技大学学报, 2024, 53(5): 749-761. doi: 10.12178/1001-0548.2024171
    [5] 陈作汉, 曹洁, 赵付青, 张建林.  基于构造学习的差分进化算法求解部分可分优化问题 . 电子科技大学学报, 2023, 52(3): 413-422. doi: 10.12178/1001-0548.2022082
    [6] 刘勇国, 高攀, 兰荻, 朱嘉静.  ECA-SKNet:玉米单倍体种子的卷积神经网络识别模型 . 电子科技大学学报, 2023, 52(6): 866-871. doi: 10.12178/1001-0548.2022361
    [7] 郭磊, 林啸宇, 王勇, 陈正武, 常伟.  基于深度学习的直升机旋翼声信号检测与识别一体化算法 . 电子科技大学学报, 2023, 52(6): 925-931. doi: 10.12178/1001-0548.2023108
    [8] 范兴奎, 刘广哲, 王浩文, 马鸿洋, 李伟, 王淑梅.  基于量子卷积神经网络的图像识别新模型 . 电子科技大学学报, 2022, 51(5): 642-650. doi: 10.12178/1001-0548.2022279
    [9] 周丰丰, 牛甲昱.  细胞穿膜肽识别问题的多特征融合卷积网络预测算法 . 电子科技大学学报, 2022, 51(4): 494-499. doi: 10.12178/1001-0548.2021391
    [10] 张强, 朱刘涛, 王彦琦.  基于改进胶囊神经网络的示功图诊断模型 . 电子科技大学学报, 2022, 51(1): 117-122. doi: 10.12178/1001-0548.2021132
    [11] 毛文清, 徐雅斌.  基于深度图卷积网络的社交机器人识别方法 . 电子科技大学学报, 2022, 51(4): 615-622, 629. doi: 10.12178/1001-0548.2021280
    [12] 吴子锐, 杨之蒙, 蒲晓蓉, 徐杰, 曹晟, 任亚洲.  面向特征生成的无监督域适应算法 . 电子科技大学学报, 2022, 51(4): 580-585, 607. doi: 10.12178/1001-0548.2021314
    [13] 刘楠, 张凤荔, 王瑞锦, 张志扬, 赖金山.  融合元路径学习和胶囊网络的社交媒体谣言检测方法 . 电子科技大学学报, 2022, 51(4): 608-614. doi: 10.12178/1001-0548.2021219
    [14] 周书田, 颜信, 谢镇汕.  视频人脸识别中高效分解卷积与时间金字塔网络研究 . 电子科技大学学报, 2021, 50(2): 231-235. doi: 10.12178/1001-0548.2020319
    [15] 吴涢晖, 赵子天, 陈晓雷, 邹士亚.  大气低频声信号识别深度学习方法研究 . 电子科技大学学报, 2020, 49(5): 758-765. doi: 10.12178/1001-0548.2019297
    [16] 毛远宏, 贺占庄, 马钟.  重构迁移学习的红外目标分类 . 电子科技大学学报, 2020, 49(4): 609-614. doi: 10.12178/1001-0548.2019162
    [17] 田文洪, 曾柯铭, 莫中勤, 吝博强.  基于卷积神经网络的驾驶员不安全行为识别 . 电子科技大学学报, 2019, 48(3): 381-387. doi: 10.3969/j.issn.1001-0548.2019.03.012
    [18] 李彦冬, 雷航, 郝宗波, 唐雪飞.  基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
    [19] 刘郁林, 王国鹏, 罗颖光.  部分W-分离正交语音信号的盲分离方法 . 电子科技大学学报, 2010, 39(2): 186-190. doi: 10.3969/j.issn.1001-0548.2010.02.007
    [20] 王卫星, 曾基兵.  冗余提升不可分离小波的图像融合方法 . 电子科技大学学报, 2009, 38(1): 13-16.
  • 加载中
图(3) / 表(4)
计量
  • 文章访问数:  6567
  • HTML全文浏览量:  2022
  • PDF下载量:  92
  • 被引次数: 0
出版历程
  • 收稿日期:  2022-03-22
  • 修回日期:  2023-01-29
  • 网络出版日期:  2023-05-26
  • 刊出日期:  2023-05-28

轻量型胶囊网络语音情感识别方法

doi: 10.12178/1001-0548.2022086
    基金项目:  国家自然科学基金(61702093);国家重点研发计划(2018YFE0196000);黑龙江省自然科学基金(F2018003);黑龙江省博士后专项(LBH-Q20077)
    作者简介:

    王颖(1986 − ),女,副教授,主要从事深度学习、情感计算、智能优化等方面的研究

    通讯作者: 王颖,E-mail:nepuwy@163.com
  • 中图分类号: TN912.3

摘要: 针对目前语音情感识别模型参数多、运算量大、训练速度慢等问题,提出了一种适用于小数据集、轻量型的网络模型。模型以胶囊网络为基础结构,引入深度可分离卷积模块代替胶囊网络中原有的卷积层以减少计算量。基于迁移学习提取普适的底层图像特征,利用语谱图来微调整个网络,减弱模型在小数据集上的过拟合现象。再利用夹角余弦来计算动态路由结构中向量的相似度,提高动态路由算法性能。实验结果表明,轻量型胶囊网络的识别率和运算速度均优于对比的7种深度学习网络模型。

English Abstract

王颖, 高胜. 轻量型胶囊网络语音情感识别方法[J]. 电子科技大学学报, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
引用本文: 王颖, 高胜. 轻量型胶囊网络语音情感识别方法[J]. 电子科技大学学报, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
WANG Ying, GAO Sheng. A Speech Emotion Recognition Method Based on Lightweight Capsule Network[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
Citation: WANG Ying, GAO Sheng. A Speech Emotion Recognition Method Based on Lightweight Capsule Network[J]. Journal of University of Electronic Science and Technology of China, 2023, 52(3): 423-429. doi: 10.12178/1001-0548.2022086
  • 语音情感识别是建立语音信号与人类情感之间映射关系的一种方法[1],主要包括情感特征提取和分类模型建立两部分工作。情感特征提取的好坏是影响语音情感识别准确率的关键[2]。然而由于人类情感的复杂性和多样性,使得传统的语音情感特征提取方法面临一定挑战[3]。近年来,深度学习依靠其较强的学习非线性样本特征及复杂系统建模的能力,为语音情感识别研究带来了很大进展。文献[4]结合深度神经网络和HMM(hidden Markov model)方法,在柏林数据集上进行情感识别验证,识别率达到77.92%。文献[5]以TIMIT语音数据库(由德州仪器TI、麻省理工学院MIT和坦福研究院SRI合作构建的声学-音素连续语音语料库)作为数据源,在DNN(deep neural networks)中引入CNN(convolutional neural network)模型,与DNN相比识别准确率获得了较大提升。文献[6]以AlexNet网络模型为基础进行语音信号的情感分析,获得了较好的识别效果。文献[7]提出了一种基于注意力的长短期记忆网络(long short term memory, LSTM)的语音情感识别方法,分别在3个情感语料库上进行了实验,获得了理想的识别精度。文献[8]提出了一种基于深度学习的多模式权重网络模型,利用语音声学特征、语音转化成文本信息后的语义特征、语音频谱特征建立了3种分类器。然后基于这3种分类器的分类结果作为权重并构建权重网络分类器以实现语音情感识别。文献[9]以MFCC(Mel frequency cepstrum coefficient)、波形图、语谱图并行作为输入,分别设计不同的CNN网络模型,然后结合注意力机制获得最终分类结果,并在柏林情感语料库(EMO-DB)和多模态情绪识别数据集(IEMOCAP)上验证了所提方法的有效性。文献[10]提取语音文件的梅尔频谱系数、色谱图、语谱图、Tonnetz等参数作为CNN网络的输入进行语音情感识别,并在情感说话/歌唱视听数据集(RAVDSS)、EMO-DB以及IEMOCAP数据集上进行了实验,分别得到71.61%(8个类别)、86.1%(7个类别)和64.3%(4个类别)的准确率。

    尽管深度学习的广泛应用使得语音情感识别的性能有了显著提升,但是深度学习的识别效果需要海量样本数据作为支撑,如果样本数据不足,模型会受到过拟合因素的影响且训练难度增加,识别准确率下降[11]。此外,神经元的输入输出均为标量形式导致隐含特征提取不足,且池化层的引入也会造成有用特征信息的丢失。考虑到传统卷积神经网络的缺点,文献[12]提出了胶囊网络(capsule network),它的神经元输入输出改为向量形式,可以保留确切的空间位置等信息,与此同时舍弃了池化层结构,只需较小的数据集就能训练出比较优秀的网络,已在机械设备故障诊断等领域中初露锋芒[13-14]。文献[15]利用胶囊网络对滚动轴承进行故障诊断,分类精度上达到了99.95% ,在收敛速度方面得到较大的提高,并对网络模型的自适应挖掘高层特征能力进行了验证。文献[16]利用胶囊结构构建向量神经元,引入Inception结构和空间注意力机制进行特征提取,实现了滚动轴承故障诊断,在噪声环境下能够得到良好的诊断结果。

    本文提出了一种轻量型胶囊网络(lightweight capsule network, LCN)进行语音情感识别。以胶囊网络作为主干网络,利用其矢量化特性和动态路由算法充分挖掘特征空间信息。同时在LCN中融合深度分离卷积和参数迁移,进一步降低了网络计算量、减弱了模型在小数据集上的过拟合现象。通过试验证明了该方法的适用性,为快速精准的语音情感识别提供参考。

    • 深度可分离卷积[17-19](depthwise separable convolutions)将通道域和空间域分开处理,将标准的卷积操作分解成深度卷积(depthwise convolution)和逐点卷积(pointwise convolution)两步。深度卷积层卷积核的数量与输入特征图的通道数相同,每个卷积核只和输入的一个通道进行卷积。逐点卷积是利用通道数相同、大小为1×1的卷积核将上一层输出的不同通道特征图进行线性组合,这种分解能够大幅减少计算量和模型参数个数。

      1) 标准卷积层是以${D_F} \times {D_F} \times M$作为输入,以${D_G} \times {D_G} \times N$作为输出,卷积核为${D_K} \times {D_K} \times M \times N$,一个标准卷积层计算消耗为:

      $$ {D_K} \times {D_K} \times M \times N \times {D_F} \times {D_F} $$

      2) 深度卷积核为$M$${D_K} \times {D_K} \times 1$,计算消耗为:

      $$ {D_K} \times {D_K} \times M \times {D_F} \times {D_F} $$

      3) 逐点卷积核为$N$$1 \times 1 \times M$,计算消耗为:

      $$ M \times N \times {D_F} \times {D_F} $$

      通过二者的比值可以看出模型计算量得到了大幅度减小:

      $$ \frac{{{D_K} \times {D_K} \times M \times {D_F} \times {D_F} + M \times N \times {D_F} \times {D_F}}}{{{D_K} \times {D_K} \times M \times N \times {D_F} \times {D_F}}} = \frac{1}{N} + \frac{1}{{D_K^2}} $$
    • 文献[20-24]提出了胶囊网络,其由胶囊组成,胶囊是一组神经元,如图1所示。

      图  1  胶囊结构

      网络主要包括卷积层、基础胶囊层和数字胶囊层,其与卷积神经网络主要存在以下区别:输入从标量神经元变为向量胶囊,与标量神经元相比具有更丰富的表达能力;激活函数从ReLU改为Squash激活函数;池化层被动态路由替代。

      低层特征向量${{\boldsymbol{u}}_i}$为输入向量,分别乘上对应的权重矩阵${{\boldsymbol{w}}_{ij}}$进而得到高层特征向量${{\boldsymbol{u}}_{j|i}}$${{\boldsymbol{u}}_{j|i}}$乘上${{\boldsymbol{c}}_{ij}}$再进行累加求和得到${{\boldsymbol{S}}_j}$,其中${{\boldsymbol{c}}_{ij}}$由动态路由决定。利用Squash激活函数对${{\boldsymbol{S}}_j}$进行非线性压缩变换得到输出向量${{\boldsymbol{v}}_j}$,Squash激活函数将模长压缩到0~1之间,以表示分类概率,且${{\boldsymbol{v}}_j}$${{\boldsymbol{S}}_j}$同向,具体计算如下:

      $$ {{\boldsymbol{v}}_j} = \frac{{||{{\boldsymbol{S}}_j}|{|^2}}}{{1 + ||{{\boldsymbol{S}}_j}|{|^2}}} * \frac{{{{\boldsymbol{S}}_j}}}{{||{{\boldsymbol{S}}_j}|{|^{}}}} $$

      胶囊神经元之间采用动态路由的方式对输入的特征进行聚类,即根据特征的相似程度对特征进行选择,从而替代池化层。算法过程如下:

      1) ${\boldsymbol{b}}{}_{ij}$为相邻层两个胶囊间的特征传递参数,初始值为0;

      2)利用softmax计算两层胶囊间权重${{\boldsymbol{c}}_{ij}} = \dfrac{{\exp ({{\boldsymbol{b}}_{ij}})}}{{\displaystyle\sum\limits_k {\exp ({{\boldsymbol{b}}_{ik}})} }}$

      3) 激活向量${{\boldsymbol{v}}}_{j}=\text{Squash}\left({\displaystyle \sum {{\boldsymbol{c}}}_{ij}} {{\boldsymbol{u}}}_{ij}\right)$

      4) 更新权重,${{\boldsymbol{b}}}_{ij}={{\boldsymbol{b}}}_{ij}+{{\boldsymbol{u}}}_{i} {{\boldsymbol{v}}}_{j}$

    • 为减小胶囊网络的计算密集,降低模型参数数量,提高小样本识别准确率,本文提出一种轻量型的胶囊网络,模型结构如图2所示。

      图  2  LCN模型结构

      1)引入深度可分离卷积结构

      引入深度可分离卷积模块替换原有胶囊网络中的标准卷积结构,模块共包括7个深度可分离卷积层和3个最大池化层,各层级信息如表1所示。DSC代表深度可分离卷积,“DSC-DC”代表逐通道卷积,“DSC-PC”代表逐点卷积,输入为256×256×3。

      表 1  DSC模块各层参数

      层号层/卷积核大小卷积核个数/个参数个数/个输出形状
      1DSC-DC 3×3×133×3×3+1×1×3×64=219256, 256, 64
      DSC-PC 1×1×364
      2DSC-DC 3×3×1643×3×64+1×1×64×64=4672256, 256, 64
      DSC-PC 1×1×6464
      3Maxpool 2×20128, 128, 64
      4DSC-DC 3×3×1643×3×64+1×1×64×128=8768128, 128, 128
      DSC-PC 1×1×64128
      5DSC-DC 3×3×11283×3×128+1×1×128×128=17536128, 128, 128
      DSC-PC 1×1×128128
      6Maxpool 2×2064, 64, 128
      7DSC-DC 3×3×11283×3×128+1×1×128×256=3392064, 64, 256
      DSC-PC 1×1×128256
      8DSC-DC 3×3×12563×3×256+1×1×256×256=6784064, 64, 256
      DSC-PC 1×1×256256
      9Maxpool 2×2032, 32, 256
      10DSC-DC 5×5×12565×5×256+1×1×256×256=7193628, 28, 256

      2) 改变动态路由权重更新方法

      动态路由算法原来的权重更新方法为向量的点乘法,即${{\boldsymbol{b}}}_{ij}={{\boldsymbol{b}}}_{ij}+{{\boldsymbol{u}}}_{i} \cdot {{\boldsymbol{v}}}_{j}$。为进一步优化动态路由结构中向量相似度的计算方法,本文引入夹角余弦来计算向量相似度。余弦相似度的实质是比较几何空间中两个向量的关联程度,降低对绝对值的敏感性,适用于离散数据之间距离的测量。夹角余弦越大,表示两个向量的夹角越小,相似度越高;夹角余弦越小,表示两个向量的夹角越大,相似度越低。具体计算如下:

      $$ {{\boldsymbol{b}}}_{ij}={{\boldsymbol{b}}}_{ij}+\frac{{{\boldsymbol{u}}}_{i} \cdot {{\boldsymbol{v}}}_{j}}{\left|\right|{{\boldsymbol{u}}}_{i}\left|\right| \left|\right|{{\boldsymbol{v}}}_{i}\left|\right|} $$

      式中,${{\boldsymbol{u}}_i}$为第$i$个卷积层输出即胶囊网络的输入;${{\boldsymbol{v}}_j}$为胶囊网络输出向量;${\boldsymbol{b}}{}_{ij}$为相邻层两个胶囊间的特征传递参数。

      3) 参数迁移

      ImageNet是现有最大的图像识别数据集,其包含了1 400多万张有标注图像。通过对ImageNet进行预训练可获得丰富的底层特征,但ImageNet数据与语音情感数据存在较大差异,因此拟采用迁移学习方法对ImageNet预训练模型进行微调,缓解小样本情感数据易造成过拟合的问题。

      本文首先在ImageNet源任务上对模型进行预训练,然后用语音情感数据对预训练获得的模型参数进行微调,找到能够共享的模型参数,从而提高识别精度。由于低层网络学习到的图片特征为泛化特征,如边角、颜色等,不同的数据集差别不大,因此这部分参数迁移后可不参与微调[25]。而高层网络学习的特征能体现出差异性和全局性,参数迁移后不能冻结,需进行微调。

    • 利用损失函数调整预测值与实际值的差异,反向优化模型参数,提高模型识别准确率。在训练过程中,间隔损失函数(margin loss)[26]使得胶囊网络倾向于输出一个长向量和若干个短向量,向量的长度代表胶囊存在的概率。因此,LCN模型采用间隔损失函数,其表达式为:

      $$ \begin{gathered} {L_k} = {T_k}\max {(0,{m^ + } - ||{{\boldsymbol{V}}_k}||)^2}+ \\ \lambda (1 - {T_k})\max {(0,||{{\boldsymbol{V}}_k}|| - {m^ - })^2} \\ \end{gathered} $$

      式中,${L_k}$表示类别K的间隔损失,取值1表示第K类存在,否则取值0;${m^ - }$取值0.1,是$||{{\boldsymbol{V}}_k}||$下边界,避免假阴性;${m^ + }$取值0.9,是$||{{\boldsymbol{V}}_k}||$上边界,避免假阳性;$\lambda $取值0.5,为比例系数。总损失为各样例损失之和。

    • 本文的数据源为中国科学院自动化研究所录制的CASIA汉语情感语料数据库,该数据库由2男2女共4位录音人在纯净录音环境下(信噪比约为35 dB)对500句文本进行演绎录制而成,包括6类情感(高兴/joy、悲哀/sadness、生气/anger、惊吓/shock、中性/neutral、害怕/fear)。采样率为16 kHz,16 bit量化,最终保留其中9 600句。为验证LCN模型在小样本集上的识别性能,本实验将数据源分成10份,每份包含960句,其中训练集800句,测试集160句。经过10次轮换训练及测试,取平均值作为最终的识别结果。

    • 对语音数据集进行分帧、加窗和傅里叶变换,生成语谱图集合:

      $$ {S_p} = \sum\limits_{t = 0}^{T - 1} {{\rm{FFT}}(s(t)h(t){{\rm{e}}^{ - \tfrac{{2{\text{π}} i}}{T}kt}})} $$

      式中,$s(t)$为输入语音信号;$T$为窗长;$h(t)$为汉明窗函数;${\rm{FFT}}$为傅里叶变换函数;$k \in [0,T]$。实验中汉明窗长度$T$取512,语音帧叠加为240个波形点数,生成语谱图为256×256×3的图像。

    • 为检验模型性能,将LCN分别与以下模型进行对比。

      1) 普通卷积神经网络CNN,模型结构如表2所示;

      2) VGG-16,模型结构如表2

      3) ResNet-50,模型结构如表2

      4) 传统胶囊网络CN,模型结构如图1

      5) CN-DSC,在4)的基础上融入深度可分离卷积模块,即将4)中的卷积层替换为DSC;

      6) CN-DSC-PM,在5)的基础上引入参数迁移,即对5)中的DSC层引入参数迁移;

      7) CN-DSC-DR,在5)的基础上改进动态路由算法。

      不同方案下的语音情感识别结果如表3所示。

      对比模型1)、2)、3)、4)发现,ResNet-50由于网络层数较多、结构复杂使其在准确率和收敛速度上均表现较差。模型4)与模型1)、2)、3)相比尽管收敛速度没有明显改善,但在小数据集上的识别准确率得到了一定的提升,从而也验证了胶囊网络在小数据集上的有效性。对比模型4)、5)发现DSC模块的引入使得网络在运算时间、模型参数量和复杂度方面有了明显提升,进而提升了情感识别的实时性。对比模型5)、6)得出采用参数迁移的方式提高了识别的准确率和训练速度,有效避免了过拟合现象。模型6)首先利用ImageNet数据集进行训练,然后从训练好的网络模型中选取不同的DSC层参数进行迁移,对不同迁移方案的识别结果进行了进一步对比。通过表4数据可以看出迁移前五层效果最佳,而迁移前六层和前七层准确率反而下降了,原因可能是层数越高ImageNet数据集和CASIA数据集的特征差别越明显。

      表 2  模型结构

      CNNVGG-16ResNet-50
      ${\rm{Conv}}:\left[3\times \mathrm{3,64}\right]\times 1$ ReLU
      ${\rm{MP} }:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{C}}\text{{\rm{onv}}}:\left[3\times \mathrm{3,64}\right]\times 3$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{C} }\text{{\rm{onv}}}:\left[7\times \mathrm{7,64}\right]\times 1$
      ${\rm{MP}}:\left[3\times 3\right],{\rm{stride}}=2$
      ${\rm{Conv}}:\left[3\times \mathrm{3,128}\right]\times 1$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv}}:\left[3\times \mathrm{3,128}\right]\times 3$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{strid}}e=2$
      ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,64}\\ 3\times \mathrm{3,64}\\ 1\times \mathrm{1,256}\end{array}\right]\times 3$
      ${\rm{Conv}}:\left[3\times \mathrm{3,256}\right]\times 1$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv}}:\left[3\times \mathrm{3,256}\right]\times 3$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,128}\\ 3\times \mathrm{3,128}\\ 1\times \mathrm{1,512}\end{array}\right]\times 4$
      ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 1$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 3$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,256}\\ 3\times \mathrm{3,256}\\ 1\times \mathrm{1,1\;024}\end{array}\right]\times 6$
      ${\rm{Conv}}:\left[3\times \mathrm{3,512}\right]\times 3$ ReLU
      ${\rm{MP}}:\left[2\times 2\right],{\rm{stride}}=2$
      ${\rm{Conv} }:\left[\begin{array}{l}1\times \mathrm{1,512}\\ 3\times \mathrm{3,512}\\ 1\times \mathrm{1,2\;048}\end{array}\right]\times 3$
      ${\rm{FC}}$${\rm{FC}}$${\rm{FC}}$

      表 3  不同方案的实验结果

      模型情感类型准确率平均值/%耗时/h
      高兴悲哀生气惊吓中性害怕
      CNN80.5584.1985.7581.4482.6184.8383.239.6
      VGG-1679.6583.6385.0580.5781.8284.0982.479.8
      ResNet-5078.0183.7184.3680.6581.2383.7281.9510.7
      CN83.4288.4590.0484.9386.9188.7487.089.5
      CN-DSC86.4592.7993.1689.1690.4392.5890.767.0
      CN-DSC-PM92.3193.9395.4192.5893.1294.3293.605.1
      CN-DSC-DR90.7193.7194.2891.8792.1193.5992.715.9
      LCN90.9595.196.6293.4694.8595.1494.354.9

      表 4  迁移不同DSC层参数结果对比

      迁移层准确率/%耗时/h
      前三层91.245.4
      前四层92.385.3
      前五层93.605.1
      前六层92.105.0
      前七层91.075.0

      对比模型5)、7)得出动态路由算法中权重更新方法的改进增加了对胶囊向量方向的考虑,获得了更高的识别精度。综合对比模型LCN与模型1)~7),得出模型LCN在小样本集的应用中具有更高的准确率和更快的训练速度。迭代过程中LCN在测试集和验证集上的准确率和损失值变化如图3所示,可以看出,本文模型在迭代次数为20时就已收敛且获得了较高的准确率。

      图  3  LCN在测试集和验证集上准确率和损失值的迭代曲线

    • 本文通过对语音情感识别的研究,提出了一种轻量化胶囊网络识别模型,并在小样本数据上进行了验证。实验结果表明:结合深度可分离卷积的胶囊网络可有效降低模型复杂度;模型参数迁移可以进一步避免微数据集带来的过拟合现象;动态路由算法的改进进一步提高了模型的精度。该方法取得了较好的实验效果,在未来的工作中,将继续研究轻量化模型的构建方法,提高识别的准确度和实时性。

参考文献 (26)

目录

    /

    返回文章
    返回