基于互信息自适应估计的说话人确认方法

陈晨; 季超群; 李文文; 陈德运; 王莉莉; 杨海陆

doi:10.12178/1001-0548.2022174

基于互信息自适应估计的说话人确认方法

doi: 10.12178/1001-0548.2022174

陈晨^{1, 2, ,},
季超群¹,
李文文¹,
陈德运^{1, 2},
王莉莉^{1, 2},
杨海陆^{1, 2}

1.
哈尔滨理工大学计算机科学与技术学院　哈尔滨　150080
2.
哈尔滨理工大学计算机科学与技术博士后流动站　哈尔滨　150080

基金项目: 国家自然科学基金(62101163)；黑龙江省自然科学基金(LH2021F029)；中国博士后科学基金(2021M701020)；黑龙江省博士后专项(LBH-Z20020)；黑龙江省普通高校基本科研业务费(2020-KYYWF-0341)

详细信息

作者简介:
陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

通讯作者: 陈晨，E-mail： chenc@hrbust.edu.cn

中图分类号: TP391.4

Mutual Information Adaptive Estimation for Speaker Verification

CHEN Chen^{1, 2
, ,},
JI Chaoqun¹,
LI Wenwen¹,
CHEN Deyun^{1, 2},
WANG Lili^{1, 2},
YANG Hailu^{1, 2}

1.
School of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080
2.
Postdoctoral Research Station of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080

摘要: 为了更准确地度量特征间的关系，提出了一种基于互信息自适应估计的目标函数表示方法。将具有自适应特性的度量方法引入到目标函数中，该目标函数以最大化类内相似度、最小化类间相似度为目标，并能根据深层特征的真实分布情况对相似度进行动态的调整，从而使深度神经网络朝着区分性更强的方向进行优化。此自适应度量方式还被用于特征筛选，其能够根据特征的特点进行有针对性的参数更新，使得选取的特征具有典型性，提升目标函数对于深度神经网络优化方向的指导能力。实验结果表明，相比于其他深度神经网络方法，该方法的相对等错误率最多降低了28%，显著提升了说话人确认系统的性能。
- 互信息估计 /
- 目标函数 /
- 自适应学习 /
- 特征表示学习 /
- 说话人确认
Abstract: In order to measure the relationship between features more accurately, an objective function representation method based on mutual information adaptive estimation is proposed for speaker verification systems. This objective function introduces an adaptive metric learning method, and the optimization objective is maximizing the intra-class similarity and minimizing the inter-class similarity. Meanwhile, the objective function can dynamically adjust the similarity according to the real distribution of deep features. Based on dynamically adjusting, the deep neural networks can be optimized towards the direction of stronger discrimination. In addition, the adaptive metric method is used for feature sampling and update the parameters according to the characteristics of the features. Thus, the feature can be more typical and beneficial to improve the supervised ability of the optimization direction of the deep neural networks. Experimental results show that, compared with other deep neural networks, the relative equal error rate of the proposed method is reduced by up to 28%, and the performance of the speaker verification system is significantly improved.
- mutual information estimation /
- objective function /
- representation learning /
- self-adaption /
- speaker verification

图 1 本文所提出方法的过程示意图

下载: 全尺寸图片幻灯片

图 2 收敛性曲线对比图

下载: 全尺寸图片幻灯片

图 3 不同特征的可视化对比图

下载: 全尺寸图片幻灯片

表 1 不同方法的性能对比

模型	方法	EER/%	minDCF
统计模型	MFCC+GMM-UBM^[20]	15.00	0.80
	MPNCC+GMM-UBM^[23]	8.05	0.86
	ATFS+GMM-UBM^[23]	7.23	0.76
	MFCC+i-vector+PLDA^[21]	8.80	0.73
深度神经网络	AutoSpeech(N=8,C=128)^[24]	8.95	-
	VGG^[25]	7.00	0.68
	SincNet^[26]	7.20	-
	VGG-M+Contrastive+NPLDA	8.37	0.82
	VGG-M+Triplet+NPLDA	7.40	0.72
	VGG-M+AM-softmax+NPLDA	7.83	0.71
	VGG-M+Contrastive	7.62	0.66
	VGG-M+Triplet	7.59	0.66
	VGG-M+AM-softmax	7.52	0.65
	VGG-M+MI^[17]	6.61	0.61
	VGG-M+MIAD	6.60	0.62
	ResNet34+Contrastive+NPLDA	8.56	0.84
	ResNet34+Triplet+NPLDA	8.13	0.79
	ResNet34+AM-softmax+NPLDA	7.57	0.70
	ResNet34+Contrastive	7.98	0.69
	ResNet34+Triplet	7.87	0.68
	ResNet34+AM-softmax	7.34	0.62
	ResNet34+MIAD	6.44	0.60

下载: 导出CSV

[1]	ZHANG D D , ZUO W. Computational intelligence-based biometric technologies[J]. IEEE Computational Intelligence Magazine, 2007, 2(2): 26-36. doi: 10.1109/MCI.2007.353418
[2]	李明, 张勇, 李军权, 等. 改进PSO-SVM在说话人识别中的应用[J]. 电子科技大学学报, 2007, 36(6): 1345-1349. LI M, ZHANG Y, LI J Q, et al. Application of improved PSO-SVM approach in speaker recognition[J]. Journal of University of Electronic Science and Technology of China, 2007, 36(6): 1345-1349.
[3]	CHATFIELD K, SIMONYAN K, VEDALDI A, et al. Return of the devil in the details: Delving deep into convolutional nets[C]//Proceedings of the British Machine Vision Conference 2014. Nottingham: BMVC, 2014: 1-12.
[4]	NAGRANI A, CHUNG J S, ZISSERMAN A. VoxCeleb: A large-scale speaker identification dataset[C]//Proceeding of the Annual Conference of the International Speech Communication Association. Stockholm: Interspeech, 2017: 2610-2620.
[5]	CHUNG J S, NAGRANI A, ZISSERMAN A. Voxceleb2: Deep speaker recognition[C]//Proceeding of the Annual Conference of the International Speech Communication Association. Hyderabad: Interspeech, 2018: 1086-1090.
[6]	BAI Z, ZHANG X L. Speaker recognition based on deep learning: An overview[J]. Neural Networks, 2021, 140: 65-99. doi: 10.1016/j.neunet.2021.03.004
[7]	HUANG Z L, WANG S, YU K. Angular softmax for short-duration text-independent speaker verification[C]// Proceeding of the Annual Conference of the International Speech Communication Association. Hyderabad: Interspeech, 2018: 3623-3627.
[8]	YU Y Q, FAN L, LI W J. Ensemble additive margin softmax for speaker verification[C]//IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton: IEEE, 2019: 6046-6050.
[9]	ZHOU D, WANG L, LEE K A, et al. Dynamic margin softmax loss for speaker verification[C]// Proceeding of the Annual Conference of the International Speech Communication Association. Shanghai: Interspeech, 2020: 3800-3804.
[10]	ZHONG Q, DAI R, ZHANG H, et al. Text-independent speaker recognition based on adaptive course learning loss and deep residual network[J]. EURASIP Journal on Advances in Signal Processing, 2021(1): 1-16.
[11]	LI N, TUO D, SU D, et al. Deep discriminative embeddings for duration robust speaker verification[C] //Proceeding of the Annual Conference of the International Speech Communication Association. Hyderabad: Interspeech, 2018: 2262-2266.
[12]	LIU Y, HE L, LIU J. Large margin softmax loss for speaker verification[C]//Proceeding of the Annual Conference of the International Speech Communication Association. Graz: Interspeech, 2019: 2873-2877.
[13]	ZHANG Y, YU M, LI N, et al. Seq2seq attentional Siamese neural networks for text-dependent speaker verification[C]//ICASSP 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton: IEEE, 2019: 6131-6135.
[14]	BHATTACHARYA G, ALAM M J, GUPTA V, et al. Deeply fused speaker embeddings for text-independent speaker verification[C]//Proceeding of the Annual Conference of the International Speech Communication Association. Hyderabad: Interspeech, 2018: 3588-3592.
[15]	CHUNLEI Z, KAZUHITO K, HANSEN J H L. Text-Independent speaker verification based on triplet convolutional neural network embeddings[J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018, 26(9): 1633-1644. doi: 10.1109/TASLP.2018.2831456
[16]	BAI Z, ZHANG X L, CHENG J. Partial AUC optimization based deep speaker embeddings with class-center learning for text-independent speaker verification[C]//ICASSP 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Barcelona: IEEE, 2020: 6819-6823.
[17]	陈晨, 肜娅峰, 季超群, 等. 基于深层信息散度最大化的说话人确认方法[J]. 通信学报, 2021, 42(7): 231-237. CHEN C, RONG Y F, JI C Q, et al. Speaker verification method based on deep information divergence maximization[J]. Journal on Communications, 2021, 42(7): 231-237.
[18]	KYE S M, JUNG Y, LEE H B, et al. Meta-learning for short utterance speaker recognition with imbalance length pairs[C]//Proceeding of the Annual Conference of the International Speech Communication Association. Shanghai: Interspeech, 2020: 2982-2986.
[19]	RAMOJI S, KRISHNAN P, GANAPATHY S. NPLDA: A deep neural PLDA model for speaker verification[C]//Odyssey: The Speaker and Language Recognition Workshop. Tokyo: Odyssey, 2020: 202-209.
[20]	REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1-3): 19-41. doi: 10.1006/dspr.1999.0361
[21]	DEHAK N, KENNY P J, DEHAK R, et al. Front-End factor analysis for speaker verification[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(4): 788-798.
[22]	杨成福, 章毅. 相关向量机及在说话人识别应用中的研究[J]. 电子科技大学学报, 2010, 39(2): 311-315. doi: 10.3969/j.issn.1001-0548.2010.02.034 YANG C F, ZHANG Y. Study to speaker recognition using RVM[J]. Journal of University of Electronic Science and Technology of China, 2010, 39(2): 311-315. doi: 10.3969/j.issn.1001-0548.2010.02.034
[23]	ATHULYA M S, SATHIDEVI P S. Speaker verification from codec-distorted speech through combination of affine transform and feature switching[J]. Circuits, Systems, and Signal Processing, 2021, 40(12): 6016-6034. doi: 10.1007/s00034-021-01747-0
[24]	DING S, CHEN T, GONG X, et al. AutoSpeech: Neural architecture search for speaker recognition[C]// Proceeding of the Annual Conference of the International Speech Communication Association. Shanghai: Interspeech, 2020: 916-920.
[25]	SHON S, TANG H, GLASS J. Frame-Level speaker embeddings for text-independent speaker recognition and analysis of end-to-end model[C]//2018 IEEE Spoken Language Technology Workshop (SLT). Athens: IEEE, 2018: 1007-1013.
[26]	RAVANELLI M, BENGIO Y. Speaker recognition from raw waveform with Sincnet[C]//2018 IEEE Spoken Language Technology Workshop (SLT). Athens: IEEE, 2018: 1021-1028.
[27]	LAURENS V D M, HINTON G. Visualizing data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9: 2579-2605.

[1]	张婷婷, 杨红雨, 林毅. 融合表示学习的中医面部穴位检测框架 . 电子科技大学学报, 2023, 52(2): 175-181. doi: 10.12178/1001-0548.2022392
[2]	郁湧, 钱天宇, 高悦, 艾合买提尼牙孜, 刘金卓. 基于结构平衡理论和高阶互信息的符号网络表示学习算法 . 电子科技大学学报, 2023, 52(5): 780-788. doi: 10.12178/1001-0548.2022168
[3]	毛远宏, 贺占庄, 马钟. 重构迁移学习的红外目标分类 . 电子科技大学学报, 2020, 49(4): 609-614. doi: 10.12178/1001-0548.2019162
[4]	. 一种自适应在线学习测评方法 . 电子科技大学学报, 2020, 49(5): 1-7. doi: 10.12178/1001-0548.2019259
[5]	郝晓丽, 刘伟, 牛保宁, 吕进来. 基于自适应学习率的运动目标高效检测算法 . 电子科技大学学报, 2020, 49(1): 123-130. doi: 10.12178/1001-0548.2019131
[6]	宋连宁, 叶雨农, 荣志, 胡俊, 聂在平. 基于自适应多层复源波束的多目标散射分析方法 . 电子科技大学学报, 2018, 47(4): 497-501. doi: 10.3969/j.issn.1001-0548.2018.04.004
[7]	章军辉, 李庆, 陈大鹏. 车辆多模式多目标自适应巡航控制 . 电子科技大学学报, 2018, 47(3): 368-375. doi: 10.3969/j.issn.1001-0548.2018.03.008
[8]	李厚彪, 樊庆宇, 耿广磊. 基于自适应同时稀疏表示的鲁棒性目标追踪 . 电子科技大学学报, 2018, 47(1): 1-12. doi: 10.3969/j.issn.1001-0548.2018.01.001
[9]	罗杨, 赵志钦. 基于互信息理论的MIMO天波超视距雷达波形优化方法 . 电子科技大学学报, 2017, 46(1): 27-31,60. doi: 10.3969/j.issn.1001-0548.2017.01.005
[10]	李彦冬, 雷航, 郝宗波, 唐雪飞. 基于多尺度显著区域特征学习的场景识别 . 电子科技大学学报, 2017, 46(3): 600-605. doi: 10.3969/j.issn.1001-0548.2017.03.020
[11]	邱静, 陈启明, 卢军, 程洪, 黄瑞. 下肢助力外骨骼机器人自适应阻抗控制研究 . 电子科技大学学报, 2016, 45(4): 689-695. doi: 10.3969/j.issn.1001-0548.2016.04.022
[12]	刘霞, 陈勇. 一类具有多种不确定性机器人系统的自适应控制 . 电子科技大学学报, 2015, 44(1): 61-66. doi: 10.3969/j.issn.1001-0548.2015.01.010
[13]	陈思宝, 徐丹洋, 罗斌. 一种非负稀疏近邻表示的多标签学习算法 . 电子科技大学学报, 2015, 44(6): 899-904. doi: 10.3969/j.issn.1001-0548.2015.06.018
[14]	何红洲, 周明天. 基于互信息量的生物信息数据特征标注方法 . 电子科技大学学报, 2013, 42(6): 916-920. doi: 10.3969/j.issn.1001-0548.2013.06.020
[15]	陈晓梅, 孟晓风, 王国华. 自适应阈值估计的MS模型仿真建模 . 电子科技大学学报, 2011, 40(1): 58-63. doi: 10.3969/j.issn.1001-0548.2011.01.011
[16]	曾翎, 刘斐, 乔辉. 基于互信息的功能磁共振图像配准 . 电子科技大学学报, 2008, 37(1): 138-140.
[17]	葛森, 黄大贵. 基于最大互信息方法的机械零件图像识别 . 电子科技大学学报, 2007, 36(4): 801-804.
[18]	范自柱, 刘二根, 徐保根. 互信息在图像检索中的应用 . 电子科技大学学报, 2007, 36(6): 1311-1314.
[19]	向中凡. Q学习角色值法在机器人足球比赛中的应用 . 电子科技大学学报, 2007, 36(4): 809-812.
[20]	许仕海, 张晓玲, 江勇, 吉宗海. 一维运动目标的特征估计 . 电子科技大学学报, 2005, 34(6): 767-770.

点击查看大图

图(3) / 表(1)

计量

文章访问数: 3963
HTML全文浏览量: 1044
PDF下载量: 65
被引次数: 0

全文HTML

生物特征识别是一项根据人类自身的生物特性进行身份鉴别的技术。近年来随着人工智能、大数据、云计算等技术的飞速发展，生物特征识别技术正越来越广泛地应用于监控、监视、网络安全和执法等方面^[1]。在众多生物特征识别技术中，说话人确认^[2]技术因兼顾生物特征的生理特性与行为特性，具有更高的安全性，备受研究者的广泛关注。

随着深度学习的快速发展，深度神经网络在很多领域都取得了较好的效果。视觉几何组−中等(visual geometry group-middle, VGG-M)网络^[3]最初应用于图像处理领域，由于其在图像处理领域的优异表现被各界关注，并应用于说话人确认任务的特征提取阶段^[4]。深层残差网络(deep residual networks, ResNet)^[5]则可将浅层数据直接传递到深层网络，有利于梯度优化并加快网络的训练效率。

在目标函数方面，最初以分类为目标的目标函数最为常见^[6]。这类目标函数主要围绕softmax损失从两个角度开展研究，一是通过增加不同类别决策边界间的距离来提升其区分能力，包括其变形角-softmax(angular softmax, A-softmax)损失^[7]、加性间隔softmax(additive margin softmax, AM-softmax)损失^[8]、动态加性间隔softmax(dynamic-additive margin softmax)^[9]、加性角间隔softmax(additive angular margin softmax, AAM-softmax)损失^[10]等；二是通过正则化的形式来增加softmax损失的区分性，这类方法通常以加权的形式建立起正则化器与softmax损失的联系，使用的正则化器一般也是可独立使用的损失函数，如中心(center)损失^[11]、环(ring)损失^[12]等。度量学习侧重于考虑特征间的类间与类内关系，能够帮助以分类为目标的目标函数更全面地计算特征间的相关度与区分度，是开放集度量学习问题。因此，以度量学习为目标的目标函数更适合确认任务。常见的以度量学习为目标的目标函数包括二元交叉熵损失^[13]、对比(contrastive)损失^[14]、三元组(triplet)损失^[15]、四元组损失^[16]、基于互信息(mutual information, MI)的目标函数^[17]等。且随着采样技术的研究与发展，仅以度量学习为优化目标的方法也能够具有理想的性能，与分类结合度量学习的方法具有相仿的效果^[18]。

以度量学习为目标的目标函数能够深度挖掘同类特征和异类特征相关性，使网络朝着类内相似和类间差异的方向进行更新。度量学习在计算距离时，通常采用传统的相似度计算方式，如欧氏距离打分、余弦距离打分等。由于其不具备参数，使得在相似度计算方面存在灵活性弱、适应性差等问题。当把这些传统的相似度计算方式应用于目标函数中时，并不能对特征间复杂的非线性关系进行有效表示。针对这一问题，可以有针对性地开发度量学习方法中的自适应能力，从而使目标函数能够根据特征的特点进行动态调整，并在此目标的指引下提升网络对特征表示的区分能力。考虑到自适应性的度量方式能够根据类内和类间的特征分布进行有针对性的参数更新，使得在该度量方式下选取的特征更具有典型性，更有利于目标函数对于网络的特征表示。基于此，本文利用互信息来衡量同类特征之间的相似性信息和异类特征之间的差异性信息，并将一种能够进行自适应学习的度量方法——神经概率线性判别分析(neural PLDA, NPLDA)^[19]引入到目标函数的表示中。经过NPLDA对embedding特征的真实情况进行动态调整后，基于互信息的目标函数能够更好地指引网络朝着类内相似化、类间差异化的方向更新。本文将此方法命名为互信息自适应估计(mutual information adaptive estimation, MIAD)，其将最大化互信息作为神经网络的优化目标。

3. 结束语

本文提出了一种基于互信息自适应估计的目标函数，该目标函数能够根据特征的实际情况进行动态调整，使得互信息估计能够挖掘到更有价值的同类、异类特征信息。该方法还将具有自适应能力的度量方法NPLDA应用于特征选取阶段，NPLDA能够根据特征的真实情况有针对性地更新参数，使选取的特征更典型，从而有效提升在此目标函数监督下网络的表示能力。从性能、收敛性、特征可视化3个方面的对比分析可以证明，本文方法在说话人确认任务上具有良好表现。在后续的研究工作中，考虑到NPLDA中的漏报与误报对应的是目标/非目标的确认任务，因此可以将其目标函数改进为基于互信息的损失，从而为整个网络的优化带来正向提升。

参考文献 (27)

姓名
邮箱
手机号码
标题
留言内容
验证码

留言板

基于互信息自适应估计的说话人确认方法

doi: 10.12178/1001-0548.2022174

作者简介:
陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

通讯作者: 陈晨，E-mail： chenc@hrbust.edu.cn

Mutual Information Adaptive Estimation for Speaker Verification

计量

基于互信息自适应估计的说话人确认方法

doi: 10.12178/1001-0548.2022174

1. 哈尔滨理工大学计算机科学与技术学院　哈尔滨　150080

2. 哈尔滨理工大学计算机科学与技术博士后流动站　哈尔滨　150080

作者简介:
陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

通讯作者: 陈晨，E-mail： chenc@hrbust.edu.cn

English Abstract

Mutual Information Adaptive Estimation for Speaker Verification

1. School of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080

2. Postdoctoral Research Station of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080

全文HTML

1.1. 目标函数表示

1.2. 三元组选取

1.3. 特征匹配

2.1. 实验数据库和评价标准

2.2. 实验性能对比与分析

2.3. 收敛性对比与分析

2.4. 可视化分析

目录

期刊在线

编辑办公

友情链接

留言板

基于互信息自适应估计的说话人确认方法

doi: 10.12178/1001-0548.2022174

作者简介: 陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

通讯作者: 陈晨，E-mail： chenc@hrbust.edu.cn

Mutual Information Adaptive Estimation for Speaker Verification

计量

出版历程

基于互信息自适应估计的说话人确认方法

doi: 10.12178/1001-0548.2022174

1. 哈尔滨理工大学计算机科学与技术学院 哈尔滨 150080 2. 哈尔滨理工大学计算机科学与技术博士后流动站 哈尔滨 150080

作者简介: 陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

通讯作者: 陈晨，E-mail： chenc@hrbust.edu.cn

English Abstract

Mutual Information Adaptive Estimation for Speaker Verification

1. School of Computer Science and Technology, Harbin University of Science and Technology Harbin 150080 2. Postdoctoral Research Station of Computer Science and Technology, Harbin University of Science and Technology Harbin 150080

全文HTML

1.1. 目标函数表示

1.2. 三元组选取

1.3. 特征匹配

2.1. 实验数据库和评价标准

2.2. 实验性能对比与分析

2.3. 收敛性对比与分析

2.4. 可视化分析

目录

期刊在线

编辑办公

友情链接

作者简介:
陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

1. 哈尔滨理工大学计算机科学与技术学院　哈尔滨　150080

2. 哈尔滨理工大学计算机科学与技术博士后流动站　哈尔滨　150080

作者简介:
陈晨(1990 − )，女，博士，主要从事语音信号处理、音频信息分析和说话人识别等方面的研究

1. School of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080

2. Postdoctoral Research Station of Computer Science and Technology, Harbin University of Science and Technology　Harbin　150080