-
人类的情感是在对外界刺激和内部状态的反应中所产生的心理和生理体验[1],不仅包括主观的感觉,还伴随着生理反应和行为表现。影响着我们的决策、行为、社交互动以及整体的心理健康。
在人机交互的过程中,计算机能否识别出人的情感并作出相应的决策呢?这就需要计算机实现对人类情感的计算。情感计算(Affective Computing, AC)研究涉及多种学科,目的是致力于开发能够识别人类情感,并对其进行解释和模拟的计算系统。核心理念是使计算机能够与人类以更自然、更直观的方式互动,理解和表达情感,通过获取情感的变化信息来辅助人类完成任务,从而实现更智能的人机交互。情感计算包含多个方面的研究,如情感识别、情感合成、情感建模和情感表达。
情感计算的概念最初是在1995年由Picard提出,他认为忽视情感的计算系统是片面的,无法真正理解和适应人类的需求。虽然在此之前人机交互和人工智能领域的研究已经取得了一定进展,但这些研究主要集中在逻辑推理、数据处理和任务执行等方面,情感因素往往被忽略[2]。随着研究的深入,科学家们逐渐认识到情感在决策、学习和社交互动中的重要作用,这促使他们开始探索如何将情感引入计算系统。
情感计算现如今已经在学术、医疗、娱乐、教育等领域得到了广泛关注[3],它结合了计算机科学、心理学、认知科学和神经科学等多个领域的知识,旨在使计算机能够识别、理解、处理和模拟人类情感。情感识别在情感计算中扮演着至关重要的角色,它是使计算机能够理解、处理和回应人类情感的核心技术[4]。
近几十年来,研究人员探索了不同的方法来赋予机器类似人的情感状态感知。目前的自动情感识别方法可以根据所使用的信号分为两大类型。一种是使用人类的行为信号,如面部表情[5-7]、语音[8],另一种方法则是使用生理信号。早期,由于可穿戴技术和生理数据采集技术不够成熟,研究者们通常采用非生理数据来进行情感识别工作。最早的人脸表情研究是将表情划分为6种情感[9],包括悲伤(Sad)、高兴(Happy)、恐惧(Fear)、厌恶(Disgust)、惊讶(Surprise)和愤怒(Angry)。并在之后的研究中通过对人脸面部表情的识别设计了基于运动单元(Action Unit, AU)的人脸表情动作解码系统(Facial Action Coding System, FACS),通过分析面部运动单元的运动特征及其对应的面部区域来说明与之联系的相关表情[10]。文献[11]利用卷积神经网络(Convolutional Neural Networks, CNN)提出了一种多目标的时空特征表示学习方法,通过结合空间和时间信息,并优化多个目标,显著提高了面部表情识别的鲁棒性和准确性,特别是在表情强度变化的情况下,展示了良好的适应能力和性能提升。文献[8]利用短时间对数频率功率系数来表示语音信号,并利用离散隐马尔可夫模型进行语音情感识别。文献[12]使用深度神经网络(Deep Neural Network, DNN)架构的方法对语音进行了情感识别。文献[13]采用面部和语音混合的多模态信息判断被试的情感状态。
但是,由于人们在特定情况下会隐藏自己的情感,因此基于面部表情和语音的情感识别等信息来辨别一个人当前的情感会存在可信度低的情况。随着可穿戴技术的成熟,研究者们逐渐采用用户的生理数据进行情感识别,如心电图(ECG)、脑电图(EEG)、肌电图(EMG)、皮肤电反应(GSR)和体温等。
与行为信号不同,生理信号来源于中枢神经系统(Central Nervous System, CNS)和自主神经系统(Autonomic Nervous System, ANS)的活动,这是一种非自愿的反应,人们很难有意地对其进行控制或隐藏[14]。因此,基于生理信号的情感识别方法在识别人类[15-16]的内在情感方面更为可靠和适用。
-
情感分类提供了情感识别的理论框架和参考标准,通过明确情感分类的类别和标准,情感识别系统可以更有针对性地设计和优化识别算法。常见的情感理论模型如表1所示。
-
基本情感理论是最早的一种情感分类方法,主要由心理学家Ekman在20世纪60年代提出[9]。他通过对跨文化研究发现,人类面部表情有6种基本情感:快乐、悲伤、愤怒、恐惧、惊讶和厌恶。他认为这些基本情感是普遍存在的,不受文化影响。文献[23]指出人类和动物在表达情感时有许多相似之处,这些表情具有生物学上的适应性功能。Ekman的基本情感理论不仅验证了Darwin的观点,还通过实验研究提供了证据支持。
此外,文献[17]也提出了另一种基本情感理论。他认为情感是由8种基本情感构成的,具有强度、相似性和两极性3个维度,这些情感可以两两结合,形成复杂情感,如图1所示。如愤怒和厌恶结合形成蔑视,快乐和惊讶结合形成欣喜。文献[18]的情感轮模型通过几何图形直观地展示了情感之间的关系。
-
维度情感模型弥补了离散情感模型的局限性,它将离散情绪映射到坐标空间,是一种将情感描述为不同维度上的连续变量的方法。
文献[18]于1974年提出了一种情感的三维空间模型。该模型具有愉悦度(Pleasure)、唤醒度(Arousal)和支配度(Dominance)三个维度,如图2所示,该三维情感表示模型也经常被称为PAD(Pleasure-Arousal- Dominance)模型。愉悦度表示了用户情绪的愉悦程度,也称为效价,愉悦度的正向和负向分别代表了积极和消极的情绪。唤醒度则表现了情感的强烈程度,正向为情感的唤醒程度高,负向表示情感的唤醒程度低。支配度表现了对外界的影响或受外界的影响程度,正向为支配高,具有主宰感,负向为支配度低,表现为软弱,因此支配度也被称为能量维度。
20世纪80年代,文献[19]在对PAD模型进行深入研究的过程中,发现愉悦度和唤醒度便能够分辨出绝大多数的情感类型。因此,他提出了环形情感模型,仅采用了愉悦度和唤醒度两个维度,并认为情感在这两个维度上连续分布,且各个情感在圆环中均匀分布,该模型也因为它的横纵轴结构被称为VA(Valence-Arousal)情感模型,如图3所示。VA模型的二维结构使得情感分类既简单又易于理解,能够有效地捕捉情感的复杂性,因此也是目前最常用的情绪模型。
文献[20]提出的情感圆环模型强调情感的连续性和多样性,为情感分类提供了一种新的视角。相比基本情感理论,情感维度模型更加灵活,可以描述情感的强度和复杂性。通过这个模型可以将各种情感状态映射到二维空间中,便于进行定量分析和比较。
除此之外还有一些其他维度的情感模型,如文献[4]提出的VAD空间(Valence-Arousal-Dominance Space)理论,包括激励维度、评估维度和控制维度。文献[20]提出的积极-消极情感(Positive-Negative Affect, PANA)模型,文献[21]提出的能量-紧张(Energy-Tension, ET)模型。
-
复杂情感模型基于基本情感和情感维度模型,进一步细化情感类型,描述情感的复杂性和多样性。如,文献[22]提出了一种四维情感模型,包括愉悦度、紧张度、激动度和确信度,他认为人类情感由基本情感、复合情感和社会情感构成。基本情感是天生的,复合情感是基本情感的组合,社会情感则受到文化和社会环境的影响。
复杂情感分类的方法还包括情感词汇分类、情感状态分类等。如,心理学家Barnett提出了情感词汇分类方法,通过对情感词汇的分析,归纳出不同的情感类别。这种方法有助于理解情感的语言表达方式,以及不同情感词汇之间的关系。
-
最近的研究发现,多种生理信号比单一信号[8]能更有效地反映情感变化。不同的生理信号反映了情感状态的不同方面,并且在反映情感状态时具有不同的敏感性和特异性。通过结合多种生理信号,可以更好地适应个体差异,增强情感识别系统的泛化能力,因此目前很多研究者们采用多模态生理数据进行情感识别。基于多模态生理数据的情感识别流程如图4所示。
数据预处理之前要得到生理数据,一般需要对被试人员进行情感诱发,并采集被试人员的生理数据,但目前基于生理数据的情感识别已经有了较为深入的研究,国际上已经有一些公开的生理数据集,如DEEP、SEED等,因此很多研究者们直接采用生理数据集中的数据进行情感识别研究。表3概述了部分生理数据集,包括数据集名称、生理信号种类、被试人数。
表 3 生理数据集
在基于生理信号的情感识别流程中的数据采集部分,研究者们会采集多种人体的生理数据进行研究。之后对生理数据进行预处理并进行情感识别,在情感识别的过程中,一般有传统的机器学习方法和深度学习方法。
-
由于生理信号会存在来自于仪器和人体生理伪影产生的噪声,因此需要采用相应的数据去噪方法对生理数据进行去噪。目前常见的生理数据预处理方法有滤波法(Filtering)、主成分分析法(Principle Component Analysis, PCA)[51]、归一化法(Normalization)、独立成分分析法(Independent Component Analysis, ICA)[52]和经验模态分解(Empirical Mode Decomposition, EMD)[53]等。
滤波法是最简单直接的,通过低通滤波器滤除生理数据中50 Hz的设备本身所带来的工频干扰。文献[54]采用了滤波的方法对ECG进行了预处理去噪。归一化法通过将各个体的生理信号数据进行标准化处理,使得这些数据可以在同一尺度上进行比较和分析,从而消除个体之间的生理差异,将数据统一映射到[0, 1]区间,公式为:
$${\mathrm{{data}}}_{\mathrm{{normalized}}}=\frac{{{\mathrm{data}}}_{{{n}}}-{{\mathrm{data}}}_{{\mathrm{min}}}}{{{\mathrm{data}}}_{{\mathrm{max}}}-{{\mathrm{data}}}_{{\mathrm{min}}}} $$ (1) 式中,
$ {{\mathrm{data}}}_{{\mathrm{normalized}}} $ 为数据归一化后的结果;$ {{\mathrm{data}}}_{{\mathrm{max}}} $ 为原始数据中的最大值;$ {{\mathrm{data}}}_{{\mathrm{min}}} $ 为原始数据中的最小值;$ {{\mathrm{data}}}_{n} $ 为原始数据中某一个值。文献[55]在对PPG信号删除基线值后,采用归一化方法,从而消除个体之间的生理差异。文献[56]采用了ICA的方法,将复杂的多变量信号分解成多个相互独立的子成分,通过保留部分成分对生理信号进行了去噪。文献[57]采用了EMD方法将复杂的信号分解成多个本质上是振荡的本征模态函数(Intrinsic Mode Functions, IMFs),通过分解和去除信号中的高频噪声成分对PPG和ECG进行了去噪处理。PCA是一种常用的降维技术,旨在通过线性变换将原始数据从高维空间映射到低维空间,同时尽可能保留数据的主要特征和信息。通过对数据进行中心化处理,对于每个特征,减去其均值,使得数据的均值为零,以消除不同特征之间的量纲差异,使得数据分布更加集中。中心化后的数据可以用来计算协方差矩阵,协方差矩阵的每个元素表示两个特征之间的相关性。如果数据集有
$ n $ 个特征,那么协方差矩阵是一个$ n\times n $ 的矩阵。对协方差矩阵进行特征值分解,得到特征值和对应的特征向量。特征值表示主成分的方差,特征向量表示主成分的方向。根据特征值的大小排序,选择前$ k $ 个特征值所对应的特征向量,这些特征向量组成的子空间就是降维后的新特征空间,这些特征向量即为数据的主要成分。将原始数据投影到选定的主成分上,得到降维后的数据。这些新的特征(即主成分)是原始特征的线性组合,且这些主成分之间是正交的。 -
基于多模态生理数据的情感识别流程中第一种情感识别方法为机器学习方法。机器学习方法首先对经过预处理后的生理数据进行手工特征提取,之后将提取到的不同生理数据特征进行简单的特征融合,最后将融合后的生理数据特征通过特征分类器进行情感识别分类。
-
生理信号中包含了大量的信息,其中就有与情感相关的信息。生理信号常用的特征包括时域特征、频域特征和时频域特征。时域特征主要关注信号在时间上的变化,频域特征主要关注信号频率成分,而时频域特征能够同时描述信号在时间和频率上的变化,这对于分析生理信号这种非平稳信号有着重要意义,因为这种非平稳信号的频率成分也会随着时间变化。常用的提取时频域特征的方法有短时傅里叶变换(Short-Time Fourier Transform, STFT)、小波变换(Wavelet Transform, WT)[58]和希尔伯特-黄变换(Hilbert-Huang Transform, HHT)[53]等。
短时傅里叶变换在傅里叶变换的基础上引入了窗函数,通过对每个窗口内的信号
$ x\left(t\right) \omega \left(t-\tau \right) $ 进行傅里叶变换,得到该窗口内的频谱,这里的$ \tau $ 表示窗口中心的时间位置:$$X\left(\tau ,f\right)={\int }_{-\infty }^{\infty }x\left(t\right)\omega \left(t-\tau \right){{\mathrm{e}}}^{-{\mathrm{j}}2{\text π} ft}{\mathrm{d}}t $$ (2) 式中,
$ X\left(\tau ,f\right) $ 是在时间$ \tau $ 和频率$ f $ 处的STFT系数;$ x\left(t\right) $ 是原始信号;$ \omega \left(t\right) $ 是窗口函数;$ f $ 是频率。虽然短时傅里叶变换在每个时间窗口内,信号被假设为平稳的,适用于分析非平稳信号。但窗口长度越短,时间分辨率越高,频率分辨率越低,反之亦然。因此,需要选择合适的时间窗长度。小波变换是对STFT方法的一种改进,小波变换的窗函数会随着频率的变化而改变,因此相比STFT,在时域和频域都能够达到较好的分辨率。小波变换通过使用具有有限长度并且会衰减的小波基,取代了傅里叶变换中的无限长三角函数基。
$ \varphi \left(t\right) $ 为基本小波函数,将$ \varphi \left(t\right) $ 进行尺度和平移变换,尺度对应于频率,平移量对应于时间,得到小波变换函数:$$ {\mathrm{WT}}\left(a,\tau \right)=\frac{1}{\sqrt{a}}{\int }_{-\infty }^{\infty }f\left(t\right)\varphi \left(\frac{t-\tau }{a}\right){\mathrm{d}}t$$ (3) 式中,
$ a $ 代表尺度;$ \tau $ 代表平移量。小波变换虽然能够提供多分辨率分析,但其时间和频率分辨率之间的权衡(即不确定性原理)仍然存在限制。在高频区域,具有较高的时间分辨率和较低的频率分辨率;在低频区域,具有较高的频率分辨率和较低的时间分辨率。HHT结合了EMD和希尔伯特变换(Hilbert Transform),能够有效地处理复杂信号,提取其瞬时频率和能量分布。该方法首先采用EMD将复杂信号分解为一组振幅-频率调制的分量,即IMFs。IMF需要满足极值个数与过零点个数相等或相差至多一个,且由极值和极值定义的包络线的均值必须为零。因此输入的原始生理信号可以表示为:
$$ f\left(t\right)=\sum _{i=1}^{k}{\mathrm{I}\mathrm{M}\mathrm{F}}_{i}\left(t\right)+r\left(t\right)$$ (4) 式中,
$ f\left(t\right) $ 表示输入的生理信号;$ {\mathrm{I}\mathrm{M}\mathrm{F}}_{i}\left(t\right) $ 表示本征模函数;$ r\left(t\right) $ 表示生理信号减去IMF后的余项。希尔伯特变换为:
$$ {\mathrm{I}\mathrm{M}\mathrm{F}}_{i}\left(t\right)=\frac{1}{{\text π} }{\int }_{-\infty }^{\infty }\frac{{\mathrm{I}\mathrm{M}\mathrm{F}}_{i}\left(\tau \right)}{t-\tau }{\mathrm{d}}t $$ (5) HHT在经验模态分解过程中会出现不同频率成分的混叠现象,导致分解结果不理想。
-
经过特征提取之后,通过简单拼接或加权平均方法对不同的生理数据特征进行简单融合。之后通过分类方法对提取的特征进行情感特征分类,常用的传统机器学习分类方法有SVM[59]、K-近邻算法(K-Nearest Neighbor, KNN)[60]、朴素贝叶斯(Naïve Bayes, NB)[61]、随机森林(Random Forest, RF)[62]等。
SVM是一种用于分类和回归分析的非概率的两元线性分类器。SVM突出的泛化能力,连同其最优解和判别力,现在已经广泛应用于二元分类或多元分类[63]。SVM的原理是找到一个能够将不同类别的数据点分开的超平面(在二维情况下是直线),同时最大化分类边界两侧到超平面的最小距离,如图5所示,上间隔边界上方的样本属于正类,下间隔边界下的样本属于负类。位于间隔边界上的正类和负类样本为支持向量(support vector),两个间隔边界的距离被定义为边距。
SVM能够处理高维数据且在小样本情况下表现良好,有明确的几何解释,能够提供一个最优的分类边界,但在大样本数据上存在困难。
KNN是一种广泛用于分类和回归任务的简单、直观的机器学习算法。它的基本思想是:给定一个新样本,找到距离它最近的K个样本点,然后根据这K个样本点的类别来决定新样本的类别:
$$ d\left(x,y\right)=\sqrt{\sum _{i=1}^{n}{\left({x}_{i}-{y}_{i}\right)}^{2}}\qquad i=\mathrm{1,2},\cdots ,n $$ (6) KNN是情感识别研究中最简单有效的机器学习方法之一。文献[64]通过诱发被试情感,采集被试人员的生理信号数据,之后采用K-近邻算法对害怕、愤怒、悲伤等情绪进行分类识别。K-近邻算法可以处理多分类问题,而不仅限于二分类。但是K-近邻算法需要计算所有样本点的距离,所以在处理大规模数据集时,计算开销很大。
-
另一种情感识别方法则是深度学习方法。尽管机器学习的方法在情感识别上表现出了较好的效果,但深度学习技术在情感识别领域更具有优势[65]。深度学习能够自动提取和学习复杂的特征,而不需要人为设计特征,这使得其在处理复杂的情感识别任务时表现更加优异。此外,深度学习模型可以在大量的数据中自动发现情感特征的潜在模式,有效捕捉到生理数据中所隐含的情感特征间的关联性,从而提高识别的准确率和鲁棒性。此外,深度学习还具备处理大规模数据和实时数据分析的能力,这使得情感识别系统能够在大数据环境中学习和预测情感状态,从而在实时应用中具有更高的实用性。
-
CNN是一种前馈神经网络,其特点是每个神经元只与前一层的部分神经元相连接,这个小部分的连接区域被称为感受野。局部连接使得网络能够专注于输入数据的局部特征,从而提取出有用的局部信息。这对于生理信号中的时间序列数据来说特别有用,因为生理信号的特征往往是局部的。同时,卷积操作的平移不变性使得卷积神经网络对输入信号的平移具有鲁棒性,这使得生理信号的特征可能会在时间轴上有所移动,但它们的模式和结构保持不变。
卷积层是卷积神经网络的核心,能够提取出数据隐含的特征。卷积层通过卷积操作,将输入数据与多个可学习的卷积核进行卷积计算,提取局部特征。对于输入数据
$ X $ 和卷积核$ W $ ,卷积操作的输出$ Y $ 表示为:$$ Y\left[i,j\right]=\sum _{m}\sum _{n}X\left[i+m,j+n\right] W\left[m,n\right]$$ (7) 在卷积操作后,通常会使用非线性激活函数(如ReLU)对卷积输出进行非线性转换,从而增强模型的表达能力。对于卷积输出
$ Y $ ,ReLU激活函数的输出$ Z $ 表示为:$$ Z\left[i,j\right]={\mathrm{ReLU}}\left(Y\left[i,j\right]\right)={\mathrm{max}}\left(0,Y\left[i,j\right]\right) $$ (8) 之后用池化层进行下采样,进一步压缩数据量,同时保留重要的信息,进而降低计算复杂度,并增强模型对位置变化的鲁棒性。文献[66]提出一种融合二维卷积神经网络模型,提取脑电信号特征用于情感识别。
除此之外,递归神经网络(Recurrent Neural Network, RNN)[67]也常常被用于生理信号数据的特征提取,这是因为RNN是一种擅长处理序列数据的神经网络,它能够捕捉到生理信号中的时间依赖关系,但也存在一些问题,如梯度消失、爆炸,而LSTM成功解决了RNN的这些问题。LSTM通过引入输入门、遗忘门和输出门等机制,有效地保留和利用长期依赖信息,因此在处理生理数据任务中表现出色[68]。LSTM网络模型如图6所示。
遗忘门决定了上一时刻的单元状态有多少保留到单元状态
$ {c}_{t} $ ,$ \sigma $ 是sigmoid函数,$ {{\boldsymbol{W}}}_{f} $ 是遗忘门的权重矩阵,$ \left[{h}_{t-1},{x}_{t}\right] $ 表示把两个向量连接成一个向量,$ {b}_{f} $ 是遗忘门的偏置项:$$ {f}_{t}=\sigma \left({{\boldsymbol{W}}}_{f}\cdot \left[{h}_{t-1},{x}_{t}\right]+{b}_{f}\right)$$ (9) 输入门决定了有多少输入数据
$ {x}_{t} $ 保存到单元状态$ {c}_{t} $ ,$ {{\boldsymbol{W}}}_{i} $ 是输入门的权重矩阵,$ {b}_{i} $ 是输入门的偏置项:$$ {i}_{t}=\sigma \left({{\boldsymbol{W}}}_{i}\cdot \left[{h}_{t-1},{x}_{t}\right]+{b}_{i}\right)$$ (10) 之后根据当前输入和先前的隐藏状态来计算当前输入的单元状态
$ {\widetilde {C}}_{t} $ :$${\widetilde {C}}_{t}=\mathrm{tanh}\left({{\boldsymbol{W}}}_{c}\cdot \left[{h}_{t-1},{x}_{t}\right]+{b}_{c}\right) $$ (11) 结合遗忘门和输入门的信息,更新当前时刻的单元状态:
$${{c}_{t}={f}_{t}*{c}_{t-1}+{i}_{t}*\widetilde {C}}_{t} $$ (12) 式中,
$ * $ 表示按元素乘。这就将当前记忆$ {\widetilde {C}}_{t} $ 和长期记忆$ {c}_{t-1} $ 组合到了一起,形成了新的单元状态$ {c}_{t} $ 。遗忘门保存先前的信息,输入门控制当前的输入信息,输出门控制长期记忆对当前输出的影响:$$ {o}_{t}=\sigma \left({{\boldsymbol{W}}}_{o}\cdot \left[{h}_{t-1},{x}_{t}\right]+{b}_{o}\right) $$ (13) 而输出门和单元状态决定了LSTM的最终输出:
$${h}_{t}={o}_{t}*{\mathrm{tanh}}\left({C}_{t}\right) $$ (14) 文献[69]使用LSTM从EEG信号中提取情感特征,并通过全连接层将这些特征分类为低/高唤醒度、效价和喜好,该方法在DEAP数据集上平均准确率达到了85.65%、85.45%和87.99%。
-
多模态融合可以根据融合时间的先后分为早期的数据层融合、中期的特征层融合以及后期的决策层融合。
早期数据层融合是在模型的早期阶段将来自不同模态的数据经过预处理后进行合并,将合并后的数据输入到统一的模型中提取多模态特征,如图7所示。
中期特征层融合是用各自的神经网络或特定的特征提取算法对不同模态的数据进行独立的特征提取,之后将不同模态的特征进行融合,能够保留个模态数据的独特信息,如图8所示。文献[70]通过CNN提取脑电信号情感信息,之后利用LSTM提取外周生理信号情感信息,通过中期融合进行特征融合。
后期决策层融合是先对每个模态的数据独立进行处理和分析,生成各自的预测结果或决策,然后再对这些独立的决策结果进行融合,以得到最终的决策,如图9所示。文献[71]提出了一种混合特征提取方法,从生理信号中提取统计相关特征和时间相关特征,之后采用自适应决策融合方法,整合信号模态进行情感分类。
在3种多模态数据融合中,早期数据层融合是将原始生理数据直接进行融合,这种方法对各模态生理数据全部信息进行特征提取,能够充分利用生理数据的完整信息,但这种方式存在较多冗余信息,很难提取到有效的特征信息[72]。中期特征层融合是对各模态生理数据进行特征提取后进行特征融合,该方法不但减少了生理数据的冗余信息,并且为不同生理数据选择合适的特征提取模型,更好地捕捉生理数据的信息特征[73],通过融合实现不同模态生理数据信息之间的局部交互,得到融合特征用于最后决策,这也是大多数研究者选择的方式。后期决策层融合仅仅是在分类决策时考虑到了不同模态生理数据信息之间的相关性,没有充分利用跨模态的局部和全局关联信息[74]。
Emotion Recognition Based on Multimodal Physiological Data: A Survey
-
摘要: 情感识别是人工智能和人机交互领域的重要研究方向,对提高用户体验和应用的智能性具有重要意义。基于多模态生理数据的情感识别由于其数据来源的客观性和多样性,能够更准确地捕捉个体的情感状态,成为近年来的研究热点。首先介绍了情感计算的基本概念和情感理论模型。其次总结了基于生理数据的情感识别方法。再重点介绍了基于多模态生理数据的情感识别流程,包括生理数据预处理、传统机器学习方法以及深度学习方法。最后分析了基于多模态生理数据的情感识别面临的主要挑战和对未来的展望。Abstract: Emotion recognition is an important research direction in the fields of artificial intelligence and human-computer interaction. It has significant implications for enhancing user experience and the intelligence of applications. Emotion recognition based on multimodal physiological data has become a research hotspot in recent years due to the objectivity and diversity of its data sources, which enable more accurate capture of an individual's emotional state. Firstly, the basic concepts of affective computing and emotion representation models are introduced. Secondly, emotion recognition methods based on physiological data are summarized. Then, the focus shifts to the process of emotion recognition based on multimodal physiological data, including physiological data preprocessing, traditional machine learning methods, and deep learning methods. Finally, the main challenges faced by emotion recognition based on multimodal physiological data are analyzed, and future prospects are discussed.
-
Key words:
- emotional recognition /
- physiological data /
- deep learning /
- machine learning
-
表 1 常见情感理论模型
-
[1] BARRETT L F, MESQUITA B, OCHSNER K N, et al. The experience of emotion[J]. Annual Review of Psychology, 2007, 58: 373-403. doi: 10.1146/annurev.psych.58.110405.085709 [2] LANDAUER T K. Research methods in human-computer interaction[M]//Handbook of Human-Computer Interaction. Amsterdam: Elsevier, 1988: 905-928. [3] MAJOR T C, CONRAD J M. A survey of brain computer interfaces and their applications[C]//Proceedings of the IEEE SOUTHEASTCON. New York: IEEE, 2014: 1-8. [4] COWIE R, DOUGLAS-COWIE E, TSAPATSOULIS N, et al. Emotion recognition in human-computer interaction[J]. IEEE Signal Processing Magazine, 2001, 18(1): 32-80. doi: 10.1109/79.911197 [5] COHEN I, GARG A, HUANG T S. Emotion recognition from facial expressions using multilevel HMM[C]//Neural Information Processing Systems. State PA: Citeseer, 2000, 2. [6] SARSENBAYEVA Z, MARINI G, VAN BERKEL N, et al. Does smartphone use drive our emotions or vice versa? a causal analysis[C]//Proceedings of the Proceedings of the 2020 CHI Conference on Human Factors in Computing Systems. New York: ACM, 2020: 1-15. [7] YANG K N, WANG C F, SARSENBAYEVA Z, et al. Benchmarking commercial emotion detection systems using realistic distortions of facial image datasets[J]. The Visual Computer, 2021, 37(6): 1447-1466. doi: 10.1007/s00371-020-01881-x [8] NWE T L, FOO S W, DE SILVA L C. Speech emotion recognition using hidden Markov models[J]. Speech Communication, 2003, 41(4): 603-623. doi: 10.1016/S0167-6393(03)00099-2 [9] EKMAN P, FRIESEN W V. Constants across cultures in the face and emotion[J]. Journal of Personality and Social Psychology, 1971, 17(2): 124-129. doi: 10.1037/h0030377 [10] EKMAN P, FRIESENW V. Facial action coding system (FACS): A technique for the measurement of facial actions[J]. Rivista Di Psichiatria, 1978, 47(2):126-138. [11] KIM D H, BADDAR W J, JANG J, et al. Multi-objective based spatio-temporal feature representation learning robust to expression intensity variations for facial expression recognition[J]. IEEE Transactions on Affective Computing, 2019, 10(2): 223-236. doi: 10.1109/TAFFC.2017.2695999 [12] HARÁR P, BURGET R, DUTTA M K. Speech emotion recognition with deep learning[C]//Proceedings of the 4th International Conference on Signal Processing and Integrated Networks. New York: IEEE, 2017: 137-140. [13] DE SILVA L C, MIYASATO T, NAKATSU R. Facial emotion recognition using multi-modal information[C]//Proceedings of the Proceedings of ICICS, 1997 International Conference on Information, Communications and Signal Processing. Theme: Trends in Information Systems Engineering and Wireless Multimedia Communications. New York: IEEE, 1997: 397-401. [14] SHU L, XIE J Y, YANG M Y, et al. A review of emotion recognition using physiological signals[J]. Sensors, 2018, 18(7): 2074. doi: 10.3390/s18072074 [15] KOELSTRA S, MUHL C, SOLEYMANI M, et al. DEAP: A database for emotion analysis: Using physiological signals[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 18-31. doi: 10.1109/T-AFFC.2011.15 [16] ZHU J J, WEI Y X, FENG Y F, et al. Physiological signals-based emotion recognition via high-order correlation learning[J]. ACM Transactions on Multimedia Computing, Communications, and Applications, 2019, 15(3s): 1-18. [17] PLUTCHIK R, KELLERMAN H. Theories of emotion[J]. Academic Press, 1980, DOI:10.7551/mitpress/10398.003. 0004. [18] MEHRABIAN A, RUSSELL J A. An approach to environmental psychology[M]. Cambridge, Mass: MIT 1974. [19] RUSSELL J A. A circumplex model of affect[J]. Journal of Personality and Social Psychology, 1980, 39(6): 1161. doi: 10.1037/h0077714 [20] WATSON D, TELLEGEN A. Toward a consensual structure of mood[J]. Psychological Bulletin, 1985, 98(2): 219-235. doi: 10.1037/0033-2909.98.2.219 [21] THAYER R E. Toward a psychological theory of multidimensional activation (arousal)[J]. Motivation and Emotion, 1978, 2(1): 1-34. doi: 10.1007/BF00992729 [22] IZARD C E. The psychology of emotions[M]. New York: Plenum Press, 1991. [23] 达尔文. 人类和动物的表情[M]. 周邦立, 译. 北京: 科学出版社, 1958. DARWIN C. The expression of the emotions in man and animals[M]. translated by ZHOU B L. Beijing; Science Press, 1958. [24] LI L, CHEN J H. Emotion recognition using physiological signals from multiple subjects[C]//Proceedings of the International Conference on Intelligent Information Hiding and Multimedia. New York: IEEE, 2006: 355-358. [25] KIM D G, HONG K S, CHUNG K W. Implementation of portable multi-channel EEG and head motion signal acquisition system[C]//Proceedings of the 8th International Conference on Computing and Networking Technology. New York: IEEE, 2012: 370-375. [26] AGRAFIOTI F, HATZINAKOS D, ANDERSON A K. ECG pattern analysis for emotion detection[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 102-115. doi: 10.1109/T-AFFC.2011.28 [27] LIN Y P, WANG C H, JUNG T P, et al. EEG-based emotion recognition in music listening[J]. IEEE Transactions on Bio-Medical Engineering, 2010, 57(7): 1798-1806. doi: 10.1109/TBME.2010.2048568 [28] ZHENG W L, ZHU J Y, PENG Y, et al. EEG-based emotion classification using deep belief networks[C]//Proceedings of the IEEE International Conference on Multimedia and Expo. New York: IEEE, 2014: 1-6. [29] RAMZAN M, DAWN S. Fused CNN-LSTM deep learning emotion recognition model using electroencephalography signals[J]. The International Journal of Neuroscience, 2023, 133(6): 587-597. doi: 10.1080/00207454.2021.1941947 [30] ACHARYA U R, OH S L, HAGIWARA Y, et al. Deep convolutional neural network for the automated detection and diagnosis of seizure using EEG signals[J]. Computers in Biology and Medicine, 2018, 100: 270-278. doi: 10.1016/j.compbiomed.2017.09.017 [31] QUINTANA D S, GUASTELLA A J, OUTHRED T, et al. Heart rate variability is associated with emotion recognition: Direct evidence for a relationship between the autonomic nervous system and social cognition[J]. International Journal of Psychophysiology, 2012, 86(2): 168-172. doi: 10.1016/j.ijpsycho.2012.08.012 [32] LANG P J, GREENWALD M K, BRADLEY M M, et al. Looking at pictures: Affective, facial, visceral, and behavioral reactions[J]. Psychophysiology, 1993, 30(3): 261-273. doi: 10.1111/j.1469-8986.1993.tb03352.x [33] SUBRAMANIAN R, WACHE J, ABADI M K, et al. ASCERTAIN: Emotion and personality recognition using commercial sensors[J]. IEEE Transactions on Affective Computing, 2018, 9(2): 147-160. [34] NAKASONE A, PRENDINGER H, ISHIZUKA M. Emotion recognition from electromyography and skin conductance[C]//Proc of the 5th International Workshop on Biosignal Interpretation. [S.l.]: Citeseer, 2005: 219-222. [35] VALENZA G, LANATA A, SCILINGO E P. The role of nonlinear dynamics in affective valence and arousal recognition[J]. IEEE Transactions on Affective Computing, 2012, 3(2): 237-249. doi: 10.1109/T-AFFC.2011.30 [36] ABADI M K, SUBRAMANIAN R, KIA S M, et al. DECAF: MEG-based multimodal database for decoding affective physiological responses[J]. IEEE Transactions on Affective Computing, 2015, 6(3): 209-222. doi: 10.1109/TAFFC.2015.2392932 [37] DAS P, KHASNOBISH A, TIBAREWALA D N. Emotion recognition employing ECG and GSR signals as markers of ANS[C]//Proceedings of the Conference on Advances in Signal Processing. New York: IEEE, 2016: 37-42. [38] LIU J M, SU Y Q, LIU Y H. Multi-modal emotion recognition with temporal-band attention based on LSTM-RNN[C]//Pacific Rim Conference on Multimedia. Cham: Springer, 2018: 194-204. [39] ZITOUNI M S, PARK C Y, LEE U, et al. LSTM-modeling of emotion recognition using peripheral physiological signals in naturalistic conversations[J]. IEEE Journal of Biomedical and Health Informatics, 2023, 27(2): 912-923. doi: 10.1109/JBHI.2022.3225330 [40] TURCHET L, O’SULLIVAN B, ORTNER R, et al. Emotion recognition of playing musicians from EEG, ECG, and acoustic signals[J]. IEEE Transactions on Human-Machine Systems, 2024 (99): 1-11. [41] MU J J, QIAO Y H, LIU G Y. Research on emotion recognition strategy based on electrocardiogram and electrodermal activity signals induced by music[C]//Proceedings of the 5th International Seminar on Artificial Intelligence, Networking and Information Technology. New York: IEEE, 2024: 1574-1578. [42] WU Q, SHEN X, FU X. The machine knows what you are hiding: an automatic micro-expression recognition system[C]//4th International Conference on Affective Computing and Intelligent Interaction. Memphis: [s.n], 2011: 152-162. [43] 潘礼正, 尹泽明, 佘世刚, 等. 基于FCA-ReliefF的融合生理信号情绪识别研究[J]. 计算机测量与控制, 2020, 28(2): 179-183. PAN L Z, YIN Z M, SHE S G, et al. Emotion recognition based on physiological signal fusion and FCA-ReliefF[J]. Computer Measurement & Control, 2020, 28(2): 179-183. [44] 陈田, 蔡从虎, 袁晓辉, 等. 基于多尺度卷积和自注意力特征融合的多模态情感识别方法[J]. 计算机应用, 2024, 44(2): 369-376. CHEN T, CAI C H, YUAN X H, et al. Multimodal emotion recognition method based on multiscale convolution and self-attention feature fusion[J]. Journal of Computer Applications, 2024, 44(2): 369-376. [45] 马壮, 甘开宇, 尹钟. 基于脑电信号和周围生理信号的多模态融合情感识别[EB/OL]. [2024-05-12]. https://doi.org/10.16180/j.cnki.issn1007-7820.2025.02.008. MA Z, GAN K Y, YIN Z. Emotion recognition based on multimodal fusion of the EEG and peripheral physiological signals[EB/OL]. [2024-05-12]. https://doi.org/10.16180/j.cnki.issn1007-7820.2025.02.008. [46] SOLEYMANI M, LICHTENAUER J, PUN T, et al. A multimodal database for affect recognition and implicit tagging[J]. IEEE Transactions on Affective Computing, 2012, 3(1): 42-55. doi: 10.1109/T-AFFC.2011.25 [47] DUAN R N, ZHU J Y, LU B L. Differential entropy feature for EEG-based emotion classification[C]//Proceedings of the 6th International IEEE/EMBS Conference on Neural Engineering. New York: IEEE, 2013: 81-84. [48] SONG T F, ZHENG W M, LU C, et al. MPED: A multi-modal physiological emotion database for discrete emotion recognition[J]. IEEE Access, 2019, 7: 12177-12191. doi: 10.1109/ACCESS.2019.2891579 [49] MIRANDA-CORREA J A, ABADI M K, SEBE N, et al. AMIGOS: A dataset for affect, personality and mood research on individuals and groups[J]. IEEE Transactions on Affective Computing, 2021, 12(2): 479-493. doi: 10.1109/TAFFC.2018.2884461 [50] SCHMIDT P, REISS A, DUERICHEN R, et al. Introducing WESAD, a multimodal dataset for wearable stress and affect detection[C]//Proceedings of the Proceedings of the 20th ACM International Conference on Multimodal Interaction. New York: ACM, 2018: 400-408. [51] KARL P. On lines and planes of closest fit to systems of points in space[J]. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 1901, 2(11): 559-572. doi: 10.1080/14786440109462720 [52] COMON P. Independent component analysis, A new concept?[J]. Signal Processing, 1994, 36(3): 287-314. doi: 10.1016/0165-1684(94)90029-9 [53] HUANG N E, SHEN Z, LONG S R, et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London Series A: Mathematical, Physical and Engineering Sciences, 1998, 454(1971): 903-995. doi: 10.1098/rspa.1998.0193 [54] CHETTUPUZHAKKARAN P, SINDHU N. Emotion recognition from physiological signals using time-frequency analysis methods[C]//Proceedings of the International Conference on Emerging Trends and Innovations in Engineering and Technological Research. New York: IEEE, 2018: 1-5. [55] LEE M S, LEE Y K, PAE D S, et al. Fast emotion recognition based on single pulse PPG signal with convolutional neural network[J]. Applied Sciences, 2019, 9(16): 3355. doi: 10.3390/app9163355 [56] PAMUNGKAS Y, WIBAWA A D, RAIS Y. Classification of emotions (positive-negative) based on EEG statistical features using RNN, LSTM, and Bi-LSTM algorithms[C]//Proceedings of the 2nd International Seminar on Machine Learning, Optimization, and Data Science. New York: IEEE, 2022: 275-280. [57] SHAHID H, BUTT A, AZIZ S, et al. Emotion recognition system featuring a fusion of electrocardiogram and photoplethysmogram features[C]//Proceedings of the 14th International Conference on Open Source Systems and Technologies. New York: IEEE, 2020: 1-6. [58] GROSSMANN A, MORLET J. Decomposition of hardy functions into square integrable wavelets of constant shape[J]. SIAM Journal on Mathematical Analysis, 1984, 15(4): 723-736. doi: 10.1137/0515056 [59] CORTES C, VAPNIK V. Support-vector networks[J]. Machine Learning, 1995, 20(3): 273-297. [60] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE Transactions on Information Theory, 1967, 13(1): 21-27. doi: 10.1109/TIT.1967.1053964 [61] WEBB G I. Naïve Bayes[M]//Encyclopedia of Machine Learning. Boston, MA: Springer US, 2011: 713-714. [62] BREIMAN L. Random forests[J]. Machine learning, 2001, 45: 5-32. doi: 10.1023/A:1010933404324 [63] LIANG X P, ZHU L, HUANG D S. Multi-task ranking SVM for image cosegmentation[J]. Neurocomputing, 2017, 247: 126-136. doi: 10.1016/j.neucom.2017.03.060 [64] NASOZ F, ALVAREZ K, LISETTI C L, et al. Emotion recognition from physiological signals using wireless sensors for presence technologies[J]. Cognition, Technology & Work, 2004, 6(1): 4-14. [65] TANG H, LIU W, ZHENG W L, et al. Multimodal emotion recognition using deep neural networks[C]// Proc Int Conf Neural Inf Process. [S.l.]: Springer, 2017: 811-819. [66] KWON Y H, SHIN S B, KIM S D. Electroencephalography based fusion two-dimensional (2D)-convolution neural networks (CNN) model for emotion recognition system[J]. Sensors, 2018, 18(5): 1383. doi: 10.3390/s18051383 [67] ZAREMBA W, SUTSKEVER I, VINYALS O. Recurrent neural network regularization[EB/OL]. [2024-03-21]. http://arxiv.org/abs/1409.2329v5. [68] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J].Neural Computation, 1997, 9(8): 1735-1780. [69] ALHAGRY S, ALY A, REDA A. Emotion recognition based on EEG using LSTM recurrent neural network[J]. International Journal of Advanced Computer Science and Applications, 2017, DOI: 10.14569/IJACSA.2017.081046. [70] LIAO J X, ZHONG Q H, ZHU Y S, et al. Multimodal physiological signal emotion recognition based on convolutional recurrent neural network[J]. IOP Conference Series: Materials Science and Engineering, 2020, 782(3): 032005. doi: 10.1088/1757-899X/782/3/032005 [71] YAN M S, DENG Z, HE B W, et al. Emotion classification with multichannel physiological signals using hybrid feature and adaptive decision fusion[J]. Biomedical Signal Processing and Control, 2022, 71: 103235. doi: 10.1016/j.bspc.2021.103235 [72] MARTÍNEZ H P, YANNAKAKIS G N. Deep multimodal fusion: Combining discrete events and continuous signals[C]//Proceedings of the Proceedings of the 16th International Conference on Multimodal Interaction. New York: ACM, 2014: 34-41. [73] ZHANG L, ZHANG D. Visual understanding via multi-feature shared learning with global consistency[J]. IEEE Transactions on Multimedia, 2016, 18(2): 247-259. doi: 10.1109/TMM.2015.2510509 [74] MURPHY R R. Computer vision and machine learning in science fiction[J]. Science Robotics, 2019, DOI: 10.1126/scirobotics.aax742.