基于3D分层卷积融合的多模态生理信号情绪识别
1
2
Multi-modal physiological signal emotion recognition based on 3D hierarchical convolution fusion
1
2
通讯作者: 孔万增,kongwanzeng@hdu.edu.cn
修回日期: 2021-02-05 网络出版日期: 2021-03-15
基金资助: |
|
Revised: 2021-02-05 Online: 2021-03-15
Fund supported: |
|
作者简介 About authors

凌文芬(1995-),女,杭州电子科技大学计算机学院硕士生,主要研究方向为情绪生理信号、特征提取、情绪识别。 。

陈思含(1997-),女,杭州电子科技大学计算机学院硕士生,主要研究方向为情绪生理信号、特征提取、情绪识别。 。

彭勇(1985-),男,博士,杭州电子科技大学计算机学院副教授,主要研究方向为机器学习、模式识别与脑机交互算法及应用。 。

孔万增(1980-),男,博士,杭州电子科技大学计算机学院认知与智能计算研究所教授、博士生导师,杭州电子科技大学研究生院副院长,浙江省脑机协同智能重点实验室主任,主要研究方向为人工智能与模式识别、嵌入式可穿戴计算、脑机交互与认知计算等。 。
近年来,脑电等生理信号由于能客观体现真实情绪已逐渐成为情绪识别研究的热门对象。然而,单模态的脑电信号存在情绪信息特征不完备问题,多模态生理信号存在情绪信息交互不充分问题。针对这些问题,提出基于3D分层卷积的多模态特征融合模型,旨在充分挖掘多模态交互关系,更准确地刻画情感信息。首先分别通过深度可分离卷积网络提取脑电、眼电和肌电3种模态的生理信号的多模态初级情绪特征信息,再对得到的多模态初级情绪特征信息进行3D卷积融合操作,实现两两模态间的局部交互以及所有模态间的全局交互,获取包含不同生理信号情绪特征的多模态融合特征。实验结果表明,提出的模型在DEAP数据集的效价、唤醒度的二分类和四分类任务中达到了98%的平均准确率。
关键词:
In recent years, physiological signals such as electroencephalograhpy (EEG) have gradually become popular objects of emotion recognition research because they can objectively reflect true emotions.However, the single-modal EEG signal has the problem of incomplete emotional information representation, and the multi-modal physiological signal has the problem of insufficient emotional information interaction.Therefore, a 3D hierarchical convolutional fusion model was proposed, which aimed to fully explore multi-modal interaction relationships and more accurately describe emotional information.The method first extracted the primary emotional representation information of EEG , electro-oculogram (EOG) and electromyography (EMG) by depthwise separable convolution network, and then performed 3D convolution fusion operation on the obtained multi-modal primary emotional representation information to realize the pairwise mode local interactions between states and global interactions among all modalities, so as to obtain multi-modal fusion representations containing emotional characteristics of different physiological signals.The results show that the accuracy in the valence and arousal of the two-class and four-class tasks on DEAP dataset are both 98% by the proposed model.
Keywords:
本文引用格式
凌文芬, 陈思含, 彭勇, 孔万增.
LING Wenfen.
1 引言
随着人工智能技术的发展和互联网的普及,人们对人机情感交互的需求在生产生活中的各个领域中日益显现。其中,如何准确地识别情绪一直是热门研究方向。生理信号是对人体中枢神经系统和自主神经系统的反应,这些信号的变化能体现不同的情绪。与其他情感载体(如姿势、面部表情或语音等)能刻意伪装不同,生理信号这种情绪体现方式最大的特点在于中枢神经系统和自主神经系统在很大程度上是非自愿激活的,因此不容易控制,更具客观真实性。因此,越来越多的国内外专家学者投入基于生理信号的情绪识别研究领域。特别是随着脑科学发展,以脑电图(electroencephalography, EEG)为主要媒介的情绪识别研究越来越受到关注,且相关的研究成果已被应用到许多领域,如人机交互系统[1,2]、安全驾驶[3]、医疗保健,尤其是心理健康监测[4]和游戏娱乐[5]等。在生理信号中,除常见的脑电图外,心电图(electrocardiogram,ECG)、眼电图(electro-oculogram,EOG)、体温(body temperature)、肌电图(electromyogram,EMG)、皮肤电反应(galvanic skin response,GSR)和呼吸(respiration,RESP)[6]等外围生理信号也可由外界刺激诱发产生,并携带情绪信息。例如,强烈的情绪会刺激人体的交感神经系统,导致汗腺分泌更多的汗液,皮肤阻抗变小,GSR发生变化,同时伴随着相关的面部表情变化,EOG和EMG也随之有着相应的反应。
因此,随着研究的推进,也有一些学者尝试通过将多种生理信号融合的深度学习方法来提高情绪识别的准确率。传统的基于脑电情绪的研究通常需要人工提取特征并选择适合的分类器来分类。随着自动学习数据分布和特征学习融入建模过程中的优势被发掘,深度学习不仅在机器视觉领域取得了巨大突破性进展,其他领域也逐渐运用深度学习的方法来解决一些问题。基于深度学习的研究方法已在脑电信号的情绪识别研究中取得了较大的成功,并已逐渐成为研究生理信号情绪识别的主流方法之一。
根据融合的时间先后,多模态融合可以被分为早期信号层融合、中期特征层融合和后期决策层融合3个阶段,如图1所示。
早期信号层融合面向信号本身,将多模态信号经过简单预处理后放入模型,提取多模态特征,通常用于时间上高度同步的信号间的融合,如视频和音频信号的融合[7]。
中期特征层融合面向特征,通常是在得到单模态特征以后,通过各种手段实现模态特征间的交互,从而实现多模态信息之间的互补增强。Hassan M M等人[8]首先利用深度信念网络(deep belief net, DBN)从皮肤电活性(electro-dermal activity,EDA)、光电容积描记图(photoplethysmogram,PPG)和颧肌肌电图(zygomaticus electromyography,zEMG)的融合观测中提取深度级别特征,然后获取EDA、PPG和zEMG的统计特征,并与深度信念网络特征结合构成特征融合向量,最后将准备好的特征向量用于对5种基本情绪的分类。Kwon Y H等人[9]提出一种卷积神经网络(convolutional neural network, CNN)结构,提取脑电信号情绪特征,并和 GSR特征结合构成多模态情绪特征,用于情绪识别。Liao J X 等人[10]提出用卷积递归神经网络的方法提取多模态生理信号的情绪信息。该方法首先根据空间位置对脑电通道进行二维表示,然后和脑电时序信息一起输入卷积神经网络,提取脑电信号情绪信息,接着利用长短期记忆(long short term memeory, LSTM)网络提取外围生理信号情绪信息,最后将两种特征同维拼接,用于最后的分类。Qiu J L等人[11]采用深度相关分析(deep canonical correlation analysis,DCCA)共同学习两个模态的非线性变换的参数,以获取脑电信号特征和眼动信号特征的最大相关性,使得提取的两种特征更具相关性,最终提高融合后特征的分类性能。
图1
在多模态融合的3个阶段中,早期信号层融合模型的模态交互和特征提取同时进行,能较充分地考虑不同模态间的交互信息,且在一定程度上简化了模型,但是由于处理的是早期信号数据,存在较多冗余信息的干扰,因此在此类模型中,较难提取有效的模态特征。中期特征层融合模型由于输入为单独提取的模态特征,减少了信息冗余带来的干扰。同时,通过模型实现不同模态间的局部交互,从而得到多种模态信息的融合特征,用于最后的决策。由于特征层面的融合模型在多模态交互融合中的优势,许多研究者大多选择特征层面的多模态融合模型。后期决策层融合模型只在决策时考虑模态间的相关性,没有充分利用不同模态特征间的局部交互信息。在上述特征层面的融合方法中,不同模态的特征通常进行同维拼接,即结合后的多模态特征维度并没有增加并且通常是一维特征,在后续的融合中不利于模态间的局部交互。因此,本文提出基于 3D 分层卷积的多模态特征融合模型,将提取的多模态情绪特征进行增维拼接后,利用 3D 分层卷积,获取不同模态间的两两局部交互信息和全部模态间的全局交互信息,得到融合多种模态情绪信息的多模态融合情绪特征,并用于分类。
2 基于3D分层卷积融合的多模态生理信号情绪识别方法
本文提出基于 3D 分层卷积的多模态特征融合模型,用于对多模态生理信号进行情绪识别。首先将选取的多模态生理信号经过一定的预处理后,分别放入深度可分离卷积(depthwise separable convolution)网络模型中,提取模态内的初级情绪特征,然后将多个模态情绪特征进行增维拼接,放入 3D分层卷积融合模型中,实现两两模态间的局部交互以及所有模态间的全局交互,获取包含不同生理信号情绪特征的多模态融合特征,最后用于情绪的识别和分类。多模态生理信号的情绪识别模型示意图如图2所示。
2.1 基于深度可分离卷积网络的特征提取模型
生理信号数据采集条件苛刻、成本高,在数据量级上,不能与图像数据相提并论。然而卷积神经网络是基于数据驱动的,得到一个可靠模型需要训练大量的数据,当遇到样本量较小的数据集时,模型容易过度拟合训练集数据特征,泛化性较差,使得训练集和测试集在模型上的表现差异较大,产生过拟合现象。因此,适用于原始生理信号数据情绪特征的卷积网络模型应该是能获取生理信号的时序特征和空间特征,同时参数量少,不易出现过拟合的模型。
图2
在常规卷积操作中,若输入数据是多通道的,如7×7×3的尺寸,其中7×7为一个通道的数据尺寸,该输入数据有 3 个通道,则卷积核的尺寸可以为5×5×3,其中卷积核的通道数和输入数据的通道数一致。卷积核的每个通道分别与输入数据的相应通道进行卷积操作,最后将不同通道在相同位置的值求和,得到一个特征图。所需参数量P=5×5×3×t,其中t为卷积后输出的特征图个数,即经过一次卷积后得到的通道数。普通卷积过程如图3所示。
图3
深度可分离卷积是轻量级网络 MobileNets[14]和Xception[15]中的精华部分。深度可分离卷积由深度卷积(depthwise convolution)和点卷积(pointwise convolution)构成,如图4所示。深度卷积又被称为逐通道卷积,依然以7×7×3的多通道输入数据为例,逐通道卷积的卷积核为5×5×3,卷积核的每个通道分别与输入数据的相应通道进行卷积操作,不同通道在相同位置的值不做求和处理,因此逐通道卷积输出的特征图数量和输入数据的通道相同,且每个特征图仅包含独立通道的信息,与其他通道没有信息交互。所需的参数量Pd=5×5×3。深度可分离卷积是在深度卷积后连接点卷积实现的。点卷积的卷积核为1×1×3,其中3为深度卷积输出的特征通道数,在不同的特征图中,实现相同位置不同通道间的信息交互,弥补深度卷积没有通道信息交互的缺点,若指定进行点卷积后输出t个特征图,则点卷积所需的参数量为Pp=1×1×3×t,最后输出的特征尺寸和常规卷积相同,最终深度可分离卷积的参数量Pall=Pd+Pp= 5×5×3+1×1×3×t,在大部分应用场景下比常规卷积的5×5×3×t参数量要少得多。
图4
第一块为普通卷积操作,目的是提取生理信号的时序特征。采用大小为1×k的卷积核在每个通道上分别对不同时刻的数据进行卷积操作,卷积层的步长为 1,得到每个通道上对应的时序特征,输出的特征图大小为channels×samples×N,其中channels为输入生理信号的导联数,samples为输入信号的样本点数,N 为最后输出的特征的通道数,k 设置为samples的1/2。
第二块为深度可分离卷积,分为深度卷积和可分离卷积两部分,主要获取生理信号空间和特征通道间的交互信息。深度卷积部分,对逐个样本点的所有导联进行卷积操作,卷积核大小为channels×1,步长为 1,获取多导联信号之间的空间相关特征,对每个通道进行 M 次深度卷积,输出得到 M 个1×samples×N 的深度卷积特征。可分离卷积部分,在深度卷积的基础上进行逐个样本点通道卷积,卷积核为1×1×S,其中S为M和N的乘积,步长为1,获取所有特征图之间的交互特征,输出1×samples×S的特征图。
在模型中每层卷积后添加批归一化层batchnorm,使得每一次输入新的网络层中的数据具有相同的分布。在深度卷积和可分离卷积后分别添加平均池化层和随机失活(dropout)层,抽取特征和防止过拟合,使网络更具鲁棒性和泛化能力。
本文将可分离卷积的输出特征作为每个模态的情绪特征,用于后续的多模态融合模型中。
图5
2.2 基于3D分层卷积的多模态特征融合模型
通过深度可分离卷积模型,本文可以获得不同模态的生理信号的情绪特征。然而,在情绪诱发过程中,单一的生理信号体现的情绪信息不是很完备,且单模态受采集环境及被试个体差异的影响较大,单模态生理信号的情绪特征鲁棒性不高,因此,本文构建了一个深度为4层的基于3D分层卷积的多模态特征融合模型,如图6所示。
第一层为输入层:由深度可分离卷积模型可得到多个模态间相互独立的情绪特征,且每个形状都为1×dim×F,其中,dim为特征的维度,F为特征的通道数。在输入模型前,将不同的模态特征在第0维进行拼接,形成I×1×dim×F的多模态三维特征矩阵,通过维度转换,最终以I×1×dim×F的形状输入模型,其中I为拼接的模态数量,为了让每个模态都能两两交互,本文设I为4。
第一个3D卷积层:由于输入是三维特征矩阵,且3个维度之间存在相关性,因此,本文提出用3D卷积实现模态之间的交互。设卷积核为2×2×3,步长为1×1×2,隐藏神经元节点数为H1,每个卷积核能同时感知不同模态、不同时刻和不同特征图3个相关维度的信息,通过卷积过程,实现3个维度信息之间的两两交互。
第二个 3D 卷积层:经过第一层卷积后,得到初步的低层次融合特征。本层设卷积核为3×3×3,步长为1×1×2,隐藏神经元节点数为H2,在低层次的局部交互信息基础上,进一步卷积,获取包含低层次局部信息交互信息和高层次全局抽象信息的融合特征。
输出层:将前一层得到的全局融合特征进行扁平化处理,然后进行分类,最后输出情绪的类别。
3 实验设置与结果分析
3.1 数据集
本文将情绪生理信号数据集DEAP[17]作为实验数据。该数据集采集了32个被试在观看40段每段1 min 的音乐视频后的 EEG、EOG、EMG、ECG、GSR等生理信号。该数据集用根据10~20国际标准导联设计的脑电帽采集脑电信号,这些脑电信号包含了32个头皮电极导联,采样率为512 Hz。数据集采用二维情绪模型判定情绪类别,被试在观看完一段音乐视频后,要求在唤醒度、效价、支配度和喜欢程度4个维度上,在1~9范围内标出对视频的情绪感受。
图6
数据集预处理版本包含32通道的脑电数据和8通道的外围生理信号数据。统一进行128 Hz的降采样处理。每个通道的数据包含3 s的静息态基准线信号和60 s的生理信号数据,对应一个1 min的音乐视频。根据实验需要,本文选取 32 通道的脑电数据,2通道的肌电数据和2通道的眼电数据作为多模态生理信号。对于所选的脑电数据,每个通道除去静息态后,共8 064-128×3=7 680个样本点,每个视频按照1 s时长进行分割后,将同一个被试的数据按照样本量×通道×样本的格式进行拼接,得到 2 400×40×128 形式的生理信号数据。其中,为弱化设备本身对信号的干扰,每个通道的数据分别减去了前3 s的静息态数据的均值[18]。在验证模型前,数据在单个被试内进行乱序处理。
情绪评价维度主要选取唤醒度和效价两个维度,研究情绪二分类和四分类任务,以5为阈值,将小于或等于5的评分设为低水平,5以上的评分设为高水平。其中,二分类依次为低唤醒度(low arousal,LA)、高唤醒度(high arousal,HA)和低效价(low valence,LV)、高效价(high valence, HV);四分类任务由效价-唤醒度共同构成,依次为高唤醒度高效价(high arousal high valence, HAHV)、低唤醒度高效价(low arousal high valence, LAHV)、低唤醒度低效价(low arousal low valence, LALV)、高唤醒度低效价(high arousal low valence, HALV)。
3.2 网络训练参数
本文经多次试验后选择效果最优的超参数,其中学习率为 0.001,优化器为 Adam,样本批次为128,dropout系数为0.5,模型中网络层的神经元节点数见表1。
3.3 结果与分析
本文在DEAP数据集上选取脑电信号、眼电信号和肌电信号作为多模态生理信号的组合,验证提出基于 3D 分层卷积的多模态特征融合模型。为探究多模态生理信号情绪特征融合的有效性,本文在效价、唤醒度二分类任务和效价-唤醒度四分类任务上分别对多模态生理信号融合情绪特征和单模态脑电信号情绪特征的分类性能做对比实验,所有被试的情绪特征在不同分类任务中的平均分类准确率见表2。从表2可以看出,单模态脑电信号情绪特征在二分类和四分类任务中的平均分类准确率分别为94.02%、93.39%和89.15%,而多模态生理信号融合情绪特征在对应任务中的平均分类准确率分别为98.31%、98.47%和98.21%。脑电、眼电和肌电3种情绪特征经过3D分层卷积融合后的多模态生理信号融合情绪特征在二分类任务和四分类任务上的平均分类准确率都优于单模态脑电信号情况特征,在二分类任务中提高了4%~5%,在四分类任务中提高了近10%。由此,验证了本文提出的模型的有效性。
表2 单模态脑电信号情绪特征和多模态生理信号融合情绪特征在不同分类任务中的平均分类准确率和标准差
特征 | 效价 | 唤醒度 | 效价-唤醒度 |
单模态脑电信号情绪特征 | 0.940 2± 0.057 1 | 0.933 9± 0.085 8 | 0.891 5± 0.059 5 |
多模态生理信号融合情绪特征 |
此外,本文还观察了不同被试的生理信号特征在情绪识别上的差异,以每个被试的测试结果在效价、唤醒度和效价-唤醒度上的分类准确率为观测指标。如图7、图8和图9所示,在相同任务的不同被试的生理信号特征比较中,不同被试的单模态脑电信号情绪特征分类性能差异较大。而不同被试的多模态生理信号融合情绪特征的分类性能相对稳定,且都具有较高的分类准确率;在被试单模态脑电信号情绪特征表示情绪不理想的情况下,如被试11、被试17或被试22所示,多模态生理信号融合情绪特征依然能保持优越的情绪表示能力。在不同任务的相同被试的生理信号特征比较中,多模态生理信号融合情绪特征在四分类任务中的分类性能提高优势比在二分类任务中更加明显。
图7
图8
图9
图10
图11
4 结束语
针对单模态脑电信号包含的情绪信息不完备这一问题,本文提出在特征层面的 3D 分层卷积融合模型。模型首先用EEGNet分别提取脑电信号、眼电信号和肌电信号的初级情绪特征,在此基础上,对3种模态的情绪特征增维拼接,然后将拼接后的多模态特征放入 3D 分层卷积融合模型中,实现两两模态间的局部交互以及所有模态间的全局交互,获取包含不同生理信号情绪特征的多模态融合特征,用于情绪分类。
在 DEAP 数据集上初步验证了新模型的有效性,本文模型在唤醒度的二分类任务中得到了98.47%的分类准确率,在效价的二分类任务中得到了98.31%的分类准确率,在效价-唤醒度的四分类任务中也得到了98.21%的分类准确率。在和不同对照组的实验对比中,可以得出以下结论。
① 多模态情绪特征经过特征层面的融合后得到的多模态生理信号融合情绪特征在情绪表示充分性上优于单模态脑电信号情绪特征,在不同的情绪分类任务上都优于单模态脑电信号情绪特征。
表3 不同多模态特征融合方法在DEAP数据集上的分类准确率
② 本文提出的增维拼接方法和基于 3D 分层卷积的多模态特征融合模型提取的生理信号情绪特征融合信息能较为充分地表示情绪信息,弥补了单模态脑电信号情绪表示不充分问题,一定程度上弱化了被试间的情绪识别差异。
目前在本文的研究中,所用到的3种生理信号情绪特征的提取模型相同。然而,肌电和眼电这类外围生理信号和脑电信号有所不同,在进一步的工作中,笔者将结合外围生理信号特性构建更适合提取外围生理信号情绪特征的模型,从而在这些生理信号中提取更加精准的情绪特征,有利于在后续的多模态特征融合模型中进行更加一致的情绪特征交互,挖掘更高层次的复杂丰富的多模态特征融合信息。
参考文献
Efficient facial expression recognition for human robot interaction
[C]//
HCI and the face:towards an art of the soluble
[C]//
Enhancing safety of transport by road by on-line monitoring of driver emotions
[C]//
Pervasive and unobtrusive emotion sensing for human mental health
[C]//
A real-time facial expression recognition system for online games
[J].
A review of emotion recognition using physiological signals
[J].
Early versus late fusion in semantic video analysis
[C]//
Human emotion recognition using deep belief network architecture
[J].
Electroencephalography based fusion two-dimensional (2D)-convolution neural networks (CNN) model for emotion recognition system
[J].
Multimodal physiological signal emotion recognition based on convolutional recurrent neural network
[J].
Multi-view emotion recognition using deep canonical correlation analysis
[C]//
Multimodal emotion recognition model using physiological signals
[J].
Multimodal emotion recognition based on ensemble convolutional neural network
[J].
MobileNets:efficient convolutional neural networks for mobile vision applications
[J].
Xception:deep learning with depthwise separable convolutions
[C]//
EEGNet:a compact convolutional neural network for EEG-based brain-computer interfaces
[J].
DEAP:a database for emotion analysis; using physiological signals
[J].
Emotion recognition from multi-channel EEG through parallel convolutional recurrent neural network
[C]//
Deep convolutional neural network for emotion recognition using EEG and peripheral physiological signal
[C]//
Emotion recognition using multimodal residual LSTM network
[C]//
/
〈 |
|
〉 |
