•原始脑电信号:原始脑电信号实验结果如表III所示。在这种情况下,6秒和15秒的样本明显优于20秒和30秒的样本。更重要的是,在比较表I时、在表II和表III中,基于原始EEG信号的方法出人意料地比基于CWT的方法好得多。这可能是因为EEG信号是随机的,情感内容是局部的,在使用变压器和其他注意力方法时,不需要EEG信号的转换。作为未来研究的一部分,将对此进行详细分析。
模型系统结构
在广泛使用的DEAP数据集中验证了提出的方法。该数据集记录了32名参与者的脑电图和外周生理信号。数据集中的每个参与者观看了40个一分钟的音乐视频,他们的脑电图记录以512Hz的采样率进行,然后将32个通道采样到128Hz,并将滤波器带到4–45Hz。每个视频主要由参与者根据效率、唤醒、喜好和主导性进行评分。评分范围为1-使用DEAP数据集,可通过等分标签提取多个类别。在拟议工作中,使用了两种类型的标签:效率和唤醒。
文献中提出的方法也与大多数公认的方法进行了全面的比较,如表IV所示。从表IV可以看出,基于VIT的方法比文献中记录的所有最先进的研究都要好。基于注意力的机制可以归因于Vit获得良好结果的主要原因。通过基于多重注意机制,该模型可以更好、更快地捕捉和记住情绪,比CNN和LSTM或手工制作的机器学习算法随着时间的推移而发展。本工作中提出的结果与大多数通过EEG信号建立的情绪分类研究报告的观察结果一致,即较小、较长的样本表现较好。
本节详细说明了CWT图像和原始EEG信号提出的VIT方法。
然而,必须记住,情绪识别等任务发生在几秒钟内,而不是几毫秒内的即时反应。由于几秒钟对EEG来说是一个重要的数据量,脉冲可能在短时间内存在联系。在这种情况下,如果用于情绪分类的模型也考虑了很久以前发生的事件,那就太好了。这种长期依赖性可能无法考虑,如卷积神经网络和长期和短期存储器。CNN是由核心大小和步长决定的局部网络,而LSTM由于遗忘因素而没有良好的记忆保持能力。另一方面,建模相关性的能力基本上是变压器网络中注意力机制的核心[113],而不受序列中的长距离约束。Transformer基于自注机制,在自然语言处理中被广泛接受。在高水平上,该模型遍布每个向量,其中自注意机制使其能够查看输入序列的其他部分,这有助于更好地编码向量。transformer网络是这些注意力层的堆栈,有一些残差连接。transformer有能力在记忆的极限内保留尽可能多的信息,并在过去和现在之间建立关系。LSTM和CNN在相对位置进行建模,而变换器依赖于输入的绝对位置。
结论
结果和分析
提议的方法
•原始EEG信号:在这种情况下,原始32通道EEG信号直接发送到VIT,而不是任何变换或编码,如2b所示。由于原始EEG信号为1D时间信号,补丁嵌入形状为[补丁大小]。此外,在这种情况下,它们直接映射到具有训练线性投影的D维,因为面片已经平整。类似地,预先添加类标记,然后嵌入添加位置,最后传输到转换器编码器。
如第III.A节说,为了验证提出方法的有效性,在公共DEAP数据集上进行了实验。数据集被划分,使80%的数据进入培训集,剩余的20%进入测试集。
在这项研究中,一种名为Visiontransformer视觉转换器的transformer变体是专门为图像制作的,已经适用于脑电脑中的情绪检测。考虑到频率的局部变化,选择Vit的原因是使用由小波变换产生的时频像。然而,与时频图像相比,Vit直接应用于原始EEG信号的准确性有了显著提高,从结果中可以清楚地看出。这清楚地表明了两个方面:注意机制对EEG信号的重要性;需要适当的编码方案。据我们所知,这是第一次尝试在EEG信号分析中使用VIT,也是第一次尝试识别EEG信号中注意力的重要性。简单设置Vit的最大优点之一是它们具有可扩展性和高效性。
基于deap数据集的transformer结合基于deap数据集的transformer结合注意力机制的transformer-深度学习文档资源-CSDN文库
结果
过去,通过生理信号处理情绪识别,如[2-9]所述,已经进行了各种研究。使用NaiveBayes分类器的功率谱密度特征算法,使用本体论模型的PSD和统计特征,使用基于深度信心网络的支持向量机分类器的功率谱和统计特征,使用SoftMax作为分类器的LP-1D-CNN模型提取特征,Pearson的相关系数特征,以深度神经网络和稀疏的自动编码器架构为分类器,以及直接与MMresLSTM一起使用的原始EEG1D时间信号。在大多数方法[2-9]中,情绪状态被理想地分散到许多状态,如快乐、恐惧、愤怒、幸福、惊喜等,被广泛分为两个基本有意义的维度:效率和觉醒。在大多数方法[2-9]中,情绪状态被理想地分散到许多状态,如快乐、恐惧、愤怒、幸福、惊喜等,被广泛分为两个基本有意义的维度:价格和唤醒。价格维度决定了情绪的积极或消极影响,唤醒维度决定了情绪的强度,如1所示:
在基于原始EEG信号的CWT图像和模型中,变压器编码器的输出通过MLP头层映射到类的数量。然后将SoftMax层和ArgMax层应用于获得概率最高的类别。使用嵌入尺寸为512的6层变压器和MSA的8个头进行训练。与NLP中的类似产品相比,转换器的尺寸和内存使用量小了2-3倍,导致训练和测试时间更快。Python10和TensorFlow0完成了这项工作。学习率设定为0.0万
I.引文
情感是人类的本质,可以与思想、决策能力和认知过程联系在一起。对情绪状态的研究可以增强当前的脑接口系统,可以进一步应用于自闭症谱系障碍、注意力缺陷多动障碍、焦虑症等各种应用。由于这些重要的应用,情绪状态的识别和分析已经成为医学、神经科学、认知科学和大脑驱动的人工智能领域的重要研究领域。已经开发了几种情绪识别方法,包括使用生理信号和非生理信号。非生理信号包括面部表情、语音信号、身体姿势,而生理信号包括脑电图、心电信号等。使用非生理信号相对容易,不需要任何特殊设备,但个人可以伪造这些信号,因此不被视为一个人情绪状态的真实反映。相比之下,生理信号超出了一个人的控制范围,因此更适合给定的任务。
在这篇文章中,我们研究了两个实验装置,即基于EEG的情绪识别原始信号,由CWT生成的图像和视觉变换器。Vit在公开可用的DEAP数据集中产生了良好的效果。在Coif5母小波CWT实验形成的图像中,效率和唤醒精度分别为97%和975%。另一方面,在原始脑电信号实验中,效率和唤醒精度分别为94%和91%,优于现有最先进的方法。Vit出色性能的主要原因之一是基于注意机制,因此它能够捕获和保留比传统CNN和LSTM更多的相关信息。这两个实验也证实,较小的样本更适合捕捉情绪,因为它们比其他样本产生更高的分类精度。此外,Vit比其他神经网络更快地计算类似的任务,使其更适合实时分析任务。未来的工作包括对VIT输入的各种压缩/编码方案的彻底比较,以及识别最具影响力的EEG通道的方法,并量化最高注意力分数的时间段,特别是在原始EEG信号实验中。
•CWT生成的图像:使用48尺寸的CWT,使用db4和coif5母小波改变n尺寸32通道样本。作为48尺度CWT的一部分,生成的尺度图像随后被馈送到VIT,形状为[补丁大小,补丁大小]的补丁嵌入在VIT中。通过训练有素的线性投影层,将平面补丁映射到D维所示)。现在,在从可训练线性投影层接收到的输出中添加一个类标记。将位置嵌入到补丁嵌入中,并将其传输到转换器编码器。
数据集描述
特征提取
论文及源码见个人主页:
训练
•CWT生成的图像:CWT生成的图像结果见表I和表II。如图所示,6秒样本形成的标准性能明显优于15秒、20秒和30秒样本。这清楚地表明了EEG信号的显著局部行为和进一步处理模型的重要性。
Vit的架构与vanillatransformer的架构非常相似。NLP转换器具有令牌嵌入,这意味着它接收具有已知字典大小的1D输入作为输入。然而,对于Vit条件下的2D输入,就像被划分为平坦的2D固定大小像块的序列,作为标记。大小的像????∈ℝ????×????×????补丁序列分为不同大小的补丁序列???∈ℝ????×哪里????=????????/????2和????修复程序的大小是选定的。在将获得的补丁传递到vanilatransformer之前,它通过训练线性投影层获得最终的补丁嵌入。Vit使用这些补丁嵌入,因此在NLP转换器中没有特定的vocab限制。
在基于Vit的EEG分类器网络中,Vit的输入数据以两种方式考虑,即原始EEG信号和CWT生成的图像。该方法的系统结构如2a和2b所示。由于其压缩和时频定位能力,小波变换在脑电脑中的应用非常流行。母小波的选择是基于其与时间信号兼容性的一个重要方面。正如中国所研究的,EEG信号与母小波最兼容,母小波近对称和正交。在这项研究中,db4和coif5母小波被用来生成输入Vit的图像。作为消融的一部分,其他压缩表示的实验已经尝试过,比如自动编码器,而不是基于CWT的图像,但结果并不令人鼓舞。
类似于Transformers架构的双向编码器表示,在嵌入补丁之前,已经准备好了可学习的类令牌嵌入。这些补丁也被添加到位置嵌入中,以引入序列中标记的位置信息。变换器模型包括多头自注意和MLP非线性)块,如交替层所示)。每个块之前都有一个层,每个块之后都有剩余的连接[116]。
基于deap数据集的transformer结合基于deap数据集的transformer结合注意力机制的transformer-深度学习文档资源-CSDN文库
文章为作者独立观点,不代表股票交易接口观点