当前位置：文档库 › 面向语音情感计算的数据库的构建与应用研究

面向语音情感计算的数据库的构建与应用研究

语音情感识别中特征参数的研究进展

传感器与微系统（Transducer and Microsystem Technologies）2012年第31卷第2期语音情感识别中特征参数的研究进展* 李杰1，周萍2 （1．桂林电子科技大学计算机科学与工程学院，广西桂林541004； 2．桂林电子科技大学电子工程与自动化学院，广西桂林541004）摘要：语音情感识别是近年来新兴的研究课题之一，特征参数的提取直接影响到最终的识别效率，特征降维可以提取出最能区分不同情感的特征参数。提出了特征参数在语音情感识别中的重要性，介绍了语音情感识别系统的基本组成，重点对特征参数的研究现状进行了综述，阐述了目前应用于情感识别的特征降维常用方法，并对其进行了分析比较。展望了语音情感识别的可能发展趋势。关键词：语音；情感识别；特征参数；特征降维中图分类号：TP391文献标识码：A文章编号：1000—9787（2012）02—0004—04 Research progress on feature parameters of speech emotion recognition* LI Jie1，ZHOU Ping2 （1．School of Computer Science and Engineering，Guilin University of Electronic Technology，Guilin541004，China；2．School of Electric Engineering and Automation，Guilin University of Electronic Technology，Guilin541004，China） Abstract：Speech emotion recognition is one of the new research projects，the extraction of feature parameters extraction influence the final recognition-rate efficiency directly，dimension reduction can extract the most distinguishing feature parameters of different emotions．The importance of feature parameters in speech emotion recognition is point out．The system of speech emotion recognition is introduced．The common methods of feature parameters is detailed．The common methods of dimension reduction which are used in emotion recognition are compared and analyzed．The development of speech emotion recognition in the future are prospected． Key words：speech；emotion recognition；feature parameter；dimension reduction 0引言随着计算机技术的高速发展和人类对计算机依赖性的不断增强，人机交流变得越来越普遍，人机交互能力也越来越受到研究者的重视，语音情感识别就是人机交互与情感计算的交叉研究领域。语音中的情感之所以能够被识别与表达，是因为语音特征在不同情感状态下的表现不同。因此，很多研究者对特征与情感类别之间的对应关系产生了浓厚的兴趣并进行了深入的探讨。Murray I和Amott J L完成的实验得出了基频、能量、时长等韵律特征，以及语音质量特征与情感之间的定性关系［1］，使得韵律学特征成为语音情感识别的常用特征。此后，研究者又加入了共振峰参数和语音学特征，如MFCC，使得韵律学特征与语音学特征结合识别情感。通常在利用这些基本特征进行研究时，还需要求出其派生特征和各种统计特征，如范围、均值和方差等，并把它们组成特征向量。由于到目前为止，声学特征与情感状态的对应关系缺乏统一的结论，为了尽可能保留有意义的信息，研究者只能在研究中保留这维数少则几十条多则上百条的特征向量。但根据模式识别的理论，高维特征集合不仅不会提高识别率，还会造成“维数灾难”［2］。大量的研究表明：语音情感识别的关键就在于从数量众多的特征中求得高效的情感声学特征组，这就需要用到特征降维技术。目前，已有数篇综述文献总结了语音情感识别的研究成果［3 6］，但主要都是针对识别算法的研究进展进行综述。本文从模式识别的角度对目前语音情感识别研究中所采用的特征降维技术进行总结，并对近几年提出的情感特征参数进行阐述。 1语音情感识别系统的概述基于语音的情感识别大致分为预处理、特征提取和情感分类三步，大致框架如图1所示。特征提取作为情感分收稿日期：2011—07—20 *基金项目：国家自然科学基金资助项目（60961002）4

基于安卓的语音情感识别系统设计与实现

基于安卓的语音情感识别系统设计与实现语音情感识别技术是当前情感计算与语音信号领域的热点问题。作为人机交互之中的一个重要组成部分,在疾病诊断、刑侦破案、远程教育等领域也有日趋广泛的应用。作为人机交互之中的一个重要组成部分,语音情感识别技术却由于情感本身的定义不确定性与表征情感的特征的模糊性,使得语音情感识别技术成为了一个难题。为了解决语音情感识别技术中识别率不高且还不能做到人机交互应用的难题,本文主要进行了以下几点研究:1.引入非线性特征Teager能量算子,并将Teager能量算子与MFCC(Mel-Frequency Cepstral Coefficients,梅尔频域倒谱系数)相结合提取NFD_Mel(Nonlinear Frequency Domain Mel,非线性梅尔频域参数),实验结果表明该特征可以从非线性的角度提取特征,并与传统特征相结合可以有效提高识别率,在德国柏林情感数据库识别率达到了82.02%,相比不采用 NFD_Mel的传统方法,识别率提高了3.24%。2.我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法:声门与声道信号都包含了丰富的情感信息,由于个人声道的差异,通常声道信息则更多的包含了个人特征,这对于我们非特定人的情感识别工作产生了很多的干扰。基于非特定人的情感识别效果则不如特定人。为了克服现有技术的不足,我们创新性地提出了一种基于倒谱分离信号的非特定人语音情感识别方法,该方法利用倒谱分离信号,保留全部的声带信息并摒弃一部分的声道信息,同时寻找最佳分离点,最后对处理后的信号在复倒谱重构并提取特征,可以有效提高非特定人语音情感识别

语音情感识别

人机交互中的语音情感识别一．研究内容及其意义随着信息技术的高速发展和人类对计算机的依赖性不断增强，人机交互(Human-Computer Interaction)能力越来越受到研究者的重视。如何实现计算机的拟人化，使其能感知周围的环境和气氛以及对象的态度、情感的内容，自适应地为对话对象提供最舒适的对话环境，尽量消除操作者和机器之间的障碍，已经成为下一代计算机发展的目标。显然，人的大脑所表现出来的心智现象不仅仅体现在“智”的方面，而且还体现在“心”的方面。人工智能已经不仅仅把研究重点放在对人脑智能实现上，而且也开展了对情感和意识方面的研究。一般认为情感是通过语言、姿态、音乐和行为等表达模式来进行交流的，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视。包含在语音信号中的情感信息是一种很重要的信息资源，它是人们感知事物的必不可少的部分信息。例如，同样一句话，由于说话人表现的情感不同，在听着的感知上就可能会有较大的差别。然而传统的语音信号处理技术把这部分信息作为模式的变动和差异噪声通过规则化处理给去掉了。实际上，人们同时接受各种形式的信息，怎样利用各种形式的信息以达到最佳的信息传递和交流效果，是今后信息处理研究的发展方向。语音之所以能够表达情感,是因为其中包含能体现情感特征的参数。研究认为,某种特定的情感状态所引起的语音参数变化在不同的人之间是大致相同的,仅有微小差别。因而，情感的变化能够通过语音的特征参数来反映，研究从语音中提取这些情感参数就显得非常重要。通常认为情绪所引起的生

理上的变化会对语音带来直接的影响，而与人的生理唤醒程度相关的特征参数(声学参数如音强、平均基音、语速等)能够更好地反映语音中的情感 ,如恐惧和生气所引起的生理颤动会带来相应的基频摆动;不高兴会导致声道的紧张从而引起语音信号频谱发生变化。另外，语音情感识别中所采用的识别方法也会对结果产生影响。目前，关于情感信息处理的研究正处在不断的深入之中，而其中语音信号中的情感信息处理的研究正越来越受到人们的重视，如美国、日本、欧洲、韩国等许多国家的一些研究单位都在进行情感语音处理研究工作。语音情感识别有着非常广泛的应用前景。比如，用于自动远程电话服务中心，及时发现客户的不满情绪；用于远程教学和婴儿教育，及时识别学生的情绪并做出适当的处理，从而提高教学质量；也可以用于刑事侦察中自动检测犯罪嫌疑人的心理状态以及辅助测谎等。二．国内外的研究现状语音情感识别是语音信号处理领域崛起的新秀，相关研究至今已有二十余年的研究历史，对提升智能人机交互水平和丰富多媒体检索方式有着重要的实际意义。在1972年Williams发现人的情感变化对语音的基因轮廓有很大的影响，这是国外最早开展的语音情感方面的研究之一。1990年MIT多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样，如人的语音信号、脸部表情信号等来识别各种情感[1]。1996年日本东京Seikei大学提出情感空间的概念并建立了语音情感模型。2000年，Maribor大学的Vladimir Hozjan研究了基于多种语言的语音情感识别[2]。2009年4月，日本产业技术综合研究所(AIST)研制

基于深度学习的语音情感识别建模研究

基于深度学习的语音情感识别建模研究随着计算机技术的发展和人工智能的普及,语音情感识别研究收到学界和工业届的广泛关注。目前的情感识别任务大多采用人工提取多种声学特征并物理降维,构建特征工程的方法,提升识别结果。本文旨在探究语音中情感信息的表达,了解语音中情感信息的变与不变, 从语音中提炼出情感的本质特征,并搭建最合适的表征情感信息的网络结构。基于以上研究重点,本文内容包括以下几个部分:1.研究了基于传统声学特征的情感识别网络在大量的声学特征中,对现有数据做统计分析筛选出声学特征及其统计特征,搭建有效且完备的情感特征工程。从物理意义上出发,筛选合理的表达情感的特征并验证它们的有效性;从数学统计层面考虑,使用卡方检验做特征选择,去除特征集合的冗余信息,提高网络训练效率,构建完备的特征工程。2.研究了基于语谱图的深度学习情感识别网络语谱图几乎包含了所有的语音特征,二维频谱结构既可以体现谐波等激励源特征,又可以分析倒谱、共振峰等声道特性。深度神经网络引入非线性信息,具有自主学习输入数据特征的优点。搭建基于语谱图的深度学习情感识别网络,选用局部感知和跳跃连接的ResNet网络,并基于卷积核权重系数做出改进。再此基础上,搭建ResNet-LSTM网络,对ResNet网络学出的高层情感特征进行时序建模。3.引入了注意力机制,研究了低级描述符和高层语义信息的特征融合将经过验证的可以表征情感信息的声学特征集合作,与ResNet-LSTM网络学习到的语音信号的高层语义信息进行融合,将融合后的特征经过DN-N网络分类输出,增加深度学习的解释性

和人工辅助。此外,引入注意力机制,探索语音中的关键帧信息。将学习到的注意力作为权重系数加入到人工提取的低级描述符特征中,并将它应用于特征融合实验。本文主要从情感的产生和感知层面出发,落实到特征和网络两个研究重点上展开工作,产生上探究如何构建具有情感表征意义的完备的特征集合,感知上从网络结构入手,尝试搭建具有情感认知的网络结构,并通过注意力机制讨论语音情感的局部关键性,结合产生、感知、和局部特性探讨语音情感的表达。

情感语音识别开题报告

太原理工大学信息工程学院本科毕业设计（论文）开题报告毕业设计(论文)题目语音情感识别及其特征提取的研究学生姓名付建梅导师姓名张雪英专业通信工程报告日期2011.4 班级0701 指导教师意见签字年月日专业(教研室)主任意见年月日系主任意见年月日

1. 国内外研究现状及课题意义 1.1课题研究意义现在社会，人类跟计算机的交往越来越受到研究者的重视。自然和谐的人机界面的沟通应该能理解用户的情绪和意图，对不同用户、不同环境、不同任务给予不同的反馈和支持。情感计算研究就是试图创建一种能感知、识别和理解人的情感，并针对人的情感做出智能、灵敏、友好反应的计算系统，即赋予计算机像人一样地观察、理解和生成各种情感特征的能力，使计算机能够更加自动适应操作者。实现这些，首先必须能够识别操作者的情感，而后根据情感的判断来调整交互对话的方式。情感计算研究内容主要包括脸部表情处理、情感计算建模方法、情感语音处理、姿态处理、情感分析、自然人机界面、情感机器人等。情感计算，受到越来越多的国内外学者和研究机构的重视。美国的各大信息技术实验室正加紧进行情感计算系统的研究。例如，麻省理工学院媒体实验室的情感计算小组研制的情感计算系统，通过记录人面部表情的摄像机和连接在人身体上的生物传感器来收集数据，然后由一个“情感助理”来调节程序以识别人的情感。目前国内的情感计算研究重点在于，通过各种传感器获取由人的情感所引起的生理及行为特征信号，建立“情感模型”，从而创建个人的情感计算系统。情感计算已经应用到生活中的各个领域：在信息家电和智能仪器中增加自动感知人们情绪状态的功能，可以提供更好的服务：在信息检索过程中，通过情感分析解析功能，则可提高智能信息检索的精度和效率：在远程教育平台中，情感计算技术的应用能提升教学效果；利用多模式的情感交换技术，还可以构筑更贴近人们生活的智能空间和虚拟场景。此外，情感计算还能应用在机器人、智能玩具、可视会议、唇读系统、可视电话系统的应用场合，在传输语音信号的时候能够显示视频动画，将有助于人类特别是听力有障碍的人对语音的理解。正是基于以上课题对于科研、社会的重要意义，我的毕业论文的主要任务是建立带有情感的音视频数据库，研究音频信号中能体现情感的特征，分析哪些特征可以有效地表达情感，进行特征提取并进行情感识别实验。这些工作是为后面进行带有感情的音视频合成动画系统建立基础。 1.2国内外研究现状语音信号处理中，语音识别作为一个重要的研究领域，已经有很长的研究历史，其中语音特征提取与情感识别又是其中的一个重要方面。在1972 年，Williams 发现人的情感变化对语音的基音轮廓有很大的影响，这是国外最早开展的语音情感方面的研究之一。1990 年，麻省理工学院多媒体实验室构造了一个“情感编辑器”对外界各种情感信号进行采样，如人的语音信号、脸部表情信号等来识别各种情感。1996 年日本东京Seikei 大学提出情感空间的概念并建立了语音情感模型。2000 年，Maribor 大学的Vladimir Hozjan 研究了基于多种语言的语音情感识别。2009 年4月，日本产业技术综合研究所(AIST)研制一个具有丰富表情的新型女性机器人“HRP-4C”。通过对主人语音信号的识别，机器人可以做出喜、怒、哀、乐和惊讶的表情等。在国内，语音情感识别的研究起步较晚。2001 年，东南大学赵力等人提出语音信号中的情感识别研究。2003 年，北京科技大学谷学静等人将BDI Agent 技术应用与情感机器人的语音识别技术研究中。另外，2003 年12 月中科院自动化所等单位在北京主办了第一届中国情感计算及智能交互学术会议，2005 年10 月又在北京主办了首届国际情感计算及智能交互学术会议。

包含在语音信号中情感特征的分析

包含在语音信号中情感特征的分析摘要：分析了含有欢快、愤怒、惊奇、悲伤等4种情感语音信号的时间构造、振幅构造、基频构造和共振峰构造的特征。通过与不带情感的平静的语音信号的比较，总结了不同情感语音信号情感特征的分布规律，为情感信号处理和识别提供了有实用价值的理论数据。关键词：情感特征语音信号时间构造振幅构造基频构造共振峰构造语言是人类交际的最重要的工具。人类的话语中不仅包含了文字符合信息，而且还包含了人们的感情和情绪等信息。例如，同样一句话，往往由于说话人的情感不同，其意思和给听者的印象就会不同，所谓“听话听音”就是这个道理。传统的信息科学世界只是处理符号信息的“无神经”的知识世界。例如，传统的语音处理系统仅仅着眼于语音词汇传达的准确性，而完全忽略了包含在语音信号中的情感因素。所以它只是反映了信息的一个方面。与知识世界相对应且具有同等重要地位的感性科学世界，也是信息处理的重要组成部分。因此情感信号特征的人工处理，在信号处理和人工智能等领域具有重要意义。从语音信号提取情感特征，判断说话人的喜怒哀乐，是国外近几年刚刚兴起的研究课题。由于刚刚起步，这方面的研究成果还很少[5]，就目前的研究水平来看，一般也都只限于通过分析情感语音信号的持续时间、发音速度、振幅、基频、频谱等变化特点，寻找能够反映情感特征的物理参数。本文针对含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号，分析了它们的时间构造、振幅构造、基频构造和共振峰构造的特征。并且通过和不带感情的平静语音信号进行比较，找出了不同情感信号特征的分布规律。作为情感信号处理的初步研究，为汉语情感语音信号处理和情感识别提供了有实用价值的理论数据。1 情感分析用语音资料的选择适当选择用于情感分析的语音信号具有重要意义。然而，国内外现在还没有提出情感分析用语音资料的条件和标准[4]。在我们的情感分析实验中，对实验用语句的选择主要考虑了两个方面：第一，所选择的语句必须具有较高的情感自由度；第二，对同一个语句应该能施加各种情感进行分析比较。根据这两个原则，我们选用了如表1所示的4个语句作为情感分析用语音资料。并邀请了5名善于表演的男性话者用平静、欢快、愤怒、惊奇、悲伤等5种情感对每个句子各发音3遍，一共搜集了300个分析用语句。录音是在安静的房间里并且使用索尼DAT设备完成的。录音数据使用创通公司PCI64位声卡通过11025Hz采样、16bit A/D变换转化成数字信号存储在PC机中。为了检验所搜集的实验用情感语音数据的有效性，我们做了一个听取实验。我们要求以上五名发音者以外的另三名实验者坐在电脑终端前，然后随机播放所搜集到的带有各种情感的语句，让实验者通过主观评价说出所放语音的情感类型。经过反复听取比较，对其中情感特征不明显的句子进行了删除和重新制作。2 分析实验和结果一般来说，语音中的情感特征往往通过语音韵律的变化表现出来[4]。例如，当一个人发怒的时候，讲话的速率会变快，音量会变大，音调会变高等，这些都是人们直接可以感觉到的。本文中，我们主要就含有欢快、愤怒、惊奇、悲伤等4种情感的语音信号的时间构造、振幅构造和基频构造等韵律特征和不含感情的平静语音信号进行比较，找出了不同情感信号特征的构造特点和差别。为了求出分析所需要的语音信号韵律特征参数，首先按12kHz的抽样频率对输入信号进行A/D变换，然后对抽样信号加上窗长21.33ms(256点)，窗移10ms的汉明窗，最后根据不同的分析需要求出短时能量，基音频率等韵律特征参数。由于语音信号中的情感信息受到语句词汇内容的影响，所以为了使分析结果消除这方面的影响，一般都是通过分析情感语音和不带感情的平静语音的相对关系，找出这种相对特征的构造、特点和分布规律，用来处理和识别不同的情感语音信号。 2.1 时间构造的分析分析情感语音的时间构造主要着眼于不同情感语音的发话时间构造的差别，对由情感引起的持续时间等的变化进行分析和比较。本文中我们主要就发话持续时间长度(简称为T)以及平均发话速率和情感的关系进行了分析和比较。我们把上述300

服务机器人的语音情感识别与交互技术研究

万方数据

１４６８小型微型计算机系统２０１０年４技术应用４．１机器人平台介绍本文将语音情感识别技术应用在国家”八六三“高技术研究发展计划项目”家庭生活支援多机器人系统”的语音子系统中，验证了语音情感特征提取和情感识别方法的有效性．该机器人的头部能够实现眼球的转动、眼睑的闭合、嘴的闭合、头部的转动等并能做出基本的表情．机器人的结构设计和系统设计完全根据生理学人体结构来设计，控制系统采用上下位机结构．机器人的移动部分使用两轮差动机构进行驱动，并且配有两个６自由度的手臂，可以进行复杂操作．上位机采电源Ｌ毪。－——ｚ＝＝一 —包ＱＱ翻麦克风卜上位监控ＰＣ－—＝＝＝＝—??Ｊ摄像头卜．．．．．．．．．．．．一 ———１—一Ｉ工业现场总线ｌ自囱审豳豳囱囱图２机器人平台构成Ｆｉｇ．２Ｔｈｅｓｌｒｕｃｔｕｒｅｏｆｒｏｂｏｔｐ／ａｆｆｏｒｍ用工业ＰＣ机，主要负责导航、身体的协调控制、语音情感的识别、语音识别和语音合成等工作；下位机是基于现场总线的集散式控制模块，主要负责传感器信息接收及初级处理、电机驱动和运动控制等工作．监控模块与各执行机构之间通过传感系统进行联系，上位机和下位机通过局域网进行连接和通信．用户可以通过网络、手机、无线麦克风等方式实现对该机器人的控制，以此满足各种家庭信息的需求．通过下位监控模块的感知，机器人上位监控程序针对不同的语音输人识别出不同的情感状态，从而做出不同的情感表达和交互．如图２为机器入平台构成．图３实验系统主界面Ｈｇ．３Ｔｈｅｍａｉｎｉｎｔｅｒｆａｃｅｏｆｅｘｐｅｒｉｍｅｎｔａｌｓｙｓｔｅｍ４．２机器人语音情感识别系统实验过程本实验主要完成机器人对语音信号的情感的识别，使人与机器人之间可以完成情感和语音的交互，同时可使机器人听从人的指挥完成一定的任务．如图３为语音情感识别实验系统主界面．在语音情感识别实验中，首先邀请８名大学生参加录音。录音者均为表演专业学生．所录制语料经过４名非录音者进行听辨实验，去除了其中３０％左右情感类型不明显的语料，挑选出共计５５０条语料用于测试，其中包含高兴，伤心，生气，害怕，惊讶５类情感语料各１１０句左右，组成了录制情感语音数据库，录制格式为ｌｌＫＨｚ，１６ｂｉｔ的单声道ＷＡＶ音频格式；然后进行语音信号的特征提取并通过本文隐马尔可夫模型识别方法对语音中的情感进行识别和计算；同时语音识别模块会识别出语音中包含的文字信息，这样机器人可以根据文字和情感信息来与用户进行更人性化的交流．４．３实验结果分析与比较表ｌ实验结果表明，伤心的识别率为８６．４％，生气的识别率为７３．６％，其他三种情感的识别率略低，平均识别率为６９．８％，还是比较理想的．表１语音情感识别实验结果Ｔａｂｌｅ１Ｔｈｅｒｅｓｕｌｔｏｆｅｘｐｅｒｉｍｅｎｔ文献［１４］研究了基音频率、振幅能量和共振峰等目前常用的情感特征在语音情感识别中的作用，重点研究了加１。Ｃ和ＡＭＦＣＣ，将处理后的频谱特征参数同原有的ＢＰ人工神经网络模型有效地结合起来，形成完整的语音情感识别系统。取得了６４．４％的平均识别率．该方法对于生气、高兴、伤心、害怕的识别率分别达到了６４．５％、５４．９％、８３．３％、５５．０％。而本图４语音交互模块框图Ｆｉｇ．４Ｔｈｅｄｉａｇｒａｍｏｆｓｐｅｅｃｈｉｎｔｅｒａｃｔｉｏｎｍｏｄｕｌｅ文中的识别方法对这几种情感的识别率都有所提高，平均识别率也提高了５．４％．文献［１５］利用模糊熵理论来分析语音信号情感特征参数相对于识别情感模式的不确定度，提出了一种利用模糊熵对情感参数有效性进行度量的方法，并将参数有效性分析结合模糊综合判别对情感语音信号作情感识万方数据

语音情感识别研究进展综述_韩文静

软件学报ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.wendangku.net/doc/aa16879281.html, Journal of Software,2014,25(1):37?50 [doi: 10.13328/https://www.wendangku.net/doc/aa16879281.html,ki.jos.004497] https://www.wendangku.net/doc/aa16879281.html, +86-10-62562563 ?中国科学院软件研究所版权所有. Tel/Fax: ? 语音情感识别研究进展综述韩文静1, 李海峰1, 阮华斌2, 马琳1 1(哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) 2(清华大学计算机科学与技术系,北京 100084) 通讯作者: 韩文静, E-mail: hanwenjing07@https://www.wendangku.net/doc/aa16879281.html, 摘要: 对语音情感识别的研究现状和进展进行了归纳和总结,对未来语音情感识别技术发展趋势进行了展望. 从5个角度逐步展开进行归纳总结,即情感描述模型、具有代表性的情感语音库、语音情感特征提取、语音情感识别算法研究和语音情感识别技术应用,旨在尽可能全面地对语音情感识别技术进行细致的介绍与分析,为相关研究人员提供有价值的学术参考;最后,立足于研究现状的分析与把握,对当前语音情感识别领域所面临的挑战与发展趋势进行了展望.侧重于对语音情感识别研究的主流方法和前沿进展进行概括、比较和分析. 关键词: 人机交互;情感计算;情感描述模型;情感语音库;情感声学特征;语音情感识别中图法分类号: TP391文献标识码: A 中文引用格式: 韩文静,李海峰,阮华斌,马琳.语音情感识别研究进展综述.软件学报,2014,25(1):37?50.https://www.wendangku.net/doc/aa16879281.html,/ 1000-9825/4497.htm 英文引用格式: Han WJ, Li HF, Ruan HB, Ma L. Review on speech emotion recognition. Ruan Jian Xue Bao/Journal of Software, 2014,25(1):37?50 (in Chinese).https://www.wendangku.net/doc/aa16879281.html,/1000-9825/4497.htm Review on Speech Emotion Recognition HAN Wen-Jing1, LI Hai-Feng1, RUAN Hua-Bin2, MA Lin1 1(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) 2(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China) Corresponding author: HAN Wen-Jing, E-mail: hanwenjing07@https://www.wendangku.net/doc/aa16879281.html, Abstract: This paper surveys the state of the art of speech emotion recognition (SER), and presents an outlook on the trend of future SER technology. First, the survey summarizes and analyzes SER in detail from five perspectives, including emotion representation models, representative emotional speech corpora, emotion-related acoustic features extraction, SER methods and applications. Then, based on the survey, the challenges faced by current SER research are concluded. This paper aims to take a deep insight into the mainstream methods and recent progress in this field, and presents detailed comparison and analysis between these methods. Key words: human-computer interaction; affective computing; emotion representation model; emotional speech corpora; emotion-related acoustic feature; speech emotion recognition 人类之所以能够通过聆听语音捕捉对方情感状态的变化,是因为人脑具备了感知和理解语音信号中的能够反映说话人情感状态的信息(如特殊的语气词、语调的变化等)的能力.自动语音情感识别则是计算机对人类上述情感感知和理解过程的模拟,它的任务就是从采集到的语音信号中提取表达情感的声学特征,并找出这些声学特征与人类情感的映射关系.计算机的语音情感识别能力是计算机情感智能的重要组成部分,是实现自然 ?基金项目: 国家自然科学基金(61171186, 61271345); 语言语音教育部微软重点实验室开放基金(HIT.KLOF.2011XXX); 中央高校基本科研业务费专项资金(HIT.NSRIF.2012047) 收稿时间:2013-05-08; 定稿时间: 2013-09-02; jos在线出版时间: 2013-11-01 CNKI网络优先出版: 2013-11-01 13:49, https://www.wendangku.net/doc/aa16879281.html,/kcms/detail/11.2560.TP.20131101.1349.001.html

【CN110047518A】一种语音情感分析系统【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910352425.1 (22)申请日 2019.04.29 (71)申请人湖南检信智能科技有限公司地址 410000 湖南省长沙市长沙高新开发区尖山路39号中电软件园大楼总部 G0241房 (72)发明人李剑峰　 (74)专利代理机构北京联瑞联丰知识产权代理事务所(普通合伙) 11411 代理人郑自群 (51)Int.Cl. G10L 25/63(2013.01) (54)发明名称一种语音情感分析系统 (57)摘要本发明公开了一种语音情感分析系统，包括语音心理分析模块，用于通过人说话语音进行实时或音视频文件分析，获得被测试者说话片段的多种心理参数，所述心理参数包括害怕、排斥、冲突、期待、压力、兴奋、逻辑、比率、概率、分心、犹豫、认知、紧张、坏感、想象、思考、潜意识、潜在情绪中的一种或多种，并基于此给出综合研判分析结果。本发明可以对任何渠道获得的音频、视频进行分类记录和分析，还可以进行独立的语音情绪的分析和联合内容分析。权利要求书1页说明书5页附图1页CN 110047518 A 2019.07.23 C N 110047518 A

权　利　要　求　书1/1页CN 110047518 A 1.一种语音情感分析系统，其特征在于，包括：语音心理分析模块，用于通过人说话语音进行实时或音视频文件分析，获得被测试者说话片段的多种心理参数，所述心理参数包括害怕、排斥、冲突、期待、压力、兴奋、逻辑、比率、概率、分心、犹豫、认知、紧张、坏感、想象、思考、潜意识、潜在情绪中的一种或多种，并基于此给出综合研判分析结果；面部表情分析模块，用于通过人脸面部图像的实时或视频文件分析，获得被测试者每一时刻或在说话片段中的平静、愉悦、悲哀、愤怒、惊讶、惧怕、厌恶、轻蔑、关注、烦倦、困惑、心率、眼动、微表情强度、唤醒度中的一种或多种参数指标，并基于此抓出异常时刻表情；生理指标分析模块，用于通过人体的生理指标，包括皮电、呼吸、血氧、指脉、血压、心率、体动中的一种或多种，获得被测试者任一时刻的心理活动以及紧张度；量表测试模块，用于集成常用量表，并给出分析报告，并同步解读被测试者语音、表情和心理活动中的一种或多种。 2.根据权利要求1所述的一种语音情感分析系统，其特征在于，包括语音采集设备，所述语音采集设备将采集的语音数据输入到语音心理分析模块。 3.根据权利要求1所述的一种语音情感分析系统，其特征在于，包括图像采集设备，所述图像采集设备将采集的图像数据输入到面部表情分析模块。 4.根据权利要求2所述的一种语音情感分析系统，其特征在于，所述语音采集设备包括手机、固定电话和麦克风中的一种或多种。 5.根据权利要求3所述一种语音情感分析系统，其特征在于，所述图像采集设备包括军队/公安/纪检/敏感职位/心理教学/手机APP中的一种或多种图像应用软件系统。 6.根据权利要求1～5任一种所述的一种语音情感分析系统，其特征在于，包括显示模块，所述显示模块用于输出量表测试模块的分析结果。 2

情感语音的分析与转换

计算机世界/2007年/1月/29日/第B13版技术专题深入研究人类用语音表达情感的机理,探索不同情感状态下语音的差异以进行转换,可以为语音合成、语音分析、语音识别等提供指导,最终改善人机交互。情感语音的分析与转换崔丹丹蔡莲红情感是语音传情达意的重要成分。在交互过程中，语音的情感承载着丰富的信息，同样文本的语音可能表达出不同的情感和含义。情感语音转换主要关注表达的准确性，追求表达的真实意图和弦外之音。近年来，在信息、娱乐等服务的应用系统中，表现力和情感语音合成成为新的热点。美国早在1990年就由MIT的Cahn构造了一个用声学和语音学来描述发音的计算机程序，用来驱动一个基于规则的语音合成器合成六种基本情感，合成的情感约有50%的识别率。欧洲也启动了PHYSTA（Principled Hybrid Systems and Their Application）项目，目标是开发一个能从脸像和语音识别情感的系统。日本ATR实验室对人类自然语音交流中的情感、意图等非音段信息进行深入分析，并录制和标注了大量的日常生活中的语音数据。国内也开展了情感语音相关的研究，特别是清华大学和中科院心理所合作，将人机交互技术与心理、认知科学相结合，在情感语音计算和处理领域迈出了新的探索之路。情感语音分析与转换的主要工作语音变换的目标是实现语音的个性化，比如实现男女声变换、特定声音音色的变换，而情感变换的目标是实现不同情感的变换，比如原有一个中性（无感情色彩）的声音变成“高兴的”声音。情感声音转换的研究分为情感语音分析和情感语音变换两个部分。情感语音分析的主要工作是收集各种带有不同情感的语音数据、提取声学特征，分析声学特征与情感联系，建立“情感描述词”与“情感状态空间”的映射、“情感空间”与语音特征的映射、训练情感转换模型。而情感语音变换是按照指定的“情感描述词”，利用情感转换模型实现转换。困难的是，语音表达丰富多彩，人类的情感也非常复杂，因而情感如何量化一直困挠着研究人员。清华大学与中科院心理所的研究人员借用心理学家提出的PAD三维情感状态模型解决了情感的量化问题。PAD情感状态模型包括三个维度，即愉悦度、激发度和优势度，特别是PAD中“优势度”可很好地描述语音交互属性。如发出命令的声音比接受命令的声音优势度高。下面将介绍情感语音转换中的几个关键部分。从情感体验到情感状态空间为了实现人机语音交互系统的符号用户接口，建立如文本中的词汇、网络聊天用的字符表情、字体颜色等情感符号在情感描述空间上的分布是非常必要的。最基本的情感符号是表示情感的形容词，在心理学研究中叫做“情绪体验词”。情感符号都可以转写为特定的情绪体验词。为此，课题组选取了一个能够覆盖日常生活中常见情感表达模式的情绪体验词集合，并标定它们在PAD空间的分布，从而建立起从情感描述符号到情感状态空间的映射。其中，关键问题是情绪体验词的选取。为了解人的情绪体验，心理学者们常选用一系列形容词制成检表来测查心境状态或情绪性障碍，例如Izard的分化情绪量表DES就得到了广泛的认可。在汉语方面，左衍涛先生评定出127组共400个汉语常见情绪词作为中文情绪词的代表样本，也很值得借鉴。而在课题组的研究中，

语音中的情感

语音的情感信息分析与编辑* 蔡莲红崔丹丹蒋丹宁杨鸿武清华大学计算机科学与技术系，北京 100084（clh-dcs@https://www.wendangku.net/doc/aa16879281.html,）摘要：本文研究了语音声学参数的情感区分特征，并通过情感分类的方法确定声学特征对分类的贡献。设计实现了一个语音情感编辑器，它具有编辑、修改语音韵律参数的功能，以实现不同情感的表现。关键词：情感；声学特征；情感编辑 1 前言人们通过语音信号传递各种信息，包含“表事”，“表意”，“表情”等信息。话音反映说话人的意向和情感状态。近年来，情感语音逐渐成为的语音研究热点。研究表明，语音的情感信息体现在多种声学参数的变化中，文献[1]将其归纳为基频、时长、能量和频谱四个方面。在基本情感类别中，愤怒和高兴均表现为基频均值、变化范围和方差的提高，能量的加强，以及频谱中高频成分的增加。相反，悲伤对应于基频均值和变化范围的降低，能量的减弱，语速的减慢，以及频谱中高频成分的减小。害怕的特征除了基频均值、变化范围和频谱中高频成分的增加外，还包括基频曲线上抖动的加强和语速的加快。惊讶则表现为很宽的基频变化范围，以及稍减慢的语速。此外，声学参数随时间的变化情况也负载了一定的情感信息。本文重点研究了韵律特征对情感区分和情感表现的影响。首先建立了情感语料库，统计了语料库中语音的声学参数，并选用不同的分类器、不同的声学特征进行情感分类。分类结果表明韵律特征在情感分类中扮演重要的角色。为了研究和感知韵律特征与情感表现的关系，设计实现了一个语音情感编辑器，它具有编辑、修改语音韵律参数的功能，通过韵律修改表现不同的情感。 2 情感语音的区分特征我们知道，与情感表现有关的声学参数包括基频、时长、能量和频谱参数。我们首先在句子范围内计算声学参数统计值，如平均值、标准差、最大值、变化范围等，以反映参数的全局特性。其次计算声学参数的时序特征，它是短时特征的序列，反映了参数随时间的变化情况。目前对声学特征的情感区分性的研究较少。实际上，不同的声学特征反映情感的不同侧面，从而在情感分类中具有互补性和区分性，因此研究情感特征的区分是非常必要的。我们考虑了六种基本情感，为每类情感设计了200个语句。在每类情感的文本中，包含了不同的句子类型（陈述句和疑问句），句子长度，以及声调和重音分布等情况。语句的平均长度为7个到13个音节，最短的语句包含2个音节。语料的发音人为一名不带口音的女性发音人。2.1基本参数的统计特征表1列出了情感语料中各种声学参数的统计平均值。可见，与中性语句的统计结果相比，愤怒、高兴、惊讶三类情感的基频明显升高，基频变化率提高，语速加快，能量增强，频谱中高频成分增加，频谱变化剧烈。害怕表现为基频升高，语速明显加快，以及语音信号中非周期成分明显增加。悲伤表现为基频和基频变化率下降，语速减慢，能量减弱，频谱中高频能量减少，以及频谱变化缓慢。这些统计结果与他人所总结的情感声学特征是基本一致的，说明论文所录制语料的情感表现是合理的。稍微有所区别的是，录制的害怕语音仅表现为基频的提高和语速的加快，而没有出现所述的能量增强和高频成分增加。这可能是由于论文所录制的害怕并不是极端的恐惧，在激发度上相对愤怒、高兴、惊讶三类情感较低。 * 国家自然科学重点基金项目资助（60433030，60418102）

语音情感识别技术在呼叫中心的应用

语音情感识别技术是指机器通过语音信号智能识别人类的不同情感状态，根据人在不同情感下的语音信号非平稳性特征等比较明显的特点，通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化。呼叫中心依赖语音获取信息，因此语音情感识别显得尤其重要，本文提出将语音情感识别技术运用于呼叫中心的日常工作，来解决录音质检、投诉校准、客户情绪第一时间识别、客服代表服务热情实时提醒等问题。一、语音情感识别技术发展趋势语音情感识别是人工智能、心理学和生物学等多学科交叉的新兴领域。蕴藏在语音中的情感信息是人们相互交流的重要信息，例如同样一句话，说话人在不同的情感状态时所表达的含义会截然不同。当今人们不断深入对情感信息处理的研究，也越来越重视语音信号中情感信息处理的研究。语音信号具有便携性好和采集方便等优势，因此语音识别技术在智能人机交互、人机交互教学、娱乐业、医学、刑侦与安全领域得到了广泛的应用。 1997年，美国麻省理工大学的Picard教授首先提出了情感识别的概念，随后美国麻省理工大学、美国洛杉矶南加州大学、新加坡南阳理工大学等高校科研机构陆续开展了情感识别领域的研究。在国内，东南大学、中科院自动化研究所、清华大学、东南大学、西北工业大学、江苏大学等高校和科研机构也都开展了情感识别方面的研究。二、语音情感识别模块构成语音情感识别技术是根据人在不同情感下的语音信号非平稳性特征等比较明显的特点，通过提取语音的音质特征、韵律特征和频谱特征等声学特征来判断情绪的变化，语音情感识别模块大体包括语音采样、语音预处理、语音特征提取、语音特征处理、特征识别、情绪判断几个部分。首先可设定采样的频率和时间长短，对语音进行采样并进行去噪、加窗、分帧等预处理，然后根据对不同情绪判断的需要分别提取语音的音质特征、韵律特征和频谱特征等声学特征如基音频率、共振峰、Mel频率倒谱系数、能量、样本熵等，再将提取的多种特征通过各种时频分析方法进行处理，如短时傅里叶变换（FFT）、希尔伯特变换（Hilbert transform）、经验模态分解（EMD）等，之后将特征参数送入相应的函数识别器（常用的一般为支持向量机SVM）识别特征参数的归属范围，最后根据多种语音特征融合后的识别结果来综合判断采样语音的情感种类。三、语音情感识别技术应用的必要性随着社会进步和生活水平的改善，客户对呼叫中心热线服务质量的要求也在不断提高，而呼叫中心主要通过电话与客户交流，依赖语音获取信息，与客户的接触渠道比较单一，这就需要我们结合国内外发展的新形势来积极寻求提升服务质量及客户感知的新方法以应对如下问题。 1.海量录音抽样质检的限制性客服质检人员每天从几万条录音中只抽取几百或几十条录音进行质检，录音抽取范围一般是客户做出满意度参评或客服代表的专席转接的录音，无形中限制了录音质检的范围，而实际的问题是录音可能客户既没有参评、客服代表也未进行专席转接，故此很难发现录音背后隐藏的客户实际问题，录音质检的目的也会因此而大打折扣。 2.投诉处理缺少统一的标准面对客户各种不同情况的投诉录音，不同的投诉处理人员会有不同的判断标准，继而会执行不同的处理流程，带给客户与客服代表的感知也会因此而有所差异，对客户投诉的判责依赖于个人感知的成分较多，缺少说服力和理论依据。 3.客户情绪感知的滞后性若客户带着情绪或有疑问拨入热线却在音调上故作平静，客服代表将很难在第一时间了解客户的切实想法和真实情感，无法对症下药、做出准确的应答，进而会放大客户的痛苦，激化

语音情感分析系统的研究与实现

语音情感分析系统的研究与实现长沙检信软件有限公司随着科学技术的不断发展，语音合成技术在很多人机交互领域都得到了广泛应用。其中情感语音合成作为其中的一个重要分支，研究的是如何使计算机像人一样发出具有喜怒哀乐等带有情感色彩的语音。这个新的研究方向一经提出就引起了世界范围内研究者们广泛关注，情感语音合成技术也因此而得到了快速的发展。本文针对情感语音合成技术进行了有益的探索和研究，设计并建立了一套完整的情感语音合成系统。所做的工作主要归纳为以下几点： ①首先总结分析了现阶段国内外对情感理论的研究，从众多分类标准中选取了悲伤、高兴、愤怒和惊奇四种典型基本情感作为研究对象。针对情语音情感研究的需要，设计建立了一种面向语音合成的情感语音库，包含悲伤、高兴、愤怒和惊奇四种情感，每种1000句，共4000句情感语音。其具体流程为：首先通过贪婪算法对语料进行筛选；然后利用图片诱发法对各种情绪进行诱发，并采集说话人发出的情感语音；最后将一种改进的模糊综合评价方法应用于数据筛选，对语音库中的语音从情感表达、清晰度、流畅度、情景感、自然度、噪音影响等六个方面的综合评定，客观而准确地验证了语料的可靠性。本语音库的建立为情感语音合成的研究提供了一个重要基础和前提工作。 ②分析总结了几种目前应用较为广泛的语音合成方法，其中基于HMM合成法具有建模时间短、可全自动无需人工干预、合成语音有较高的自然度与流畅度等优点，因此本文选择了该合成技术来实现情感语音的合成。 ③另外还通过数据库情感数据的研究，分析了悲伤、高兴、愤怒和惊奇四种情感下基频、时长和音强的韵律特征规律，并根据此规律总结出了一套情感语音修改方法。最终本文设计出了二个基于隐马尔可夫模型(}玎心嗄，Hidden Markov Model)的可训练情感语音合成系统，该系统包括情感分析模块、韵律参数修改模块以及语音合成系统三个部分。最后本文还通过实验验证了本系统的可靠性与实用性。关键词：长沙检信语音情感分析，情感语音库，隐马尔可夫模型，韵律特征