当前位置：文档库 › 语音情感识别分类算法研究综述

语音情感识别分类算法研究综述

第16卷第6期

2017年6月南阳师范学院学报

Journal of Nanyang Normal University Yol. 16 No.6 Jun.2017

语音情感识别分类算法研究综述

李银河，李雪晖，徐楠，钟文雅，赵新仕，程晓燕，孙峰，袁键

(南阳师范学院生命科学与技术学院，河南南阳473061)

摘要：语音情感识别本质上是对语音情感的特征参数进行分类和模式识别，其核心问题在于寻找一个更为合适的语音情感识别算法.综述了语音情感识别算法的分类概况、常用的分类算法、研究中的困难与需要进一步研究的问题.最后展望了可能提高精度的先进识别模型.

关键词：语音情感识别算法；分类算法；识别准确率

中图分类号：TP 391 文献标志码：A文章编号=1671 -6132(2017)06 -0028 -06

〇引言

随着互联网的普及，人们对机器的智能化开发更加深人，使机器具备和人一样的情感和思维成为网络时代的潮流.语音情感是情感识别领域的一个重要分支，在人机交互中起着至关重要的作用.例如在计算机交互教学[1]、人的精神健康辅助诊断[2]等应用中都发挥着重要的作用.

语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.这两种形式都具有各自表达情感的优缺点.前者描述简洁、易懂、容易着手，但是其单一有限的情感描述能力无法满足对自发情感的描述.后者拥有无限的情感描述能力，但将主观情感转化为客观数值的过程是繁重且无法保证质量的.当前，离散情感分类的研究比连续情感维度的研究更为繁荣.

对于离散情感识别而言，其系统的识别准确率是与两个要素紧密相关的，即特征表示和分类器[3].在语音情感识别研究领域，研究者已经尝试和改进了多种分类技术.本文工作主要集中在离散语音情感识别模型的对比和改进上.

1语音情感识别算法分类概况

语音情感描述方式大致可分为离散情感类别和连续情感维度两种形式.整体而言，依据情感描述方式的不同，当今语音情感识别系统所采用的识别算法可以分为以下两类.1.1离散语音情感分类技术

本文将基于离散情感描述模型的语音情感识别研究称为离散语音情感识别，它们被建模为标准的模式分类问题，即使用标准的模式分类器进行情感的识别[4].

已有不少模式分类器被语音情感研究者们所尝试.常用的语音情感分类器线性的有N alve Bayes Classifier、Linear A N N (a r t f i c i a l neural net-work)、Linear S V M(support vector machine)、动态时间规整算法（dynamic time warping，D W T)、主成分分析（Principal Component Analysis)、BP (Back Propagation)神经网络、决策树（Decision Tree)、混合蛙跳算法（S E L A)等；非线性的有Decision Trees、k-NN(k-nearest neighbor algorithm )、Non-linear S Y M^G M M(Gaussian Mixture Model)^H M N(Hidden Markov Model)以及稀疏表示分类器等.其中，最为广泛使用的有H M M、G M N、A N N和S V M等[5].

1.2维度语音情感分类技术

本文将基于维度语音情感描述模型的语音情感识别研究称为维度语音情感识别（Dmi-S E R).它的出现与传统的离散语音情感识别相比较为新兴，但也已得到领域内研究者们越来越多的关注[4&9].维度语音情感识别（Dnn-S E R)是情感计算领域的一个新兴分支，它从多维、连续的角度看待情感，将S E R问题建模为连续值的预测回归任务.在当前维度语音情感识别（Dmi-S E R)领域应用较多的分类技术有：Linear Regression、k-N N、A N N、S V R等.其中S V R由于性能稳定、训练时间短等优

收稿日期=2017 -04 -26

作者筒介：李银河（1989 —），河南开封人，硕士，主要从事生物信息工程方面研究.

第6期李银河，等:语音情感识别分类算法研究综述

? 29 ?

点应用最为广泛[5].例如，G r i m m 等人在V A M 数据库上对基于规则的逻辑分类器（rule -based fuzzy tion 和Domianpe :在：肉:的三维情感屬性_fc 的预测能力进行比较，实验结果表明，SVR 的预测能力更胜一麵.可以看出S齊前离散情感分类的研究比连续情感维度的研究发展更为繁荣，维度情感预测技术的研究较为薄弱，更多高性能的情感识别算法有待进一步开发.

2语音情感识别常用算法

2.1 Aitifieal . Natural Network ( 復）.也称为人.篇, 神经网络，是在人类大脑神经突触的结构及链接模式的基础J i 发展起来的信息分析单元.ANW 凭借其自适应性、非线性表示能力、自组织能力、实对处理能力、强容错能力、通过学习获得记忆信息并且: 解决问题的能力，在语音识别领域有着十分广泛的应用.但是,为充分学习隐形规则，神经网络方法一般都采取了含有大量神经、元的隐含中间层导致其复杂度和计算暈较高间.

图1给出了采用神经网络方法进行语音情感识别的流程图.

图1神经网络语音情感识别流程图

Nicholson ?所研究的系统整个神经网络由8 个子网络构成，每个子网嚴理一种特定的情感，这. 神网络具有很好的可扩展性，增加情感类别时不需要重新训练整个网络.在神经网路构造完成后，将语音情感的特征参数分别输入到每个情感子网络中，以输出参数（介于〇至1之间）为根据来确定该参数情感所属类型的似然程度，通过判别各情感子网络的输出结果，将似然程度最大的情感作为语音情感识别的最终结果[1气ANN 在语音情感识别中主:要应用在以下几个

方面：

(1) 缩小建模单元，它一般在音素建模，通

过提离音素的识别率来提高整个语嗇系统的识

别率.

(2) 从语音信号中提取多种特征，采用混合模

型，并应用多种知识源（询汇、词意、句法、音素），进行语音识别理解研究，以提高系统的性能.

(3) 对大脑运行机制、声学模型、听觉模型进

行综合分析，对语'晋信号引进上下文信息，以减少语音多变化的影响.

通常语普情感识别神经模型分为两类类是神经网络或神经网络与传统的模型相结合的混合模型;另一类是根据人耳听觉生理学、心理学研究成果建立听觉神经网络模型.

_前，AN *!'(在复杂性和规模上都不能和人的听觉系统相比.因此，探讨ANN 在语音情感识别中的应用，主要是从听觉神经:模型中得到启发，在解决语音情感识别问题时得到较好的性能.语音情感识别领域较常用且具有潜力的神经网络模型主要有单島感知器模.型 SLP ( Single .Layer Perceptron )、多:层感知器模型 MLP ( Multi -X#yer Peogeptron ).、预测神襄.网络 PKKPrecHction ,ffeur%l 編tworks )、賴向:塞:函数神錢网.络.RBF ( Radial Basis Function )、

Kolionen 自組织特征映射模:型EOFM.(Self Organi -

zation Feature Mapping ) 等.

此外，为了使神经网络反映出语昔信号的动态

时变翁性，还有猶环神經..网络

R &cura _n t _. '.N eu -ral Networks )、时延神鐘网播 IDJCN ( Time Delay Pfeural Jfetwoitks )等_，B , Schuller 辱对谱音情感识别中B P 网络、听觉神经网络、.自组织特征映射、听觉

神经网络、时延神经两络、神经预测网络和学习矢量量化进行了详细分析、讨论，指出；！他们各自的优缺点，为在以后的研究中找到语音食号更强有力的神经网络模_、,更适袁的激活函数、，更髙痤有效的学习算法和更合理的结构做了理论铺垫tl33l

近年来ANN 有了很大的发展，ANN 在请音情

感识别的应用研究大致分为以下几个方面：（1)提髙

ANN 的性能

（2)将

A N f 与已经发展的方法结

合构成一种混合系统.（3)探讨利用一些新近出现或广泛关注的数学方法构成具有独特性质的神经元网络，并将其应用于语音信号处理领域?].2. 2

隐马尔科夫模型（

Hidden Markov Models

，

HMM )作为一种统计信号模型，其基础模型是1970 年前S 由Baum 等人建立的W -1灰HMM 近年来也

被应用到语音情感识别领域，弁旦取得很大成功. 如.Kogueiras "7]等人采.用基音和能黧餘征个学

连续的隐马尔f f 夫模型上对七种不同的情感状态进行分类，在模型状态数为64时取得了最优识别性能，平均识别率达到了 82. 5% .

HMM 可以很好地模拟人类的语言过程，自20 世纪8〇年代，L . R . Rabiner 把HMM 统计糢型引人语音情感识别上来，研究者B 经取得了不少研究成

果.

HMM 在语音情感识别中的主要问题有：Bamn - Welcl !训练算法、Vterbi 算法等问题[1S

? 30 ?南阳师范学院学报第16卷

目前，应用最为成功的语音情感识别系统大多是基于隐马尔科夫模型构造的，如C M U的K m-Fu-lee等研制的S P H I N X连续语音识别系统，对997 个词在有/无文法限制的条件下，识别率分别为96%和82%.I B M构造的Tang〇m2000词语音识别系统得到95%的识别率.用H M M进行汉语声母、韵母、单音节及连续语音识别，都得到了很好的性能.H M M之所以在语音识别中应用较为成功，主要是它具有较强的对时间序列结构的建模能力.隐马尔科夫模型用概率或统计范畴的理论成功地解决了怎样辨别具有不同参数的短时平稳的信号段，怎样跟踪它们之间的转化等问题.由于语音的信息结构是多层次的，除了语音特征外，它还牵涉音调、能量等超音段信息以及语法、句法等高层次语言结构的信息.H M M的特长还在于：它既可以描述瞬态的 (随机过程），又可以描述动态的（随机过程的转移）特性，所以它能利用这些超音段的和语音结构的信息.尽管如此，H M M技术还存在一些缺点，影响了语音识别的能力，所以H M M的改进算法及近年来H M M与A N N构成混合网进行语音识别的研究成为热点，成果引人注目[19].

2. 3 支持向量机（Support Vector Machine,S V M)是一种以统计学习理论为基础的模式识别算法.它最早作为一种二类分类器被提出[2°]，在20世纪90 年代得到迅速发展和完善.

支持向量机其本质可以转化为二次规划问题来求解.而在实际中很多时候面临的是一个多分类的问题.如何将支持向量机推广到多分类的情况中，很多文献都提出了不同的方法.多多类（M-ary)支持向量机即为其中一种，它是多个二分类支持向量机的组合，具有使用向量机数目少，速度快等优点，尤其适用于语音识别实时性要求[21].针对传统的一对一支持向量机算法在预测阶段存在的缺点，可以在分类识别阶段，将得票较低的类别先剔除掉，不用计算由这些类别构成的二分类器的决策函数值，以此提高模型的识别效率.

支持向量机在小样本、信噪比较高的情况下有较高的识别效率，但是在大规模样本、噪音环境下的结果就不尽如人意.为了解决这一系列问题，可以采用K最近邻算法先对训练样本进行删减，使分类超平面尽可能简单，进而提高训练速度.删减完成之后再用支持向量机进行后续的训练和识别工作.实验结果表明，经过删减之后，训练样本集和支持向量机的数目都大大减少，支持向量机的训练速度明显加快，同时还保持了较高的识别率[22].

不同于H M M，S V M用于语音情感识别时一般采用情感语音信号的全局统计特征作为特征参数，因此较H M M其复杂度更低，且具有小样本分类优势.

传统的支持向量机的参数选择往往基于专家建议或经验，或使用默认参数，参数选择的不当会成为制约分类效果的瓶颈之一.因此，国内外学者提出了多种解决方法，如L m等的模拟退火优化的支持向量机（Simulated Anneling-Support Vector M a-chine，S A-S V M)以及 Samadzadegan 等的蚁群算法支持向量机[23](Ant Colony Optimization-Support Vector Machine,A C O-S Y M).

2.4高斯混合模型（G M M)

在语音信号处理中，研究人员通常用高斯混合模型（G M M)或者拉普拉斯混合模型（Laplacmn Mature Model)[24_29]等复杂模型对语音信号的分布进行拟合.其中，G M M在语音识别[3°]、语音情感识别[31]以及说话人识别[32]等领域得到了广泛应用.G M M是语音情感识别中常用的一种识别方法.

高斯混合模型（G M M)的优点是可以平滑地逼近任意形状的概率密度函数，每个密度分布可表示出基本声学类，并且模型稳定、参数容易处理.文献 [34]在其情感识别试验中使用G M M识别七种情感状态，实验结果表明，G M M的识别率高于采用短时特征矢量与H M M分类器的识别率.使用G M M选取的特征向量对语音进行情感识别实验，结果表明：共振峰对高兴、愤怒能较好的区分;基频相关的参数对悲伤、平静的识别率较高;语速和平均能量对各类情感都具有较好的区别力[3°].但G M M的阶数和初值较难确定，特别是阶数很难从理论上推导出来.

G M M实验结果显示在生气、高兴、悲伤、恐惧四种语音情感的识别上，总体上比决策树、层次模型和支持向量机有所提高，并且在平均识别率上也取得了良好的识别效果.生气和高兴从维度模型理论分析，在效价维度上属于相反的两类情感，但是换成激活维度的角度进行观察分析，它们同属于高维度情感.正是这种相似和相异所以在识别上难免会带来一定的误识率[31].

2.5 决策树（Decision Tree,D T)

D T是一种通过分支对源数据依靠其属性进行分类的树型结构[32].决策树是机器学习领域著名的预测模型[33]，它是一个类似流程图的树型结构.如图2.

决策树的最大的优点就是它可以自学习.在构造一颗决策树时需要解决以下问题：

(1)收集大量数据，且数据未分类，而且数据属性必须要标注清楚.

第6期李银河，等:语音情感识别分类算法研究综述

? 31 ?

图2

决策树基本模型

(2)

设计分类原则，数据需要以何种方式或者

用哪些属性进行分类，属性该如何量化.

(3) 选择分类原则，要保证分类的结果和最终

建立的树令人满意，如何选择合适的分类算法是

关键.

(4) 设计分类停止的条件，即使该树的熵的总

量最小.

分层模型是基于决策树的基础做了改进，将一

次分类用到单一的特征属性改为多个属性同时决

定的强条件，分类方法则是基于S V M 分类器[31].

D T 的生成实质上是一^种贪心算法.它在各个内部节点选择分割属性（即考察变量A ，'，…，^) 时是顺序完成的.每次分割都依赖于它前一个节点的分割，分割一旦完成就不能回溯修改.但是，DT 易于理解和实现，并能清晰地显示属性的重要程度；同时，对于大型的源数据库，D T 能在相对较短的时间内生成可行性强而且效果良好的结果.总之，D T 是语音情感识别领域一种十分常用的分类方法.

2.6

朴素贝叶斯分类器（N aive B ayes C lassifier ,

N B C )

N B C 是基于贝叶斯定理与特征条件独立假设

的分类方法.它是应用非常广泛的一种分类算法[29’34]，具有简洁高效的特点.围绕N B C 主要有3 个重点方向的研究.

(1)

贝叶斯网络推理机制.贝叶斯网络推理是指在给定相关节点信息的情况下求出贝叶斯网络中某节点的发生概率.推理方法主要有两种，分别是团树传播算法和变量消元算法.目前更多的研究都集中在团树传播算法上，其中，胡学钢、胡春玲、姚宏亮提出了一种改进的基于邻接树的贝叶斯网络推理算法，实验表明算法具有良好推理性能.

(2)

贝叶斯网络学习方法的研究.贝叶斯网络学习方法主要有参数学习和结构学习，参数学习相对理论比较成熟，近几年来，结构学习一直都是贝

叶斯网络研究的热点与难点.贝叶斯网络结构学习的方法可以分为基于评分搜索法、基于约束的方法这两种.其中基于评分搜索算法又得到更多关注，很多研究人员对如何优化网络结构做出贡献，并且提出了很多新思路、新想法.胡云安、刘振等人提出了一种爬山法与模式蚁群法混合的贝叶斯优化算法，实验表明提出的方法可以加快结构学习的收敛速度和精度.

(3)在实际问题领域的研究应用.贝叶斯网络

模型学习和推理是一个NP H a r d 问题，所以，随着

网络节点数的增加，运算的时间复杂度也越来越

高.正因为此，贝叶斯网络在实际问题领域的应用

也遇到了极大的挑战.近年来，很多机构和学者致

力于解决N P 问题，提出了很多新想法，这也让贝

叶斯网络应用于生产环境得以实现.贝叶斯网络以

独特的不确定性知识表达形式、丰富的概率表达能

力、综合先验知识的增量学习特性成为近几年来理

论研究的热点，被广泛应用于辅助智能决策、模式

识别、医疗诊断等领域.在医疗领域，贝叶斯网络对

病理分析、病因查找都起着重大作用，在工程领域

获得了成功，涌现出很多有价值的医疗系统，其中

P A T H F I N D E 医疗系统和C P C S B N 远程医疗系统最

具代表性.除此之外，贝叶斯网络也在其他领域获得了一定的突破，在信号检测、软件可靠性分析等方面都涌现出许多有价值的应用[35].

2. 7 混合蛙跳算法（Shuiiled Frog Leaping ，S F L A )

S F L A 是一种全新的启发式群体进化算法，具有高效的计算性能和优良的全局搜索能力.SF - L A [36]* Eusuff 和Lansey 为解决组合优化问题于 2003年最先提出.全局信息交换和局部深度搜索

的平衡策略使得算法能够跳出局部极值点，向全局最优方向进行[37].

标准的S F L A 采用个体适应度排序进行种群分割.文献[37]提出了几何分割和随机分割两种模因组的生成方法.针对几个低维和高维Bench -mark 函数进行分割性能的评估，实验结果表明基于几何分割方法的S F L A 具有更好的优化性

能[36]. S F L A 是一种群体智能优化算法，其全局优化性保证了算法可以有效地对解空间进行搜索，不易陷人局部最优，而且算法具有较强的通用性，对问题的具体形式和领域知识依赖性不强，同时其固有的并行性保证了算法能够较快地寻找到最优解

或满意解[37].

针对烦躁、喜悦、愤怒、悲伤、恐惧、惊讶和平静

等情感，提取了韵律特征与音质特征，分别采用BP 神经网络、R B F 神经网络与S F L A

神经网络进行学

? 32 ?南阳师范学院学报第16卷

习与识别，发现在相同的测试条件下，S F L A神经网络的平均识别率高于B P神经网络4. 7%，高于 R B F神经网络4. 3%.说明利用S F L A训练随机产生的初始数据优化神经网络学习的权值与阈值，可快速实现网络的收敛，获得较好的学习能力[38].

3 研究展望

随着人工智能技术和数字信号处理理论的迅

速发展，语音情感识别领域涌现出许多模型和算法，比如H M M、S V M、G M M等.但是这些模型的复

杂结构导致识别过程通常无法达到实时的效果，因而并不适用于实现实时语音信号的情感分析和识别.然而，由于科学项目研究不断地向实用性靠拢，实时语音信号的研究是大势所趋.

语音信号是语言的声音表现形式，情感是说话人所处环境和心理状态的反映.由于情感信息的社会性、文化性，以及语音信号自身的复杂性，语音情感识别中尚有许多问题需要解决，特别是符合人脑认知结构和认知心理学机理的情感信息处理算法

需要进一步的研究和探索[39].用于语音情感识别

的分类算法多种多样，寻求更为高效的语音识别分类算法是研究者们追捧的热点.

随着对语音情感识别分类算法研究的持续改善，它能够解决的现实问题也越来越多.在今后的

研究中，需要进一步探讨混合蛙跳算法与神经网络的结合，特别是在优化神经网络的拓扑结构方面还存在着许多尚未解决的问题.在今后的语音情感识别领域，应进一步扩展Im - S F L A的应用，在人脸表情识别、人脸识别等领域分析Im - S F L A的优缺点.因此，对语音情感识别算法的理论和应用探讨

将会一直是机器学习和人工智能中所要研究的重

要内容.

参考文献

[1 ]LITMAN D,FORBES K.Recognizing emotions from

student speech in tutoring dialogues [J] .IEEE Work-

shop on Automatic Speech Recognition and Understand-

ing,2003 ：25 -30.

[2] FRANCE D J,SHIVI R G,SILVERMAN S,et al.Acous-

tical properties of speech as indicators of depression and

sucidal risk[J] .IEEE Trans on Biomedical Engieering,

2000,47(7) ：829 -837.

[3]金琴，陈师哲，李锡荣，等.基于声学特征的语音情感

识别[J].计算机科学，2015 ,42(9) :24 -28.

[4] GRIMM M,KROSCHEL K,NARAYANAN S.Support

vector regression for automatic recognition of spontane-

ous emotions in speech [J]. IEEE Internatinal Confer-

ence on Acoustics,2007 ,4(4) ：1085 - 1088.

[5]韩文静，李海峰，阮华斌，等.语音情感识别研究进展

综述[J].软件学报，2014,25(1) :37 -50.

[6] EYBEN F,WOLLMER M,GRAVES A,et al.On -line

emotion recognition in a3-D activation-valence-time

continuum using acoustic and linguistic cues[J] .Journal

on Multimodal User Interfaces,2010,3(1/2) ：7 - 19. [7] GIANNAKOPOULOD T,PIKRAKIS A,THEODORIDIS

S.A dimensional approach to emotion recognition of

speech from movies[J] .IEEE International Conference

on Acooustics,2009:65 -68.

[8] WU D R,PARSONS T D,MOWER E,et al.Speech e-

motion estimation in3d spaces[J]. IEEE International

Conference on Multimedia and Expo,2010,26(2 ) ：737

-742.

[9] KARADOGAN S G,LARSEN https://www.wendangku.net/doc/b48228576.html,bining semantic

and acoustic feature for valence and arousal recognition

in speech[J] .International Workshop on Cognitive In-

formation Processing,2012,12：1 -6.

[10]吴楠.基于主动学习的语音情感识别研究[D].天

津:天津师范大学，2012.

[11] NICHOLSON J,TAKAHASHI K,NAKATSU R.Emotion

Recognition in Speech Using Neural Network[J]. Neu-

tral Computing and Application,2000,9(4) ：90 -96. [12]张震南.人工神经网络技术在语音识别中的应用

[J].甘肃科技纵横,2008,37(4).

[13]SCHULLER B,RIGOLL G,LANG M.Hidden Markov

model-based speech emotion recognition[J] .Interna-

tional Conference on Multimedia&Expo,Signal Pro-

cessing,2003 ,1 ：401 -404.

[14]赵力.语音信号处理[M].北京：机械工业出版

社，2004.

[15] JELINEK F.Continous Speech Recognition by Statistical

Methods[J] .Proceedings of IEEE, 1976,64 (4) ： 532

-536.

[16] JELINEK F.BAHL L M R.Design of a Linguistic statis-

tical Decoder for the Recognition of Continuous Speech

[J].IE E E Trans on Information Theay, 1975,21 (3 )：250 -256.

[17] NOGUEIRAS A,MORENO A,B0NAF0NTE A,e t al.

Speech Emotion Recognition Using Hidden Markov Mod-

e ls[J], Eurospeech,2001,41(3) ：2779 -2682.

[18]胡洋，蒲南江，吴黎慧，等.基于H M M和A N N的语音

情感识别研究[J].电子测试，2011,8(8) :33 -87. [19]段红梅，汪军，马良河，等.隐马尔科夫模型在语音识

别中的应用[J].工科数学，2002,18(6) :16 - 18. [20]刘佳.语音情感识别的研究与应用[D].杭州：浙江

大学，2009.

[21]刘潇营，郑郁正，李国良.多类支持向量机在语音识

别中的应用[J].成都信息工程学院学报，2010,25

(1) ：13 -17.

第6期李银河，等：语音情感识别分类算法研究综述? 33 ?

[22]何小萍.改进的支持向量机分类算法在语音识别中

的应用研究[D].太原：太原理工大学,2013.

[23] SAMADZADEGAN F,HASANI H,SCHENK T.Simulta-

neous feature selection and SVM parameter determina-

tion in classification of hyperspectral imagery using ant

colony optimization[J ] .Canadian Journal of Remote

Sensing,2012,38(2) ：139 - 156.

[24]GARCIA-GUINEA J,FURI0M,et al.Robust Speech

Recognition in Additive and Channel Noise Environ-

ments using GMM and EM Algorithmf J] .IEEE Interna-

tional Conference on Acoustics,2004,1 ：941 -944. [25] LEE W,R0N Y,KIM D,et al.Speech Emotion Recog-

tion usingSpectral Entropy[J] .International Conference

on Intelligent Robotics and Applications, 2008,5315：

45 -54.

[26] REYNOLDS,D A,ROSE R.C.Robust Text-independent

Speaker Indentification using Gaussian mixture Speaker

Models [J]. IEEE Transaction on Speech,Audio and

Processing,1995 ,3(1) ：72 -83.

[27] TORRES-CARRASQUILLO P A,SINGER E,KOHLER

M A,et al.Approaches to Language Identificaition using

Gaussian Mixture Models and Shifted Delta Cepstral

Features[J] .International Conference on Spoken Lan-

guage Processing,2002：89 -92.

[28] PICARD R W.Affective Computing[M]. Cambringe：

MIT Press,1997.

[29]TOTH L,KOCSOR A,CSIRIK J.On Naive Bayes in

Speech Recognition [J ]. Journal of Trauma, 2005,64

(6) ：86 -93.[30]顾鸿虹.基于高斯混合模型的语音情感识别研究与

实现[D].天津:天津师范大学,2009.

[31]蔡桂林.高斯混合模型用于语音情感识别研究[D].

桂林：广西师范大学,2016.

[32] EUSUFF M M,LANSEY K E.Optimization of water dis-

tribution network design using the shuffled frog leaping

algorithm[J]. Journal of Water Resources Planning and

Management,2003,129(3) ：210 -225.

[33] Rahimi-Vahed A,MIRZAEI A H.A hybrid multi-objec-

tive shuffled frog-leaping algorithm for a mixed-model

assembly line sequencing problem [J] .Computers and

Industrial Engineering,2007 ,53 (4) ：642 -666.

[34] RISH,I.An Empirical Study of the Naive Bayes Classi-

fier[J] .Journal of Chirersal Computer Science, 2007

(2) ：127.

[35]黄金龙.基于贝叶斯网络的语音情感识别[D].广

州：华南理工大学，2014.

[36]余华，黄程韦，张潇丹，等.混合蛙跳算法神经网络及

其在语音情感识别中的应用[J].南京理工大学学

报，2011,35(5) :659 -663.

[37] KASHTIBAN M A,AHANDANI M A.Various strategies

for partitioning of memeplexes in shuffled frog leaping

algorithm[J]. Computer Conference,2009 ：576 -581. [38 ]HU H ao,X U Mingxing,WU W ei.GMM super vector

based SVM with spectral features for speech emotion

recognition [J ] .IEEE International Conference on A-

coustics,2007 ,4 ：413 -416.

[39]蔡伟建.人工神经网络理论在语音识别技术中的应

用[J].仪器仪表学报,2010,31(8) :113 - 116.

Research on speech emotion recognition classification algorithm

LI Yin-he,LI Xue-hui,X U N a n,Z H O N G W e n-ya,Z H A O Xin-shi,

C H E N G Xiao-yan,S U N Feng,Y U A N Jian

(School of Life Science and Technology,Nanyang Normal University,Nanyang473061 ,China) Abstract ：The introduction of computer automatic detection i s helpful f o r the rapid and effective measures t o re-duce the negative effects of negative emotions,so i t has important clinical significance.Speech emotion recogni-tion i s a kind of speech emotion recognition algorithm which i s based on the classification and pattern recognition of speech emotion.In t h i s paper,the classification of speech emotion recognition algorithms,the common classi-fication algorithms,the d i f f i c u l t i e s in the research and the problems that need further study are summarized.At last,the advanced identification model which may improve the accuracy i s prospected.

Key words：speech emotion recognition algorithm；classification algorithm；recognition accuracy