当前位置：文档库 › 语音信号特征参数研究

语音信号特征参数研究

石海燕

（浙江工业大学信息工程学院，浙江杭州３１００３２）

摘要：在语音技术的发展过程中使用了大量的语音信号特征参数，好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数、语音信号特征参数的选择进行了介绍，并介绍了语音信号的短时能量、短时平均幅度的提取。

关键词：语音信号；特征参数；短时能量

中图分类号：ＴＰ３９１文献标识码：Ａ文章编号：１００９－３０４４（２００８）０４－１０７５４－０４

ＳｔｕｄｙｏｎＳｐｅｅｃｈＳｉｇｎａｌＦｅａｔｕｒｅＰａｒａｍｅｔｅｒ

ＳＨＩＨａｉ－ｙａｎ

（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＺｈｅｊｉａｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｎｇｚｈｏｕ３１００３２，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｄｅｖｅｌｏｐｉｎｇｓｐｅｅｃｈｔｅｃｈｎｏｌｏｇｙｕｓｅｄｉｎａｌａｒｇｅｎｕｍｂｅｒｏｆｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ，ａｇｏｏｄｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｐｌａｙｅｄａｃｒｉｔｉｃａｌｒｏｌｅｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎｔｈｉｓｐａｐｅｒｗｅｉｎｔｒｏｄｕｃｅｄｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ，ｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｓｅｌｅｃｔｉｏｎ，ａｎｄｉｎｔｒｏｄｕｃｅｄｓｈｏｒｔ－ｔｅｒｍｅｎｅｒｇｙ、ｓｈｏｒｔ－ｔｅｒｍａｖｅｒａｇｅｒａｎｇｅｅｘｔｒａｃｔｉｏｎ．

Ｋｅｙｗｏｒｄｓ：ｓｐｅｅｃｈｓｉｇｎａｌ；ｆｅａｔｕｒｅｐａｒａｍｅｔｅｒ；ｓｈｏｒｔ－ｔｅｒｍｅｎｅｒｇｙ

１引言

在语音识别的发展过程中使用了大量的语音信号特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术，其基本思想是将预处理过的信号通过一次变换，去掉冗余部分，而把代表语音本质的特征参数抽出来。接下去所要作的识别处理都是建立在特征参数之上的，如果特征参数不能很好地反映语音信号的本质，识别就不能成功。

语音信号特征参数是分帧提取的，每帧特征参数一般构成一个矢量，所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧，每帧大小大约是２０￣３０ｍｓ。帧太大就不能得到语音信号随时间变化的特性，帧太小就不能提取出语音信号的特征，每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大，帧之间就要有重叠，帧叠往往是帧长的１／２或１／３。帧叠大，相应的计算量也大。

常用的语音特征参数有平均能量、平价跨零数或跨零率、共振峰、ＬＰＣ参数、倒谱参数、临界带倒谱等。下一节介绍一些常用的语音特征。

２语音信号特征参数介绍

（１）基音周期（Ｐｉｔｃｈ）

人的语音基本上由两类构成，一类是浊音（ｖｏｉｃｅ），另一类是清音（ｕｎｖｏｉｃｅ）。浊音的语音信号具有较强的周期性，不同的浊音波形是不同的。浊音的这种周期叫基音周期，其倒数叫做基音频率，它主要和声带的特性有关。一般来说，成年男性的语音的基音频率在６０Ｈｚ￣２００Ｈｚ，而成年女性和儿童语音的基音频率在２００Ｈｚ￣４５０Ｈｚ。清音的语音信号具有随机噪声的特点，一般来说清音的幅度小于浊音的幅度。基音周期（Ｐｉｔｃｈ）是指发浊音时声带震动所引起的周期运动时间间隔，代表声带震动的快慢，震动越快音高会越高，基音周期是声带振动频率Ｆ０的倒数，它是语音信号分析的一个重要参数。

（２）短时频谱

语音信号特征在较短的时间间隔中保持基本不变，即语音信号具有时变特性，因而可以将语音信号看作是一个短时平稳过程。语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。可以用下列公式计算：

（１）

收稿日期：２００８－０１－１２

个人简介：石海燕（１９７７－），女，浙江诸暨人，实验师，主要研究方向：语音处理、模式识别。

也即ｓｗ（ｎ）的离散傅立叶变换。｜Ｓｗ（ｋ）｜２称为ｓ（ｎ）的短时功率谱。

（３）短时自相关函数

ｓｗ（ｎ）的自相关函数Ｒｗ（τ）称为ｓ（ｎ）的短时自相关函数。可用公式（４）计算：

（２）（４）短时能量

ｓ（ｎ）的短时能量计算公式如下：

（３）短时能量代表声音的尺寸，可由声音信号的震幅来类比。

（５）短时平均幅度

ｓ（ｎ）的短时平均幅度计算公式如下：

（４）短时能量和短时平均幅度都是表示一段语音信号能量大小的参数。

（６）短时过零率

信号按段分割就称为短时，段可是帧大小。过零就是信号的幅度值从正值到负值、负值到正值要经过零点，统计信号在一秒钟内有几次过零就是过零率。ｓ（ｎ）的短时过零率表示一段语音信号中语音信号波形与横轴相交的次数。可以用式（５）计算：

（５）其中ｓｇｎ（ｘ）是符号函数：

以短时能量为主，短时过零率为辅，可对语音信号中的清音进行较精密的检测。

（７）倒谱

倒谱是一段语音信号的一组重要参数。要计算信号ｓｗ（ｎ）的倒谱，首先要计算ｓｗ（ｎ）的离散傅立叶变换：

（６）然后对离散傅立叶变换的模取对数：

（７）最后再做傅立叶反变换：

（８）

这样得到的ｃ（ｎ）被称做是“倒频谱”或“倒谱”。

（８）线性预测编码（ＬＰＣ）参数

考虑语音信号序列ｓ（ｎ）。假设某时刻ｎ之前的Ｐ个语音信号值ｓ（ｎ－１），ｓ（ｎ－２），…，ｓ（ｎ－Ｐ）已知，但时刻ｎ的语音信号值ｓ（ｎ）未知。如果用前Ｐ个已知的信号值的某种线性组合预测ｓ（ｎ）的值，则预测值ｓ!（ｎ）可以表示为：

（９）其中αｉ都是实数，称作预测系数。预测值ｓ!（ｎ）与真值ｓ（ｎ）之间的预测误差ε（ｎ）可以用下式计算：

（１０）

（１１）由于ｓ（ｎ）是一个随机序列，所以ε（ｎ）也是一个随机序列。可以用ε（ｎ）的均方差来衡量线性预测的准确性。δε２越小，预测的准确性在均方误差最小意义下越好。

还有以下几类特征参数：线谱对（ＬＳＰ）参数、线性预测倒谱参数（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＬＰＣＣ）、美尔频标倒谱系数（ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ，ＭＦＣＣ）、感觉加权线性预测特征（ＰｅｒｃｅｐｔｕａｌＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅ，ＰＬＰ）（ＰＬＰ参数、ＲＡＳＴＡ－ＰＬＰ参数）、动态差分参数、高阶信号谱类特征等［３］。

３语音信号特征选择

短时自相关分析可用来区分清音和浊音，浊音信号是准周期性的，用短时自相关函数求出语音波形序列的基音周期。对语音信号进行线性预测分析时也要用到短时自相关函数。

短时能量序列反映了语音振幅或能量随着时间缓慢变化的规律，清音段的幅度一般比浊音段的幅度小很多，根据语音信号短时能量值的变化，可大致判定浊音变为清音或清音变为浊音的时刻。短时能量在高信噪比的语音信号中，可以用来区分静音，静音的噪声能量很小，而有语音信号时短时能量值显著地增大到某一数值，通过这一点也可以区分语音信号的起点和终点（也即端点）。

可以根据平均过零数来粗略区分清音和浊音，发清音时具有较高的平均过零数，发浊音时具有较低的平均过零数。短时平均过零数还可以用于识别语音信号的起点和终点。

具体应用领域对语音信号特征有不同的要求，特征的选择很重要，它强烈地影响应用系统的效率。我们要对具体的应用选择合适的特征，在一个说话人识别系统中倒谱特征、倒谱与差值倒谱特征组合以及倒谱、差值倒谱、基音、差值基音组合有更好的识别准确率［２］。由此可见多特征组合有更高的识别准确率。

４语音信号特征提取实验

我们对采样频率（ｆｓ）为１６ｋＨＺ的ｓｕｎｄａｙ．ｗａｖ来提取上一节中介绍的特征参数：短时能量、短时平均幅度。其中每帧大小为２５６（即每帧包含２５６个取样点），帧叠为０。

我们可用公式（３）计算得到图２所示的短时能量图。我们希望短时能量图平滑一些，采用减去每帧中的中位值后再进行绝对值求和的方法，如公式（１２）所示，公式（１２）中的ｍｅｄｉａｎ为每帧帧向量的中位值，所得的短时能量图如图３所示。但这短时能量图没变化多少，且短时能量对于高电平信号非常敏感，我们采用对数短时能量计算方式来得到短时能量，如公式（１３）所示，公式（１３）中的δ为一个无穷小量，是为防止对０取对数而加入的，计算后所得的短时能量图如图４所示。根据公式（６）所得的短时平均幅度为图５所示。它与图３很接近。

（１２）

（１３）

图１ｓｕｎｄａｙ．ｗａｖ原始波形图

图２ｓｕｎｄａｙ．ｗａｖ短时能量图ａ

图３ｓｕｎｄａｙ．ｗａｖ短时能量图ｂ

图４ｓｕｎｄａｙ．ｗａｖ短时能量图ｃ

图５Ｓｕｎｄａｙ．ｗａｖ短时平均幅度图

５结束语

语音信号具有很大的信息冗余，我们提取出最能表征语音信号的特征能极大地提高语音识别准确率，也能极大的压缩语音信号。在本文第２节中介绍了大量语音信号特征；在第３节中介绍了语音信号特征的选择；第４节中对部分语音信号特征进行了提取，并用可视化的方法展示了部分语音信号特征。提取出语音信号特征后，接下来就可以对语音信号进行语音识别，这就是我们接下来的工作。在语音信号特征提取之前可先对语音信号进行端点检测，准确标记出语音信号的起止点，这样也能提高语音识别的准确率，这也是我们接下来想进行的工作。以及有关语音信号特征的线性、非线性组合以提高语音识别的准确率也是我们接下来想进行的工作。

参考文献：

［１］张智星．音讯处理与辨识［ＥＢ／ＯＬ］．网上在线课程．［２００８－０１－２３］．］ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｎｔｈｕ．ｅｄｕ．ｔｗ／￣ｊａｎｇ．

［２］边肇祺．张学工．模式识别［Ｍ］．北京：清华大学出版社，２００５．

［３］王炳锡．实用语音识别基础［Ｍ］．北京：国防工业出版社，２００５．

（上接第７５３页）

因子分别为９０％、７０％、５０％、３０％、２５％）后（对应的ＰＳＮＲ值分别为３９．２３６、３６．３６９、３５．０２０、３３．６３１、３３．０８２）再提取的水印，对应的ＢＥＲ值分别为０．００１９５、０．０１７５８、０．０４４９２、０．１２０１２、０．１６１１３，试验结果表明算法对ＪＰＥＧ压缩具有很好的鲁棒性，即使２５％的压缩因子下，都能较准确的提取水印信号；（ｆ）～（ｉ）为经小波压缩（ｂｐｐ分别为８．００、３．５０、１．５０、０．８０）后（对应的ＰＳＮＲ值分别为４５．３９０、４３．４５２、３９．４５２、３７．３０５）再提取的水印，对应的ＢＥＲ值分别为０、０．００３９１、０．０２１４８、０．２０７０３，试验结果表明算法对小波压缩也具有一定的鲁棒性，只有在低于０．８０ｂｐｐ的压缩条件下，提取水印开始明显模糊。

４结束语

本论文首先针对数字水印技术的发展现状及其相关技术进行了讨论；然后引入傅立叶变换基本理论，作为实现数字水印算法的算法理论基础；接着提出了一种基于傅立叶域相关性检测的水印算法。本算法结合了Ａｒｎｏｌｄ置乱方法、经典相关性检测方法和傅立叶域特性，并在嵌入时采用嵌入两个不相关伪随机序列的方法，有效的提高了水印的安全性和相关性检测的准确率，是对经典相关性检测方法的一种改进。

参考文献：

［１］Ｂ．ＭａｃｑａｎｄＪ．Ｊ．Ｑｕｉｓｑｕａｔｅｒ．ＣｒｙｐｔｏｌｏｇｙｆｏｒｄｉｇｉｔａｌＴＶｂｒｏａｄｃａｓｔｉｎｇ［Ｊ］．Ｐｒｏｃ．ｏｆｔｈｅＩＥＥＥ，１９９５，８３（６）：９４４－９５７．

［２］王秋生．变换域数字水印嵌入算法研究［Ｄ］．哈尔滨：哈尔滨工业大学，２００１．

［３］易开祥，石教英．数字水印技术研究进展［Ｊ］．中国图象图形学报，２００１，６（２）：１１１－１１７．

应用Matlab对含噪声语音信号进行频谱分析及滤波

应用Matlab对含噪声的语音信号进行频谱分析及滤波一、实验内容录制一段个人自己的语音信号，并对录制的信号进行采样；画出采样后语音信号的时域波形和频谱图；在语音信号中增加正弦噪声信号(自己设置几个频率的正弦信号)，对加入噪声信号后的语音信号进行频谱分析；给定滤波器的性能指标，采用窗函数法和双线性变换设计数字滤波器，并画出滤波器的频率响应；然后用自己设计的滤波器对采集的信号进行滤波，画出滤波后信号的时域波形和频谱，并对滤波前后的信号进行对比试听，分析信号的变化。二、实现步骤 1．语音信号的采集利用Windows下的录音机，录制一段自己的话音，时间在1 s内。然后在Matlab软件平台下，利用函数wavread对语音信号进行采样，（可用默认的采样频率或者自己设定采样频率）。 2．语音信号的频谱分析要求首先画出语音信号的时域波形；然后对语音号进行快速傅里叶变换，得到信号的频谱特性。在采集得到的语音信号中加入正弦噪声信号，然后对加入噪声信号后的语音号进行快速傅里叶变换，得到信号的频谱特性。并利用sound试听前后语音信号的不同。

分别设计IIR和FIR滤波器，对加入噪声信号的语音信号进行去噪，画出并分析去噪后的语音信号的频谱，并进行前后试听对比。 3.数字滤波器设计给出数字低通滤波器性能指标:如，通带截止频率fp＝10000 Hz，阻带截止频率fs＝12000 Hz（可根据自己所加入噪声信号的频率进行阻带截止频率设置），阻带最小衰减Rs＝50 dB，通带最大衰减Rp＝3 dB（也可自己设置），采样频率根据自己语音信号采样频率设定。

报告内容一、实验原理含噪声语音信号通过低通滤波器，高频的噪声信号会被过滤掉，得到清晰的无噪声语音信号。二、实验内容录制一段个人自己的语音信号，并对录制的信号进行采样；画出采样后语音信号的时域波形和频谱图；在语音信号中增加正弦噪声信号(自己设置几个频率的正弦信号)，对加入噪声信号后的语音信号进行频谱分析；给定滤波器的性能指标，采用窗函数法和双线性变换设计数字滤波器，并画出滤波器的频率响应；然后用自己设计的滤波器对采集的信号进行滤波，画出滤波后信号的时域波形和频谱，并对滤波前后的信号进行对比试听，分析信号的变化。给出数字低通滤波器性能指标:如，通带截止频率fp＝10000 Hz，阻带截止频率fs＝12000 Hz （可根据自己所加入噪声信号的频率进行阻带截止频率设置），阻带最小衰减Rs＝50 dB，通带最大衰减Rp＝3 dB（也可自己设置），采样频率根据自己语音信号采样频率设定。三、实验程序 1、原始信号采集和分析 clc;clear;close all; fs=10000; %语音信号采样频率为10000 x1=wavread('C:\Users\acer\Desktop\voice.wav'); %读取语音信号的数据，赋给x1 sound(x1,40000); %播放语音信号 y1=fft(x1,10240); %对信号做1024点FFT变换 f=fs*(0:1999)/1024; figure(1); plot(x1) %做原始语音信号的时域图形 title('原始语音信号'); xlabel('time n'); ylabel('fuzhi n'); figure(2); plot(f,abs(y1(1:2000))); %做原始语音信号的频谱图形 title('原始语音信号频谱') xlabel('Hz'); ylabel('fuzhi');

基于Matlab的语音信号的特征提取与分类

基于Matlab的语音信号的特征提取与分类语音信号处理是研究数字信号处理技术和语音学知识对语音信号进行处理的新兴学科，是目前发展最为迅速的信息科学研究领域的核心技术之一。本文采用Matlab7.0综合运用GUI界面设计，各种函数调用等对语音信号进行采集、提取、变频、变幅，傅里叶变换、滤波等简单处理。程序界面简练，操作简便，具有一定的实际应用意义。关键词：语音信号Matlab 信号处理GUI 1、语音信号的低通滤波本文中设计了一个截止频率为200Hz切比雪夫—Ⅰ型低通滤波器，它的性能指标为：wp=0.075pi, ws=0.125pi, Rp=0.25;Rs=50dB。低通滤波器处理程序如下： [x,fs,bits]=wavread('voice.wav'); wp=0.075;ws=0.125;Rp=0.25;Rs=50; [N,Wn]=cheb1ord(wp,ws,Rp,Rs); [b,a]=cheby1(N,Rp,Wn); [b,a]=cheby1(N,Rp,Wn); X=fft(x); subplot(221);plot(x);title('滤波前信号的波形'); subplot(222);plot(X);title('滤波前信号的频谱'); y=filter(b,a,x); %IIR低通滤波 sound(y,fs,bits);%听取滤波后的语音信号

wavwrite(y,fs,bits,’低通’);%将滤波后的信号保存为“低通.wav” Y=fft(y); subplot(223);plot(y);title(' IIR滤波后信号的波形'); subplot(224);plot(Y);title(' IIR滤波后信号的频谱'); 经过低通滤波器处理后，比较滤波前后的波形图的变化低通滤波后，听到声音稍微有些发闷，低沉，原因是高频分量被低通滤波器衰减。但是很接近原来的声音。 2、语音信号的高通滤波运用切比雪夫—Ⅱ型数字高通滤波器，对语音信号进行滤波处理。高通滤波器性能指标：wp=0.6, ws=0.975 ,Rp=0.25;Rs=50dB。高通滤波器处理程序如下： [x,fs,bits]=wavread('voice.wav'); wp=0.6;ws=0.975;Rp=0.25;Rs=50;

语音信号分析与处理2011

数字信号处理实验二：语音信号分析与处理学号姓名注：1）此次实验作为《数字信号处理》课程实验成绩的重要依据，请同学们认真、独立完成，不得抄袭。 2）请在授课教师规定的时间内完成； 3）完成作业后，请以word 格式保存，文件名为：学号+姓名 4）请通读全文，依据第2及第3 两部分内容，认真填写第4部分所需的实验数据，并给出程序内容。 1. 实验目的 (1) 学会MATLAB 的使用，掌握MATLAB 的程序设计方法 (2) 掌握在windows 环境下语音信号采集的方法 (3) 掌握MATLAB 设计FIR 和IIR 滤波器的方法及应用 (4) 学会用MATLAB 对语音信号的分析与处理方法 2. 实验内容录制一段自己的语音信号，对录制的语音信号进行采样，画出采样后语音信号的时域波形和频谱图，确定语音信号的频带范围；使用MATLAB 产生白噪声信号模拟语音信号在处理过程中的加性噪声并与语音信号进行叠加，画出受污染语音信号的时域波形和频谱图；采用双线性法设计出IIR 滤波器和窗函数法设计出FIR 滤波器，画出滤波器的频响特性图；用自己设计的这两种滤波器分别对受污染的语音信号进行滤波，画出滤波后语音信号的时域波形和频谱图；对滤波前后的语音信号进行时域波形和频谱图的对比，分析信号的变化；回放语音信号，感觉与原始语音的不同。 3. 实验步骤 1）语音信号的采集与回放利用windows 下的录音机或其他软件录制一段自己的语音（规定：语音内容为自己的名字，以wav 格式保存，如wql.wav ），时间控制在2秒之内，利用MATLAB 提供的函数wavread 对语音信号进行采样，提供sound 函数对语音信号进行回放。 [y,fs,nbits]=wavread(file), 采样值放在向量y 中，fs 表示采样频率nbits 表示采样位数。Wavread 的更多用法请使用help 命令自行查询。 2）语音信号的频谱分析利用fft 函数对信号进行频谱分析 3）受白噪声干扰的语音信号的产生与频谱分析 ①白噪声的产生： N1=sqrt （方差值）×randn(语音数据长度，2)（其中2表示2列，是由于双声道的原因）然后根据语音信号的频谱范围让白噪声信号通过一个带通滤波器得到一个带限的白噪声信号 N2；带通滤波器的冲激响应为： h B （n ）= ))((sin ))((sin 1122απ ωπωαπωπω---n c n c c c c c

语音信号特征的提取

语音信号特征的提取摘要随着计算机技术的发展，语音交互已经成为人机交互的必要手段,语音特征参数的精确度直接影响着语音合成的音质和语音识别的准确率。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。本文采用Matlab软件提取语音信号特征参数，首先对语音信号进行数字化处理，其次，进行预处理，包括预加重、加窗和分帧，本文讨论了预处理中各种参数的选择，以使信号特征提取更加准确。第三，讨论了各种时域特征参数的算法，包括短时能量、短时过零率等。关键词：语音信号, 特征参数, 提取, Matlab 目录第一章绪论 1.1语音信号特征提取概况 1.1.1研究意义语音处理技术广泛应用于语音通信系统、声控电话交换、数据查询、计算机控制、工业控制等领域，带有语音功能的计算机也将很快成为大众化产品，语音将可能取代键盘和鼠标成为计算机的主要输入手段，为用户界面带来一次飞跃。语音信号特征的提取是语音信号处理的前提和基础，只有分析出可表示语音信号本质特征的参数，才有可能利用这些参数进行高效的语音通信和准确的语音识别，才能建立语音合成的语音库。因此语音信号参数提取是语音信号处理研究中一项非常有意义的工作。 1.1.2 发展现状语音信号处理是一门综合性的学科，包括计算机科学、语音学、语言学、声学和数学等诸多领域的内容。它的发展过程中，有过两次飞跃。第一次飞跃是1907年电子管的发明和1920年无线电广播的出现，电子管放大器使很微弱的声

音也可以放大和定量测量，从而使电声学和语言声学的一些研究成果扩展到通信和广播部门；第二次飞跃是在20世纪70年代初，电子计算机和数字信号处理的发展使声音信号特别是语音信号，可以通过模数转换器（A/D）采样和量化转换为数字信号，这样就可以用数字计算方法对语音信号进行处理和加工，提高了语音信号处理的准确性和高效性。语音信号处理在现代信息科学中的地位举足轻重，但它仍有些基础的理论问题和技术问题有待解决，这些难题如听觉器官的物理模型和数学表示及语音增强的技术理论等，目前还有待发展。 1.2 本课题研究内容本文主要介绍语音信号处理的理论及Matlab的相关内容，然后从Matlab仿真角度验证了录音、预处理、提取语音信号时域特征参数，主要讨论了预处理中各种参数的选择，以使信号特征提取更加准确。再次讨论了各种时域特征参数的算法，包括短时能量、短时过零率等，介绍了各环节的不同软件实现方法。最后对基于Matlab的语音信号特征参数提取进行总结。第二章Matlab简介 MATLAB是国际上仿真领域最权威、最实用的计算机工具。它是MathWork 公司于1984年推出，它以强大的科学计算与可视化功能、简单易用、开放式可扩展环境，特别是所附带的30多种面向不同领域的工具箱支持，使得它在许多科学领域中成为计算机辅助设计和分析、算法研究和应用开发的基本工具和首选平台。 2.1 发展概况 Matlab是Matrix Laboratory(矩阵实验室的缩写)，最初由美国Cleve Moler 博士在70年代末讲授矩阵理论和数据分析等课程时编写的软件包Linpack与Eispack组成，旨在使应用人员免去大量经常重复的矩阵运算和基本数学运算等繁琐的编程工作。1984年成立的Math Works公司正式把Matlab推向市场，并从事Matlab的研究和开发。1990年，该公司推出了以框图为基础的控制系统仿真工具Simulink，它方便了系统的研究与开发，使控制工程师可以直接构造系统框图进行仿真，并提供了控制系统中常用的各种环节的模块库。1993年，Math Works 公司推出的Matlab4.0版在原来的基础上又作了较大改进，并推出了Windows版，

语音信号特征参数提取方法

语音信号特征参数提取方法阮雄飞微电子学与固体电子学摘要：在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。关键词：语音技术特征提取HHT 1 引言语音信号是一种短时平稳信号，即时变的，十分复杂，携带很多有用的信息，这些信息包括语义、个人特征等，其特征参数的准确性和唯一性将直接影响语音识别率的高低，并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。上世纪40年代，potter等人提出了“visiblespeech”的概念，指出语谱图对语音信号有很强的描述能力，并且试着用语谱信息进行语音识别，这就形成了最早的语音特征，直到现在仍有很多的人用语谱特征来进行语音识别[2]。后来，人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数，比如：幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。帧叠大, 相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来，如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有LPCC（线性预测倒谱系数）、MFCC（美尔频率倒谱系数）、HMM（隐马尔科夫模型）、DTW（动态时间规整）等。 2 语音信号特征参数提取方法

基于Matlab的语音信号处理与分析

系（院）物理与电子工程学院专业电子信息工程题目语音信号的处理与分析学生姓名指导教师班级学号完成日期：2013 年5 月目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

语音识别报告

“启动”的时域波形 1、语音预加重：由于语音信号在高频部分衰减，在进行频谱分析时，频率越高，所占的成分越小，进行语音预加重，可以提升语音高频部分，使频谱变得平坦，以方便进行频谱的分析和处理。通常的措施是采用数字滤波器进行预加重，传递函数是：11)(--=z z H α，其中α一般去0.92-0.98之间，所以在计算的时候取0.9375。预加重后的波形 2、分帧加窗语音信号具有较强的时变特性，其特性是随时间变化的，但是语音的形成过程与发音器官的运动有关，这种物理运动比起声音振动的速度十分缓慢，在较短的时间内，语音信号的特征可以被认为是保持不变的，通常对语音处理是通过截取语音中的一段进行处理的，并且短段之间彼此经常有一些叠加，这一段语音成为一帧语音，语音段的长度称为帧长，对每一帧处理的结果可用一组数来表示。一般取帧长为10—30ms 。采样频率是8000Hz ，所以取的帧长是256，帧移是178。分帧之后加汉明窗。 3、端点检测端点检测从背景噪声中找出语音的开始和终止点。短时能量就是每帧语音信号振幅的平方和。 ∑-==1 0)]([N m n m s E ；

短时能量曲线短时过零率是每帧内信号通过零点的次数，是信号采样点符号的变化次数。 ∑-=+-=1 )]1(sgn[)](sgn[21N m n m x m x Z ； “启动”的过零率曲线在实验室的安静的环境下，依靠短时能量和短时过零率就可进行语音信号的起止点判断。当背景噪声较小时，没有语音信号的噪声能量很小，而语音信号的短时能量增大到了一定数值，可以区分语音信号的开始点和终止点。当背景噪声较大时，可以用短时平均过零率和短时能量结合来判断。基于能量一过零率的端点检测一般使用两级判决法，在开始进行端点检测之前，首先为短时能量和过零率分别确定两个门限。整个语音信号的端点检测可以分为四段：静音、过渡音、语音段、结束时的静音段，（1）如果能量或过零率超越了低门限，就应该开始标记起点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要两个参数的数值都回落到低门限以下，就将当前状态恢复到静音状态。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了，并标记起始点。（2）如果当前状态之前处于语音段，而此时两个参数的数值降低到底门限以下，并且持续时间大于设定的最长时间门限，那么就认为语音结束了，返回到参数值降低到底门限以下的时刻，标记结束点。端点检测波形

数字信号处理语音信号分析与处理及其MATLAB实现..

摘要 (2) 1 设计目的与要求 (3) 2 设计步骤 (4) 3 设计原理及内容 (5) 3.1 理论依据 (5) 3.2 信号采集 (6) 3.3 构造受干扰信号并对其FFT频谱分析 (8) 3.4 数字滤波器设计 (9) 3.5 信号处理 (10) 总结 (12) 致谢 (13) 参考文献 (14)

用MATLAB对语音信号进行分析与处理，采集语音信号后，在MATLAB软件平台进行频谱分析;并对所采集的语音信号加入干扰噪声，对加入噪声的信号进行频谱分析，设计合适的滤波器滤除噪声，恢复原信号。数字滤波器是数字信号处理的基础，用来对信号进行过滤、检测和参数估计等处理。IIR数字滤波器最大的优点是给定一组指标时，它的阶数要比相同组的FIR滤波器的低的多。信号处理中和频谱分析最为密切的理论基础是傅立叶变换（FT）。离散傅立叶变换（DFT）和数字滤波是数字信号处理的最基本内容。关键词：MATLAB;语音信号；加入噪声；滤波器；滤波

1. 设计目的与要求（1）待处理的语音信号是一个在20Hz~20kHz频段的低频信号（2）要求MATLAB对语音信号进行分析和处理，采集语音信号后，在MATLAB平台进行频谱分析；并对所采集的语音信号加入干扰噪声，对加入噪声的信号进行频谱分析，设计合适的滤波器进行滤除噪声，恢复原信号。

2. 设计步骤（1）选择一个语音信号或者自己录制一段语音文件作为分析对象；（2）对语音信号进行采样，并对语音信号进行FFT频谱分析，画出信号的时域波形图和频谱图；（3）利用MATLAB自带的随机函数产生噪声加入到语音信号中，对语音信号进行回放，对其进行FFT频谱分析；（4）设计合适滤波器，对带有噪声的语音信号进行滤波，画出滤波前后的时域波形图和频谱图，比较加噪前后的语音信号，分析发生的变化；（5）对语音信号进行回放，感觉声音变化。

10实验十：随机信号分析应用在语音信号分析中

实验十:随机信号分析应用在语音信号分析中 ——音频信号时域特征和频域特征分析【实验目的】 ⑴ 了解随机信号分析的应用领域。 ⑵ 了解如何利用随机信号分析相关知识点对语音信号进行分析。【实验原理】我们在这里主要研究语音信号检索的部分内容。在语音信号研究中，一般对音频信号需要进行三方面的研究： 1）音频信号的产生，这方面的研究集中在为音频信号建立产生模型，通过产生模型提取音频特征。 2）音频的传播，音频信号如何通过另外介质传播到人的耳朵里。 3）音频的接收，音频信号如何被人所感知。在这里，我们只涉及到音频信号的产生，而其它方面不涉及。音频是一种重要媒体。人耳能够听到的音频频率范围是60Hz- 20KHz，其中语音大约分布在300Hz-4KHz之内。人耳听到的音频是连续模拟信号，而计算机只能处理数字化信息。所以要将连续音频信号数字化后才能在计算机上进行处理。音频信号数字化时的采样频率必须高于信号带宽的2倍才能正确恢复信号。在音频处理中，一般假定音频信号特性在很短时间区间内变化是很缓慢的，所以在这个变化区间内所提取的音频特征保持稳定。这样，对音频信号处理的一个基本概念就是将离散的音频信号分成一定长度单位进行处理，将离散的音频采样点分成一个个音频帧，也就是音频信号“短时”处理方法。一般一个“短时”音频帧持续时间长度约为几个到几十个微妙。可以从音频信号中提取三类基本特征：时域特征、频域特征和时频特征。 1 时域特征提取连续音频信号x经过采样后，得到k个采样点x(n)(1≤n≤k)。在音

频时域提取中，认为每个采样点x(n)(1≤n≤k)包含了这一时刻音频信号的所有信息，所以可以直接从x(n)(1≤n≤k)提取信息。可以提取的信息有：短时平均能量、过零率、线性预测系数。对于采样得到的x(n)(1≤n≤k)音频信号，考虑到信号在段时间内的连贯性，首先把音频信号的K个采样点分割成前后迭代的音频帧，相邻帧之间的迭加率一般为30%-50%，音频处理中的“短时帧”均是这样得到的。 ① 短时平均能量短时平均能量指在一个短时音频帧内采样点所聚集的能量。它能够方便的表示整个时间段内幅度的变化。其定义如下：短时平均能量特征可以直接应用到有声/静音检测中，短时平均能量某一短时帧平均能量低于一个事先设定的阀值，则短时帧为静音，否则为非静音。如果静音的短时祯数超过了一定比例，则将这个例子判为静音音频例子。 2 过零率过零率指在一个短时帧内，离散采样信号值由正到负和由负到正变化的次数。它可以有效的刻画不同的音频信号。其定义如下：其中, 对于语音信号，辅音信号过零率低，而元音信号的过零率高。语音信号开始和结束都大量集中了辅音信号，所以在语言信号中，开始和结束部分得过零率会有明显身高，所以利用过零率可以判断语音是否开始和结束。 3 频率中心（FC）：它是量度声音亮度的指标。即：，其中是f t(n)的Fourier变换，，STE是短时平均能量。一般的，一段音乐的频率中心变化比较单一，语音的频率中心会出现连续的变化。 4 带宽(BW)：它是衡量频率范围的指标。其定义为：

语音信号时域特征参数提取

学院：信电学院班级：电信102 姓名：徐景广学号：2010081261 课程：专业综合实验实验日期：2014年1 月 3 日成绩：实验二、语音信号时域特征参数提取一、实验目的 1．掌握利用matlab程序进行语音信号的录制与回放。 2．理解语音信号的时域特征参数的概念，如短时能量、短时过零率等。 3．掌握matlab的开发环境。 4．掌握对语音信号进行时域特征参数提取的方法。二、实验原理本实验要求掌握时域特征分析原理，并利用已学知识，编写程序求解语音信号的短时过零率、短时能量、短时自相关特征，分析实验结果。 1.窗口的选择通过对发声机理的认识，语音信号可以认为是短时平稳的。在5~50ms的范围内，语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。

学院：信电学院班级：电信102 姓名：徐景广学号： 2010081261 课程：专业综合实验实验日期：2014年 1 月 3 日成绩： 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w （n ） 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w （n ）图1.1 矩形窗和Hamming 窗的时域波形矩形窗的定义：一个N 点的矩形窗函数定义为如下 {1,00,()n N w n ≤<=其他 hamming 窗的定义：一个N 点的hamming 窗函数定义为如下 0.540.46cos(2),010,()n n N N w n π-≤<-??? 其他 = 这两种窗函数都有低通特性，通过分析这两种窗的频率响应幅度特性可以发现（如图1.2）：矩形窗的主瓣宽度小（4*pi/N ），具有较高的频率分辨率，旁瓣峰值大（-13.3dB ），会导致泄漏现象；汉明窗的主瓣宽8*pi/N ，旁瓣峰值低（-42.7dB ），可以有效的克服泄漏现象，具有更平滑的低通特性。因此在语音频谱分析时常使用汉明窗，在计算短时能量和平均幅度时通常用矩形窗。表1.1对比了这两种窗函数的主瓣宽度和旁瓣峰值。

语音特征参数MFCC的提取及识别

语音特征参数MFCC的提取及识别耳蜗实质上相当于一个滤波器组，耳蜗的滤波作用是在对数频率尺度上进行的，在1000HZ下，人耳的感知能力与频率成线性关系；而在1000HZ以上，人耳的感知能力与频率不构成线性关系，而更偏向于对数关系，这就使得人耳对低频信号比高频信号更敏感。Mel频率的提出是为了方便人耳对不同频率语音的感知特性的研究。频率与Mel频率的转换公式为： MFCC在一定程度上模拟了人耳对语音的处理特点，应用了人耳听觉感知方面的研究成果，采用这种技术语音识别系统的性能有一定提高。 MFCC参数的提取1、预加重处理预加重处理其实是一个高通滤波器，该高通滤波顺的传递函数为：

其中的取值为0.97，该高通滤波器作用是滤去低频，使语音信号的高频特性更加突现。 2、分帧及加窗处理由于语音信号只在较短的时间内呈现平稳性（一般认为 10-30ms），因此将语音信号划分为一个一个的短时段即一帧。同时为避免丢失语音信号的动态信息，相邻帧之间要有一段重叠区域，重叠区域一段为帧长的1/2或1/3。然后再将每帧乘上窗函数，以增加每帧左端和右端的连续性。 3、各帧信号的FFT变换对分帧加窗后的各帧信号进行FFT变换得到各帧的频谱。并对语音信号的频谱取模平方得到语音信号的功率谱。

4、三角滤波器系数的求取定义若干个带通三角滤波器(k)，0<=m<=M，M为滤波器个数，其中心频率为f(m),每个带通三角滤波器的频率响应为且满足Mel(f(m))-Mel(f(m-1))=Mel(f(m+1))-Mel(f(m)) 求得滤波系数为m(i),i=1,…,p，p为滤波器阶数 5、三角滤波并进行离散余弦变换DCT

语音信号的时域特征分析

中北大学课程设计说明书学生姓名：蒋宝哲学号： 24 学生姓名：瓮泽勇学号： 42 学生姓名：侯战祎学号： 47 学院：信息商务学院专业：电子信息工程题目：信息处理实践:语音信号的时域特征分析指导教师：徐美芳职称: 讲师 2013 年 6 月 28 日

中北大学课程设计任务书 2012-2013 学年第二学期学院：信息商务学院专业：电子信息工程学生姓名：蒋宝哲学号： 24 学生姓名：瓮泽勇学号： 42 学生姓名：侯战祎学号： 47 课程设计题目：信息处理实践:语音信号的时域特征分析起迄日期： 2013年6 月7日～2013年6月 28 日课程设计地点：学院楼201实验室、510实验室、608实验室指导教师：徐美芳系主任：王浩全下达任务书日期: 2013 年 6 月 7 日

语音信号的采集与分析摘要语音信号的采集与分析技术是一门涉及面很广的交叉科学，它的应用和发展与语音学、声音测量学、电子测量技术以及数字信号处理等学科紧密联系。其中语音采集和分析仪器的小型化、智能化、数字化以及多功能化的发展越来越快，分析速度较以往也有了大幅度的高。本文简要介绍了语音信号采集与分析的发展史以及语音信号的特征、采集与分析方法，并通过PC机录制自己的一段声音，运用Matlab进行仿真分析，最后加入噪声进行滤波处理，比较滤波前后的变化。关键词：语音信号，采集与分析， Matlab 0 引言通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。语言是人类持有的功能．声音是人类常用的工具，是相互传递信息的最主要的手段。因此，语音信号是人们构成思想疏通和感情交流的最主要的途径。并且，由于语言和语音与人的智力活动密切相关，与社会文化和进步紧密相连，所以它具有最大的信息容量和最高的智能水平。现在，人类已开始进入了信息化时代，用现代手段研究语音信号，使人们能更加有效地产生、传输、存储、获取和应用语音信息，这对于促进社会的发展具有十分重要的意义。让计算机能听懂人类的语言，是人类自计算机诞生以来梦寐以求的想法。随着计算机越来越向便携化方向发展，随着计算环境的日趋复杂化，人们越来越迫切要求摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高科鼓应用领域的研究热点，语音信号采集与分析从理论的研究到产品的开发已经走过了几十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理．工业生产部门的语声控制，电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨，并且有望成为下一代操作系统和应用程序的用户界面。可见，语音信号采集与分析的研究将是一项极具市场价值和挑战性的工作。我们今天进行这一领域的研究与开拓就是要让语音信号处理技术走人人们的日常生活当中，并不断朝更高目标而努力。语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进行研究和探讨，除了它的实用性之外，另一个重要原因是，它始终与当时信息科学中最活跃的前沿学科保持密切的联系．并且一起发展。语音信号采集与分析是以语音语言学和数字

《语音信号处理》实验3-LPC特征提取

华南理工大学《语音信号处理》实验报告实验名称：LPC特征提取姓名：学号：班级：10级电信5班日期：2013年5 月24日

1. 实验目的 1、熟练运用MATLAB 软件进行语音信号实验； 2、熟悉短时分析原理、LPC 的原理； 3、学习运用MATLAB 编程进行LPC 的提取； 4、学会利用短时分析原理提取LPC 特征序列。 2. 实验原理 1、LPC 分析基本原理 LPC 分析为线性时不变因果稳定系统V （z ）建立一个全极点模型，并利用均方误差准则，对已知的语音信号s(n)进行模型参数估计。如果利用P 个取样值来进行预测，则称为P 阶线性预测。假P 个取样值()()(){ } 1,2,S n S n S n p --- 的加权之和来预测信号当前取样值()S n ，则预测信号()S n ∧ 为： ()() 1 p k k S n a n k ∧==-∑ (1) 其中加权系数用k a 表示，称为预测系数，则预测误差为: ()()()()() 1 p k k e n s n S n s n a n k ∧ ==-=--∑ (2) 要使预测最佳，则要使短时平均预测误差最小有： ()2 min E e n ε??==?? (3) ()20,(1) k e n k p a ????? =≤≤? (4) 令 ()()(),,i k E s n i S n k φ=--???? (5) 最小的ε可表示成： ()() min 10,00,p k k a k εφφ==-∑ (6) 显然，误差越接近于零，线性预测的准确度在均方误差最小的意义上为最佳，由此可以计算出预测系数。通过LPC 分析，由若干帧语音可以得到若干组LPC 参数，每组参数形成一个

基于小波变换的语音特征参数提取

基于小波变换的语音特征参数提取【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中，给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分，使频谱分辨率提高了一倍。试验证明，小波MFCC特征参数在较大词汇量情况下，其识别率优于MFCC特征参数的结果。【关键词】小波分析；语音识别；MFCC Abstract：The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So，a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform，multi degree FFT and frequency synthesis to replace original FFT of MFCC，and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary. Key words：wavelet transformation；speech recognition；MFCC 1.引言在语音识别和说话人识别中，基于Mel频率的倒谱系数MFCC（mel frequency cepstrum cofficient）是将人耳的听觉感知特性和语音的产生机制相结合，与其他特征参数相比较，体现了较优越的性能，在无噪声情况下能得到较高的识别率，因此是目前使用最广泛的特征参数。但是，随着识别词汇量的增大，这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。近年来，小波变换被广泛应用于语音处理中，主要包括：利用小波变换对听觉感知系统进行模拟，对语音信号去噪，进行清、浊音判断。因为小波变换的局部化性质，可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率，本文将小波变换技术引入到MFCC特征参数中，来进行语音识别系统的特征提取，可以提高对辅音区的识别效果。因此，用WMFCC特征参数作为隐马尔可夫（HMM）识别网络的输入信号，识别效果明显提高。 2.MFCC特征参数图1所示为MFCC特征参数的计算流程图。图1 MFCC特征参数的提取人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1]，而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分，模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公

语音信号特征参数研究

语音信号特征参数研究石海燕（浙江工业大学信息工程学院，浙江杭州３１００３２）摘要：在语音技术的发展过程中使用了大量的语音信号特征参数，好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数、语音信号特征参数的选择进行了介绍，并介绍了语音信号的短时能量、短时平均幅度的提取。关键词：语音信号；特征参数；短时能量中图分类号：ＴＰ３９１文献标识码：Ａ文章编号：１００９－３０４４（２００８）０４－１０７５４－０４ＳｔｕｄｙｏｎＳｐｅｅｃｈＳｉｇｎａｌＦｅａｔｕｒｅＰａｒａｍｅｔｅｒＳＨＩＨａｉ－ｙａｎ（ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＺｈｅｊｉａｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｎｇｚｈｏｕ３１００３２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｐｒｏｃｅｓｓｏｆｄｅｖｅｌｏｐｉｎｇｓｐｅｅｃｈｔｅｃｈｎｏｌｏｇｙｕｓｅｄｉｎａｌａｒｇｅｎｕｍｂｅｒｏｆｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ，ａｇｏｏｄｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｐｌａｙｅｄａｃｒｉｔｉｃａｌｒｏｌｅｉｎｓｐｅｅｃｈｒｅｃｏｇｎｉｔｉｏｎ．Ｉｎｔｈｉｓｐａｐｅｒｗｅｉｎｔｒｏｄｕｃｅｄｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓ，ｔｈｅｓｐｅｅｃｈｓｉｇｎａｌｆｅａｔｕｒｅｐａｒａｍｅｔｅｒｓｓｅｌｅｃｔｉｏｎ，ａｎｄｉｎｔｒｏｄｕｃｅｄｓｈｏｒｔ－ｔｅｒｍｅｎｅｒｇｙ、ｓｈｏｒｔ－ｔｅｒｍａｖｅｒａｇｅｒａｎｇｅｅｘｔｒａｃｔｉｏｎ．Ｋｅｙｗｏｒｄｓ：ｓｐｅｅｃｈｓｉｇｎａｌ；ｆｅａｔｕｒｅｐａｒａｍｅｔｅｒ；ｓｈｏｒｔ－ｔｅｒｍｅｎｅｒｇｙ１引言在语音识别的发展过程中使用了大量的语音信号特征参数。特征参数的提取是关系到语音识别系统性能好坏的一个关键技术，其基本思想是将预处理过的信号通过一次变换，去掉冗余部分，而把代表语音本质的特征参数抽出来。接下去所要作的识别处理都是建立在特征参数之上的，如果特征参数不能很好地反映语音信号的本质，识别就不能成功。语音信号特征参数是分帧提取的，每帧特征参数一般构成一个矢量，所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧，每帧大小大约是２０￣３０ｍｓ。帧太大就不能得到语音信号随时间变化的特性，帧太小就不能提取出语音信号的特征，每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大，帧之间就要有重叠，帧叠往往是帧长的１／２或１／３。帧叠大，相应的计算量也大。常用的语音特征参数有平均能量、平价跨零数或跨零率、共振峰、ＬＰＣ参数、倒谱参数、临界带倒谱等。下一节介绍一些常用的语音特征。２语音信号特征参数介绍（１）基音周期（Ｐｉｔｃｈ）人的语音基本上由两类构成，一类是浊音（ｖｏｉｃｅ），另一类是清音（ｕｎｖｏｉｃｅ）。浊音的语音信号具有较强的周期性，不同的浊音波形是不同的。浊音的这种周期叫基音周期，其倒数叫做基音频率，它主要和声带的特性有关。一般来说，成年男性的语音的基音频率在６０Ｈｚ￣２００Ｈｚ，而成年女性和儿童语音的基音频率在２００Ｈｚ￣４５０Ｈｚ。清音的语音信号具有随机噪声的特点，一般来说清音的幅度小于浊音的幅度。基音周期（Ｐｉｔｃｈ）是指发浊音时声带震动所引起的周期运动时间间隔，代表声带震动的快慢，震动越快音高会越高，基音周期是声带振动频率Ｆ０的倒数，它是语音信号分析的一个重要参数。（２）短时频谱语音信号特征在较短的时间间隔中保持基本不变，即语音信号具有时变特性，因而可以将语音信号看作是一个短时平稳过程。语音信号具有一些重要的短时特征。短时频谱是语音信号的一个重要的短时特性。可以用下列公式计算：（１）收稿日期：２００８－０１－１２个人简介：石海燕（１９７７－），女，浙江诸暨人，实验师，主要研究方向：语音处理、模式识别。

语音信号特征参数研究

应用Matlab对含噪声语音信号进行频谱分析及滤波

基于Matlab的语音信号的特征提取与分类

语音信号分析与处理2011

语音信号特征的提取

语音信号特征参数提取方法

基于Matlab的语音信号处理与分析

语音识别报告

数字信号处理 语音信号分析与处理及其MATLAB实现..

10实验十：随机信号分析应用在语音信号分析中

语音信号时域特征参数提取

语音特征参数MFCC的提取及识别

语音信号的时域特征分析

《语音信号处理》实验3-LPC特征提取

基于小波变换的语音特征参数提取

语音信号特征参数研究

数字信号处理语音信号分析与处理及其MATLAB实现..