文档库 最新最全的文档下载
当前位置:文档库 › 语音信号处理实验指导书

语音信号处理实验指导书

语音信号处理实验指导书
语音信号处理实验指导书

语音信号处理实验指导书

实验一 语音信号采集与简单处理

一、 实验目的、要求 (1)掌握语音信号采集的方法

(2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率:

短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。

对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。

其中sgn[.]为符号函数

??

??

?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n))

短时平均过零的作用 1.区分清/浊音:

浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。

2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期

基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。

∑--=

-=1

)]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。

尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料

微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集

利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。

(2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。

(3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率

短时相关函数

P j j n s n s j R N j

n n n n ,,1)

()()(1

=-=∑-=

∑--=-=10

)]1(sgn[)](sgn[21N

m n n n

m x m x Z

六、实验结果,及分析

图一清浊音

图二浊音自相关函数

图三清音自相关函数

实验结果分析:

清音短时过零率高,浊音过零率低。

浊音、清音自相关函数可以看出,浊音存在基音周期,清音不存在基音周期。浊音的基音周期是自相关函数峰值之间的时间差。

七、实验参考程序

1.段时能量

a1=zeros(1,620);K=450;R=zeros(1,250);

duanshnl=0;maxx=0;speech=zeros(1,1000);

sp1=wavread('D:\语音信号处理试验\a.wav');%8000采样频率maxx=max(sp1);

speech(1:1000)=sp1(1:1000);

duanshnl=speech(1:1000)*speech(1:1000)';

duanshnl=duanshnl/(maxx^2)

plot(sp1(1:400));

hold on

sp=wavread('D:\语音信号处理试验\s.wav');%8000采样频率

speech(1:1000)=sp(1:1000);

qduanshnl=speech(1:1000)*speech(1:1000)';

qduanshnl=qduanshnl/(maxx^2)

plot(sp(1:400),'r')

2 短时过零率

close all

a1=zeros(1,620);K=450;R=zeros(1,250);

duanshnl=0;maxx=0;speech=zeros(1,1000);

sp1=wavread('D:\语音信号处理试验\a.wav');%11000采样频率sp=wavread('D:\语音信号处理试验\f.wav');%11000采样频率L=mean(sp);sp=sp-L;L2=mean(sp1);sp1=sp1-L2;

%以下程序计算短时过零率

m1=0;m2=0;

for i=1:2000

if sp1(i)>0

spp1(i)=1;

else

spp1(i)=-1;

end

end

for i=1:2000

if sp(i)>0

spp(i)=1;

else

spp(i)=-1;

end

end

for i=2:2000

m1=m1+0.5*abs(spp1(i)-spp1(i-1));

m2=m2+0.5*abs(spp(i)-spp(i-1)); % m2 >> m1

end

plot(sp1(1:2000),'r');

hold on

plot(sp(1:2000));

3 相关函数法计算基音周期

a1=zeros(1,620);K=450;R=zeros(1,250);

sp=wavread('e:\E\letter\a1.wav');%11000采样频率

for i=1:250

for j=1:601-1-i

R(i)=R(i)+sp(j)*sp(j+i);

end

end

plot(R/14)

hold on

R=zeros(1,250);

sp=wavread('e:\E\letter\f1.wav');%11000采样频率

f1=sp(3300:4000);%11000采样频率

for i=1:250

for j=1:601-1-i

R(i)=R(i)+f1(j)*f1(j+i);

end

end

plot(R/14,'r')

4 倒谱法计算基音周期

close all

a1=zeros(1,620);K=500;

sp=wavread('D:\a1.wav');%11000采样频率

sound=zeros(1,K);speech=zeros(1,K);tt=zeros(1,K);hanning=zeros(1,K); for number=1:K

hanning(number)=(1/2)*(1-cos((2*pi)*(number-1)/(K-1)));

end

sound=sp(K:2*K-1);

tt=abs(fft(sound(1:K)));

for i=1:K

speech(i)=logm(tt(i));

end

speech=real(ifft(speech));

plot(speech,'g')

hold on

sound=sound.*hanning';

tt=abs(fft(sound(1:K)));

for i=1:K

speech(i)=logm(tt(i));

end

speech=real(ifft(speech));

plot(speech,'r');

sp=wavread('D:\f1.wav');%11000采样频率

f1=sp(3000:4000);%11000采样频率

%f1=sp(K:4000);

sound=f1(K:2*K-1);

tt=abs(fft(sound(1:K)));

for i=1:K

speech(i)=logm(tt(i));

end

speech=real(ifft(speech));

figure

plot(speech,'g')

hold on

sound=sound.*hanning';

tt=abs(fft(sound(1:K)));

for i=1:K

speech(i)=logm(tt(i));

end

speech=real(ifft(speech));

plot(speech,'r');

实验二语音信号的频域处理

一、实验目的、要求

(1)掌握语音信号频域分析方法

(2)了解语音信号频域的特点

(3)了解谱减法作为频域语音增强的原理与编程实现

(3)了解谱减法的缺点,并分析产生该缺点的原因

二、实验原理

语音虽然是一个时变、非平稳的随机过程。但在短时间内可近似看作是平稳的。因此如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到

语音增强的目的。由于噪声也是随机过程,因此这种估计只能建立在统计模型基础上。利用人耳感知对语音频谱分量的相位不敏感的特性,这类语音增强算法主要针对短时谱的幅度估计。

短时话幅度估计概述 设一帧加窗后的带噪语音为

()()()

01y n s n d n n N =+≤≤- (2.1)

其中()s n 为纯净语音,()d n 假设为平稳加性高斯噪声。

将()y n 在一组基{()}k n φ上展开,使展对系数为各不相关的随机变量。设()y n 的相关函数为(,)y R n m ,由K -L 展开得知{()}k n φ满足

1

()()(,)()N k y k m K n R n m m λφφ-==∑ (2.2)

则()y n 的展开式为

1

1

0()()()()N k k K N k k n y n Y n

Y y n n φφ-=-=?

=????=??

∑∑ (2.3) 如果()y n 的相关长度小于帧长N ,则()k n φ的近似函数为

2()k nk n j N π???

=

???

(2.4)

可见()y n 的展开过程实际上相当于离散博里叶交换,其展开系数(为傅里叶变换系数。由()()()y n s n d n =+,则有:k k k Y S N =+。

其中[]||exp k k k Y Y j θ=、[]||exp k k k S S j α=、k N 分别为()y n 、()s n 及()d n 的傅里叶交换系数。由于假设噪声是高斯分布的,其傅里叶系数k N 相当于多个高斯样本的加权和,故可认为仍然为高斯分布。其均值为0,方差可通过无语音时对噪声的分析而获得。

语音增强的任务就是利用已知的噪声功率谱信息,从k Y 中估计出k S 。由于人耳对相位不敏感,故只需估计出||k S ,然后借用带噪语音的相位,进行傅里叶逆变换就可得到增强的语音。基于短时谱幅度估计的方法的原理图如图2.1所示。

图2.1 短时谱估计原理图

在短时谱幅(STSA)估计基础上,人们提出了许多语音增强算法。基本思想是利用输入带噪语音短时谱幅来估计清洁语音短时谱幅,结合带噪语音相位信息,得到增强信号。

运用短时傅里叶变换(STFT)和重叠相加是短时谱估计技术中最常用的方法。输入信号)(n y 的短时谱幅|)(|k Y 与一个修正因子相乘,得到增强信号谱幅度|)(?|k S

(通常修正因子与噪声信号)(n d 谱幅估计密切相关);或将含噪语音谱幅减去噪声谱幅估计,得到增强信号谱幅,这些方法统称为相减类型算法(subtractive -type algorithms)。噪声谱幅估计可以通过有声、无声检测获取。一

般认为噪声与信号不相关,增强信号谱幅|)(?|k S

是清洁语音信号)(n s 的谱幅估计。通常假设人耳对含噪语音相位产生的畸变不敏感,所以进行IDFT 恢复成时域信号时,含噪语音的相位一般不作处理。

三、使用仪器、材料

微机(带声卡)、耳机,话筒。

四、 实验步骤

(1) 分析含噪语音信号的频谱(幅度谱和相位谱) (2) 获取噪声信号频谱(幅度谱) (3) 对含噪语音信号进行分帧并进行加窗处理 (4) 将含噪语音信号谱和噪声谱作为输入,进行谱减法 (5) 回复增强语音信号帧. (6) 对比输入信号与增强信号波形,分析算法对其产生的影响. 五、实验过程原始记录(数据,图表,计算)

假设)(n y 为含噪语音离散时间序列,由清洁语音信号)(n s 和非相关加性噪声信号)(n d 组成。)(n y 可表示为

)(n y =)(n s +)(n d (2.5)

将输入信号按帧处理,前后帧之间重叠(一般为50%),对每帧含噪语音进行加窗处理,然后进行FFT 变换,变换到频率域。含噪语音的能量谱可以表示为

2|)(|k Y 2|)(|k S +2|)(|k D (2.6) 其中)(k Y 为

)(k Y =∑-=-1

2)(N n N

kn j

e

n y π=|)(|k Y )(k i e ? (2.7)

其中)(k ?为含噪语音)(k Y 的相位。

由于没法直接得到含噪语音中噪声能量谱2|)(|k D ,一般将无声阶段的数帧噪声信号进行能量谱加权平均得到噪声能量谱估计2|)(|k D 。假设噪声与语音信号不相关,语音能量谱估计为

2|)(?|k S

=2|)(|k Y -2|)(?|k D (2.8) 其中清洁语音能量谱估计2|)(?|k S

由含噪语音能量谱减去噪声能量谱估计得到。由于噪声能量谱估计与含噪语音中噪声能量谱之间存在差异,式(3.4)可能出现负值,为了避免能量谱出现负值,将这些负值设为零,这一处理称为半波整流

(half-wave rectification)。通过半波整流,清洁语音能量谱估计2|)(?|k S

可表示为 0

|)(?|0|)(?|0

|)(?||)(?|2222<>??

?=k S k S

k S k S 当当 (2.9) 结合含噪语音相位信息,通过逆离散傅里叶变换(IDFT)得到时域清洁语音信

号的估计信号)(?n s

。 )(?n s

=IDFT()(|)(?|k j e k S ?) (2.10) 其中增强语音信号频谱)(?k S

也可以通过时变滤波器)(k G 重建 )(?k S =)(k G )(k Y (2.11) 式中时变滤波器(或称为增益函数))(k G 可表示为

否则

如果βαβα+

?

?

??

???-=1

|

)(||)(?|)|)(||)(?

|()|)(||)(?|1()(2

25.0225.02

2k Y k D k Y k D k Y k D

k G (2.12)

六:实验结果,及分析

(a) 原始含噪语音

(b) 谱相减增强语音

(c) 原始含噪语音

(d) 谱相减增强语音

图2.2 谱减法结果分析

实验结果:图2.2中(a),(c)为不同信噪比输入含噪语音信号,图2.2中(b),(d)为对应增强语音信号。当信噪比较低时,降噪效果较差。并且引入音乐噪声。

算法缺陷分析:

(1)不可避免的引入音乐噪声。要有效地滤除含噪语音中的噪声,需要准确地估计含噪语音中噪声的频谱。噪声谱估计越准确,增强信号谱中音乐噪声越小。然而,由于不能直接得到噪声谱,在绝大多数谱相减算法中,通过加权平均无声阶段噪声谱得到噪声谱估计,这种噪声谱估计与含噪语音中的瞬时噪声谱存在差异,噪声平稳性越差,差异越大,由于这种差异的存在,谱相减不可避免地引入音乐噪声。

(2) 半波、全波整流

式(3.4)中负能量值的产生是由于噪声谱估计发生了错误。这些负值用半波整流(被设定为0)或全波整流(被设定为绝对值),这样处理并没有纠正这种错误,可能导致时域信号更进一步的失真。

(3) 用含噪语音的相位作为增强语音的相位

在生成增强时域信号时,含噪语音的相位并没有作任何修改。这是基于这样一个事实,相位的失真对语音质量下降造成的影响不大。当信噪比比较高(>5dB)时,相位失真确实对语音质量的影响不大,然而,当信噪比较低时(<0dB)这种由于相位失真造成的语音质量下降是可以感觉得到的。

七、实验参考程序代码

谱相减原程序代码

hanning=zeros(1,256);

speech=zeros(1,32000);

dd=wavread('D:\语音信号处理实验2\noise.wav');%噪声;

sp=wavread('D:\语音信号处理实验2\speech.wav');%纯语音;

hanning=zeros(1,256);

noise=dd(10000:45000);

speech=sp(25000:60000);

e2=noise+speech;

szeros=zeros(1,32000);

soutput1=zeros(1,32000);

j=sqrt(-1);

a=3,b=0.01;

Snoise=zeros(1,256);

phase=zeros(1,256);

for n=1:256

hanning(n)=(1/2)*(1-cos((2*pi)*(n-1)/255));

end

% to get noise spectral

Noise=zeros(1,256);Noise1=zeros(1,256);

for i=1:3

Noise1(1:256)=abs(fft(e2(1+i*256:256*(i+1)).*hanning'));

Noise=Noise+Noise1/3;

end

% spectral subtraction algrithm

for i=1:245 %%第i帧

snoise=e2((i-1)*128+1:(i-1)*128+256).*hanning';

phase=angle(fft(snoise)); % to get noisy signal spectral phase

Snoise=abs(fft(snoise)); % to get noisy signal spectral amplitude

for n=1:256

if(Snoise(n)^2-Noise(n)^2)<0 %the power of enhanced speech must be positive

Sout0(n)=0.1*Snoise(n);

else

Sout0(n)=(Snoise(n)^2-(Noise(n)*1.5)^2)^0.5; %power type spectral subtraction

end

S0(n)=Sout0(n)*(cos(phase(n))+j*sin(phase(n))); % to get enhanced speech spectral amplitude

end

sout0=ifft(S0);

szeros(((i-1)*128+1):((i-1)*128+256))=real(sout0);

soutput1=soutput1+szeros;

szeros=zeros(1,32000);

end

%the following is for SNR calculation

sp_energe=zeros(1,256);sn_energe=zeros(1,256);SN=zeros(1,256);

in_SNR1=zeros(1,125);out_SNR1=zeros(1,125);snoise=zeros(1,256);

for i=1:240

snoise=speech((i-1)*128+1:(i-1)*128+256).*hanning';%第i帧清洁语音存放到snoise

SN=noise((i-1)*128+1:(i-1)*128+256).*hanning'; %第i帧清洁语音存放到SN

%in_SNR1(i)

sp_energe(i)=snoise(1:256)'*snoise(1:256);%第i帧清洁语音snoise的能量存放到sp_energe(i) sn_energe(i)=SN(1:256)'*SN(1:256);%第i帧皂声SN的能量存放到sn_energe(i)

in_SNR1(i)=10*log10(sp_energe(i)/sn_energe(i));%第i帧含噪语音信号输入信噪比in_SNR1(i)

SN=soutput1((i-1)*128+1:(i-1)*128+256).*hanning; %第i帧输出信号存放SN

sn_energe1(i)=SN(1:256)*SN(1:256)';%第i帧输出信号SN能量

out_SNR1(i)=10*log10(sp_energe(i)/abs(sn_energe1(i)-sp_energe(i)));%第i帧增强信号输出信噪比end

plot(e2);

hold on

plot(soutput1,'r');

plot(speech,'g');

figure

plot(in_SNR1)

hold on

plot(out_SNR1,'r')

figure

plot(hanning);

%sound(speech);

%sound(e2);

sound(soutput1);

实验三 语音信号进行倒谱分析

一、 实验目的、要求

1. 理解倒谱分析的作用

2. 掌握倒谱分析求基音周期的方法 3. 了解LPC 倒谱分析方法 二、实验原理

1.倒谱分析原理

同态信号处理也称为同态滤波,实现将卷积关系变换为求和关系的分离处理,即解卷。

如 进行如下3步处理

对于语音信号进行解卷,可将语音信号的声门激励信息及声道响应信息分离开来,从而求得声道共振特征和基音周期,用于语音编码、合成和识别。 同态信号处理的基本原理

(1)第一个子系统D*[](特征系统)完成将卷积信号转化为加性信号的运算。

)(?1n x

和 )(?2n x

信号也均是时域序列,但它们所处的离散时域显然不同于x(n)所处的离散时域,故把它称之为复倒频谱域。)(?n x

是x(n)的复倒频谱,简称为复倒谱,有时也称为对数复倒谱。复倒谱具体计算公式

其中倒谱计算公式为:

2 线性预测原理

线性预测分析的基本思想

由于语音样点之间存在相关性,所以可以用过去的样点值来预测现在或未来的样点值。通过使实际语音抽样和线性预测抽样之间的误差在某个准则下达到最小值来决定唯一的一组预测系数,而这组系数就能反映语音信号的特性,可以作为语音信号特征参数来用于语音编码、语音合成和语音识别等应用中去。 线性预测分析的基本原理

每个采样值由前面的p 个采样值线性组合所构成。记为x '(n),有:

)(?)(?)(?)](?)(?[)](?[)3()(?)(?)(?)(ln )(ln )(ln )2()

()()()]([)1(2121112

12121n x n x n x z X z X Z z X

Z z X z X z X z X z X z X z X z X z X n x Z =+=+==+=+=?==--)()()(21n x n x n x *=))](([ln )(?1n x Z Z n x

-=)](?[)(?)(ln )(?)()]([jw jw jw jw e X IDFT n x

e X e X

e X n x DFT ===

要提高预测精度,就是要预测系数{k a }的取值使e(n)最小。理论上通常采用均方

误差E[e2(n)]最小的准则。

根据e(n)均方误差最小的原则来求解k a ,有三种方法:自相关法(Levinson-Durbin 算法)、协方差法和格型合成滤波算法。

自相关法,就是先解出Yule-Walker 方程,再计算G 。Levinson-Durbin 算法是自相关算法中的一种,形成递推算法。

三、使用仪器、材料

微机(带声卡)、耳机,话筒。

四、 实验步骤

(1)采集语音(浊音,轻音)信号

(2)分帧计算语音信号倒谱

(3)倒谱作FFT 并加短时窗,取大于25以上的样值,进行IFFT ,得到基音周期的倒谱。

(3)运用Levinson-Durbin 计算一帧语音信号线形预测系数

(4)对该帧语音信号进行逆滤波处理

(5)对逆滤波后的信号进行倒谱分析确定基音周期 五、实验过程原始记录(数据,图表,计算) 1.倒谱计算公式为:

2.线形预测系数计算公式为:

1))0(0

n n R E =

2)

3) 4) i i i

k a =1

1

11)

()(--=-∑--=

i n

i j n i j n i E j i R a i R k ∑=-='p

k k k n x a n x 1

)

()(∑=--='-=p

k k k n x a n x n x n x n e 1

)

()()()()()](?[)(?)(ln )(?)()]([jw jw jw jw e X IDFT n x

e X e X

e X n x DFT ===1

1----=i j

i i i j i j a k a a

5) if i

1≤j ≤p

LPC 倒谱流程如下

六:实验结果,及分析

倒谱分析

LPC 倒谱分析波形图

p j

j a a =12)1(--=i n i i n

E k E

逆滤波后波形图

分析

倒谱分析可以观察倒浊音的基音周期。相邻两个峰值之间的距离为基音周期。

七、实验参考程序

N=256;R=zeros(1,N);

p=12;a=zeros(p,p);En=zeros(1,p);

K=zeros(1,p);

sp=wavread('D:\语音信号处理试验\a1.wav');%11000采样频率

qq=max(sp);

sp=sp-qq;

%相关函数

for j=1:p

for n=j:N-1

R(j)=R(j)+sp(n)*sp(n-j+1);

end

end

% (Levinson-Durbin算法)预测系数

完成程序部分

% 逆滤波

for k=1:256

if k

for m=1:k

mm1(k)=mm1(k)+mm(p-k+m)*source(m);

end

else

if k<256

for m=1:p

mm1(k)=mm1(k)+mm(m)*source(m+k-p);

end

else

for m=k-p+1:256

mm1(k)=mm1(k)+mm(m-k+p)*source(m);

end

end

end

end

DFTmm=abs(fft(mm1));

Ln=zeros(1,300);

%取对数,高频风量置零

for i=1:60

Ln(i)=logm(DFTmm(i));

end

% IDFT

ifftLn=real(ifft(Ln));

mm=ifftLn;

for i=1:150

daopu1(i)=mm(151-i);

end

for i=1:150

daopu1(150+i)=mm(301-i);

end

plot(daopu1)

实验四语音信号的数字回声处理

一、实验目的

1、掌握SEED-DTK-VPM642实验箱的使用;

2、掌握CCS的使用;

3、大致了解DSP/BIOS操作系统,以及SIO/DIO流模型;

4、掌握数字语音信号的回声编程处理。

二、实验内容

本次实验主要利用SEED-DTK-VPM642实验箱,使用TI公司的TMS320DM642DSP芯片为核心处理器,利用AIC23语音芯片实现语音数据的采集与回放。本次实验软件架构以TI公司的DSP/BIOS操作系统为基础,使用SIO/DIO流模型,实现语音信号的数字回声处理。

三、实验过程

首先正确连好实验箱,并且设置好CCS软件。另外,输入信号从实验箱面板上方的模拟接口的Ain0输入,从耳机J3接口输出,编写程序,编译链接,下载调试。

四、实验目的以及要求

完成数字语音信号回声处理的编程和下载调试等,对经过不同的延迟参数处理之后的不同回声效果进行分析比较。

五、实验报告要求

简要描述数字语音回声处理过程,能够通过编程实现回声处理,得到最终的实验结果。

根据实验结果分析性能。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名:

实验一 基于MATLAB 的语音信号时域特征分析(2学时) 1) 短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2) ,legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 024 N=3200.5 1 1.5 2 2.5 3x 10 4 05 N=6400.5 1 1.5 2 2.5 3x 10 4 0510 N=12800.5 1 1.5 2 2.5 3x 10 4 01020 N=2560 0.5 1 1.5 2 2.5 3x 10 4 02040 N=512 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32;

for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if (i==2), legend('N=32'); elseif (i==3), legend('N=64'); elseif (i==4) ,legend('N=128'); elseif (i==5) ,legend('N=256'); elseif (i==6) ,legend('N=512'); end end 00.51 1.52 2.5 3 x 10 4 -1 100.5 1 1.5 2 2.5 3x 10 4 012 N=3200.5 1 1.5 2 2.5 3x 10 4 024 N=6400.5 1 1.5 2 2.5 3x 10 4 024 N=12800.5 1 1.5 2 2.5 3x 10 4 0510 N=2560 0.5 1 1.5 2 2.5 3x 10 4 01020 N=512 2) 短时平均过零率 a=wavread('mike.wav'); a=a(:,1); n=length(a); N=320; subplot(3,1,1),plot(a); h=linspace(1,1,N); En=conv(h,a.*a); %求卷积得其短时能量函数En subplot(3,1,2),plot(En); for i=1:n-1 if a(i)>=0 b(i)= 1;

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

《语音信号处理》实验报告材料

实用 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

新语音信号处理实验指导2015年秋

《语音信号处理》 实验指导书 哈尔滨理工大学 自动化学院 电子信息科学与技术系 2014.10

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。

哈尔滨工程大学 语音信号处理实验报告

实 验 报 告 实验课程名称: 语音信号处理实验 姓名: 班级: 20120811 学号: 指导教师 张磊 实验教室 21B#293 实验时间 2015年4月12日 实验成绩 实验序号 实验名称 实验过程 实验结果 实验成绩 实验一 语音信号的端点检测 实验二 语音信号的特征提取 实验三 语音信号的基频提取

实验一 语音信号的端点检测 一、实验目的 1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法 3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。 二、实验设备 HP 计算机、Matlab 软件 三、实验原理 1、短时能量 语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号)}({n x ,短时能量的定义如下: ∑ ∑∞ -∞ =∞ -∞ =*=-= -= m m n n h n x m n h m x m n w m x E )()()()()]()([222 2、短时平均过零率 短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。过零率在一定程度上可以反映出频率的信息。短时平均过零率的公式为: ∑∑-+=∞ -∞=--= ---=1)] 1(sgn[)](sgn[2 1 ) ()]1(sgn[)](sgn[21N n n m w w m n m x m x m n w m x m x Z 其中,sgn[.]是符号函数,即 ? ? ?<-≥=0)(10)(1 )](sgn[n x n x n x

语音信号处理实验一采集和预处理

实验一语音信号的采集及预处理 一、实验目的 在理论学习的基础上,进一步地理解和掌握语音信号预处理及短时加窗的意义及基于matlab的实现方法。 二、实验原理 1.语音信号的录音、读入、放音等:练习matlab中几个音频处理函数,利用函数wavread 对语音信号进行采样,记住采样频率和采样点数,给出以下语音的波形图(2.wav)。利用wavplay或soundview放音。也可以利用wavrecord自己录制一段语音,并进行以上操作(需要话筒)。 2.语音信号的分帧:对语音信号进行分帧,可以利用voicebox工具箱中的函数enframe。 voicebox工具箱是基于GNU协议的自由软件,其中包含了很多语音信号相关的函数。3.语音信号的加窗:本步要求利用window函数设计窗口长度为256(N=256)的矩形窗(rectwin)、汉明窗(hamming)及汉宁窗(hann)),利用wvtool函数观察其时域波形图及频谱特性,比较得出结论。观察整个信号加矩形窗及汉明窗后的波形,利用subplot与reshape函数将分帧后波形、加矩形窗波形及加汉明窗波形画在一张图上比较。取出其中一帧,利用subplot与reshape函数将一帧语音的波形、加矩形窗波形及加汉明窗波形画在一张图上比较将得出结论。 4.预加重:即语音信号通过一个一阶高通滤波器1 9375 1- -z。 .0 三、实验步骤、实验程序、图形及结论 1.语音信号的录音、读入、放音等 程序: [x,fs,nbit]=wavread('D:\2.wav'); %fs=10000,nbit=16 y=soundview('D:\2.wav') 2.语音信号的分帧 程序: [x,fs,nbit]=wavread('D:\2.wav'); len=256; inc=128; y=enframe(x,len,inc); figure; subplot(2,1,1),plot(x) subplot(2,1,2),plot(y)

语音信号处理实验

哈尔滨工程大学实验报告 班级:电信三班 学号:2013081416 姓名:刘世杰

语音信号处理实验 一、实验目的 1、掌握短时能量的求解方法、短时平均过零率的求解方法,对输入的语音信号进行端点检测。 2、掌握语音信号的Mel 倒谱特征(MFCC )的求解方法,语音信号的线性预测原理以及LPC 特征的求解方法。 3、掌握语音信号基频的概念,加深对基频刻画声调特征作用的理解,掌握语音信号基频特征的典型求解方法。 4、掌握MATLAB 相应的功能以及使用方法。 二、仪器设备 HP 计算机、MATLAB 软件 三、实验原理 (一)语音信号的短时分析 端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。 先引入以下三个概念 1、短时能量计算 定义n 时刻某语言信号的短时平均能量En 为: ∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22 )]()([)]()([ 式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩形窗时,有∑--== n N n m m x En )1(2)( 2、短时过零率 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。 如果窗的起点是n=0,短时过零率Z 为 波形穿过横轴(零电平)的次数

《语音信号处理》实验3-LPC特征提取

华南理工大学《语音信号处理》实验报告 实验名称:LPC特征提取 姓名: 学号: 班级:10级电信5班 日期:2013年5 月24日

1. 实验目的 1、熟练运用MATLAB 软件进行语音信号实验; 2、熟悉短时分析原理、LPC 的原理; 3、学习运用MATLAB 编程进行LPC 的提取; 4、学会利用短时分析原理提取LPC 特征序列。 2. 实验原理 1、LPC 分析基本原理 LPC 分析为线性时不变因果稳定系统V (z )建立一个全极点模型,并利用均方误差准则,对已知的语音信号s(n)进行模型参数估计。 如果利用P 个取样值来进行预测,则称为P 阶线性预测。假P 个 取样值()()(){ } 1,2,S n S n S n p --- 的加权之和来预测信号当前取样值()S n ,则预测 信号()S n ∧ 为: ()() 1 p k k S n a n k ∧==-∑ (1) 其中加权系数用k a 表示,称为预测系数,则预测误差为: ()()()()() 1 p k k e n s n S n s n a n k ∧ ==-=--∑ (2) 要使预测最佳,则要使短时平均预测误差最小有: ()2 min E e n ε??==?? (3) ()20,(1) k e n k p a ????? =≤≤? (4) 令 ()()(),,i k E s n i S n k φ=--???? (5) 最小的ε可表示成: ()() min 10,00,p k k a k εφφ==-∑ (6) 显然,误差越接近于零,线性预测的准确度在均方误差最小的意义上为最佳,由此可以计算出预测系数。 通过LPC 分析,由若干帧语音可以得到若干组LPC 参数,每组参数形成一个

《语音信号处理》实验报告

盛年不重来,一日难再晨。及时宜自勉,岁月不待人。 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

语音信号处理实验讲义

语音信号处理实验讲义 编写人:蔡萍 时间:2011-12 实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5

基于MATLAB的语音信号时域特性分析_语音信号处理实验报告

南京信息工程大学 实验(实习)报告 实验(实习)名称 基于MATLAB 的语音信号时域特性分析 实验(实习)日期 2013.4.18 得分 ___指导教师 院电子与信息工程专业电子信息工程年级 班次 姓名 学号 一、实验目的 语音信号是一种非平稳的时变信号,它携带着各种信息。在语音编码、语音合成、语音识别和语音增强等语音处理中无一例外需要提取语音中包含的各种信息。语音信号分析的目的就在与方便有效的提取并表示语音信号所携带的信息。语音信号分析可以分为时域和变换域等处理方法,其中时域分析是最简单的方法,直接对语音信号的时域波形进行分析,提取的特征参数主要有语音的短时能量,短时平均过零率,短时自相关函数等。 本实验要求掌握时域特征分析原理,并利用已学知识,编写程序求解语音信号的短时过零率、短时能量、短时自相关特征,分析实验结果,并能掌握借助时域分析方法所求得的参数分析语音信号的基音周期及共振峰。 二、实验原理及实验结果 1.窗口的选择 通过对发声机理的认识,语音信号可以认为是短时平稳的。在5~50ms 的范围内,语音频谱特性和一些物理特性参数基本保持不变。我们将每个短时的语音称为一个分析帧。一般帧长取10~30ms 。我们采用一个长度有限的窗函数来截取语音信号形成分析帧。通常会采用矩形窗和汉明窗。图1.1给出了这两种窗函数在帧长N=50时的时域波形。 0.2 0.40.60.811.2 1.41.61.82矩形窗 sample w (n ) 0.1 0.20.30.40.50.6 0.70.80.91hanming 窗 sample w (n ) 图1.1 矩形窗和Hamming 窗的时域波形 矩形窗的定义:一个N 点的矩形窗函数定义为如下 {1,00,()n N w n ≤<=其他

信号系统与语音信号处理实验平台 RZ8664型

产品详细技术方案 信号系统与语音信号处理实验平台 RZ8664 型 简述:RZ8664根据《信号与系统》和《数字信号处理》两门课相互关联的特点,在总结信号与系统实验教学经验,并结合数字信号处理技术、DDS技术、虚拟仪器技术、语音处理技术,开发出的新型“信号与系统”实验箱。它既可完成传统实验箱的实验内容,又能完成原有实验箱难以完成或结果不理想的任意信号分解、信号与系统卷积、数字滤波器、任意信号时域频域分析、语音信号分析等实验;同时也能做“数字信号处理”、“DSP应用”、“虚拟仪器技术”、“语音处理”实验;实验箱采用了正面贴膜工艺,增加了USB通信接口和语音接口。系统既美观又稳定可靠,方便管理。适合专科、本科、研究生和研发人员使用。 一、产品图片 注:产品以实物为准!

RZ-VSlab虚拟实体仿真软件 二、技术指标 1.基于STM32的DDS信号源,可产生:正弦波、三角波、占空比可变的脉冲信号、扫频信号、半波、全波、AM、DSB、SSB、FM等信号,便于学生对不同信号进行时域频域分析; 2.内置数字频率计:0HZ~250KHZ;数字豪伏表:0V~10V; 3.能完成各种卷积实验,输入信号和系统函数可由PC机设定; 4.各种无源、有源模拟滤波器设计、仿真、验证;复杂信号的抽样与恢复,恢复滤波器可开发; 5.能完成数字滤波器的在线设计、冲激与频响仿真、实现(提供整套在线设计、下载软件),学生可基于该功能研究复杂信号中谐波分量的位置与大小; 6.基于数字信号处理技术,能完成:任意信号的卷积、任意信号的分解与合成;(三角波、正弦波、半波、全波等信号、各种调制信号),可研究谐波幅度、谐波相位对信号合成的影响; 7.内置USB接口和高速数据采集模块,可实现基于LABVIEW虚拟示波器、虚拟频谱仪、虚拟选频表功能。在PC机上进行实时的信号时域频域分析;演示实时信号合成原理及吉布斯效应。采集数据可以存贮,在PC机后台分析处理各种信号:如带宽分析、频谱分析、能量分析等。 8.实验平台内置语音接口,专用语音采集芯片,采用“过采样”和“抽取滤波”技术确保语音在8KHZ 采样时也有很好的恢复效果,采样率从8KHZ到96KHZ可编程; 9.能进行DSP、数字信号处理、语音处理、虚拟仪器的二次开发,DSP和数字信号处理的二次开发软件能通过USB接口直接下载,不需仿真器;提供基于LABVIEW的虚拟仪器开发VI函数; 10.能完成信号系统的实验类型:阶跃响应与冲激响应、抽样定理与信号恢复、连续时间系统的模拟、零输入与零状态响应、二阶电路暂态响应、二阶电路传输特性、信号卷积、任意信号分解与合成、谐波幅度与相位对合成信号的影响、模拟滤波器与数字滤波器、虚拟仪器、数字滤波器在线设计及任意信号谐波分析、信号时域频域分析等实验。 11.能完成语音处理实验类型:语音信号的数字化(可以听原声,看波形图);语音基语提取,傅里叶变换(幅频特性与相频特性),语音信号尺度变换(分析变换前后语音及其频谱变化)、语音带限处理频谱分析(语音信号分别通过低通、高通和带通滤波器); 三、实验项目

语音信号处理实验报告 语音修正短时自相关

语音信号处理课程实验报告 专业班级通信 学号 姓名 指导教师

实验名称 语音修正的短时自相关的实现 同组人 专业班级通信 学号 姓名 成绩 一、实验目的 熟悉语音修正自相关的意义。 充分理解取取不同窗长时的语音的修正自相关的变化情况。 熟悉Matlab 编程语言在语音信号处理中的作用。 能够实现对程序的重新编制。 二、实验原理 对于语音来说,采用短时分析方法,语音短时自相关函数为 ()()()[]()()[]∑--=+'++'+=k N m n m k w k m n x m w m n x k R 10 但是,在计算短时自相关时,窗选语音段为有限长度N ,而求和上限为N-1-k ,因此当k 增加时可用于计算的数据就越来越少了,从而导致k 增加时自相关函数的幅度减小。为了解决这个问题,提出了语音修正的短时自相关。 修正的短时自相关函数,其定义如下: ()()()()() 2-m 1k m n w k m x m n w m x k R n --+-=∑+∞∞= 若令m n m '+=,代入上式得到 ()())(-)()(-?21-k m w k m n x m w m n x k R m n '+'+''+=∑+∞-∞=' ()()()()1122? ?w m w m w m w m =-???=-??定义 … … …… …… …… …… …… … …装 …… …… …… …… … …… …… …… 订… …… ……………………………… …线 …… …… …… …… … …… …… ……

()()() ??)()(? 2-m 1k m w k m n x m w m n x k R n ++++=∑+∞∞=则有 ()()121, 0n N-1?0, 1, 0n N-1? 0, w m K w m ≤≤?=??≤≤+?=??其它其它 式中,K 为k 的最大值,即0≤k ≤K 。 由式(2-5)可知,要使)(?2k m w +为非零值,必须使K N k m +1-≤+,考虑到K k ≤,可得1-≤N m ,故式(2-4)可以写成: ∑1-0 )()()(?N m n k m n x m n x k R =+++= 三、实验要求 1.实验前自己用Cool Edit 音频编辑软件录制声音,并把它保存为.txt 文件. 2.编程实现不同矩形窗长N =320,160,70的短时修正自相关。 3.用Matlab 画出短时修正自相关的图形。 4.写出实验报告,分析实验结果。 四、实验条件 计算机 Matlab 软件 实验步骤 1.用Cool Edit 读入浊音语音,设置采样率为8kHz ,16位,单声道。 2.将读入的语音wav 文件保存为txt 文件。 3.读入Matlab 中,并且对照取不同矩形窗长N 的短时修正自相关函数,画出图形。

相关文档
相关文档 最新文档