文档库 最新最全的文档下载
当前位置:文档库 › 语音实验二

语音实验二

语音实验二
语音实验二

实验二 语谱图

实验目的

1、掌握语音信号端点检测的短时傅里叶分析效果与窗长、窗形状的关系;

2、掌握语音信号端点检测的语谱图效果与窗长、窗形状的关系。

实验原理

1、短时傅里叶变换的定义:不同的窗口函数序列,将得到不同的傅里叶变换的结果。当n 取不同值时窗w (n -m )沿着x (m )序列滑动,w (n -m )是一个“滑动的”窗口。

2、窗口序列的作用

(1)波形乘窗函数,在窗口边缘两端不引起急剧变化,使波形缓慢降为零,短时谱是信号谱与窗函数的傅里叶变换进行卷积,所以窗函数的特性: ①频率分辨率高,即主瓣狭窄、尖锐;

②通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。 这两个要求相互矛盾,不能同时满足。

(2)主瓣宽度与窗口宽度成反比:

①直角窗:第一个零点位置为N /2π,显然它与窗口宽度成反比。第一旁瓣的衰减只有13.2dB ,不适合用于频谱成分动态范围很宽的语音分析中。 ②海明窗:第一个零点位置为N /4π,显然它与窗口宽度成反比。旁瓣的衰减大于42dB ,具有频谱泄漏少的优点,频谱中高频分量弱、波动小,因而得到较平滑的谱。

对语音波形乘以海明窗,压缩了接近窗两端的部分波形,等效于用作分析的区间缩短40%左右,频率分辨率下降40%左右。

乘以合适的窗函数,

能抑制基音周期与分析区间的相对相位关系的变动影响,∑∞-∞=--=m m

j j n e m n w m x e X ωω

)()()(

得到稳定的频谱。乘以窗函数将导致分帧区间缩短,所以为跟踪随时间变化的频谱,要求一部分区间重复移动。

3、窗口宽度的影响N值太大时,信号的分帧已失去了意义,应折衷选择窗定N。

频率分辨率随窗口宽度的增加而提高,同时时间分辨率降低;窗口取短,频率分辨率下降,时间分辨率提高,因而二者是矛盾的。

(1)N=500时(取样率10kHz,窗持续时间50ms)时直角窗及海明窗下浊音语音的频谱。

①基频及其谐波在频谱中表现为等频率间隔的窄峰;

②共振峰

③由于声门脉冲频谱的高频衰减特性,频谱在高频部分表现出下降的趋势。

④图(d)中基音谐波尖锐度增加,矩形窗频率分辨率较高。

⑤矩形窗较高的旁瓣产生了一个类似于噪声的频谱。相邻谐波间不希望有的“泄漏”存在。

(2)N=50的比较结果,(取样率10kHz,窗持续时间为5ms)直角窗及海明窗下浊音语音的频谱。

①均不能反映信号的周期性。

②共振峰

用窄窗可得到好的时间分辨率,宽窗可以得到好的频率分辨率。

由于采用窗的目的是要限制分析的时间以使其中波形的特性没有显著变化,因而要折衷考虑。

4、语谱图语谱图纵轴为频率,横轴为时间。

任意给定频率成分在给定时刻的强弱用相应点的黑白度即色调的浓淡来表示,频谱值大则记录得浓黑一些,反之则浅淡一些。

窄带语谱图有良好的频率分辨率及较差的时间分辨率;宽带语谱图具有良好的时间分辨率及较差的频率分辨率。

窄带语谱图中的横线(即时间坐标方向)表示的是基音及其各次谐波;

宽带语谱图给出语音的共振峰频率及清辅音的能量汇集区,共振峰(声道谐振)呈现为黑色的条纹。

可用测量语谱图的方法来确定语音参数,例如共振峰频率及基频。

实验要求

1、利用XP中的录音机程序,以属性11025kHz,16位,单声道,21KB/秒,录制下面语音(以“.wav”文件格式存于\lab_1\data目录下)

“信息科学”

2、利用实验提供的“语音信号处理实验一程序”将语音分段,并以“.dat”文件格式存于MATLAB\speech\lab_1\data目录下。

3、利用实验提供的“语音信号处理实验三程序”,对该段语音(.dat格式)进行短时傅里叶分析、语谱图分析。

4、观察窗长、重叠、窗形状对短时傅里叶分析结果的影响,并粗略绘出窗长分别为57、555,重叠比率为50%的海明窗和直角窗的短时傅里叶分析结果图;粗略估计出前三个共振峰的频率。

5、观察窗长、重叠、窗形状对语谱图结果的影响。

信号波形:

窗长57海明窗语谱图:

窗长255海明窗语谱图:

窗长57直角窗语谱图:

窗长255直角窗语谱图:

思考题

1、浊音窗长、重叠、窗形状对短时傅里叶分析结果有什么影响?

直角窗

第一个零点位置为2π/N,显然它与窗口宽度成反比。

第一旁瓣的衰减只有13.2dB,不适合用于频谱成分动态范围很宽的语音分析中。海明窗

第一个零点位置为4π/N,显然它与窗口宽度成反比。旁瓣的衰减大于42dB,具有频谱泄漏少的优点,频谱中高频分量弱、波动小,因而得到较平滑的谱。对语音波形乘以海明窗,压缩了接近窗两端的部分波形,等效于用作分析的区间缩短40%左右,频率分辨率下降40%左右。

乘以合适的窗函数,能抑制基音周期与分析区间的相对相位关系的变动影响,得到稳定的频谱。乘以窗函数将导致分帧区间缩短,所以为跟踪随时间变化的频谱,要求一部分区间重复移动。3.窗口宽度的影响N值太大时,信号的分帧已失去了意义。应折衷选择窗定N.

频率分辨率随窗口宽度的增加而提高,同时时间分辨率降低; 窗口取短,频率分辨率下降,时间分辨率提高; 因而二者是矛盾的。

用窄窗可得到好的时间分辨率,用宽窗可以得到好的频率分辨率。由于采用窗的目的是要限制分析的时间以使其中波形的特性没有显著变化,因而要折衷考虑。

2、浊音窗长、重叠、窗形状对语谱图结果有什么影响?

窄带语谱图有良好的频率分辨率及较差的时间分辨率;宽带语谱图具有良好的时间分辨率及较差的频率分辨率。窄带语谱图中的横线(即时间座标方向)表示的是基音及其各次谐波;

宽带语谱图给出语音的共振峰频率及清辅音的能量汇集区,这里,共振峰(声道谐振)呈现为黑色的条纹。可用测量语谱图的方法来确定语音参数,例如共振峰频率及基频。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

语音识别系统实验报告材料

语音识别系统实验报告 专业班级:信息安全 学号: 姓名:

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6)

3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12) 一、设计任务及要求 实现语音识别功能。 二、语音识别的简单介绍

基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,

语言实验室常识

语言实验室常识 一、语言实验室的组成以及相互关系: 语言室完成的是听、说教学训练过程;而数字网络语言室不仅能完成听说,还能实现文字和多媒体。语言实验室有三部分组成:语音部分、多媒体部分、网络部分。 a)语音部分 包括语音交互、语音训练、语音考试等。 我们都知道,语言室是在语音室的基础上加上了文字。语音这最重要的就是语音的交互。它包含的内容有师生交互、小组讨论、口语训练、口语考试、听力测试等。 b)多媒体部分 所谓语言室又称为语言教学实验室,既然是教学,就是指老师在课堂上传授知识,在传授的过程中就需要运用多媒体教学。 在现代意识较强的学校,他们都用多媒体教学,例如老师讲一个课件给学生听或播放一个录相带给学生看,但不是简单的磁带,而是一个例如英语电影的录像,或从互联网上获得资料,这都属于多媒体教学。 它主要讲的是多媒体声像同步的播放,多种格式相互共享。把一种声音从模拟转换成数字。比如要将一个模拟信号采样,采样的时候不处理数据,而把它们组成起来,这种数据我们称之为WA V格式。如果是经过压缩,再经过编码,压缩的过程中最通用的格式一般是mp3,所以多种格式的转换(包括视频、各种超文本的资料等),多种格式资料的播放,是多媒体一个重要方面。还有一个要求就是多种资源,如通过教师的平台放磁带,或从电脑中调资料,或用录像机、DVD播放资料,或从互联网上播放资料来进行教学。所以多媒体的功能主要包含的就是使多种信息资源以及不同格式的转换和多种媒体播放时使声音和图像同步。 c)网络部分 它指的是学生自主化学习和基于网络的交互功能。 网络化学习就是个别化学习,就是学生点播一个音频、视频资料或上互联网学习,还可以写一篇作文发表在网络上等。所以网络就是和不同的人交互。要求

语音信号处理实验报告

语音信号处理实验 班级: 学号: 姓名: 实验一基于MATLAB的语音信号时域特征分析(2学时)

1)短时能量 (1)加矩形窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=linspace(1,1,2.^(i-2)*N);%形成一个矩形窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2) ,legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128'); elseif(i==5) ,legend('N=256'); elseif(i==6) ,legend('N=512'); end end

00.51 1.52 2.5 3 x 10 4 -1 1 x 10 4 024 x 10 4 05 x 10 4 0510 x 10 4 01020 x 10 4 02040 (2)加汉明窗 a=wavread('mike.wav'); a=a(:,1); subplot(6,1,1),plot(a); N=32; for i=2:6 h=hanning(2.^(i-2)*N);%形成一个汉明窗,长度为2.^(i-2)*N En=conv(h,a.*a);% 求短时能量函数En subplot(6,1,i),plot(En); if(i==2), legend('N=32'); elseif(i==3), legend('N=64'); elseif(i==4) ,legend('N=128');

数字语音处理实验报告分析解析

数字语音处理实验报告 题目语音端点检测 作者 学院 专业 班级 学号 指导教师

目录 摘要: (2) 前言: (2) 1、实现原理 (3) 1.1基本公式: (3) 1.2 理论基础: (3) 1.3 基本思路: (4) 2、 matlab实现 (4) 2.1 程序流程图: (4) 2.2 程序分析 (5) 2.2.1 流程图的说明 (5) 2.2.2 起点和终点的判断 (5) 2.2.3 enframe函数的说明 (5) 2.2.4 过零率的计算 (7) 2.2.5能量的计算 (8) 2.3 运行结果 (9) 总结 (10) 参考文献 (11) 附录:完整源程序 (12)

摘要:短时能量分析和过零率分析作为语音信号时域分析中最基本的方法,应用相当广泛,特别是在语音信号端点检测方面。由于在语音信号端点检测方面这两种方法通常是独立使用的,在端点检测的时候很容易漏掉重要的信息。本文将这两种方法结合起来,利用MATLAB 工具对其进行了分析。实验结果表明,检测的效果好于分别使用其中一种方法的情况。 关键词:端点检测,短时能量过零率门限 前言:近年来,在语音信号处理领域,关于语音信号中端点检测及判定的研究越来越重要。作为语音识别的前提工作,有效的端点检测方法不仅可以减少数据的存储量和处理时间,而且可以排除无声段的噪声干扰,使语音识别更为准确。目前的语音信号端点检测算法比较多,有短时能量,短时过零率分析,自相关法等等,其中以短时能量和短时过零率用的最多。大多文献和教材都是把它们分别进行介绍,由于它们各有其优缺点,分别使用作为语音端点检测的手段难免会漏掉很多有用的信息,因此,笔者将这两种方法结合起来进行分析,在判断清浊音及静音方面可以起到互补的作用,从语音信号的短时能量和过零率分析的特点出发,加以门限值来分析将两种方法相结合应用的效果,最后通过Matlab 进行了仿真。

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

学校语音室建设项目方案

广州大学纺织服装学院语音室 (LBD2003U-V型)建设项目方案 一、建设项目概述 1、基本思路: 英语教学是高等教育的一个有机组成部分,英语课程是大学生的一门必修的基础课程。英语是以外语教学理论为指导,以英语语言知识与应用技能、跨文化交际和学习策略为主要内容,并集多种教学模式和教学手段为一体的教学体系。英语的教学目标是培养学生的英语综合应用能力,特别是听、说能力,使他们在今后学习、工作和社会交往中能用英语有效地进行交际,同时增强其自主学习能力,提高综合文化素养,以适应我国社会发展和国际交流的需要。 另外,党的十八届五中全会强调:提高教育质量,推进教育信息化基础支撑能力建设,推进信息化教学应用。应用互联网+、大数据等现代信息技术与外语教学深度融合,推动外语教学变革和创新,构建网络化、数字化、一体化的智能语言教学实训室和网络教学平台,是教育信息化建设的要求。 2、建设内容 1间(50)座智能化语音实训室:可以实现智能化的教学模式,智能化操作系统的设计不再需要老师进行各种繁琐操作,让各种教学过程自动完成,提升了教师的教学水平和教学质量。如听力教学、口语教学、口译教学、多媒体教学、小班教学及阅读教学等。通过智能化的教学模式,可以同时调动学生耳,口、眼、手四感观,提高学生的语言应用能力,特别是听、说能力的提高。另外可以做为多媒体教室、电脑室等课室使用,可以扩展实现录播、监控等功能; 3、建设水平与成效 按照先进、实用、科学以及教学设施共享的原则,根据教学实际需求,建设智能化语音实训教学与网络化互评式作业、自学、形成性综合评估有机结合实

验室,实训功能及技术指标均须满足师生的双向互动反馈式教学,自主学习、交互式学习、个性化学习等学习模式及功能;能作为数字化语音实验室、多媒体教学室、自主学习室、普通电脑教学室等环境使用,满足一室多用的教学应用需求。最大限度提高学校投资的价值,丰富教学采用理论教学+实践教学的模式,有利于教学过程中培养学生独立思考和独立解决问题的能力。同时培养学生的英语综合应用能力,特别是听、说能力,使他们在今后学习、工作和社会交往中能用有效地进行交际,同时增强其自主学习能力,提高综合文化素养,以适应我国社会发展和国际交流的需要。另外,通过互联网、大数据等实现翻转课堂功能,灵活调整课堂内外的时间,由老师主导,将学习的决定权从教师转移给学生,使学生做为学习的主体。将相关的学习內容以作业的形式布置下去,课堂上老师专注于学生反馈的内容。客观题由计算机评估,主观题由多名学生互评,重点、难点由教师给予解答,作业成绩自动汇入学生总成绩,对学生进行形成性综合评估。采用互评式作业方式,提高学生的作业、学习热情,减轻教师的教学负担。 二、项目申报理由及可行性分析 (一)项目申报理由(实训教学、生产需求与现状分析) 随着经济与社会的飞速发展,改革开放与对外交流的日益扩大,外语交流在国家经济建设中发挥的作用越来越大,社会对大学毕业生外语素质的要求越来越高,对外语人才的需求越来越大。如何高效率地提高学生的外语素质,提高外语教学的质量,已成为每个教育工作者所面临的重要课题。 教育部高教司英语教学改革的重大项目《大学英语课程教学要求》指出:高校要全面加强外语教学,要把教学重点从原来以阅读理解为主转为以听、说为主,全面提高英语的综合实用能力;要用计算机信息技术加上课堂教学来推进英语教学改革:要改革考试制度,用新手段新方法使考试客观公正,简便高效;要大力采用现代化的语言实验室,减轻老师的负担,提高学生的英语水平。 目前外语系承担着全系学生的教学任务,原有的语音实训室是第一代的模拟语音室,技术落后,教学功能单一,已跟不上形势的发展,不能满足学生的

语音信号处理实验报告实验二

通信工程学院12级1班 罗恒 2012101032 实验二 基于MATLAB 的语音信号频域特征分析 一、 实验要求 要求根据已有语音信号,自己设计程序,给出其倒谱、语谱图的分析结果,并根据频域分析方法检测所分析语音信号的基音周期或共振峰。 二、 实验目的 信号的傅立叶表示在信号的分析与处理中起着重要的作用。因为对于线性系统来说,可以很方便地确定其对正弦或复指数和的响应,所以傅立叶分析方法能完善地解决许多信号分析和处理问题。另外,傅立叶表示使信号的某些特性变得更明显,因此,它能更深入地说明信号的各项红物理现象。 由于语音信号是随着时间变化的,通常认为,语音是一个受准周期脉冲或随机噪声源激励的线性系统的输出。输出频谱是声道系统频率响应与激励源频谱的乘积。声道系统的频率响应及激励源都是随时间变化的,因此一般标准的傅立叶表示虽然适用于周期及平稳随机信号的表示,但不能直接用于语音信号。由于语音信号可以认为在短时间内,近似不变,因而可以采用短时分析法。 三、 实验设备 1.PC 机; 2.MATLAB 软件环境; 四、 实验内容 1.上机前用Matlab 语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5.依次给出其倒谱、语谱图的分析结果。 6. 根据频域分析方法检测所分析语音信号的基音周期或共振峰。 五、 实验原理及方法 1、短时傅立叶变换 由于语音信号是短时平稳的随机信号,某一语音信号帧的短时傅立叶变换的定义为: 其中w(n -m)是实窗口函数序列,n 表示某一语音信号帧。令n -m=k',则得到 ()()()jw jwm n m X e x m w n m e ∞-=-∞= -∑

数字语音信号处理实验报告

语音信号处理实验报告 专业班级电子信息1203 学生姓名钟英爽 指导教师覃爱娜 完成日期2015年4月28日 电子信息工程系 信息科学与工程学院

实验一语音波形文件的分析和读取 一、实验学时:2 学时 二、实验的任务、性质与目的: 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验 (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 三、实验原理和步骤: WAV 文件格式简介 WAV 文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV 文件的头四个字节就是“RIFF”。WAV 文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV 文件标识段和声音数据格式说明段两部分。常见的WAV 声音文件有两种,分别对应于单声道(11.025KHz 采样率、8Bit 的采样值)和双声道(44.1KHz 采样率、16Bit 的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8 位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16 位的整数(int),高八位和低八位分别代表左右两个声道。WAV 文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV 文件中,道0 代表左声道,声道1 代表右声道;在多声道WAV 文件中,样本是交替出现的。WAV 文件的格式 表1 wav文件格式说明表

语音识别机器人实验报告

开放实验项目报告 项目名称:语音识别机器人 专业 学生姓名 班级学号 指导教师 指导单位 2012/2013学年第一学期 一.设计背景

在科学日新月异的今天,电子设备的便捷化,人性化,智能化已成为不可逆转的潮流,而语音控制智能,更是其中研究发展的热点。凌阳SPCE061以其便捷的操作,可靠的性能,成为了各位电子爱好者的首选。本实验采用凌阳61板和运动小车(迷你型)模组设计的语音控制小车。凌阳板嵌入小车模型顶部。语音处理技术不仅包括语音的录制和播放,还涉及语音的压缩编码和解码、语音的识别等各种处理技术。本设计的语音控制小车,借助于SPCE061A在语音处理方面的特色,不仅具有前进、后退、左转、右转、停止等基本程序控制功能,而且还具备语音控制功能。 二.总流程图

三.主要模块 1、凌阳SPCE061是继μ’nSP?系列产品SPCE500A等之后凌阳科技推出的又一款16 位结构的微控制器。与SPCE500A不同的是,在存储器资源方面考虑到用户的较少资源的需求以及便于程序调试等功能,SPCE061A里只内嵌32K字的闪存(FLASH )。较高的处理速度使μ’nSP?能够非常容易地、快速地处理复杂的数字信号。因此,与SPCE500A相比,以μ’nSP?为核心的SPCE061A 微控制器是适用于数字语音识别应用领域产品的一种最经济的选择。 其性能如下: A、16 位μ’nSP?微处理器; B、工作电压(CPU) VDD 为2.4~3.6V (I/O) VDDH 为2.4~5.5V C、CPU 时钟:0.32MHz~49.152MHz ; D、内置2K 字SRAM; E、内置32K FLASH; F、可编程音频处理; G、晶体振荡器; H、系统处于备用状态下(时钟处于停止状态),耗电仅为2μA@3.6V ; I、2 个16 位可编程定时器/计数器(可自动预置初始计数值); J、2 个10 位DAC(数-模转换)输出通道; K、32 位通用可编程输入/输出端口; L、14 个中断源可来自定时器A / B ,时基,2 个外部时钟源输入,键唤醒;

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

数字化多媒体网络语言实验室功能技术要求

数字化多媒体网络语言实验室功能技术要求 一.技术要求 产品符合《国家现行语音室建设标准》,符合《国家教育技术协会数字语言学习系统技术规范》级标准:要求系统经过国家广播电视产品质量监督检验中心全面检测,各项技术指标和功能设计符合中国教育技术(电化教育)协会的《数字语言学习系统技术规范》以及教育部推出的《数字语言学习系统行业标准》中的要求。 1.系统基于网络技术的网络型语言实验室:视频点播响应快、图像质量佳,保 证声像同步。要求负载能力强,占用资源少,功能可靠,系统稳定。 2.对话声音延迟要求在以内,声音与视频时差要求在以内; 3.一台教师主控机负载能力≥台学生终端;每个学生单元由“学生+语音终端” 组成,为了保证语音教学安全性,教师授课可完全在数字语音系统平台上进 行语言教学,学生终端可独立完成音频点播、文本点播、数字录音、数字交 互式教学等正常语言教学。 4.语音信号:高保真采样(位、以上)达到国家级标准,未经过任何压缩的原 音,使声音完美再现。 5.频率响应:范围满足~,采样速率为或以上,达到位以上线性采样,信号断 裂为,失真度小于%,信噪比:≥;串音衰减≥。 6.变速不变调功能,在保证语音不变调的情况下,语音播放速度可在之间调整。 教师主控端、学生终端均可调速。 7.教师主控机、学生终端工作时间累计小时,死机≤次。 8.系统要求集成试卷制作和管理、考试、阅卷、考试信息管理等功能模块,操 作方式贴近教师日常使用习惯。 9.安全要求:学生终端采用以下安全电压供电,学生终端的音频信号传输以及 供电全部通过一根网线实现。 10.学生终端耳机、话筒组自动检测功能:通过该功能,教师可在课前和课后对每 个终端的耳机和话筒的好坏进行检测,也可以避免学生在上课时把耳机拔掉 而自己做事的陋习。 11.系统可以脱离计算机网络独立运行:语音实验室在不开计算机或计算机出现 故障时,仍可以独立运作,不影响语音教学。

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

语音信号处理实验报告实验一

通信工程学院12级1班罗恒2012101032 实验一语音信号的低通滤波和短时分析综合实验 一、实验要求 1、根据已有语音信号,设计一个低通滤波器,带宽为采样频率的四分之一,求输出信号; 2、辨别原始语音信号与滤波器输出信号有何区别,说明原因; 3、改变滤波器带宽,重复滤波实验,辨别语音信号的变化,说明原因; 4、利用矩形窗和汉明窗对语音信号进行短时傅立叶分析,绘制语谱图并估计基音周期,分析两种窗函数对基音估计的影响; 5、改变窗口长度,重复上一步,说明窗口长度对基音估计的影响。 二、实验目的 1.在理论学习的基础上,进一步地理解和掌握语音信号低通滤波的意义,低通滤波分析的基本方法。 2.进一步理解和掌握语音信号不同的窗函数傅里叶变化对基音估计的影响。 三、实验设备 1.PC机; 2.MATLAB软件环境; 四、实验内容 1.上机前用Matlab语言完成程序编写工作。 2.程序应具有加窗(分帧)、绘制曲线等功能。 3.上机实验时先调试程序,通过后进行信号处理。 4.对录入的语音数据进行处理,并显示运行结果。 5. 改变滤波带宽,辨别与原始信号的区别。 6.依据曲线对该语音段进行所需要的分析,并且作出结论。 7.改变窗的宽度(帧长),重复上面的分析内容。 五、实验原理及方法 利用双线性变换设计IIR滤波器(巴特沃斯数字低通滤波器的设计),首先要设计出满足指标要求的模拟滤波器的传递函数Ha(s),然后由Ha(s)通过双线性变换可得所要设计的IIR滤波器的系统函数H(z)。如果给定的指标为数字滤波器的指标,则首先要转换成模拟滤波器的技术指标,这里主要是边界频率Wp和Ws 的转换,对ap和as指标不作变化。边界频率的转换关系为∩=2/T tan(w/2)。接着,按照模拟低通滤波器的技术指标根据相应设计公式求出滤波器的阶数N和3dB截止频率∩c ;根据阶数N查巴特沃斯归一化低通滤波器参数表,得到归一化传输函数Ha(p);最后,将p=s/ ∩c 代入Ha(p)去归一,得到实际的模拟滤波器传输函数Ha(s)。之后,通过双线性变换法转换公式s=2/T((1-1/z)/(1+1/z))得到所要设计的IIR滤波器的系统函数H(z)。

语音实验室管理办法

山西金融职业学院实验室管理办法 语音实验室管理制度 为管理和使用好语音设备,特定制度如下: 一、教师必须经过语音实验室设备操作培训后,方可在语音实验室开展教学活动。 二、教师要经常对授课班学生进行操作规程及有关注事项的学习与教育,课前按学号安排好学生座位号。 三、学生上机时须佩戴学生上机证,套上鞋套,方可进入语音实验室,学生进入语音室后必须坐在自己的座位上,未经教师同意,不得私自换座位。 四、为了保证设备的使用寿命,学生在学生录音机上使用的磁带必须是语音室提供的专用磁带,如携带或使用其它磁带一律没收。 五、学生要爱护语音设备,不准拆卸各种设备,未经教师授权不得开启录音机,若违反规定,造成设备损坏,要赔偿所有损失。 六、所有进入语音实验室的人员一律不准吸烟,严禁携带易燃,易爆,有毒物品,严禁在语音实验室食用食物。 七、下课时,教师要清点设备,然后负责组织本班学生安全有序地离开机房。 八、下课后,教师与管理员共同填写上机日志。

山西金融职业学院 机房实验室管理办法 为了能长久、有效、充分发挥和利用学校现有计算机资源,保证教学工作的顺利进行,特制定本制度: 一、多媒体网络机房的使用由实训中心按教学计划统一安排,特殊情况需要上机的人员,需经报中心批准同意后方可上机。 二、有关人员应在指定时间凭上机证上机,上机时应按规定操作。 三、上机时,应注意保持机房环境卫生,穿上鞋套后才能进入机房。 四、未经允许不准把光盘、软盘、U盘等带入,不准私自在计算机安装任何软件,如需安装有关软件必须经由实训中心检测同意,并由机房管理员安装。 五、上机时,注意上机纪律,不准随地吐痰,不准随手乱扔废物,不准吃零食,不准大声喧哗,不准任意变换指定的座位,操作应服从老师指导。 六、上机时,注意爱护计算机以及机房内的其它物品,不得随意移动各种物件,不准在互联网上传播和浏览淫秽和反动信息。 七、上机过程中,如发现异常情况(如烧焦味、软硬件故障等)要及时通知机房管理员。 八、上机人员不遵守本守则的,造成软硬件发生故障的,其本人负完全责任,情节严重的,机房管理人员有权将其逐出机房。

哈尔滨工程大学 语音信号处理实验报告

实 验 报 告 实验课程名称: 语音信号处理实验 姓名: 班级: 20120811 学号: 指导教师 张磊 实验教室 21B#293 实验时间 2015年4月12日 实验成绩 实验序号 实验名称 实验过程 实验结果 实验成绩 实验一 语音信号的端点检测 实验二 语音信号的特征提取 实验三 语音信号的基频提取

实验一 语音信号的端点检测 一、实验目的 1、掌握短时能量的求解方法 2、掌握短时平均过零率的求解方法 3、掌握利用短时平均过零率和短时能量等特征,对输入的语音信号进行端点检测。 二、实验设备 HP 计算机、Matlab 软件 三、实验原理 1、短时能量 语音信号的短时能量分析给出了反应这些幅度变化的一个合适的描述方法。对于信号)}({n x ,短时能量的定义如下: ∑ ∑∞ -∞ =∞ -∞ =*=-= -= m m n n h n x m n h m x m n w m x E )()()()()]()([222 2、短时平均过零率 短时平均过零率是指每帧内信号通过零值的次数。对于连续语音信号,可以 考察其时域波形通过时间轴的情况。对于离散信号,实质上就是信号采样点符号变化的次数。过零率在一定程度上可以反映出频率的信息。短时平均过零率的公式为: ∑∑-+=∞ -∞=--= ---=1)] 1(sgn[)](sgn[2 1 ) ()]1(sgn[)](sgn[21N n n m w w m n m x m x m n w m x m x Z 其中,sgn[.]是符号函数,即 ? ? ?<-≥=0)(10)(1 )](sgn[n x n x n x

《语音信号处理》实验报告

盛年不重来,一日难再晨。及时宜自勉,岁月不待人。 中南大学 信息科学与工程学院 语音信号处理 实验报告 指导老师:覃爱娜 学生班级:信息0704 学生名称:阮光武 学生学好:0903070430 提交日期:2010年6月18日

实验一 语音波形文件的分析和读取 一、实验的任务、性质与目的 本实验是选修《语音信号处理》课的电子信息类专业学生的基础实验。通过实验: (1)掌握语音信号的基本特性理论:随机性,时变特性,短时平稳性,相关性等; (2)掌握语音信号的录入方式和*.WAV音波文件的存储结构; (3)使学生初步掌握语音信号处理的一般实验方法。 二、实验原理和步骤: WAV文件格式简介 WAV文件是多媒体中使用了声波文件的格式之一,它是以RIFF格式为标准。每个WAV文件的头四个字节就是“RIFF”。WAV文件由文件头和数据体两大部分组成,其中文件头又分为RIFF/WAV文件标识段和声音数据格式说明段两部分。常见的WAV声音文件有两种,分别对应于单声道(11.025KHz采样率、8Bit的采样值)和双声道(44.1KHz采样率、16Bit的采样值)。采样率是指声音信号在“模拟→数字”转换过程中,单位时间内采样的次数;采样值是指每一次采样周期内声音模拟信号的积分值。对于单声道声音文件,采样数据为8位的短整数(short int 00H-FFH);而对于双声道立体声声音文件,每次采样数据为一个16位的整数(int),高八位和低八位分别代表左右两个声道。WAV文件数据块包含以脉冲编码调制(PCM)格式表示的样本。在单声道WAV文件中,道0代表左声道,声道1代表右声道;在多声道WAV文件中,样本是交替出现的。WAV文件的格式见表1。

蓝鸽教学实验室-语言实验室

蓝鸽语言实验室是蓝鸽集团打造的国内第一语言实验室教学品牌,旗下拥有针对不同价位配置的多款专业化、智能化语言实验室,是目前涵盖产品系列最全的语言实验室品牌,其众多产品的理念都走在了语言实验室设计的前沿。蓝鸽不但开创了语言实验室数字化的先河,而且也为国内语言教育技术发展做出了卓越的贡献。

采用“ATM网和以太网双网合一”的网络技术,实现语音实时交互并发 蓝鸽数十位科研人员历时四年、投资上千万元,发明了在一个网络交换机当中同时并存ATM和以太网两种网络协议的技术专利。该技术不但实现了语言实验室音质传输无延迟、无断裂的实时并发,同时又能节能省电,减少成本。 配备专业的教学模式,嵌入专家教学思想 蓝鸽作为语言实验室的先行者,一直以教育者的身份去研究和探索适合中国语言教学的专家模式。如今“听、说、读、写、译”五大教学子系统涵盖了30多个典型专家模式,并在产品的实际运用过程中不断融入新的专家理念。 为语言实验室搭建计算机智能化辅助功能,实现个性化定制 蓝鸽在不断研究语言教育技术领域中计算机辅助教学的同时,引入新的智能化技术。在专业化语言实验室的基础上,配备了大量的教材、资源,教师可根据自身需求进行有机调动,可大幅度减轻其工作量,成倍提高上课效率。 产品介绍

蓝鸽LBD2000+型语言实验室是一款普及型产品,造价低,适合各类学校的专业语音训练和教学,满足对自主口语训练和口语考试的专业要求。其中学生终端采用5英寸液晶显示,已成为同类型产品的标准。 2、蓝鸽LBD2002NV+型语言实验室 蓝鸽LBD2002NV+型语言实验室是网络型产品系列,除满足听说读的语言教学之外,还可实现写作考试和高清视频点播。其不但能够满足各类课堂教学,而且无PC实现简单的PC功能,如:上网浏览、U盘下载、课件点播(如:DOC/PPT/PDF等多种文件格式等),符合网络化发展的需要,具有强大的兼容性及可升级性。

语音信号处理实验报告11

实验一 语音信号的时域分析 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握语音信号短时能量和短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 语音是一时变的、非平稳的随机过程,但由于一段时间内(10-30ms)人的声带和声道形状的相对稳定性,可认为其特征是不变的,因而语音的短时谱具有相对稳定性。在语音分析中可以利用短时谱的这种平稳性,将语音信号分帧。 10~30ms 相对平稳,分析帧长一般为20ms 。 语音信号的分帧是通过可移动的有限长度窗口进行加权的方法来实现的。几种典型的窗函数有:矩形窗、汉明窗、哈宁窗、布莱克曼窗。 语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。定义短时平均能量 [][]∑∑+-=∞-∞=-=-= n N n m m n m n w m x m n w m x E 122)()()()( 下图说明了短时能量序列的计算方法,其中窗口采用的是直角窗。 过零就是信号通过零值。对于连续语音信号,可以考察其时域波形通过时间轴的情况。而对于离散时间信号,如果相邻的取样值改变符号则称为过零。由此可以计算过零数,过零数就是样本改变符号的次数。单位时间内的过零数称为平

均过零数。 语音信号x (n )的短时平均过零数定义为 ()[]()[]()()[]()[]() n w n x n x m n w m x m x Z m n *--=---= ∑∞ -∞=1sgn sgn 1sgn sgn 式中,[]?sgn 是符号函数,即 ()[]()()()()???<-≥=01 01sgn n x n x n x 短时平均过零数可应用于语音信号分析中。发浊音时,尽管声道有若干个共振峰,但由于声门波引起了谱的高频跌落,所以其语音能量约集中干3kHz 以下。而发清音时.多数能量出现在较高频率上。既然高频率意味着高的平均过零数,低频率意味着低的平均过零数,那么可以认为浊音时具有较低的平均过零数,而清音时具有较高的平均过零数。然而这种高低仅是相对而言,没有精确的数值关系。 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的

相关文档
相关文档 最新文档