文档库 最新最全的文档下载
当前位置:文档库 › 基于能量和过零率的语音端点检测

基于能量和过零率的语音端点检测

基于能量和过零率的语音端点检测
基于能量和过零率的语音端点检测

课题:基于能量和过零率的语音端点检测姓名:陈启望简盛龙颜艳丹

专业:2008级电子科学与技术(2)班

指导老师:胡朝炜

国立华侨大学信息科学与工程学院

一、前言

在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。端点检测就是从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采用的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。

二.方案选择

判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。

①短时能量——如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。

②短时平均过零率——它是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。语音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。

③两级判决法——在用短时能量判断的同时,还需进一步利用短时平均过零率进行判断,因为清音比噪声的短时平均过零率比背景

噪声的平均过零率要高出高几倍。即基于能量和过零率的端点检测方法,也称双门限比较法。

综上所述,选择第三种方法,更加准确,实现的程序也不是很复杂。

三、方法的理论介绍

1.第一级判决

a.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一个粗

判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。

b.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、

从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量锁判定的语音段。

2.第二级判决

以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起

止点。门限T3是由背景噪声的平均过零率所确定的。

这里要注意,门限T2,T3都是由背景噪声特性确定的,因此,在进行起止点判决钱,通常都要采集若干帧背景噪声并计算其平均短时能量和平均过零率,作为选择T2和T3的依据。当让,T1,T2,T3,三个门限值的确定还应当通过多次实验。

四、基于matlab 程序实现能量与过零率的端点检测方法的步骤 ① 语音信号x(n)进行分帧处理,每一帧记为Si (n ),n=1,2,…,N ,n 为离散语音信号时间序列,N 为帧长,i 表示帧数。

② 计算每一帧语音的短时能量,得到语音的短时帧能量:

()21N

i n Ei s n

==∑。

③ 计算每一帧语音的过零率,得到短时帧过零率:

()()1sgn sgn 1N

i i n Zi s n s n ==--????????

④ 考察语音的平均能量设置一个较高的门限T1,用以确定语音开始,然后再根据背景噪声的平均能量确定一个稍低的门限T2,用以确定第一级中的语音结束点。T2=α*En ,En 为噪声声段的平均值。完成第一级判决。第二级判决同样根据背景噪声的平均过零率Zn ,设置一个门限T3,用于判断语音前端的清音和后端的尾音。 五、程序实现

%zcro.m 过零率函数 function f=zcro(x) f=zeros(size(x,1),1);

for i=1:size(x,1) z=x(i,:)

for j=1:(length(z)-1);

if z(j)*z(j+1)< 0; f(i)=f(i)+1;

end

end

end

%fra.m 分帧函数

function f=fra(len,inc,x) fh=fix(((size(x,1)-len)/inc) +1)

f=zeros(fh,len);

i=1;n=1;

while i<= fh

j=1;

while j<=len

f(i,j)=x(n);

j=j+1;n=n+1;

end

n=n-len+inc;

i=i+1;

End

主程序

%% filename: yuyin.m clear all;

clf;

clc;

[filename,pathname]=

uigetfile('*.wav','Open wave file');

file = [pathname,filename]; [x,fs,nbits]=wavread(file);

len=length(x);

y1=buffer(x(1:len-1),200,100 );

y2=buffer(x(2:len),200,100); signs = (y1.*y2)<0;

diffs = (y1-y2)>0.002;

zcr = sum(signs.*diffs,1); %y=fra(50,50,x);

y=buffer(x,50,0);

y2=y.^2;

energy=sum(y2,1);

%%%%%%%%%%%%%%%%%%%%%%%%%%%%

%%%%%%%%%%%%%% figure(1);

subplot(411);plot(x);

title('原始信号'); xlabel('样点数'); ylabel('幅度'); subplot(412); plot(energy); xlabel('帧数'); ylabel('短时能量E'); legend('N=50'); subplot(413);plot(zcr);

xlabel('帧数'); ylabel('过零点次数'); legend('N=50');

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

六、验证

打开一个“ten.wav

”的语音文件,得到的结果如下所示

七、参考文献

《数字语音处理及matlab 仿真》 张雪英 编著

《Matlab7.0从入门到精通》 刘保住 苏彦华 张宏林 编著 《语音信号处理》 (第4版) 胡航 编著

语音端点检测

目录 摘要........................................................................................ 错误!未定义书签。Abstract .................................................................................. 错误!未定义书签。第1章绪论.. 0 1.1课题背景 0 1.2语音端点检测现状 0 1.3相关工作 (2) 1.4本文主要研究内容 (3) 第2章语音信号时频域分析及预处理 (4) 2.1语音信号简述 (4) 2.2语音信号分析 (4) 2.2.1 时域分析 (5) 2.2.2 频域分析 (5) 2.3语音信号分析处理 (7) 2.3.1 预加重 (7) 2.3.2 加窗分帧 (8) 2.4本章小结 (9) 第3章语音端点检测算法研究 (10) 3.1语音端点检测 (10) 3.1.1 简述 (10) 3.1.2 语音端点检测原理 (10) 3.1.3 语音端点检测算法及实施方案 (12) 3.2基于短时能量和短时过零率的语音端点检测 (13) 3.2.1 短时平均能量 (14) 3.2.2 短时过零率 (16) 3.2.3 基于短时能量和短时过零率的双门限端点检测 (18) 3.2.4 双门限语音端点检测实验 (19) 3.3基于倒谱特征的语音端点检测 (20) 3.3.1 倒谱特征 (20) I

3.3.2 倒谱距离 (21) 3.3.3 倒谱距离的检测算法流程 (23) 3.3.4 基于倒谱特征的语音端点检测试验分析 (25) 3.4基于谱熵的语音端点检测 (26) 3.4.1 谱熵特征 (26) 3.4.2 基于谱熵的端点检测流程 (27) 3.4.4 基于谱熵特征的语音端点检测试验分析 (28) 3.5算法比较 (30) 3.6本章小结 (33) 结论.................................................................................... 错误!未定义书签。参考文献................................................................................ 错误!未定义书签。致谢.................................................................................... 错误!未定义书签。附录1..................................................................................... 错误!未定义书签。附录2..................................................................................... 错误!未定义书签。附录3..................................................................................... 错误!未定义书签。附录4..................................................................................... 错误!未定义书签。附录5..................................................................................... 错误!未定义书签。

基于能量和过零率的语音端点检测

课题:基于能量和过零率的语音端点检测姓名:陈启望简盛龙颜艳丹 专业:2008级电子科学与技术(2)班 指导老师:胡朝炜 国立华侨大学信息科学与工程学院

一、前言 在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。端点检测就是从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采用的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。 二.方案选择 判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。 ①短时能量——如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。 ②短时平均过零率——它是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。语音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。 ③两级判决法——在用短时能量判断的同时,还需进一步利用短时平均过零率进行判断,因为清音比噪声的短时平均过零率比背景

噪声的平均过零率要高出高几倍。即基于能量和过零率的端点检测方法,也称双门限比较法。 综上所述,选择第三种方法,更加准确,实现的程序也不是很复杂。 三、方法的理论介绍 1.第一级判决 a.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一个粗 判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。 b.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、 从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量锁判定的语音段。 2.第二级判决 以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

语音端点检测方法研究

语音端点检测方法研究1 沈红丽,曾毓敏,李平,王鹏 南京师范大学物理科学与技术学院,南京(210097) E-mail:orange.2009@https://www.wendangku.net/doc/127226396.html, 摘要: 端点检测是语音识别中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题.鉴于此,本文介绍了语音端点算法的基本研究现状,接着讨论并比较了语音信号端点检测的方法,分析了各种方法的原理及优缺点,如经典的基于短时能量和过零率的检测方法,基于频带方差的检测方法,基于熵的检测方法,基于倒谱距离的检测方法等.并基于这些方法的分析,对端点检测方法做了进行了总结和展望,对语音信号的端点检测的进一步研究具有深远的意义。 关键词:语音信号;端点检测;噪声 中图分类号:TP206. 1 1. 引言 语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。语音信号的端点检测是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步. 研究表明[1],即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。 确定语音信号的起止点, 从而减小语音信号处理过程中的计算量, 是众多语音信号处理领域中一个基本而且重要的问题。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题。 2. 语音端点检测主要方法和分析 在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性[2].其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。近年来,随着通信业的迅猛发展,又出现了很多的语音端点检测算法。它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。如基于倒谱系数[3]、频带方差[4]、自相关相似距离[5] 、信息熵[6]等也逐渐的被应用到端点检测中。有时,还通过将信号的几种特征组合成为一个新的特征参数来进行端点检测。 2.1基于短时能量和短时平均过零率的检测方法 该方法也称为双门限比较法,它是在短时能量检测方法的基础上,加上短时平均过零率,利用能量和过零率作为特征来进行检测.在信噪比不是很低的情况下,根据语音信号的能量大于噪声噪声能量的假设,通过比较输入信号的能量与语音能量阈值的大小,可以对语音段和非语音段加以区分[7].输入每帧信号的能量可由下式得到[7-8]: 1本课题得到江苏省普通高校自然科学研究计划资助项目(项目批准号:07KJD510110)的资助。

基于Matlab的语音端点检测实验研究

浙江科技学院学报,第19卷第3期,2007年9月Jo ur na l of Zhejiang U niv ersity of Science and T echnolog y Vo l.19No.3,Sep.2007 收稿日期:2007 04 23 作者简介:张震宇(1976 ),男,浙江兰溪人,讲师,硕士,主要从事电子技术和语音信号处理的研究。 基于Matlab 的语音端点检测实验研究 张震宇 (浙江科技学院自动化与电气工程学院,杭州310023) 摘 要:端点检测在语音识别中占有十分重要的地位,直接影响着系统的性能。今借助于M atlab 这一功能强大的工具,成功地开展了语音端点检测的实验研究。首先简介端点检测涉及的几个基本概念,然后分析端点检测的基本方法,最后分别进行孤立字、孤立词的语音检测实验;重点阐述实验开展的具体过程,并给出部分关键源代码。实验取得了良好的效果。 关键词:端点检测;短时能量;过零率;M atlab 中图分类号:T P391.42 文献标识码:A 文章编号:1671 8798(2007)03 0197 05 Expe rime ntal Study on Speec h Endpoint Detection Base d on Matlab ZH ANG Zhen y u (Schoo l o f Automat ion and Electr ical Engineer ing,Zhejiang U niv ersity of Science and T echnolog y,H angzhou,310023,China) Abstract:Endpoint detection plays an important ro le in speech recog nition,w hich dir ectly af fects perform ance of the speech system.With M atlab,exper im ents to detect speech endpoint are developed successfully.Firstly ,several basic concepts are introduced briefly.T hen,the basic method for endpoint detection is analyzed.At last,2experiments for isolated wo rd are car ried out.T he detailed ex perim ent procedure is focused on and par t of key source codes is given,w hich gains favourable effect. Key words:endpo int detection;short term energy ;zer o crossing r ate(ZCR);M atlab 所谓端点检测,就是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来自端点检测 [1] 。除此之外,在语音合成、编码等系统 中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此,端点检测的效率、质量在语音处理系统中显得至关重要,广泛开展端点检测实现手段方面的研究,有一定的现实意义。 笔者查阅了大量关于端点检测的文献资料,典型的如文献[2 5]等,发现大部分文献把重点放在理论分析层面上,集中研究了如何较好地改进检测方

基于MATLAB的语音端点检测

短时能量matlab实现: [x]=wavread('song1.wav'); x=x/max(abs(x)); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen=240; FrameInc=80; yframe=enframe(x,FrameLen,FrameInc); amp1=sum(abs(yframe),2); subplot(3,1,2); plot(amp1); axis([1 length(amp1) 0 max(amp1)]); ylabel('Amplitude'); legend('amp1=∑│x│'); amp2=sum(abs(yframe.*yframe),2); subplot(3,1,3); plot(amp2); axis([1 length(amp2) 0 max(amp2)]); ylabel('Energy'); legend('amp1=∑│x*x│'); 短时过零率matlab实现: [x]=wavread('song1.wav'); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen = 240; FrameInc = 80; amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312) plot(amp); axis([1 length(amp) 0 max(amp)]) ylabel('Energy'); tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2); subplot(3,1,3); plot(zcr);

基于MATLAB的语音端点检测

[x]=wavread('song1.wav'); x=x/max(abs(x)); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen=240; FrameInc=80; yframe=enframe(x,FrameLen,FrameInc); amp1=sum(abs(yframe),2); subplot(3,1,2); plot(amp1); axis([1 length(amp1) 0 max(amp1)]); ylabel('Amplitude'); legend('amp1=∑│x│'); amp2=sum(abs(yframe.*yframe),2); subplot(3,1,3); plot(amp2);

axis([1 length(amp2) 0 max(amp2)]); ylabel('Energy'); legend('amp1=∑│x*x│'); [x]=wavread('song1.wav'); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen = 240; FrameInc = 80; amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312) plot(amp); axis([1 length(amp) 0 max(amp)]) ylabel('Energy'); tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2); subplot(3,1,3); plot(zcr); axis([1 length(zcr) 0 max(zcr)]) ylabel('ZCR'); [x,fs,nbits]=wavread('song1.wav'); x = x / max(abs(x));%幅度归一化到[-1,1] %参数设置 FrameLen = 256; %帧长 inc = 90; %未重叠部分 amp1 = 10; %短时能量阈值 amp2 = 2; zcr1 = 10; %过零率阈值 zcr2 = 5; minsilence = 6; %用无声的长度来判断语音是否结束 minlen = 15; %判断是语音的最小长度 status = 0; %记录语音段的状态 count = 0; %语音序列的长度 silence = 0; %无声的长度 %计算过零率 tmp1 = enframe(x(1:end-1), FrameLen,inc);

语音信号处理实验

哈尔滨工程大学实验报告 班级:电信三班 学号:2013081416 姓名:刘世杰

语音信号处理实验 一、实验目的 1、掌握短时能量的求解方法、短时平均过零率的求解方法,对输入的语音信号进行端点检测。 2、掌握语音信号的Mel 倒谱特征(MFCC )的求解方法,语音信号的线性预测原理以及LPC 特征的求解方法。 3、掌握语音信号基频的概念,加深对基频刻画声调特征作用的理解,掌握语音信号基频特征的典型求解方法。 4、掌握MATLAB 相应的功能以及使用方法。 二、仪器设备 HP 计算机、MATLAB 软件 三、实验原理 (一)语音信号的短时分析 端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。 先引入以下三个概念 1、短时能量计算 定义n 时刻某语言信号的短时平均能量En 为: ∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22 )]()([)]()([ 式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩形窗时,有∑--== n N n m m x En )1(2)( 2、短时过零率 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。 对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,则是指在一帧语音中语音信号波形穿过横轴(零电平)的次数。可以用相邻两个取样改变符号的次数来计算。 如果窗的起点是n=0,短时过零率Z 为 波形穿过横轴(零电平)的次数

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音信号基音检测算法研究

语音信号基音检测算法研究 摘要:本文对倒谱法做了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在相同噪声环境下能更加精确地检测出语音信号的基音周期。 关键词:语音信号基音检测倒谱法二次谱减法 1、引言 近年来,基于线性预测和分析频谱的Mel倒谱系数在处理包含情感的语音识别中取得了很大的进步,能否把此种方法应用到相应状态下的基音检测中去,值得广大学者研究。国外很多学者采用实时监控情感变化,并把影响修正基音的轨迹加以平滑或者动态改变窗的宽度,可以明显降低上述影响。基音检测一直是语音信号处理的一大难题,短时自相关函数法、短时平均幅度差函数法、倒谱法、小波变换法等传统的经典基音检测方法,都有各自的用场,但同时也有其相应的不足。其中任一种方法都不能作为通用的方法,但若在基音检测过程中,对预处理和后处理上进行一些改进,且突破传统的语音模型,并适当考虑说话人的个体特征及发音时的情感力度对基音检频带内谱包络测的影响,定能提高基音检测的准确性及健壮性。 本文以语音信号的基音检测为研究对象,着重分析自相关函数法p倒谱法的定义为,时间序列的z变换的模的对数的逆z变换,该序列的倒谱的傅里叶变换形式为。落实到具体实现时,采用DFT来近似傅里叶变换,根据传统语音产生的模型及语音信号的短时性。在其频域内,语音信号短时谱等于激励源的频谱与滤波器的频谱的乘积,浊音信号短时谱中包含的快变化周期性细致结构,则必会对应着周期性脉冲激励的基频以及各次谐波。语音的倒谱是将语音的短时谱取对数后再进行IDFT来得到,所以浊音信号的周期性激励如果反映在倒谱上,便是同样周期的冲激。藉此,我们可从得到的倒谱波形中估计出基音周期。一般我们把倒谱波形中第二个冲激,认为是对应激励源的基频,即基音周期。下面列举出一种倒谱法求基音周期的框图(见图1) 。 3、改进算法的基音检测 当用无噪声的语音信号时,采用倒谱法进行基音检测还是很理想的。但是有加性噪声存在时,对数功率谱中的低电平部分会被噪声填满,从而掩盖了基音谐波的周期性。这也意味着倒谱的输入不再是单纯的周期性成分,而导致倒谱中的基音峰值变宽,而且受到噪声的污染,最终导致倒谱检测方法的灵敏度也随之下降。为此,本文提出了如下改进方法(图2): 此方法避p本文以语音信号的基音检测为研究对像,对短时自相关函数、倒谱法、这两种基音检测的方法的原理进行了分析。在此基础上,深入研究了倒谱法基音检测的算法。通过实验仿真,发现这种测量方法的不足;最后对这种算法进行了改进,在用倒谱法进行基音检测分析时,提出了一种功率谱二次处理的二次谱减法,该方法克服了倒谱法基音检测的抗噪能力低的弱点,在噪声环境相同的情况下能更加准确的检测出语音信号的基音周期,从而有效提高算法在基音检测时的准确性和抗噪性。 参考文献 [1]胡航.语音信号处理[M].哈尔滨:哈尔滨工业大学出版社,2000:116.126. [2]韩纪庆,张磊,郑铁然.语音信号处理[M].北京:清华大学出版社,2004,lO.39.

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语音端点检测方法研究

语音端点检测方法研究 文章在研究语音识别系统中端点检测基本算法的基础上,分别对利用双门限的端点检测方法、利用小波变换的端点检测方法、利用倒谱相关理论的端点检测方法原理进行了阐述和说明,并对几种端点检测方法的特点进行了分析。 标签:端点检测;双门限;小波变换;倒谱 1 概述 就一般情况下来讲,在语音通信过程当中,大多采用有线电话网的方式来进行,但是由于某些地区环境及场合需要等因素,则需要通过无线电台来作为通信方式。与此同时,在其实际应用过程中,整个通话过程由语音控制来实现。具体来讲,有线方说话时本地无线电台则处于发射状态,相对应来讲远端无线电台为接收状态,相反来讲,当有线方沉默的时候,无线电台工作状态发转。其中,语音端点检测方法和技术是关键,基于从某段语音信号当中来准确判断语音位置(起始点与终止点),从而有效地区分是否为语音信号这样的目的。该技术对于减少数据的采集量、降低或者排除噪声段的干扰以及提高系统识别性能等方面具有关键作用。 2 利用双门限进行语音端点检测 首先确定短时能量和短时过零率符合端点起点判定条件的帧,接着再根据短时过零率和短时能量符合端点终点判定条件的帧。除此之外,对于一些突发性噪声检测,比如由于门窗开关所引起的噪声,相对应来讲我们可以通过设置最短时间门限来进行判断。具体来讲,当处于静音这一语音信号端点检测段时,如数值比低门限还低,与此同时最短时间门限大于计时长度,那么我们基本上可以确定这是一段噪音。 双门限的检测算法结合了短时能量和短时过零率的优点,在得到的端点检测结果中,其精确度和浊音检测都能得到很好的保证。现在有很多的端点检测算法都是根据双门限的算法进行不同的改进,能使其各有优劣,从而适应于不同的情况和环境。 3 利用小波变换进行语音端点检测 小波变换属于时频分析的一种,具体来说是空间(时间)和频率的局部变换,因而能有效的从信号中提取信息。小波变换能将信号在时域中表现不了的特征在频域中表现出来。因此,利用小波变换的这一个特性,根据有效的说话人的声音数据和背景噪声数据的频谱存在明显差异的特征来进行端点检测。一般有效的说话人的声音数据的频谱分布范围很大,而且频率的值也很大。而背景噪声的频谱变化不大,而且值也较小。因此先将语音数据分帧,将分帧后的数据进行一次小波变换,再对小波变换后的数据计算方差,如果计算的结果大于一定的阈值,那

语音实验一端点检测

实验一语音信号端点检测 一、实验目的 1.学会MATLAB 的使用,掌握MATLAB 的程序设计方法; 2.掌握语音处理的基本概念、基本理论和基本方法; 3.掌握基于MATLAB 编程实现带噪语音信号端点检测; 4.学会用MATLAB 对信号进行分析和处理。 5. 学会利用短时过零率和短时能量,对语音信号的端点进行检测。 二、实验仪器设备及软件 HP D538、MATLAB 三、实验原理 端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响到语音信号处理的速度和结果。本次实验利用短时过零率和短时能量相结合的语音端点检测算法利用短时过零率来检测清音,用短时能量来检测浊音,两者相配合便实现了信号信噪比较大情况下的端点检测。 算法对于输入信号的检测过程可分为短时能量检测和短时过零率检测两个部分。算法以短时能量检测为主,短时过零率检测为辅。根据语音的统计特性,可以把语音段分为清音、浊音以及静音(包括背景噪声)三种。在本算法中,短时能量检测可以较好地区分出浊音和静音。对于清音,由于其能量较小,在短时能量检测中会因为低于能量门限而被误判为静音;短时过零率则可以从语音中区分出静音和清音。将两种检测结合起来,就可以检测出语音段(清音和浊音)及静音段 1、短时能量计算 定义n 时刻某语言信号的短时平均能量En 为: ∑∑--=+∞∞--=-=n N n m m n w m x m n w m x En )1(22 )]()([)]()([ 式中N 为窗长,可见短时平均能量为一帧样点值的平方和。特殊地,当窗函数为矩 形窗时,有∑--== n N n m m x En )1(2)( 2、短时过零率 过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。

语音信号采集与简单处理

语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?????<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10)]1(sgn[)](sgn[21N m n n n m x m x Z

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

《语音信号处理》-端点检测

华南理工大学《语音信号处理》实验报告 实验名称:端点检测 姓名: 学号: 班级:11级电信3班 日期:2013年4 月19日

1.实验目的 1.语音信号端点检测技术其目的就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号,它是语音处理技术中的一个重要方面。本实验的目的就是要掌握基于MATLAB编程实现带噪语音信号端点检测,利用MATLAB对信号进行分析和处理,学会利用短时过零率和短时能量,对语音信号的端点进行检测。 2. 实验原理 1、短时能量 语音和噪声的区别可以体现在它们的能量上,语音段的能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量的和。在信噪比很高时,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段和噪声背景区分开。这是仅基于短时能量的端点检测方法。 信号{x(n)}的短时能量定义为: 语音信号的短时平均幅度定义为: 其中w(n)为窗函数。 2、短时平均过零率 短时过零表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零。过零率就是样本改变符号次数。

信号{x(n)}的短时平均过零率定义为: 式中,sgn为符号函数,即: 过零率有两类重要的应用:第一,用于粗略地描述信号的频谱特性;第二,用于判别清音和浊音、有话和无话。从上面提到的定义出发计算过零率容易受低频干扰,特别是50Hz交流干扰的影响。解决这个问题的办法,一个是做高通滤波器或带通滤波,减小随机噪声的影响;另一个有效方法是对上述定义做一点修改,设一个门限T,将过零率的含义修改为跨过正负门限。 于是,有定义: 3、检测方法 利用过零率检测清音,用短时能量检测浊音,两者配合。首先为短时能量和过零率分别确定两个门限,一个是较低的门限数值较小,对信号的变化比较敏感,很容易超过;另一个是比较高的门限,数值较大。低门限被超过未必是语音的开始,有可能是很短的噪声引起的,高门限被超过并且接下来的自定义时间段内的语音超过低门限,意味着信号开始。 此时整个端点检测可分为四段:静音段、过渡段、语音段、结束。实验时使用一个变量表示当前状态。静音段,如果能量或过零率超过低门限,就开始标记起始点,进入过渡段。过渡段当两个参数值都回落到低门限以下,就将当前状态

音频客观测量指标概念(全)

音频客观测量指标概念 音频指标简介及测试原理方法 音频指标测试均是针对有输入和输出的设备而言,就是声音信号经过了一个通道以后,输出与输入之间的差别。两者差别越小那么性能越好,而且在一般情况下声音经过某一个通道或某一系统后,一般都有对原信号的放大和衰减。 信噪比、失真率、频率响应这三个指标是音响器材的“基础指标”或“基本特性”,我们在评价一件音响器材或者一个系统水准之前,必须先要考核这三项指标,这三项指标中的任何一项不合格,都说明该器材或者系统存在着比较重大的缺陷 1、信噪比SNR(Signal to Noise Ratio):(1)简单定义:狭义来讲是指放大器的输出信号的电压与同时输出的噪声电压的比,常常用分贝数表示,设备的信噪比越高表明它产生的杂音越少。一般来说,信噪比越大,说明混在信号里的噪声越小,声音回放的音质量越高,否则相反。信噪比一般不应该低于70dB,高保真音箱的信噪比应达到110dB 以上。音频信噪比是指音响设备播放时,正常声音信号强度与噪声信号强度的比值 (2)计算方法:信噪比的计量单位是dB,其计算方法是10LG(PS/PN),其中Ps和Pn 分别代表信号和噪声的有效功率,也可以换算成电压幅值的比率关系:20LG(VS/VN),Vs和Vn分别代表信号和噪声电压的“有效值”。 (3)测量方法:信噪比通常不是直接进行测量的,而是通过测量噪声信号的幅度换算出来的,通常的方法是:给放大器一个标准信号,通常是0.775Vrms或2Vp-p@1kHz,调整放大器的放大倍数使其达到最大不失真输出功率或幅度(失真的范围由厂家决定,通常是10%,也有1%),记下此时放大器的输出幅Vs,然后撤除输入信号,测量此时出现在输出端的噪声电压,记为Vn,再根据SNR=20LG(Vn/Vs)就可以计算出信噪比了. 或者是10LG(PS/PN),其中Ps和Pn分别代表信号和噪声的有效功率 计权:这样的测量方式完全可以体现设备的性能了。但是,实践中发现,这种测量方式很多时候会出现误差,某些信噪比测量指标高的放大器,实际听起来噪声比指标低的放大器还要大。经过研究发现,这不是测量方法本身的错误,而是这种测量方法没有考虑到人的耳朵对于不同频率的声音敏感性是不同的,同样多的噪声,如果都是集中在几百到几千Hz,和集中在20KHz以上是完全不同的效果,后者我们可能根本就察觉不到. 这样就引入了权的概念。噪声中对人耳影响最大的频段“权”最高,而人耳根本听不到的频段的“权”为0。这种计算方式被称为“A计权”,已经称为音响行业中普遍采用的计算方式。 2 、频响范围:(1)频率响应是指在振幅允许的范围内音响系统能够重放的频率范围,以及在此范围内信号的变化量称为频率响应。 (2)测试方法:要求输入信号幅值为一个固定值(要在动态范围之内,音响设备我们可以取100mv)。当输入信号为正常频率时(不能有失真,可以定位1KZ),记录这个时候的输出电压的大小V1。然后开始逐渐降低输入信号的频率,当降低到一定程度时,输出信号的幅值会开始减小。继续降低频率,直到输出电压为0.707V1时,记下此时的频率F1,那么该频率就是此通道的最低响应频率。

相关文档