文档库 最新最全的文档下载
当前位置:文档库 › 语音信号端点检测方法综述及展望

语音信号端点检测方法综述及展望

语音信号端点检测方法综述及展望
语音信号端点检测方法综述及展望

收稿日期:2007-09-11;修回日期:2007-12-27 基金项目:上海市教委青年基金资助项目(04AB72);上海市启明星计划资助项目

(04Q M X1441)

作者简介:刘华平(1981-),男,江西九江人,硕士研究生,主要研究方向为模式识别、语音数字信号处理;李昕(1971-),男,副教授,主要研究方向为模式识别、人工智能、语音识别(xl@i statt .shu .edu .cn );徐柏龄(1941-),男,博导,主要研究方向为语音信号处理、声学信号处理、音频声学;姜宁(1981-),男,硕士研究生,主要研究方向为语音数字信号处理

语音信号端点检测方法综述及展望

*

刘华平1

,李 昕

1,2,3

,徐柏龄3,姜 宁

1

(1 上海大学机电工程与自动化学院,上海200072;2 中国科学院自动化研究所

模式识别国家重点实验室,北京100080;3 南京大学电子科学与工程系,南京210093)

摘 要:端点检测是语音信号处理过程中非常重要的一步,它的准确性直接影响语音信号处理的速度和结果,因此端点检测方法的研究,特别是在噪声环境下端点检测的研究,一直是语音信号处理中的热点。从基于时域参数、频域参数、时频参数、模型匹配等方法的角度,较全面地回顾了端点检测方法的发展历程,对各种方法的优缺点进行了比较分析,并给出了这些方法的改进意见,对端点检测未来的研究方向进行了展望。关键词:语音信号处理;端点检测;鲁棒性

中图分类号:TP391 文献标志码:A 文章编号:1001-3695(2008)08-2278-06

Su mm ary and survey of endpoi nt detecti on al gorit hm f or speech si gna ls

L IU H ua -p i ng 1,L I X i n 1,

2,3

,XU Bo-li ng 3,JI ANG N i ng 1

(1.School of E lectromechanicalE ng ineering &Au t oma tion,S hangha iUniversity ,Shanghai 200072,Ch i na;2.S t a teK e y L ab of Pa tte rn R ecog-n ition,In stit u t e of Au t o m ati on,Ch i n ese A c ade my of S ciences ,Be i jing 100080,Ch i na;3.D e pt .of E lectronic S cience&Eng i neering,N anji ng U -n i versit y,N anji ng 210093,Ch i na )

Abstract :Endpoi nt detection ,w hose accuracy directl y affects the s peed and t he resu lts ,i s a very m i portan t step for speech

si gnals processi ng.The research of endpoi nt detecti on al gorith m is a hotspot of speech si gnals p rocessi ng ,especiall y i n adverse envi ronmen.t Th i s paper i ntroduced d ifferent m ethods based on tm i e dom ai n ,frequency do m ai n ,tm i e -frequency do m ai n pa -rameters and m odelm atchi ng al gorit hm s .M eanwh ile ,it anal yzed t he advantages ,dra wbacks and m i prove m ents of those al go -rith m s .It al so d iscussed the prospects of endpoi n t detection .Key words :speech si gnal s processi ng ;endpoi n t detection ;robustness 语音是人类最自然的信息载体,很可能成为未来人机交互的主要方式,而语音端点检测是语音分析、语音合成、语音编码、说话人识别中的一个重要环节[1,2],直接影响到后续工作的准确性。实际环境中没有完全纯净的语音信号,往往都伴有噪声或其他干扰,而语音识别系统的处理对象是有效语音信号,即排除了纯噪声段的语音信号段,这就需要从输入信号中找到语音部分的起止点。端点检测的目的就是从包含语音的一段信号中确定出语音的起点及终点,又称语音活动检测(vo i ce acti v ity detection ,VAD )。

在语音识别中,通常是先根据一定的端点检测算法对语音信号中的有声片段和无声片段进行分割,再针对有声片段,依据语音的某些特征进行识别。研究表明[3],即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续工作能否有效进行。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题。

一个优秀的端点检测方法应该具有以下性能[4]:a)门限值应该对背景噪声的变化有一定的适应性,并且决策时能将超过门限的短时冲激噪声,如人的咂嘴声等,纳入非语音段。b)对于一些能量较低的弱摩擦爆破音、鼻音,如f 、t 、k 、n 等,避免

在检测中丢失这些音的有效成分,否则会对识别结果造成影响。c)能有效地对字间隙进行平滑,消除字间隙对端点检测可能造成的影响。d)低信噪比的各种环境(如汽车噪声、有嘈杂人声等)中,仍具有端点的准确检测能力。

1 时域参数端点检测

传统的端点检测方法主要是应用语音信号的时域特征参数[1,5],如短时能量、过零率、相关性和基音等。在实际应用中往往把几个时域特征参数结合起来作为语音信号端点检测的特征参数,这种方法在信噪比较高的环境下,得到的端点检测

结果较为理想。1 1 短时能量

语音和噪声、语音和非语音的区别可以体现在它们的能量上,语音段能量比噪声段能量大,语音段的能量是噪声段能量叠加语音声波能量之和。在信噪比很高时,如果环境噪声和系统输入噪声较小,那么只要计算输入信号的短时能量或短时平均幅度就能够把语音段与噪声背景区分开;但在低信噪比的情况下,这种算法的效果就会显著失效。

语音信号的能量随着时间变化比较明显,一般清音部分的能量比浊音能量小得多。语音信号的短时能量分析给出反映

第25卷第8期2008年8月 计算机应用研究Application R esearc h of C o m puters V o.l 25N o .8

Aug .2008

这些幅度变化的描述方法。对于{x (n)},短时能量的定义为

E n =

m =-

[x(m )w (n -m )]2=

m =-

x 2(m )h (n -m )=

x 2(n ) h (n )

(1)

其中:h (n)=w 2(n );E n 表示在信号的第n 个点开始加窗函数时的短时能量。1 2 短时平均过零率

短时过零率表示一帧语音中信号越过横轴(零电平)的次数。对于离散信号,如果相邻的取样值改变符号则称为过零。定义语音信号x n (m )的短时过零率为

Z n =1/2 n -1

m =0|s gn [x n (m )]-sgn [x n (m -1)]|

(2)

为使语音过零率和静音、噪声的过零率具有明显的区别,现实应用中对过零率计算进行了改进,设定一个很小的阈值zv 。Z n 的过零率为

Z n =1/2 n -1

m =0|sgn [x n (m )-zv ]-sgn [x n (m -1)-zv ]|

(3)

这种方法对抑制低直流漂移也很有效,避免了用防混叠带通滤波器抑制电源以及将直流分量从信号中扣除。

浊音的能量主要集中于低频段,而清音的能量则主要集中在高频段,短时平均过零率可以在一定程度上反映频率高低,因而可以用短时平均过零率来初步判断清音和浊音。1 3 短时相关分析

定义语音信号x n (m )的短时自相关函数为

R n (k)=

n -1-k m =0

x n (m )x n (m +k );0

(4)

这里K 是最大延迟点数。

噪声和语音具有不同的相关性,噪声的相关性呈下降趋势,因而在语音和噪声的判决上可以采用判断其走向的方法。

在实际应用中,往往综合几个时域特征参数来检测端点,如基于短时能量和过零率的双门限检测方法。在信噪比高的环境下,端点检测能得到较为准确的结果;但信噪比较低时,准确率就会变得很差。有的学者在这方面做了很多工作,例如在双门限检测的基础上再加一时间特征参数 短时相关性,用来判断语音和噪声,因为语音和噪声的相关趋势不一样。虽说这种方法有助于提高端点检测的准确性,但是在信噪比很低的情况下也会失效。

Lu L i e 等人[2]提出一种比较新的基于时域特征参数端点检测方法 用短时能量变化率来进行端点检测。这种算法采用的不是短时能量而是短时能量的变化率,在信噪比较高的情况下,在噪声和语音的区分点区域,由于信号帧的变化较剧烈,该方法选取的参数是一个小于1的正数;而在噪声区间或者语音区间由于信号不同,帧间的能量较平稳,变化不大,参数为0值。此方法的优点是具有一定的鲁棒性,但仍然存在信噪比低时的失效问题。

张仁志和崔慧娟[6]提出了一种改进的短时能量端点检测方法,在采用短时全带能量为特征的基础上,将短时高频能量作为辅助特征,同时使用了最优边沿检测滤波以及双门限 三态转换判决机制,从而保证了算法在噪声环境下的端点检测准确性和对信号绝对幅度变化的稳健性。实验表明,与其他一些端点检测算法相比,更加简单、有效和稳健,并且能够在低信噪比环境下保持良好的性能。

肖述才和王作英

[7]

提出了端点检测中的一种新的对数能

量特征。该方法分析了端点检测中常用的短时线性能量和短

时对数能量的优缺点,提出了一种新的对数能量特征,综合利用前两者的优点而克服了它们的不足之处,并对端点检测的阈值设置采用了基于模糊聚类的门限估计算法。该算法实验得

到较好的效果,与采用短时线性能量和短时对数能量相比,系统的识别率分别提高了62.33%和8.87%。

李明远和李建东[8]提出利用语音的相关性进行端点检测。陈斐利和朱杰[9]也利用了自相关性提出了一种新的基于自相关相似距离的语音端点检测方法,对给出的自相关法、HMM 模型、人工端点检测的结果进行了比较,验证了其新方法的可行性。

利用时域特征参数来进行端点检测的方法很多,其研究总的趋势有两种:a)将多个语音时域特征参数结合在一起[3,9~11];b)对已有的端点检测方法进行改进,如刘庆升等人[12]提出的方法就是对已有的基于短时能量和过零率的双门限检测方法的改进。

2 频域参数端点检测

时域参数端点检测方法提出得最早,从提出至今,产生了很多新的时域参数端点检测方法和一些对已有时域参数端点检测的改进方法。但这种方法由于噪声的影响很大,当信噪比很低时,端点检测结果的准确性就变得很差,进而影响了识别系统的识别率。为了能得到鲁棒性较好的端点检测方法,人们就把注意力转移到语音信号的频域特性上来。2 1 基于LPC 欧氏距离测度的端点检测

R ab i ne r 等人[13]在1977年提出了一种基于LPC 欧氏距离测度的端点检测方法。该算法是R abine r 等人在解决信号输出的语音很难用一般的算法来区分无语音、静默音和语音而提出来的。其主要思路是:先对这三种语音各自进行训练,得到各自的频域特性;然后利用LPC 的测度和能量的非线性组合来对这三种语音进行检测。

利用自相关法求出第i 帧的LPC 系数,LPC 的阶数取8:

a i ={a i (1),a (2), ,a i (8)}

(5)

利用下式算出第i 帧的对数能量:

E i =10log [

n 0+149n =n 0

x 2(n )](6)

进而得出了两个距离公式,对三种语音信号进行计算,并存储结果用于将来的检测。

D E (j)=|E j -E [j]|/ E (j )(7)D a (j )=( -m j )( )(a -m j ) /( )

(8)

具体的参数含意可以查阅文献[13]。

算法框图如图1所示。R abine r 等人提出的方法在高信噪

比时能有效地区别非语音、静默音和语音,但在低信噪比时效果也不理想[14]。

于迎霞和史家茂[15]提出了一种改进的基于倒谱特征的带噪端点检测方法,针对基于倒谱特征的带噪端点检测算法提出了三点改进:a)将语音信号经滤波后分成高、低频两子带,分别进行分析;b)用LPC 美尔倒谱特征(L PCC M CC )代替常规倒谱特征作为特征参数;c)改进噪声估计,使其具有自适应性。实验结果表明该方法在低信噪比下有较好的检测性能。

2279 第8期刘华平,等:语音信号端点检测方法综述及展望

2 2 谱熵端点检测

以上端点检测方法都是以语音帧为最小处理单元,大多数均使用与能量相关的参数,这样就很难消除语音帧内的噪声信号的影响,从而影响了端点检测的结果。

Shen 等人[14]提出了基于信息熵的端点检测方法。此后很多学者都采用信息熵与其他语音特征参数相结合方法来进行端点检测。熵是由Shannon [16]引用到信息理论中来的。谱熵的基本原理如下:

定义1 对带噪语音信号s(n)经分帧、加窗,按帧间50%的重叠求解FFT 变换,得到其某频率分量f i 的能量谱为Y m (f i ),则每个频率分量的归一化谱概率密度函数(pdf)定义为

P i =Y m (f i )/ N -1

k =0Y m (f k ); i =1,2, ,N

(9)

其中:P i 为某频率分量i 对应的概率密度;N 为FFT 变换长度;m 为分析的某一帧语音。由于语音的能量主要集中在250~4500H z,为了增强区分语音和非语音段的能力,对式(9)引入约束条件:

Y (f i )=0,i f f i <250H z or f i >4500H z

(10)

考虑上述约束条件后,每个分析语音帧的短时谱熵定义为

H m =- N

k =1

P k l og P k

(11)

按照式(11),谱熵具有如下特征:

a)语音信号的谱熵不同于噪声信号的谱熵。

b)理论上,如果谱的分布保持不变,语音信号幅值的大小不会影响式(9)的归一化。但实际上,语音谱熵随语音随机性而变化,与能量特征相比,谱熵的变化是很小的,如图1所示。如图2所示,虽然前段 t w o 语音的幅值比后段语音的幅值大很多,

但谱熵的变化不大。

c)从某种程度上讲,谱熵对噪声具有一定的鲁棒性。图2为同一语音段在不同噪声干扰下的谱熵曲线。从图3中可知,当SNR 下降时谱熵的形状保持不变,但谱熵降低,利用谱熵进行端点检测变得较为困难。

从以上对谱熵特征的分析可知,即使在很低的信噪比下,语音帧仍然具有很多较高信噪比的频点(或子带),而噪声帧却没有。因此人们就利用这一特性提出了基于谱熵的端点检测方法及相应的改进方法。

W u B i ng -fei 等人[17]提出了子带谱熵(BSE )语音信号端点检测方法。该方法结合了W u G i n -D er 等人[18]的自适应子带选择(RA BS)方法,得出一种新型的端点检测方法 自适应子带谱熵端点检测方法。

子带谱熵改进了Shen 等人提出的用谱熵进行端点检测的方法。

X (k,l)= N

n =1H (n ) S (n,l) exp (-j 2 kn /N ); 1 k N (12)

其中:X (k,l)是语音帧的S (n,l)的短时傅里叶变换。对每帧的前半段计算出信息熵:

H (l)= N /2

i =1P (i ,l) log [1/P (i ,l)]

(13)

其中:H (l)是第l 帧的谱熵。H (l)计算是基于谱的能量变化而不是谱的能量,所以在不同水平噪声环境下谱熵参数具有一

定的鲁棒性,但每一谱点的幅值易受噪声的污染进而影响端点检测的鲁棒性。W u B i ng-fe i 等人对这一问题提出了解决方法,即子带谱熵的概念。其思想是将一帧分成若干个子带,再对每一子带求谱熵,这样就消除了每一谱点的幅值受噪声影响的问题。

E b (m,l)=

k =1+(m -1) 4+3k =1+(m -1) 4

X energ y (k ,l); 1 m N b

(14)

其中:N b 是每一帧的子带数(如N b =32);E b (m,l)表示第m 子带的子带能量。再引入一权值系数w (m,l)来弥补式(14)不能反映出的谱熵在语音声谱图的自然特性,得出子带谱熵的最终计算公式:

H b (l)= N b

m =1w (m,l) P b (m,l) log [1/P b (m,l)]

(15)

W u B i ng -fei 等人还将文献[18]中子带自适应选择应用进来,使得N b 会在每一帧中数值都不一样,这样更加适合于语音信号的本质,并对自适应子带谱熵的阈值自适应选择作出了较为详细的讨论。

自适应子带谱熵在多种噪声环境下和不同的信噪比下的实验表明,该算法具有较好的鲁棒性,在不同的噪声环境下的准确性都很高,且能在线检测端点。

谱熵端点检测算法的研究国内学者也做了很多工作。李晔等人[19]为提高语音端点检测系统在低信噪比情况下(0dB 以下)检测的准确率,提出了一种基于谱熵的端点检测算法。将每帧信号分为16个子带,选取频谱分布在250H z~3.5k H z 且能量不超过该帧总能量90%的子带;计算经过语音增强后的子带能量以及各子带信噪比,根据各子带信噪比的不同调整其在整个谱熵计算过程中的权重;然后平滑谱熵,以最终的谱熵作为端点检测的依据。实验结果表明,此方法在较低的信噪比下能够显著提高端点检测的准确率。对坦克噪声,检测效果明显优于G.729中的端点检测算法,即使在-5dB 的信噪比下,仍然可以达到95%以上的检测率。

吴军和王作英[20]对汉语信息熵作了大量的语料统计,给出了汉语信息熵的一个上界,并以此为基础给出了一种用低阶语言模型逼近高阶模型的方法。田野等人[21]提出了基于子带能量线性映射的噪声中端点检测算法。该算法采用线性映射的方法将M el 滤波器组的子带能量特征空间映射到噪声和语音最有区分性的一维子空间,得到新的特征参数E L M BE 进行语音检测。实验结果表明,在噪声环境下,基于线性映射的能量参数比时域能量、基于时间 频率的能量有更好语音检测性能。王让定等人[22]和陈四根等人[23]也对信息熵端点检测进行了研究。

3 时频相结合的端点检测

时域和频域端点检测的方法有各自的优势。例如语音信号时域特征参数 基频就能很好地反映汉语的音调;利用能量和过零率在信噪比高的情况下能快速且准确地检测出语音。频域端点检测方法,如自适应子带谱熵端点检测算法能很好地消除每帧内的噪声对端点的影响。端点检测的另一个发展方向是语音的时频特征参数的结合方法。Sheng 等人结合时域能量和谱熵得出一种的特征参数(EE -fea t ure)来作端点检测。该方法是对谱熵单一参数进行改进的算法。仅仅用谱熵来作端点检测时,在多人说话的环境下或有背景音乐时端点检测效果会变得很差,而时域能量的一个特性就是语音加噪声的能量

2280 计算机应用研究 第25卷

比单一噪声的能量大很多,这样就弥补了单一谱熵的不足,所以将时频特征参数相结合能得到很好的效果。但文献[17]中也指出了这种算法的不足,就是当背景噪声的能量比语音信号

本身能量都高很多时,即信噪比很低时,端点检测效果就很差。

文献[25]也提出了一种基于时频特征参数的端点检测方法(TF )。文献[18]对TF 方法进行了改进,提出了一种自适应时频特征参数法(ATF )。郭继云等人[26]

对基于频能比的端点

检测算法进行了改进。

4 基于模型匹配的端点检测

随着对识别模型的深入研究,各种识别模型也被应用于端点检测。朱杰等人[27]就将HMM 模型应用于噪声环境下的语音端点检测。HMM 是目前语音识别技术中应用最广泛的一种模型。在训练阶段,训练语音对模型各状态的统计特性进行训练,得出模型参数;在测试阶段,待测语音与训练模型进行匹配,选择得分最高的作为识别结果。

噪声环境中基于HMM 模型语音信号端点检测的基本原理是:根据HMM 的处理方法,直接用于语言信号的端点检测。所谓端点,无非就是把被测信号看做由背景(backg round 或s-i lence)和废料(garbag e ,在语音处理中,习惯上把有用或无用的发音统称为废料)两部分组成,而废料就是上述两部分的分界处。在训练阶段,分别得出背景噪声和废料的模型参数。在测试阶段,用V iterb i 解码方法在训练模型基础上对被测语音进行分解,求出语音的哪些帧与背景噪声匹配,哪些帧与废料匹配,从而得出端点的所在。

基于HMM 方法的端点检测系统图参见文献[27]。实验表明,基于HMM 的端点检测方法的优点是:a )检测准确率明显高于基于能量的方法。在信噪比逐渐降低的情况下,效果更加明显。b)检测低能量的清音或爆破音、鼻音的端点位置时,性能明显高于基于能量的方法,很少出现截去音节有效成分的现象。其不足和今后的发展方向是,HMM 的训练环境与实际被测信号的语音环境会有很大差异。比如,当训练是在安静的环境下进行,而实际测试环境是在汽车噪声中进行时,由于背景噪声模型与实际情况很不相符,其性能会显著下降,必须采用能自适应调节的背景噪声模型。其具体的实现方法也是正在研究的课题。此外,特征矢量维数的大小对检测性能的影响也值得研究,因为这关系到在实时处理时该算法的实用性。

徐筱麟和张兴国[28]根据语音的特点,以一阶马可夫过程统计模型对语音进行建模,并在此基础上对语音激活检测进行了性能分析。在方案的实现过程中,采用了多种平滑因子,进一步改进了语音判决的正确性,与通常所用的检测方法相比,在性能上有了一定程度的提高。该方法的缺点是算法较为复杂,且在抗单音干扰方面能力较弱。如果再采用一定的措施,减小单音的干扰,

将会对短波通信的应用起到很大的作用。

另一种基于统计模型的端点检测方法是由董恩清等人[29]提出的。他们提出将支持向量机(S VM )方法应用于语音激活检测(VA D ),并验证SVM 方法在VAD 检测中的有效性。实验结果表明,支持向量机方法应用在端点检测中是可行的,但其运算量较大,S VM-VAD 算法的计算复杂度主要在训练支持向量机的过程中,而在实际的分类中计算量是很小的,甚至可以忽略。所以训练支持向量机的算法还应该有所改进。S VM-VAD 运行流程图如图4所示。

在文献[30,31]中提到基于模型匹配进行端点检测的方法。基于神经网络模型的端点检测的方法[32~34],其思想是利用多层神经网络将语音信号分成语音、非语音、静默段,但在实际应用中会遇到难以确定网络结构的问题。基于模型进行端点检测的方法共同优点在于,端点检测的准确性高、有较好的鲁棒性;但缺点是方法的复杂度高、运算量大,很难应用到实时语音信号处理系统。该方法实用化还需要有更简单、更快速的算法。

5 其他端点检测方法

由于语音信号处理是一门交叉学科,涉及到数字信号处理、语音学、语言学、生理学等,相关学科的发展都会促进语音数字信号处理各个环节的发展。端点检测方法也是如此,除了上面所介绍的几种端点检测方法外,在还有与相应的语种和使用环境相关的一些特殊的语音端点检测方法。

魏涛和顾涵铮[35]通过分析国际电信联盟的G.729B 标准,提出了一种适用于三速率语音编码方式的VA D 算法。该端点检测方法是针对特殊应用且结合了声学分类,对噪声、清音和浊音加以区分。在G.729B 中,端点检测的目的是将无声段与语音段区分开,语音段按正常速率传输,无声部分用平稳噪声产生算法(CNG )描述,并以15bps 进行编码。VAD 算法是用来检测线路中是否有话音存在,是变速率编码中的关键部分,作为速率的选择,判断的正确与否会直接影响语音质量。某些话音信号能量较低,极易与无声段的噪声混淆,要求VAD 算法尽可能减少此类误判,以保证语音质量。

该算法的主要思路是在G.729B 的基础上,提出一种基于语音段分类的VA D 算法。该算法结合能量分布曲线和声学特征,可将语音段分为清音、浊音和静音三类。判决过程由三步组成:功率初判、声学特征的修正和结果的平滑。从实验结果来看,该方法适用于三速率的语音编码方式,且复杂度不是很高,但还需在声学分类问题上作进一步的研究,尝试使用其他参数或算法,以提高分类的准确性,达到实用的目的。

利用语音学特性来作端点检测的方法。邝航宇等人[36]提出了基于检测元音的端点检测算法,主要目的是克服一些突发性的、没有规律的噪声干扰。其原理在于首先检测语音中必不可少和最稳定的部分(元音)的端点,然后按照一定的规则前后搜索确定语音的起止点。相比其他端点检测算法,其主要优点在于新算法改善了端点检测对于一些常见噪声的鲁棒性,特别是对非周期性噪声的抵抗能力,因为这些噪声一般都不包含元音。此外,很多端点检测算法不能把摩擦音和爆破音这些辅音检测出来,这些辅音容易被噪声掩蔽,但这些辅音对一个语音识别系统的识别率也有很大影响,特别是对基于DT W 的系统,所以一个好的端点检测算法必须能把这些辅音部分检测到。文献[36]提出的端点检测算法并没有抛弃这些辅音部分,而是在检测到元音的端点后,利用修改的基于能量算法去

2281 第8期刘华平,等:语音信号端点检测方法综述及展望

搜索出这些辅音。

基于检测元音的端点检测算法相比其他端点检测算法的主要优点在于对非周期噪声具有非常强的抵抗能力,在低信噪比的环境下,新算法仍然能够准确地检测到语音端点,从而提高语音识别率。该算法的局限性主要是,当一个孤立词同时含有多个元音,而人的发音拉得比较长时,可能会丢失某些元音。另外,算法暂时只适用于孤立词的检测。

在语音信号处理系统中,基于帧能量的语音端点检测往往受到语音段能量不平稳及噪声的影响。为了解决这一问题,提高端点检测的准确性,刘鹏和王作英[37]将多模式交互系统[38]的思想应用到端点检测中,引入视觉信息,提出了一种多模式语音端点检测方法,采用基于数据驱动的线性变换生成视觉特征,提出一个基于统计的VAD一般模型的基础上构建两个单模式的VAD系统,通过两步式的融合方法,得到了多模式的VAD系统。实验表明,同时利用音频和视觉信息的多模式VAD比基于帧能量的听觉VAD在帧错误率上有55.0%的相对下降,在断句错误率上有98.5%的相对下降。这一结果说明多模式VAD方法基本可以避免断句错误,也能够显著改善帧检测性能,是一种相当有效的方法。

视觉信息的引入为VAD系统提供了崭新而有效的思路。在对一般VAD系统框架进行研究以后,笔者将其前端特征换成能反映嘴唇动态和静态特性的视觉特征,即得到了基于视觉的VAD系统。实验表明,其性能尤其是断句性能已经比基于帧能量的音频VAD系统有明显提高。进一步将视觉信息和音频信息结合起来使用,充分利用两者的优势构建的双模式VAD系统在帧错误率指标上得到了进一步的改善,可以将双模式流相当精确地分成句子并得到其起始结束位置。

端点检测就是判断语音与非语音,相当于一个二分器,也可以用模式识别中的很多知识。应用模式识别的方法也有人提出了其他的端点检测方法[39,40]。

6 结束语

语音信号端点检测准确与否,对任何一个语音信号处理系统都有很大的影响,所以语音信号端点检测的方法研究仍然是今后语音信号处理中的一大热点和难点。

本文对当前主流的且检测效果好、具有代表性的端点检测方法作了论述,并对各个方法特点进行比较归纳。设计一个成功的语音端点检测模块时,会遇到下列一些实际困难[4,41]:

a)信号取样时,由于电平的变化,难以设置对各次实验都适用的阈值;取样数据中,有时存在突发性干扰,使短时参数变得很大,持续很短时间后又恢复,应该记入噪声段而非语音段。

b)发音时,人的咂嘴声或其他某些杂音会使语音波形产生一个很小的尖锋,并可能超过所设计的门限值。此外人呼吸时的气流也会产生电平较高的噪声。

c)起点处是弱摩擦音或终点处是鼻音时,语音的特性与噪声极其相似,其中鼻韵还拖得很长。

d)若输入信号中有50H z工频干扰或变换点的工作点偏移时,选用某些短时特征进行区分噪声和清音就显得不可靠。

解决上述语音端点检测实际困难是端点检测研究的方向,研究的途径主要有三个方面:(a)深入研究语音信号的特性,提出更能反映语音本质且鲁棒性好的特征参数;(b)提出更有效、更快速的算法,如自适应算法应用语音端点检测,使得端点检测的方法能适用于不同的信噪比环境;(c)突破现有的端点检测方法研究框架,应用交叉学科的知识提出新颖的端点检测方法,如刘鹏等人的多模式语音端点检测,能有效地融合语音和视觉图像信息,进行语音感知和识别时会收到意想不到的效果。目前,视觉信息正逐渐被用于语音感知和识别中,也受到越来越多人对视觉与语音结合技术研究[42~45]的关注。

有效的语音端点检测可以减少实时系统中的大量计算,使该系统仅处理语音输入,不至于在静音段白白浪费计算量和存储量,有利于系统的实时准确识别工作。因此端点检测算法本身不仅要求精确的结果,还应具有实现算法简单的特点。

参考文献:

[1]LAM EL L F,RAB I NER L R,ROSENBERG A E,et a l.An i m-

proved endpoi n t detector f or is olated w ord recogn iti on[J].I EEE Trans on Acous,t Vo i c e,Signa l P r ocess i n g,1981,29(8):777-785.

[2]LU Lie,JI ANG H ao,Z HANG H ong-jiang.A robu st aud i o class ifica-

ti on and segm entati on m et hod[C]//P roc of the9t h AC M In ternati o-nalC on f eren ce on M u lti m ed ia.2001.

[3]SAVOJ IM H.A robust al gori thm for accurate endpo i nti ng of speech

[J].Speech Comm unications,1989,8(1):45-60.

[4]贾川,张健,陈振标,等.噪声环境下的端点检测算法研究[C]//

第六届全国人机语音通信学术会议论文集 2001:441-445.

[5]RABI NER L R,SAM BUR M R.An al gorith m for deter m i n i ng the

endpoi n ts of isol ated utterances[J].Bell Syst em Techni c al Jour-nal,1975,54(2):297-315.

[6]张仁志,崔慧娟 基于短时能量的语音端点检测算法研究[J].

电声技术,2005(7):52-54.

[7]肖述才,王作英.端点检测中的一种新的对数能量特征[J].电

声技术,2004(6):37-41.

[8]李明远,李建东 基于相关性的语音激活检测器[J] 电声技术,

1995(11):6-9.

[9]陈斐利,朱杰 一种新的基于自相关相似距离的语音信号端点检

测方法[J] 上海交通大学学报,1999,33(9):1097-1099. [10]卢艳玲,侯榆青,王宾,等.一种基于多特征的带噪语音信号端点

检测与音节分割算法[J].电声技术,2005(7):60-62.

[11]NEY H.An opti m i zati on algorit hm f or det er m i n i ng the endpoi nts of

i solated utt eran ces[C]//Proc of I CASSP.1981:720-723.

[12]刘庆升,徐霄鹏,黄文浩 一种语音端点检测方法的探究[J].计

算机工程,2003,29(3):120-121.

[13]RAB I NER L R,SA I NBUR M R.Voiced unvo i ced s il en ce detection

us i ng the Itakura LPC d i stan ce m easure[C]//Proc of I CASSP.

1977:323-326.

[14]SHEN J L,HUNG J W,LEE L S.Robust en tropy-b ased endpo i nt

det ecti on for s peech recogn iti on i n nois y environm en ts[C]//Proc of In ternati onal Con ference on Spoken Language Processi ng.Sydney:

[s.n.],1998:232-238.

[15]于迎霞,史家茂 一种改进的基于倒谱特征的带噪端点检测方法

[J] 计算机工程,2004,30(19):85-87.

[16]SHANNON C E.A m at he m atical theory of co mm un i cati on[J].Be ll

Sys tTechnical Journa,l1948,27:379-423.

[17]W U B i ng-fe,i WANG Kun-ch i ng.Robu st endpoi n t detection al gorit hm

based on t h e ad apti ve band-parti ti on i ng s pectral entropy i n advers e en-vironm ents[J].I EEE T rans on Speech and Aud i o P rocess ing,

2005,13(5):762-775.

[18]W U G D,LI N C T.W ord boundary d etecti on w ithM e-l scal e frequen-

cy bank i n nois y environm ent[J].I EEE Trans on Speech and Au-dio P r ocess i n g,2000,8(5):541-554.

[19]李晔,张仁智,崔慧娟,等.低信噪比下基于谱熵的语音端点检

测算法[J] 清华大学学报:自然科学版,2005,45(10):1397-

2282

计算机应用研究 第25卷

1400.

[20]吴军,王作英 汉语信息熵和语言模型的复杂度[J] 电子学报,

1996,24(10):69-71.

[21]田野,王作英,陆大金 基于子带能量线性映射的噪声中端点检

测算法[J] 清华大学学报:自然科学版,2002,42(7):953-956. [22]王让定,柴佩琪 一种基于谱熵的语音端点检测改进方法[J]

信息与控制,2004,33(1):77-81.

[23]陈四根,和应民 一种基于信息熵的语音端点检测方法[J] 应

用科技,2001,28(3):13-14.

[24]HUANG Liang-sheng,YANG C H.A novel approac h t o robust

speech endpoi n t det ecti on i n carenv i ronm en ts[C]//Proc of I CASSP.

2000:1751-1754.

[25]J UNQUA J C,M AK B,REAVES B.A robust al gorit hm for w ord

boundary detecti on i n t h e presence of nois e[J].I EEE T r ans Speech Audio Process ing,1994,2(3):406-412.

[26]郭继云,王守觉,刘学刚.一种改进的基于频能比的端点检测算

法[J].计算机工程与应用,2005,41(29):91-93.

[27]朱杰,韦晓东 噪声环境中基于HMM模型的语音信号端点检测

方法[J] 上海交通大学学报,1998,32(10):14-16.

[28]徐筱麟,张兴国 一种基于马可夫过程统计模型的语音激活检

测方法[J] 解放军理工大学学报:自然科学版,2003,4(1):7-

10.

[29]董恩清,赵鹤鸣,周亚同,等.支持向量机在语音激活检测中的应

用研究[J].通信学报,2003,24(3):70-77.

[30]范万春,施仁,孙煜,等.应用统计模型的地震信号端点检测方

法[J].西安交通大学学报,2001,35(4):365-369.

[31]SOHN J,K I M M N S,SUNG W.A s t ati sti calm ode-l based voice ac-

ti vity detecti on[J].I EEE Signa lP r ocess i n g Le tt ers,1999,6(1): 1-3.

[32]Q I Y i ng-yong,HUNT B R.Vo i ced-unvoiced-silence classifi cati on of

speech us i ng hyb ri d feat ures and a n et work cl as s ifier[J].I EEE T rans on Speech and Aud i o Processing,1993,1(2):250-255.

[33]K I A S J,COG H I LL G G.A m app i ng neu ral net w ork and its app lica-

ti on to vo i ced-unvo i ced-silence cl assificati on[C]//Proc of the1st New Zeal and In t Tw o-Strea m C on f Artifi cialN eura lN et w ork s Expert Syste m s.1993:104-108.

[34]GH ISELL I-CRIPPA T,EL-J AROUDI A.A fast neural n et training

algorit hm and i ts app lication t o voi ced-unvoiced-s il en ce cl assification of s p eech[C]//Proc of In t Con f on Speech Langu age Processing.

1991:441-444.

[35]魏涛,顾涵铮 一种基于声学分类的语音激活检测算法[J] 合

肥工业大学学报:自然科学版,2001,24(2):222-225.

[36]邝航宇,张军,韦岗 一种基于检测元音的孤立词端点检测算法

[J] 电声技术,2005(3):40-43.

[37]刘鹏,王作英 多模式语音端点检测[J] 清华大学学报:自然科

学版,2005,45(7):896-899.

[38]VAT I K I OT I-BATESON E,BA I LLY G,ERRIER P.Audio vis u al

speech processi ng[M].[S..l]:M I T Press,2007.

[39]丁琦,徐望,王炳锡.基于模糊分类器的能量可变噪声环境下的

词边界检测[J].电声技术,2003(5):45-49.

[40]BER I TELL I F.A robust endpoi n t detect or b ased on d ifferenti al pa-

ra m eters and f u zz y pattern recogn iti on[C]//Proc of I CSP.1998:

601-604.

[41]赵力 语音信号处理[M] 北京:北京机械工业出版社,2003

[42]张蕾 电脑也能读唇语[EB/OL].h tt p://www.peop le.co https://www.wendangku.net/doc/ad18739061.html,/

GB/it/53/142/20030501/983126.h t m.l

[43]英特尔推出读唇语的AVSR软件[EB/OL].(2003-04-30).h-t

tp://article.p cho m https://www.wendangku.net/doc/ad18739061.html,/con tent-6819.ht m.

[44]可读唇语手机[EB/OL].(2002-04-11).http://www.zaobao.

com/s p eci al/ne w spapers/2002/04/h f w b110402.h t m.l

[45][EB/OL].(2004-04-09).h tt p://co m puter.on li n e.s https://www.wendangku.net/doc/ad18739061.html,/co m pu-

t er/gb/con tent/2002-04/09/con tent_325812.ht m.

(上接第2277页)

[16]DEGU I LL AUM E F,C S URKA G,PUN T.Coun ter m eas u res for un i n-

t en ti onal and intenti on al vi d eo w ater m arking attack s[C]//P roc of

I SET/SPIE E l ectron i c I m ag i ng.San Jos e,CA:[s.n.],2000.

[17]Z HANG M R,SHAO G C,Y I K C.T-m atri x and i ts app lication i n

i m age processi ng[J].E l e ctronics Lett ers,2004,40(25):1583-

1584.

[18]PET I TCOLAS F A,ANDERSON R J,KUHN M https://www.wendangku.net/doc/ad18739061.html,r m ati on h-i

d i ng:a survey[J].Proceedings of th

e I E EE,1999,87(7):1062-

1078.

[19]UnZi gn w at er m ar k re m oval soft w are[EB/OL].(1997).http://

https://www.wendangku.net/doc/ad18739061.html,/w ater m ark/.

[20]K I M B S,CHO I J G,PARK C H,e t al.Robu st d i gital i m age w at er-

m ark i ng m et hod agai nst geo m etri cal attack s[J].Rea-l tm i e I m a-ging,2003,9(2):139-149.

[21]季智,戴旭初.数字水印攻击技术及其对策分析[J].测控技术,

2005,24(5):15-18.

[22]PERRI G A.A copyri ght protecti on env i ron m en t for d i gital i m ages

[D].Lausanne,Sw itzerland:E cole Pol ytechn i que Federal de Lau-

sanne,1997.

[23]VENTURI N I I.Oracle attacks and covert c h annels[C]//Proc of t h e

4t h In tW orkshop D i gitalW ater m arking.[S..l]:Sp ri nger,2005:

171-185.

[24]KALKER T,L I NNARTZ J P,van DIJ K M.W ater m ark esti m ation

t h rough d etector an al ysis[C]//Proc of I C IP 98.[S..l]:I EEE,

1998:425-429.

[25]L I NNARTZ J P,van DIJ K M.An al ysis of the sens i ti vity att ack

agai n st el ectronic w ater m arks i n i m ages[C]//P roc ofW ork s hop on Infor m ati on H iding.1998:258-272.

[26]袁中兰,夏光升,杨义先,等.数字作品著作版权保护协议[J].北

京邮电大学学报,2005(1):19-22.

[27]CRAVER S,M EM ON N,YEO B L,et a l.C an i nv i s i b l e w ater m ark

resolve ri gh tf u l own ers h i ps[C]//Proc ot the5th Con ference on S t or-age and Retrieval for I m age and V i deo Dat ab ase.San J ose,CA:[s.

n.],1997:310-321.

[28]M AR I N K,SVI ATOSLAV V,ALEXANDER H.The w at er m ark copy

attack[C]//Proc of SP I E,Secu rit y and W ater m ark i ng ofM u lti m ed ia Con tents .San Jose,Calif orn i a:SPIE Press,2000:371-380. [29]The GN U Pro j ect.GNU W get vers i on1.8.2[EB/OL].(2002).h-t

t p://https://www.wendangku.net/doc/ad18739061.html,/s oft w are/w get/w get.ht m.l

[30]PET I TCOLAS F A,ANDERSON R J,K UHN M G.A tt acks on copy-

ri gh tm ark i ng s yste m s[C]//Proc of t he2nd Internati onalW orkshop on Infor mati on H i d i ng,I H 98.Portl and,Oregon:Sp ri nger-Verl ag,

1998:219-239.

[31]PETI TCOLAS F A.W ater m ark i ng sche m es eval uati on[J].I EEE

Signal Processing,2000,17(5):58-64.

[32]SOLACH IDIS V,TEFAS A,N I KOLAI D IS N,e ta l.A benchm arking

p rot ocol f or w ater m ark i ng m et hods[C]//Proc of I EEE In t C on f on

I mage Process i ng(I C IP 01).Thessal on i k,i G reece:[s.n.],2001:

1023-1026.

2283

第8期刘华平,等:语音信号端点检测方法综述及展望

建筑节能检测方法综述

建筑节能现场检测方法 田斌守 摘要本文综述了几种建筑物围护结构传热系数现场检测方法的原理、操作方法、适用条件,指出各种方法的优缺点及注意事项。 关键词建筑节能检测热流计法热箱法控温箱-热流计法非稳态法当今飞速发展的国民经济活动必然导致前所未有的资源能源消耗速度。而许多资源能源是不可再生的,为了人类的可持续发展,节约能源刻不容缓。据介绍,我国目前单位建筑面积采暖能耗相当于气候条件相近的发达国家的2~3倍,而建筑能耗也占全国能耗总量的27.5%。随着人民生活水平的不断提高、城市化进程的加快以及住房体制改革的深化,建筑能耗在我国增长趋势很大,很可能是我国今后能耗的一个主要增长点。为建设节约型社会,促进经济社会可持续发展,国家发展委员会发布了“节能中长期专项规划”,建筑节能作为三大重点领域中的一项,受到高度重视。建设部也相继发布了一系列建筑节能标准,其中包括若干强制性条款,目前正在建设领域逐步实施。 建筑节能工作从流程上可分为设计审查、现场检测、竣工验收三个大的阶段。对节能建筑的评价,从建设前期对施工图纸审查计算阶段、向现场检测和竣工验收转移是大势所趋。建筑节能现场检测也是落实建筑节能政策的重要保证手段。目前,全国范围内建筑节能检测都执行JGJ132-2001《采暖居住建筑节能检验标准》,它是最具权威性的检测方法,它的发布实施,为建筑节能政策的执行提供了一个科学的依据,使得建筑节能由传统的间接计算、目测定性评判到现在的直接测量,从此这项工作进入了由定性到定量、由间接到直接、由感性判断到科学检测的新阶段。 根据我们对建筑节能影响因素和现场检测的可实施性的分析,我们认为能够在实验室检测的宜在实验室检测(如门窗等作为产品在工程使用前后它的性状不会发生改变),除此之外,只有围护结构是在建造过程中形成的,对它的检测只能在现场进行。因此建筑节能现场检测最主要的项目是围护结构的传热系数,这也是最重要的项目。如何准确测量墙体传热系数是建筑节能现场检测验收的关键。目前对建筑节能现场检测的、围护结构(一般测外墙和屋顶、架空地板)的

语音端点检测

目录 摘要........................................................................................ 错误!未定义书签。Abstract .................................................................................. 错误!未定义书签。第1章绪论.. 0 1.1课题背景 0 1.2语音端点检测现状 0 1.3相关工作 (2) 1.4本文主要研究内容 (3) 第2章语音信号时频域分析及预处理 (4) 2.1语音信号简述 (4) 2.2语音信号分析 (4) 2.2.1 时域分析 (5) 2.2.2 频域分析 (5) 2.3语音信号分析处理 (7) 2.3.1 预加重 (7) 2.3.2 加窗分帧 (8) 2.4本章小结 (9) 第3章语音端点检测算法研究 (10) 3.1语音端点检测 (10) 3.1.1 简述 (10) 3.1.2 语音端点检测原理 (10) 3.1.3 语音端点检测算法及实施方案 (12) 3.2基于短时能量和短时过零率的语音端点检测 (13) 3.2.1 短时平均能量 (14) 3.2.2 短时过零率 (16) 3.2.3 基于短时能量和短时过零率的双门限端点检测 (18) 3.2.4 双门限语音端点检测实验 (19) 3.3基于倒谱特征的语音端点检测 (20) 3.3.1 倒谱特征 (20) I

3.3.2 倒谱距离 (21) 3.3.3 倒谱距离的检测算法流程 (23) 3.3.4 基于倒谱特征的语音端点检测试验分析 (25) 3.4基于谱熵的语音端点检测 (26) 3.4.1 谱熵特征 (26) 3.4.2 基于谱熵的端点检测流程 (27) 3.4.4 基于谱熵特征的语音端点检测试验分析 (28) 3.5算法比较 (30) 3.6本章小结 (33) 结论.................................................................................... 错误!未定义书签。参考文献................................................................................ 错误!未定义书签。致谢.................................................................................... 错误!未定义书签。附录1..................................................................................... 错误!未定义书签。附录2..................................................................................... 错误!未定义书签。附录3..................................................................................... 错误!未定义书签。附录4..................................................................................... 错误!未定义书签。附录5..................................................................................... 错误!未定义书签。

基于能量和过零率的语音端点检测

课题:基于能量和过零率的语音端点检测姓名:陈启望简盛龙颜艳丹 专业:2008级电子科学与技术(2)班 指导老师:胡朝炜 国立华侨大学信息科学与工程学院

一、前言 在复杂的应用环境下,从信号流中分辨出语音信号和非语音信号,是语音处理的一个基本问题。端点检测就是从包含语音的一段信号中确定出语音的起始点和结束点。正确的端点检测对于语音识别和语音编码系统都有重要的意义,它可以使采用的数据真正是语音信号的数据,从而减少数据量和运算量并减少处理时间。 二.方案选择 判别语音段的起始点和终止点的问题主要归结为区别语音和噪声的问题。 ①短时能量——如果能够保证系统的输入信噪比很高(即使最低电平的语音的能量也比噪声能量要高),那么只要计算输入信号的短时能量就基本能够把语音段和噪声背景区别开来。但是,在实际应用中很难保证这么高的信噪比,仅仅根据能量来判断是比较粗糙的。 ②短时平均过零率——它是语音信号时域分析中的一种特征参数。它是指每帧内信号通过零值的次数。在离散时间语音信号情况下,如果相邻的采样具有不同的代数符号就称为发生了过零。如果是正弦信号,其平均过零率就是信号频率的两倍除以采样频率,而采样频率是固定的。因此过零率在一定程度上可以反映信号的频率信息。语音信号不是简单的正弦序列,所以平均过零率的表示方法就不那么确切。 ③两级判决法——在用短时能量判断的同时,还需进一步利用短时平均过零率进行判断,因为清音比噪声的短时平均过零率比背景

噪声的平均过零率要高出高几倍。即基于能量和过零率的端点检测方法,也称双门限比较法。 综上所述,选择第三种方法,更加准确,实现的程序也不是很复杂。 三、方法的理论介绍 1.第一级判决 a.先根据语音短时能量的轮廓选取一个较高的门限T1,进行一个粗 判:语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外(即AB段之外)。 b.根据背景噪声的平均能量确定一个较低的门限T2,并从A点往左、 从B点往右搜索,分别找到短时能量包络与门限T2相交的两个点C和D,于是CD段就是用双门限方法根据短时能量锁判定的语音段。 2.第二级判决 以短时平均过零率为标准,从C点往左和从D点往右搜索,找到短时平均过零率低于某个门限T3的两点E和F,这便是语音段的起

残余应力检测方法概述

第1 页 共 2页 残余应力检测方法概述 目前国际上普遍使用的残余应力检测方法种类十分繁多,为便于分类,人们往往根据测试过程中被测样品的破坏与否将测试方法分为:应力松弛法(样品将被破坏)和无损检测法(样品不被破坏)两类。以下我们简单归纳了现阶段较为常用的一些残余应力检测方法。 一、常见的残余应力检测方法: 1. 应力松弛法 (1) 盲孔法 该方法最早由Mather 于1934年提出,其基本原理就是通过孔附近的应变变化,用弹性力学来分析小孔位置的应力,孔的位置和尺寸会影响最终的应力数值。由于这类设备操作起来非常简单,近年来被广泛使用。 (2) 切条法 Ralakoutsky 在1888年提出了采用该方法测量材料的残余应力。在使用这种方法时需要沿特定方向将试件切出一条,然后通过测量试件切割位置的应变来计算残余应力。 (3) 剥层法 该方法是通过物理或化学的方法去除试件的 一层并测量其去除后的曲率,根据测定的试件表面曲率变化就能计算出残余应力。该方法常用于形状简单的试件,且测试过程快捷。 2. 无损检测方法 (1) X 射线衍射法 X 射线方法是根据测量试件的晶体面间距变化来确定试件的应变,进而通过弹性力学方程推导计算得到残余应力,目前最被广泛使用的是Machearauch 于1961提出的sin2ψ方法。日本最早研制成功了基于该方法的X 射线残余应力分析仪,为该方法的推广做出了巨大的贡献。 (2) 中子衍射法。 中子衍射方法的原理和X 射线方法本质上是一样的,都是根据材料的晶体面间距变化来求得应变,并根据弹性力学方程计算残余应力。但中子散射能量更高,可以穿透的深度更大,当然中子衍射的成本也是最昂贵的。 (3) 超声波法。 该方法的物理和实验依据是S.Oka 于1940年发现的声双折射现象,通过测定声折射所导致的声速和频谱变化反推出作用在试件上的应力。试件的晶体颗粒及取向会影响数据的准确度,尽管超声波方法也属无损检测方法,但其仍需进一步完善。 二、最新的残余应力检测方法 cos α方法早在1978年就由S.Taira 等人提出, 但真正应用于残余应力测试设备中还是近几年的事情。日本Pulstec 公司于2012年研制出了世界上首款基于cos α方法的X 射线残余应力分析仪,图1是设备图片(型号:μ-x360n )。

基于Matlab的语音端点检测实验研究

浙江科技学院学报,第19卷第3期,2007年9月Jo ur na l of Zhejiang U niv ersity of Science and T echnolog y Vo l.19No.3,Sep.2007 收稿日期:2007 04 23 作者简介:张震宇(1976 ),男,浙江兰溪人,讲师,硕士,主要从事电子技术和语音信号处理的研究。 基于Matlab 的语音端点检测实验研究 张震宇 (浙江科技学院自动化与电气工程学院,杭州310023) 摘 要:端点检测在语音识别中占有十分重要的地位,直接影响着系统的性能。今借助于M atlab 这一功能强大的工具,成功地开展了语音端点检测的实验研究。首先简介端点检测涉及的几个基本概念,然后分析端点检测的基本方法,最后分别进行孤立字、孤立词的语音检测实验;重点阐述实验开展的具体过程,并给出部分关键源代码。实验取得了良好的效果。 关键词:端点检测;短时能量;过零率;M atlab 中图分类号:T P391.42 文献标识码:A 文章编号:1671 8798(2007)03 0197 05 Expe rime ntal Study on Speec h Endpoint Detection Base d on Matlab ZH ANG Zhen y u (Schoo l o f Automat ion and Electr ical Engineer ing,Zhejiang U niv ersity of Science and T echnolog y,H angzhou,310023,China) Abstract:Endpoint detection plays an important ro le in speech recog nition,w hich dir ectly af fects perform ance of the speech system.With M atlab,exper im ents to detect speech endpoint are developed successfully.Firstly ,several basic concepts are introduced briefly.T hen,the basic method for endpoint detection is analyzed.At last,2experiments for isolated wo rd are car ried out.T he detailed ex perim ent procedure is focused on and par t of key source codes is given,w hich gains favourable effect. Key words:endpo int detection;short term energy ;zer o crossing r ate(ZCR);M atlab 所谓端点检测,就是从一段给定的语音信号中找出语音的起始点和结束点。在语音识别系统中,正确、有效地进行端点检测不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰、提高语音识别的正确率。研究表明,即使是在安静的环境下,语音识别系统一半以上的错误可能主要来自端点检测 [1] 。除此之外,在语音合成、编码等系统 中,高效的端点检测也直接影响甚至决定着系统的主要性能。因此,端点检测的效率、质量在语音处理系统中显得至关重要,广泛开展端点检测实现手段方面的研究,有一定的现实意义。 笔者查阅了大量关于端点检测的文献资料,典型的如文献[2 5]等,发现大部分文献把重点放在理论分析层面上,集中研究了如何较好地改进检测方

数字信号处理教语音信号处理课程设计心得

这次课程设计虽然遇到了很多问题,很多困难,但是也学到了很多东西。不仅学到了书本上的东西,而且学到了很多课本上没有的东西,很多程序里的东西,特别是程序语法,总是有错误,但是总是不知道错在哪里,在细心的检查下,终于找出了错误和警告,排除困难后,程序编译就通过了,心里终于舒了一口气。还有各种各样问题,通过查网络和请教同学来弄明白,这个过程是痛苦的,有时候有些问题不能马上解决,感到很头痛,真想放弃这个问题,但是坚持下来,并且解决这些问题的时候,真的有种苦尽甘来的感觉。 应用MATLAB进行语音信号的处理是与我们所学课程及专业紧密相连的,有着很强的实践性。做这个课程设计的时候,并不是非常的顺利,我也有遇到很多困难。刚开始,我用自己的mp3录制的一个wav文件做语音信号处理,程序始终现实如下错误提示: ??? Error using ==> wavread Error using ==> wavread Data compression format (IMA ADPCM) is not supported. 我在查阅了很多资料,在网上也查阅相关信息,花费了大量时间也没找出结果,最后发现在WAV格式的语音文件有两种格式,即PCM格式和IMA ADPCM格式,而在MATLAB中用wavread函数进行语音处理时,并不能直接处理IMA ADPCM格式的语音信号,经

过格式转换之后(选择PCM格式),我运行出了正确的结果。刚开始由于对滤波器的滤波原理并不是很了解,于是我又翻出学过的数字信号处理课本,认真研究起各种滤波器了,这才使我明白了大多数滤波器是如何工作地,不再单单只是懂理论,理论与实际相结合是很重要的,只有理论知识是远远不够的,只有把所学的理论知识与实践相结合起来,从理论中得出结论。实验过程中,我感觉到初始语音信号和滤波输出后的语音信号在音色上有一定的差别,这说明了信号在处理、传输过程中有损耗。不管对于什么样的课题,其实也是有很多东西可以发掘的,这需要我们在平时多积累,多思考,只有这样,才能取得更大的进步,才能学有所用,学有所长。 通过这次设计,进一步加深了对数字信号处理的了解,让我对它有了更加浓厚的兴趣。通过这次课程设计使我懂得了,平时的理论知识只有通过自己动手做一个课题,从做这个课题的过程中发现问题,解决问题,这个学习的过程,会比我们平时只通过课堂上听讲得到的知识更加生动立体,跟让人记忆深刻。在设计的过程中,我发现同学间的互帮互助真的很重要。当我们有问题的时候,大家一起讨论,将自己的观点表达出来,当发现别人的观点与自己的不同的时候,我们通过查阅资料找到最终正确的答案,这个过程是互利互惠的。这也培养了我们以后走上工作岗位后的团队精神,对我们以后的为人处世都有很大帮助。同时我们在设计的过程中发现了自己的不足之处,对以前所学过的知识理

水中油类测定分析方法的综述

水中油类测定分析方法的综述 李海州 (浙江海洋学院海洋与技术学院,浙江舟山316004) [摘要]:本文对国内外学者有关水中油类的测定方法做了比较系统的综述。对几种水中油类的常用方法,重量法、紫外分光光度法、荧光分光光度法、红外分光光度法和非分散红外光度法做了简要介绍,并对其优劣进行了评价。另外,介绍了测定水中油类含量存在的难点、发展趋势和技术改进等。 关键词:水;油类;测定分析 油类是指任何类型的(矿物油、植物油等)及其炼制品(汽油、柴油、机油、煤油等)、油泥和油渣[1]。油类主要有漂浮油、分散油、乳化油、溶解油和油类附着在固体悬浮物表面而形成油膜---固体物5种形式。全世界每年至少有500—1000吨油类通过各种途径进入水体,由于漂浮于水体表面的油将会影响空气和水体表面氧的交换,而分散于水体中以及吸附于悬浮颗粒上或以乳化状态存在于水体的油易被微生物氧化分解,并将消耗水中的溶解氧,从而使水质恶化;油膜还能附着于鱼鳃上,使鱼类窒息而死;当鱼类产卵期,在含有油类污染物质废水中孵化的鱼苗,多数为畸形,生命力低下,易于死亡;含有油类污染物的废水进入水体后,造成的危害很为严重,不仅影响水生生

物的生长,降低水体的自我净化能力,而且影响水体附近的环境,因此,油类是水体环境中的主要污染物之一,在水质监测中,也是一项重要的监测项目。要消除油类对环境的污染和危害,首先就必须能够准确的测定水中油类的含量。 然而,水中油类含量测定又是比较复杂的,因为水中的油类成分是相当复杂的,此外不同地区、不同行业水体中油类污染的成分也不同,无法有用单一的油标准进行对照,无法准确测定,所以水体中油类物质含量的测定问题是环境分析化学一个古老、重要而又困难的问题。目前水体中油类测定常用的方法有重量法、紫外分光光度法、荧光分光光度法、非分散红外光度和国家最新颁布的国家标准方法红外分光光度法等[2],本文简要介绍以上几种方法的原理和优劣,及人们对水体中油类监测分析方法的创新和改进。 1.重量法 重量法是用有机萃取剂(石油醚或正己烷)提取酸化了的样品中的油类,将溶剂蒸发掉后,称重后计算油类含量。重量法应用范围不受油品的限制,可测定含油量较高的污水,不需要特殊的仪器和试剂,测定结果的准确度较高、重复性较好。缺点是损失了沸点低于提取剂的油类成分,方法操作复杂,灵敏度低,分析时间长,并要耗费大量的提取剂,而且方法的精密度随操作条件和熟练程度不同差异很大。因此,水体中动植物油含量较高的,采用该方法较适合,可以得到比较准确的结果;工业废水、石油开采及炼制行业中含油量较高,此方

基于MATLAB的语音端点检测

短时能量matlab实现: [x]=wavread('song1.wav'); x=x/max(abs(x)); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen=240; FrameInc=80; yframe=enframe(x,FrameLen,FrameInc); amp1=sum(abs(yframe),2); subplot(3,1,2); plot(amp1); axis([1 length(amp1) 0 max(amp1)]); ylabel('Amplitude'); legend('amp1=∑│x│'); amp2=sum(abs(yframe.*yframe),2); subplot(3,1,3); plot(amp2); axis([1 length(amp2) 0 max(amp2)]); ylabel('Energy'); legend('amp1=∑│x*x│'); 短时过零率matlab实现: [x]=wavread('song1.wav'); figure; subplot(3,1,1); plot(x); axis([1 length(x) -1 1]); ylabel('Speech'); FrameLen = 240; FrameInc = 80; amp = sum(abs(enframe(filter([1 -0.9375], 1, x), FrameLen, FrameInc)), 2); subplot(312) plot(amp); axis([1 length(amp) 0 max(amp)]) ylabel('Energy'); tmp1 = enframe(x(1:end-1), FrameLen, FrameInc); tmp2 = enframe(x(2:end) , FrameLen, FrameInc); signs = (tmp1.*tmp2)<0; diffs = (tmp1 -tmp2)>0.02; zcr = sum(signs.*diffs, 2); subplot(3,1,3); plot(zcr);

目标检测方法简要综述

龙源期刊网 https://www.wendangku.net/doc/ad18739061.html, 目标检测方法简要综述 作者:栗佩康袁芳芳李航涛 来源:《科技风》2020年第18期 摘要:目标检测是计算机视觉领域中的重要问题,是人脸识别、车辆检测、路网提取等领域的理论基础。随着深度学习的快速发展,与基于滑窗以手工提取特征做分类的传统目标检测算法相比,基于深度学习的目标检测算法无论在检测精度上还是在时间复杂度上都大大超过了传统算法,本文将简单介绍目标检测算法的发展历程。 关键词:目标检测;机器学习;深度神经网络 目标检测的目的可分为检测图像中感兴趣目标的位置和对感兴趣目标进行分类。目标检测比低阶的分类任务复杂,同时也是高阶图像分割任的重要基础;目标检测也是人脸识别、车辆检测、路网检测等应用领域的理论基础。 传统的目标检测算法是基于滑窗遍历进行区域选择,然后使用HOG、SIFT等特征对滑窗内的图像块进行特征提取,最后使用SVM、AdaBoost等分类器对已提取特征进行分类。手工构建特征较为复杂,检测精度提升有限,基于滑窗的算法计算复杂度较高,此类方法的发展停滞,本文不再展开。近年来,基于深度学习的目标检测算法成为主流,分为两阶段和单阶段两类:两阶段算法先在图像中选取候选区域,然后对候选区域进行目标分类与位置精修;单阶段算法是基于全局做回归分类,直接产生目标物体的位置及类别。单阶段算法更具实时性,但检测精度有损失,下面介绍这两类目标检测算法。 1 基于候选区域的两阶段目标检测方法 率先将深度学习引入目标检测的是Girshick[1]于2014年提出的区域卷积神经网络目标检测模型(R-CNN)。首先使用区域选择性搜索算法在图像上提取约2000个候选区域,然后使用卷积神经网络对各候选区域进行特征提取,接着使用SVM对候选区域进行分类并利用NMS 回归目标位置。与传统算法相比,R-CNN的检测精度有很大提升,但缺点是:由于全连接层的限制,输入CNN的图像为固定尺寸,且每个图像块输入CNN单独处理,无特征提取共享,重复计算;选择性搜索算法仍有冗余,耗费时间等。 基于R-CNN只能接受固定尺寸图像输入和无卷积特征共享,He[2]于2014年参考金字塔匹配理论在CNN中加入SPP-Net结构。该结构复用第五卷积层的特征响应图,将任意尺寸的候选区域转为固定长度的特征向量,最后一个卷积层后接入的为SPP层。该方法只对原图做一

课程四设计_基于IIR的有噪声语音信号处理

《基于IIR的有噪声语音信号处理》 第1章绪论 (1) 第2章基于滤波器的语音信号的处理 (2) 2.1语音信号的采集 (2) 2.2设计IIR数字滤波器 (2) 2.3用滤波器对加噪语音信号进行滤波 (7) 第3章仿真及其结果分析 (7) 3.1 语音信号的时频分析 (7) 3.2 加噪后的语音信号及其频谱分析 (9) 3.3 比较滤波前后语音信号的波形及频谱 (10) 3.4 IIR滤波器处理结果的的分析 (16) 第二章:基于滤波器的语音信号的处理 选择一个语音信号作为分析的对象,或录制一段语音信号,对其进行频谱分析;利用MATLAB中的随机函数产生噪声加入到语音信号中,模仿语音信号被污染,并对其进行频谱分析;设计IIR数字滤波器,并对被噪声污染的语音信号进行滤波,分析滤波后信号的时域和频域特征,最后回放语音信号。 2.1 语音信号的采集 利用WINDOWS 操作系统可以进行数字信号的采集。将话筒输入计算机的语音输入插口上,启动录音机。按下录音按钮,接着对话筒说话“语音信号处理”,说完后停止录音,屏幕左侧将显示所录声音的长度。点击放音按钮,可以实现所录音的重现。以文件名“speech”

保存入g :\ MATLAB \ work 中。可以看到,文件存储器的后缀默认为. wav ,这是WINDOWS 操作系统规定的声音文件存的标准。 1、原始信号的采集及分析 源程序: [y1,fs,bits]=wavread('D:\MATLAB\ai2.wav'); sound(y1,44000); %播放语音信号 y=fft(y1); %对信号做FFT变换 f=fs*(0:511)/1024; figure(1) subplot(2,1,1); plot(abs(y(1:512))) %做原始语音信号的FFT频谱图 title('原始语音信号FFT频谱') subplot(2,1,2);%做原始语音信号的时域图形 plot(y1) title('原始语音信号波形'); xlabel('时间 n'); ylabel('幅值 n'); 2.2设计IIR数字滤波器 IIR滤波器设计方法有间接法和直接法,间接法是借助于模拟滤波器的设计方法进行的。其设计步骤是:先设计过渡模拟滤波器得到系统函数H(s),然后将H(s)按某种方法转换成数字滤波器的系统函数H(z)。FIR滤波器比鞥采用间接法,常用的方法有窗函数法、频率采样发和切比雪夫等波纹逼近法。对于线性相位滤波器,经常采用FIR滤波器。

语音端点检测方法研究

语音端点检测方法研究1 沈红丽,曾毓敏,李平,王鹏 南京师范大学物理科学与技术学院,南京(210097) E-mail:orange.2009@https://www.wendangku.net/doc/ad18739061.html, 摘要: 端点检测是语音识别中的一个重要环节。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题.鉴于此,本文介绍了语音端点算法的基本研究现状,接着讨论并比较了语音信号端点检测的方法,分析了各种方法的原理及优缺点,如经典的基于短时能量和过零率的检测方法,基于频带方差的检测方法,基于熵的检测方法,基于倒谱距离的检测方法等.并基于这些方法的分析,对端点检测方法做了进行了总结和展望,对语音信号的端点检测的进一步研究具有深远的意义。 关键词:语音信号;端点检测;噪声 中图分类号:TP206. 1 1. 引言 语音信号处理中的端点检测技术,是指从包含语音的一段信号中确定出语音信号的起始点及结束点。语音信号的端点检测是进行其它语音信号处理(如语音识别、讲话人识别等)重要且关键的第一步. 研究表明[1],即使在安静的环境中,语音识别系统一半以上的识别错误来自端点检测器。因此,作为语音识别系统的第一步,端点检测的关键性不容忽视,尤其是噪声环境下语音的端点检测,它的准确性很大程度上直接影响着后续的工作能否有效进行。 确定语音信号的起止点, 从而减小语音信号处理过程中的计算量, 是众多语音信号处理领域中一个基本而且重要的问题。有效的端点检测技术不仅能减少系统的处理时间,增强系统处理的实时性,而且能排除无声段的噪声干扰,增强后续过程的识别性。可以说,语音信号的端点检测至今天为止仍是有待进一步深入的研究课题。 2. 语音端点检测主要方法和分析 在很长一段时间里,语音端点检测算法主要是依据语音信号的时域特性[2].其采用的主要参数有短时能量、短时平均过零率等,即通常说的基于能量的端点检测方法。这些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。近年来,随着通信业的迅猛发展,又出现了很多的语音端点检测算法。它们主要是通过采用各种新的特征参数,以提高算法的抗噪声性能。如基于倒谱系数[3]、频带方差[4]、自相关相似距离[5] 、信息熵[6]等也逐渐的被应用到端点检测中。有时,还通过将信号的几种特征组合成为一个新的特征参数来进行端点检测。 2.1基于短时能量和短时平均过零率的检测方法 该方法也称为双门限比较法,它是在短时能量检测方法的基础上,加上短时平均过零率,利用能量和过零率作为特征来进行检测.在信噪比不是很低的情况下,根据语音信号的能量大于噪声噪声能量的假设,通过比较输入信号的能量与语音能量阈值的大小,可以对语音段和非语音段加以区分[7].输入每帧信号的能量可由下式得到[7-8]: 1本课题得到江苏省普通高校自然科学研究计划资助项目(项目批准号:07KJD510110)的资助。

语音信号处理课程设计

武汉科技大学 语音信号处理系统 体验报告 专业:电子信息工程 班级:1301 班 学号:201304135050 姓名:揭璐璐 2016 年5 月15 日

一、系统名称: 语音合成应用系统:VoiceReader语音合成软件 二、系统基本情况: VoiceReader使用了北京捷通华声语音技术公司灵云平台语音合成(TTS)技术能力,又称文语转换技术,能将任意文本信息实时转化为标准流畅的语音朗读,简单讲就是让“机器开口讲话”.TTS技术涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是语言信息处理领域的一项前沿技术。通过TTS技术,计算机可以在任何时候将任意文本“轻松”转换成具有高自然度的语音,从而真正实现让机器“像人一样开口说话”。 VoiceReader 5.0.0默认支持中文、英文、粤语等语言;支持男声、女声、童声等多种音色。将多种不常用、不适用的特效去除,仅保留最基本的音量、音高、语速进行调节等功能,使操作更加简单。流程一目了然;还提供单次播放、循环播放等丰富的播放模式,并可自定义循环播放的间隔时间。 并且定制化后的VoiceReader 5.0.0不但提供阿拉伯语、法语、日语、韩语、俄语、西班牙语、泰语、葡萄牙语、德语、粤语、意大利语、印尼语、加拿大法语、土耳其语、荷语、希腊语、美式英语、墨西哥西班牙语等20种语言的语音合成,并有近50余种发音人可供选择。

三、体验步骤: 1.打开软件 2.在面板上输入或打开需要朗读的文本

3.设置,选择需要的语言,发音人,音量,音高和语速。 4.设置背景音乐,并设置背景音乐音量。 5.播放设置,设置循环播放模式和播放间隔,按下播放键开始播放。按停止键停止。最后通过合成文件按钮合成文件保存。

IEC中文版检测方法

9 无色镀铬金属和有色镀铬金属样品中六价铬(CrⅥ)的检测 9.1 范围、应用和方法概述 这种方法描述了无色镀铬金属和有色镀铬金属样品中六价铬的测试程序。由于具有较强反应特性,铬酸盐中六价铬的浓度会随时间和保存条件的变化而强烈变化。因此,样品应该保存在适当的环境条件下以及本文中所描述的分析方法都应该在镀铬后的30天内进行。样品保存的环境条件如下:湿度45-70%,气温15-35%。 该方法包括两个主要程序:点测试过程和沸水萃取过程。由于点测试过程应用方便简单,因此,我们可以先做点测试。如果点测试的分析结果不确定,可以通过沸水萃取进一步对结果进行确认。当用此法检测到样品中有六价铬存在的时候,可以认为该样品具有六价铬镀层。 六价铬对人体是有害的,它可以诱导有机体突变和致癌。在本方法中所有怀疑含有六价铬的样品都应该通过适当的防护措施对其进行处理。 该方法采纳于ISO 3613: 2000(E),“锌、镉、铝锌合金以及锌铝合金上涂层铬酸盐转化——测试方法”。 9.2 参考资料、标准化参考资料、参考方法和参考材料 a)ISO 3613: 2000(E),“锌、镉、铝锌合金以及锌铝合金上涂层铬酸盐转化——测试方法” b)ZVO-0102-QUA-02“通过点分析方法对局部钝化层六价铬进行定性分析” c)GMW3034“不存在六价铬涂层” d)DIN 50993-1“对于防腐蚀涂层中六价铬的测定,第一部分:定性分析” 9.3 术语及定义 下面给出了该文件中用到的重要术语的解释说明: a) 无

9.4 仪器/ 设备和材料 a)校准过的天平:精确度为0.1mg的分析天平。 b)温度计或者电热调节器或者其它温度测量设备:测定的温度可以达到100℃。 c)比色仪:可选择能在540nm处测量并能提供1cm或更长光程的分光光度计,也可以选择 能提供1cm或更长的光程并装有在540nm附件具有最大的透过率的绿相黄滤光器的滤色光度计。 d)实验室的器具:所有可以再使用的玻璃器(玻璃、石英、聚乙烯、聚四氟乙烯等等)包 括样品池都必须用清洁剂和水浸泡一夜,然后用水清洗,接着用稀释的硝酸和盐酸混合液(硝酸:盐酸:水,1:2:9)浸泡4小时,最后用自来水和超纯水清洗干净。如果通过方法空白分析证明玻璃器是相当干净的,那么以上清洗过程也可以有选择的进行。 e)量筒:A级玻璃器,100ml或者合适精密度与准确度同类物 f)不同型号的移液管:A级玻璃器或者合适精密度与准确度的同类物。 g)消解器:体积为250ml的硼硅酸盐玻璃或者石英容器 9.5 溶剂 a)1,5- 二苯卡巴肼,分析纯 a) 1 mg/kg 的K2Cr2O7标准溶液:把0.113g的K2Cr2O(分析纯)溶于DI水中,然后用去离子 水稀释至100g。溶液的保存期限大约1年。称量0.25g该溶液于另一个玻璃器中,用去离子水稀释至100g。 b) 丙酮,分析纯 c) 乙醇(96%),分析纯 d) 正磷酸溶液(75%),分析纯 c) 去离子水,去离子水应该没有干扰 9.6 试样准备 测试之前,样品表面不能有任何污染物、指印或其它外来污点。如果表面涂有薄油,测试之前需要在室温下(不高于35oC)用清洁剂、用合适的溶剂沾湿的软布去除,或者在室温

建筑节能检测方法综述

建筑节能检测方法综述 The Standardization Office was revised on the afternoon of December 13, 2020

建筑节能现场检测方法 田斌守 摘要本文综述了几种建筑物围护结构传热系数现场检测方法的原理、操作方法、适用条件,指出各种方法的优缺点及注意事项。 关键词建筑节能检测热流计法热箱法控温箱-热流计法非稳态法当今飞速发展的国民经济活动必然导致前所未有的资源能源消耗速度。而许多资源能源是不可再生的,为了人类的可持续发展,节约能源刻不容缓。据介绍,我国目前单位建筑面积采暖能耗相当于气候条件相近的发达国家的2~3倍,而建筑能耗也占全国能耗总量的%。随着人民生活水平的不断提高、城市化进程的加快以及住房体制改革的深化,建筑能耗在我国增长趋势很大,很可能是我国今后能耗的一个主要增长点。为建设节约型社会,促进经济社会可持续发展,国家发展委员会发布了“节能中长期专项规划”,建筑节能作为三大重点领域中的一项,受到高度重视。建设部也相继发布了一系列建筑节能标准,其中包括若干强制性条款,目前正在建设领域逐步实施。 建筑节能工作从流程上可分为设计审查、现场检测、竣工验收三个大的阶段。对节能建筑的评价,从建设前期对施工图纸审查计算阶段、向现场检测和竣工验收转移是大势所趋。建筑节能现场检测也是落实建筑节能政策的重要保证手段。目前,全国范围内建筑节能检测都执行JGJ132-2001《采暖居住建筑节能检验标准》,它是最具权威性的检测方法,它的发布实施,为建筑节能政策的执行提供了一个科学的依据,使得建筑节能由传统的间接计算、目测定性评判到现在的直接测量,从此这项工作进入了由定性到定量、由间接到直接、由感性判断到科学检测的新阶段。 根据我们对建筑节能影响因素和现场检测的可实施性的分析,我们认为能够在实验室检测的宜在实验室检测(如门窗等作为产品在工程使用前后它的性状不会发生改变),除此之外,只有围护结构是在建造过程中形成的,对它的检测只能在现场进行。因此建筑节能现场检测最主要的项目是围护结构的传热系数,这也是最重要的项目。如何准确测量墙体传热系数是建筑节能现场检测验收的关键。目前对建筑节能现场检测的、围护结构(一般测外墙和屋顶、架

MATLAB在_语音信号处理_课程教学中的应用

-183 - 引言 《语音信号处理》课程是我校电子信息科学与技术和通信工程专业四年级的专业选修课程,课程内容较多,涉及大量的数学运算和公式推导,由于概念抽象,使得学生难以理解。因此,淡化理论的推导过程,使概念直观化,将是帮助学生理解教学内容的关键之一。 基于MATLAB 平台,可以将教学内容中的一些难以理解的要点或者抽象的概念用M A TL A B 语言开发成可执行的程序,从而将“语音信号处理”课程中较难掌握和理解的重点理论和方法通过编程演示出来,使学生对所学知识的理解更加透彻。 本文以MATLAB 实现对语音信号的端点检测以及整个语音识别系统的仿真为例,来说明MALAB 在“语音信号处理”这门课程教学中的应用。 1 语音信号的端点检测 MATLAB在《语音信号处理》课程教学中的应用 李爱平1 李爱勤2 王小娟1 1.西藏民族学院 712082;2.解放军信息工程大学 450000 端点检测算法的作用是对语音信号中的有声片段和无声片段进行分割,从而可以找出语音段的起始点和终止点,才有可能使采集到的数据是真正要分析的语音信号,这样不但减少了数据量、运算量和处理时间,同时也有利于语音识别系统识别率的提高。端点检测常用的方法是双门限法,一般利用短时过零率和短时能量来实现。 1.1 短时能量 对语音信号的处理一般是以帧为单位的,一帧语音信号的长度一般取20ms 左右。设语音波形的第n 帧语音信号为x n (m ),则第n 帧语音信号x n (m )的短时能量用E n 为: 1.2 短时过零率 短时过零率表示一帧语音信号波形穿过横轴(零电平)的次数。过零分析是语音时域分析中最简单的一种。对于连续语音信号,过零意味着时域波形通过时间轴;而对于离散信号,如果相邻的取样值的改变符号称为过零,过零率就是样本改变符号的次数。定义语音信号x n (m )的 短时过零率: 其中sng[ ] 为符号函数,即: 1.3利用MATLAB 实现对语音信号的端点检测 在实验室环境中,在Windows XP 系统下采用 Windows 自带录音软件录制,使用采样率44kHz,16bit 的语音信号,取语音信号的帧长为240点,帧移长度为80点,端点检测过程基于MATLAB 实现。实验语音源为“1、2、3”3个汉语数字的发音。图1中a 是其加窗分帧后的语音信号,b 是其短时能量,c 是其短时过零率的波形图。 从其仿真界面图可以看出,只要对短时能量和短时过零率设定相应的门限参数,就可以把语音信号的有声段检测出来 。 2 利用MATLAB 实现对语音识别系统的仿真 2.1 原理简介 语音识别就是让机器能听懂人类的语 音。一个语音识别系统主要包括语音信 DOI :10.3969/j.issn.1001-8972.2010.17.093

大豆异黄酮的测定方法综述(精)

NANCHANG UNIVERSITY 功能食品学综述论文 学 院:生命科学与食品工程学院专业:食品科学与工程班 级:学号:学生姓名:廖杰 指导教师:王远兴

起讫日期: 2014年 3月至 2014年 4月 大豆异黄酮的测定方法 摘要 本文在参考国内外大量文献的基础上,对大豆异黄酮的测定方法进行了系统的总结和介绍 关键词:大豆异黄酮;测定方法 Abstract: In reference on the basis of a large number of literature at home and abroad, this paper method of the determination of soybean isoflavones were summarized and introduced Keywords:soy isoflavones method 目录 摘 要 ........................................................................................................................................... ........... I Abstract:................................................................................................................................. .............. I 目 录 ........................................................................................................................................... .......... II 1根据紫外吸收特性检测方 法 ......................................................................................................... 1 1.1紫外分光光度法(UV .. (1)

语音处理技术研究【文献综述】

毕业设计文献综述 电子信息科学与技术 语音处理技术研究 【摘要】:语音处理技术是对语音信号进行采集、压缩、滤波、增强等技术的集合定义。该技术是计算机音频系统的核心,在军事、医学、通信等领域都有较为广泛的应用。本文介绍了语音处理技术研究现状及发展前景。通过对三种主要音频滤波技术的对比和研究归纳,总结了每种技术的特点及适用范围,阐述了语音处理技术的发展方向。 【关键词】:数字信号处理;语音信号处理;音频滤波 一、背景 1.1语音处理技术技术 集就是把这种声波信号经语音信号是一种频率变化范围较宽(16~3000 Hz)的机械波。语音采[]1 过麦克风和高频放大器转换成具有一定幅度的模拟量电信号,再经离散化变成数字量,成为计算机 理,确定语音信号的采样频率。语音处理技术的研究结果能贮存和处理的信号。根据香农采样定[]2 表明:特定的语音信号是由其过零率、帧能量、频谱构成等多因素决定的。 音频是个专业术语,人类能够听到的所有声音都称之为音频。声音是一种模拟信号,它可能包波是语音分析系统中的关键环节,是当今社会前沿技术之一。为了获得更高含各种噪音。音频滤[]3 的音频质量,我们必须对声音中包含的噪声通过某种方法进行滤除,剩下的就是我们所需要的有用信号。这种滤除噪声的方法既为我们今天要讨论的音频滤波技术。 1.2语音处理技术的研究现状 语音处理技术在计算机软硬软件的相结合的方式下,通过几十年的探索,其研究和开发正进入一个黄金时代。在世界发达国家制定的高技术发展规划中,语音处理技术的地位十分引人注目。20世纪60年代中期形成的一系列数字信号处理的理论与算法,如数字滤波器、快速傅里叶变换(FFT)的等语音信号处理的理论与技术基础。随着信息技术的飞速发展,语音信号处理取得了重大进展。 术(LPC),并成为进入70年代之后,提出了用于语音信号的信息压缩和特性提取的线性预测技[]4 语音信号处理最强有力的工具。80年代初,一种新的基于聚类分析的高效数据压缩技术—矢量量化 型(HMM)描述语音信号过程的产生时80年代(VQ)应用于语音信号处理中,而用隐马尔科夫模[]5 语音信号处理技术的重大发展。近年来人工神经网(ANN)的研究取得了迅速发展,语音信号处理技

相关文档
相关文档 最新文档