文档库 最新最全的文档下载
当前位置:文档库 › 语音增强算法的研究与实现

语音增强算法的研究与实现

语音增强算法的研究与实现
语音增强算法的研究与实现

语音增强算法的研究与实现

目录

录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声

明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务

书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报

告 ..................................... 错误~未定义书签。IV 摘

要 ..................................................................... .................................................................. I Abstract ........................................................... .......................................................................

I

1 引

言 ..................................................................... .. (1)

2 语音增强算法概

述 ..................................................................... (1)

2.1语音增强的应用背

景 ..................................................................... .. (1)

2.2 语音信号及噪声的特

点 ..................................................................... (2)

2.2.1 语音信号的特

点 ..................................................................... . (2)

2.2.2 噪声特

性 ..................................................................... . (3)

2.3 人耳的感知特

性 ..................................................................... (3)

2.4 字化语音的加窗处

理 ..................................................................... . (4)

3 基于短时谱估计的语音增强算

法 ..................................................................... . (5)

3.1 幅度谱相减

法 ..................................................................... . (5)

3.2 功率谱相减

法 ..................................................................... . (6)

3.3 维纳滤波

法 ..................................................................... .. (7)

4噪声估

计 ..................................................................... .. (8)

4.1 平滑噪声功率

谱 ..................................................................... (9)

4.2 带噪语音的最小跟踪

法 ..................................................................... . (9)

5 matlab仿

真 ..................................................................... .. (10)

5.1 仿真环

境 ..................................................................... . (10)

5.2仿真结果及分

析 ..................................................................... .. (10)

结 ..................................................................... . (13)

参考文

献 ..................................................................... .. (14)

谢 ..................................................................... ............................. 错误~未定义书签。14

I

语音增强算法的研究与实现

摘要:本文对基于短时谱估计的语音增强算法以及噪声功率谱密度的估计算法进行了研究,并用Maltab语言对谱相减语音增强算法进行了实现。仿真结果

明单纯的谱减法语音增强算法的语音增强效果并不理想,对噪声进行消除的同时

会造成语音信号的严重损伤而产生明显的“音乐噪声”。

关键词:语音增强;谱减法;噪声估计;维纳滤

Study and Implementation of Speech Enhancement

Algorithms

Abstract: Short-term spectral estimation based on the speech enhancement algorithm as well as the noise power spectral density of the estimation algorithm have been studied and used the language of Maltab spectral subtraction speech enhancement algorithm to achieve. The

simulation results show that a simple spectral subtraction speech enhancement speech enhancement algorithm has not yielded satisfactory results, to eliminate noise at the same time can cause serious injury to the speech signal resulting from the apparent "noise music."

Key words: speech enhancement; spectral subtraction; noise estimation; Wiener filter

I

1 引言

人们在语音通信过程中不可避免的受到周围环境和传输媒介引入的噪声、通信设备内部的电噪声、其他讲话者的干扰,这些干扰最终将接受者接受到的语音不再是纯净的原始语音,而是被污染过的带噪语音。而且环境噪声的污染使得许多语音处理系统的性能恶化。

语音增强是从带噪声的混合信号中提取语音信息,在国家安全、通信等实

。语音增强是对带噪语音进行处理,以改善语音质际生活领域中有着广泛的应用

量、提高语音的清晰度、可懂度和舒适度,使人易于接受或提高语音处理系统的性能。语音增强是语音处理的一个重要领域,它是解决噪声污染、改善语音质量的一种有效手段。由于语音常常受到环境噪声的干扰,所以研究语音增强技术很有价值。

本文采用幅度谱相减法,幅度谱相减法是对于带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱,利用人耳对语音相位的不敏感性,语音相位谱则近似于带噪语音的相位谱代替。

本文首先介绍了语音增强的应用背景,语音信号及噪声的特点和人耳的感知特性;其次介绍了几种语音增强的算法,包括幅度谱相减法、功率谱相减法、维纳滤

波法;再次介绍了噪声功率谱估计的方法;最后进行matlab仿真,通过语音增强前后语音谱的对比,直观形象的说明了幅度谱相减法增强语音的效果。

2 语音增强算法概述

2.1语音增强的应用背景

随着现代科学的蓬勃发展,人类社会越来越显示出信息社会的特点,通信或信息交换已成为人类社会存在的必要条件,正如衣食住行是人类生存的必要的一样,语音作为语言的声学表现,是人类信息最有效、最方便的手段之一。

然而,人们在语音通信过程中不可避免的受到周围环境和传输媒介引入的噪声、通信设备内部的电噪声、其他讲话者的干扰,这些干扰最终将接受者接受到

1

的语音不在是纯净的原始语音,而是被污染过的带噪语音。例如,在汽车、街道、机场中,受到强背景噪声的干扰,严重影响通话质量。而且环境噪声的污染使得许多语音处理系统的性能恶化。例如,语音识别已取得重大进展,正在进入实用阶段。但目前语音识别系统是在安静的环境中工作的,在噪声环境尤其是在强噪声环境中,语音识别系统的识别率将受到严重影响,低速率语音编码,特别是参数编码,由于语音生成模型是低速率编码的基础,当模型参数的提取受到复杂环境在语音背景噪声严重干扰时,重建语音的质量将急剧恶化。

在上述情况下,必须加入语音增强系统,或者抑制背景噪声,以提高语音通信的质量,或者作为预备处理器,提高语音处理系统的抗干扰能力,维持系统性能。因此,研究语音增强技术在实际中有重要的应用。目前,语音增强在语音处理系统、多媒体、数字化家电中都得到很广泛的应用。

2.2 语音信号及噪声的特点

2.2.1 语音信号的特点

语音信号是一种非平稳的随机信号,同时也看作是一种短时的平稳随机信号,这是因为人类发声过程的变化速度有一定的时间限度。一般在短时人类声带与声道的形状有相对的稳定性,这段时间认为语音的物理特性与频谱特性近似不变。语音的短时频谱特性是语音信号分析和处理的基础,利用这一特性就可以应用平稳随机过程来分析和处理语音信号。

信号的重要特性表现在它的短时频谱上,如果在语音中使用加窗的方法取出其中一段,对其进行傅立叶变换,就可以得到该语音的短时谱,采用数字信号处理的方法可以在计算机或数字信号处理器上方便、快捷地完成任务。

语音大体上可以分为清音和浊音两大类,从语音的产生机理上看,两者有明显的差异,因而在特征上也有明显的区别,浊音的短时谱具有两个特点: 1)在时域上呈现明显的周期性,这是应为浊音的激励源为周期脉冲气流。 2)在频谱中有明显的几个凸起点,他们的出现频率与声道的谐振频率相对应,

这些凸起点称为共振峰,其频率称为共振频率,共振峰按频率由低到高排

列成第一共振峰、第二共振峰等。

3)浊音则没有明显的时域和频域特性,它类似于白噪声。

2

由于语音信号为非平稳、非遍历的随机过程,只有当长时间的分析帧趋于无限大时,才类似认为它具有高斯分布。高斯分布的统计模型是根据中心极限定理得到的。在高斯模型假设下,傅立叶展开系数被认为是0、方差时变的独立高斯随机分布变量,这种假设在帧长为有限的情况下只是一种近似的描述。 2.2.2 噪声特性噪声来源取决于实际的应用环境,噪声可以是加性的,也可以是非加性的。对于非加性噪声,可以通过变换转换为加性噪声,加性噪声按照带宽大体可分为:

1)窄带噪声,如周期性噪声等。

2)宽带噪声,宽带噪声的来源很多,如热噪声、气流噪声以及各种随机声源、

量化噪声都可以视为宽带噪声。对于平稳的宽带噪声,通常可以认为是白

噪声。不具有白噪声的,可以先进行白化处理。

2.3 人耳的感知特性

因为语音增强效果的最终度量是人的主观感受,所以语音增强过程除了考虑到信号的客观质量的改善之外,还要考虑人的主观感受。语音感知问题涉及到生理学、心理学、声学和语音学等诸多学科,目前已经有一些有影响的结论可以应用在语音增强中:

1) 人耳对语音的感知是通过语音信号中的各频谱分量的幅度获得,对各分量

的相位则不敏感。

2)人耳对频率高低的感受的近似值与该频率的对数值成正比。 3)人耳对频谱分量强度的感受频率与能谱的二元函数、响度、频谱幅度的对

数成正比。

4)人耳有掩蔽效应,强信号对弱信号有掩蔽的抑制作用,掩蔽的程度是声音

频率的二元函数。

5)短时谱中的共振峰对语音的感知十分重要,特别是第二共振峰要比第一共

振峰更为重要。因此对语音信号进行一定程度上的高通滤波不会对可懂度

造成影响。

3

6)人耳在两人以上的讲话环境中有能力分辨出需要凝听的声音,这种分离语

音的能力称为“鸡尾酒会”效应。

2.4 字化语音的加窗处理

在计算机处理中,已经数字化的语音信号序列将依次存入一个数据区,在语音信号处理中一般利用循环队列的方式存储这些数据,以便于用一个有限容量的数据区来应付数量极大的语音数据。在进行处理时,按帧从该数据区取出数据完成下一

帧。大部分情况下,语音处理的数据帧长都取20ms,帧处理结构都是不仅为了能进行操作,而且还由语音信号的短时平稳性决定。在应用中,数据帧长为L,两个数据帧之间相隔M个抽样点,M又称为帧移。相领两个数据帧之间的重叠部分的数据长度为L-M,在语音信号的处理中为了减少数据的截断效应,数据帧要和窗函数相乘,数据帧长L对2取对数有可能不是整数,为了计算机做FFT方便,数据帧两侧要填写一定程度数量的0,构成长度为L的信号处理帧,在数据帧两侧添加0后,数据帧位于信号处理帧的中间,这样可以进一步减少重叠效应。

图1 语音信号的计算机处理的分帧

用一定的窗函数来乘形成加窗语音,=。w(K)s(K)s(K)s(K)s(K)w(K)ww

数字语音处理中常从数据的存储区取出一帧语音s(K),k=0,1,2,………L-1,要经过加窗处理,这时利用的窗函数是汉明窗,它的表达如下:

4

2,k,0.54,0.46cos(),,N,1 (2.4.1) w(k),,0,,,

图2 汉明窗的波形

3 基于短时谱估计的语音增强算法

3.1 幅度谱相减法

对于带噪语音信号进行傅立叶变换,在频域中从带噪语音的幅度谱上减去噪声的幅度谱来作为语音信号的幅度谱,利用人耳对语音相位的不敏感性,语音相位谱则用近似于带噪语音的相位谱来代替。

^

|,并且将估计的噪声谱从进行谱减法的基本思想是进行估计噪声谱|N(,,i)观测信号谱|X(,,i)|中减掉:

^^

|Y(,,i)|=||=|X(,,i)|-|| (3.1.1) S(,,i)N(,,i)

5

将上式改写为:

^,,,|(,)|Ni,,||=||=|| (3.1.2)

Y(,,i)X(,,i)X(,,i)H(,,i)1,,,X,i|(,)|,,,,

^

,|N(,i)|=1- (3.1.3) H(,,i)|X(,,i)|

对应加权函数 H(,,i)

由以上式子所确定幅度谱相减法,得到的语音增强后的信号效果不是很理想,语音中残留一些噪声,这些噪声随机分布在整个频域中,有些是窄的尖脉冲,反映到时域中就是一些有节奏起伏的类似于音乐的残留噪声,通常称为音乐噪声。音乐噪声的存在严重影响了语音可懂度。为了解决这一问题,可以通过推导更加精确的加权函数从而获得更好的语音增强效果。

3.2 功率谱相减法

这种方法是从带噪语音功率谱中减去噪声的功率谱,从而得到语音信号的功率谱,进而决定语音信号的各频谱分量的增益,最终得到语音信号的估计值。

对 =+ (3.2.1) X(,,i)S(,,i)N(,,i)

两边进行求模,取模的平方,得:

222**=+++ (3.2.2) S(,,i)N(,,i)|X(,,i)||S(,,i)||N(,,i)|N(,,i)S(,,i) 其中“*”表示取复共轭,由于和相对独立,而为0均值N(,,k)s(k)n(k)

的高斯分布,所以有

222=+ (3.2.3) E[|X(,,i)|]E[|S(,,i)|]E[|N(,,i)|]

6

对于一个分析帧内的短时平稳过程,有:

^222=+ (3.2.4) |X(,,i)||S(,,i)||N(,,i)|

由此可得到原始语音的估计值:

1^2,,2^,|N(,i)|,,== (3.2.5)

|X(,,i)||X(,,i)|H(,,i)|S(,,i)|1,2,,|X(,,i)|,,,,

1^2,,2,|N(,i)|,,= (3.2.6) H(,,i)1,2,,|X(,,i)|,,,,

功率谱相减法简单,易于实施处理,具有适应信噪比范围大、增强效果比较好的优点。但是该方法处理后的语音还是有“音乐噪声”的存在。 3.3 维纳滤波法维纳滤波法是利用得到语音信号的时域波形,在最小误差的准则下得到的最优估计。实际应用中,多采用非因果维纳滤波器的频域实现形式。

若语音是一个平稳过程,则维纳滤波器对应着时域上的最小均方误差准则,维纳滤波器为一个线性时不变系统,设其中的响应为,则有: h(n) ^

h(i)x(k,i)= (3.3.1) s(K),i

上式中的冲击响应由最小均方误差准则确定,该准则表示为: h(i)

2 J(k)==min (3.3.2) E[e(k)]

其中,为估计误差,定义为: e(n)

7

^

=- (3.3.3) e(k)s(k)s(k)

的偏导数为0,用正交方程的性质,得到上式对h(i)

,

= (3.3.4) h(i)R(k,i),,kR(k),xxxsi,,,

在信号)与噪声不相关的情况下,带噪信号的自相关变为: R(K)x(kn(k)xx =+ (3.3.5) R(K)R(k)R(k)xxssnn

对上式两边做傅立叶变换,就得到语音增强用的维纳滤波器的传输函数: S(k)ss = (3.3.6) H(k)S(k),S(k)ssnn

和表示纯净的语音以及噪声的功率谱。 S(k)S(k)ssnn

上式对短时分析帧内得到维纳滤波的增益函数:

2,|X(,k)| = (3.3.7) H(,,k)^22|X(,,k)|,|N(,,k)|

4噪声估计

噪声谱估计对语音增强算法的性能影响至关重要,如果噪声估计过于偏小,增强后的信号中会有烦人的剩余噪声。如果估计噪声太高,就会导致语音信号的失真从而使可懂性降低。因此,为了实现精确的噪声估计,就要对噪声谱进行实时的估计。

8

4.1 平滑噪声功率谱

带噪语音的平滑功率谱可以由一阶平滑得到:

2 = (4.1.1) P(,,k),P(,,1,k),(1,,)|Y(,,k)|其中,为平滑因子,0

〈〈1。 ,,

4.2 带噪语音的最小跟踪法

有许多方法可以跟踪带噪语音的最小值,其中有些方法使用了固定长度的

滑动窗,这些方法对噪声的更新过程依赖于滑动窗的长度,因而提出了一种非线性快速最小跟踪的方法:

If then P(,,1,k),P(,,k)min

,1,P,(,k),,P(,,1,k),(P(,,k),,P(,,1,k)) minmin1,,

Else

P(,,k),P(,,k)min

其中,为带噪语音功率谱的局部最小值,和为实验确定的常P(,,k),,min

数,前项因子控制着局部最小的自适应时间。,

9

5 matlab仿真

5.1 仿真环境

谱相减语音增强算法的框图如图3所示。其中噪声估计算法采用了最小跟踪法。在本论文中输入的声音信号为“Hello~I am forest. forestgump”,语音信号的抽样频率为8000Hz,采用了单通道的语音。语音信号中叠加的噪声为白噪声。仿真软件为Maltab 7.0,计算机的CPU为奔腾4,主频为2.8GHz,内存为256M。

5.2仿真结果及分析

带噪语音波形如图4所示。经过图3所示的谱减法语音增强算法的处理得到的降噪后的语音如图5所示。从时域波形上可以看到很大一部分的噪声已经被抑制掉。但是实际试听表明虽然噪声确实被抑制掉,但是该算法对语音信号也造成较大的损伤,降噪后的语音具有明显的音乐噪声。

图 6 是本文算法中所采用的最小跟踪法对噪声功率谱进行估计算法的结果。从图中可以看到本文算法能够有效地对平滑谱的最小值进行跟踪。但是这种最小值并不是真正的噪声谱,所以在谱减之后必然会产生剩余噪声。因此处理后的语音信号中除了音乐噪声之外还剩余一定量的白噪声成分。

图 7 是语音增强前后的语谱图。从语谱图中可以看到低频噪声被有效地去除了,但是高频噪声的去除效果较差。

10

图3 幅度谱相件减的原理框图

图4 带噪语音的波形

11

图5 增强后的语音波形图

图6 纯净语音在不同频率点时语音与噪声的对比图(在噪声估计时,采用最小跟踪法。以上四个图形中,红色的线代表语音信号,蓝色的线代表噪声信号,k值代表不同的频率点,k=25代表频率为781Hz,为低频段,可以看出,在这个频段,语音信号远大于噪声,k=65,100,120,分别代表频率为2003Hz,

12

3125Hz,3750 Hz,在高频段,比较语音信号和噪声的大小,在噪声估计时取小的作为噪声。)

图7 语谱对比图

总结

本文对基于短时谱估计的幅度谱相减法和噪声功率谱的估计方法进行了研究,并用Maltab语言对谱相减语音增强算法进行了实现。由于幅度谱相减法方法比较简单,不可避免的残存一小部分音乐噪声和白噪声,仿真结果也表明单纯的谱减法语音增强算法的语音增强效果并不理想,对噪声进行消除的同时会造成语音信号的损伤,并且产生明显的“音乐噪声”,所以幅度谱相减法还有待于进一步提高。

有关语音增强方面的文献和研究成果浩如烟海,限于篇幅和时间,本文仅针对加性噪声研究了幅度谱相减语音增强算法,还有很多问题没有考虑进去,有待于进一步修改。

13

参考文献

[1]殷福亮,宋爱军,数字信号处理C语言程序。沈阳科学技术出版社。1997

[2]杨行俊,迟惠生,语音信号数字处理。北京:电子工业出版社。1995 [3]徐士良,C常用算法程序。北京:清华大学出版社。1996 [4]姚天任,孙洪,现代数字信号处理。武汉:华中理工大学出版社。1999 [5]路德明。水声转换原理。青岛:青岛海洋大学出版社。2001

14

附录

源程序:

clear

Click

%Spectral subtraction Algorithm Based on Minima Statistics

N=256;

R=N/2;

D=96;

M=32;

n=0:N-1;

w=0.54-0.46*coos(2*pi*n/(N-1)); %Hamming窗

Pox= [];

[x,fs]=wavread('forestgump1.wav');

x=x(1:128128)+0.052*randn(128128,1); [x,fs]=wavread('nois4.wav'); Pn=[];

S=[];

gama=0.998;

beta=0.98;

alpa=0.7;

theta=(1-gama)/(1-beta);

for i=1:700

inframe(i,:)=x((i-1)*R+1:(i-1)*R+N)'.*w; %分帧

X=fft(inframe(i,:)); %每帧的短时傅立叶变换

amp(i,:)=abs(X).^2; %取模值

ph(i,:)=angle(X); %取相位

if(i==1)

Px(i,:)=(1-alpa)*amp(i,:); %平滑滤波

Pn(i,:)=(Px(i,:));

Stemp=real(ifft(sqrt(Px(i,:)-3.5*Pn(i,:)).*exp(j*ph(i,:))));

S=Stemp(1:R);

else

Px(i,:)=alpa*Px(i-1,:)+(1-alpa)*amp(i,:);

Pn(i,:)=(gamma*Pn(i-1,:)+theta*(Px(i,:)-beta*Px(i-1,:))).*(Pn(i-1,:)

)>=Px(i,:)); % 噪声估计

Stemp=[Stemp(R+1:end),zeros(1,R)]+real(ifft(sqrt(Px(i,:)-

3.5*Pn(i,:)).*exp(j*ph(i,:))));

S=[S,Stemp(1:R)];

end

end

wavplay(x(1:10000),fs);

15

wavplay(real(S),fs); subplot(2,1,1)

plot(x)

subplot(2,1,2)

plot(S)

figure(2)

subplot(2,2,1)

plot(Pn(:,25))

hold on

plot(Px(:,25),'r') xlabel('k=25')

subplot(2,2,2)

plot(Pn(:,65))

hold on

plot(Px(:,65),'r') xlabel('k=65')

subplot(2,2,3)

plot(Pn(:,100)) hold on

plot(Px(:,100),'r') xlabel('k=100') subplot(2,2,4)

plot(Pn(:,120)) hold on

plot(Px(:,120),'r')

16

文献综述

早在60年代,语音增强这个课题就已经引起了人们的注意,此后的30年间人们一直契而不舍地进行这方面的研究。随着数字信号处理理论的成熟,70年代曾形成一个研究高潮,并取得一些基础性成果,并使语音增强成为语音信号处理理论的一个重要分支。这之后,随着超大规模集成电路和计算机技术的发展,为语音增强算法得以实验仿真和实时实现提供了可能,语音增强的研究进入了一个新阶段。

然而,由于干扰通常都是随机的,从带噪语音过程中提取出完全纯净的语音几乎不可能。在这种情况下,语音增强的目的主要有两个:一是改进语音质量,消除背景噪声,使听者乐于接受,不感觉疲劳,这是一种主观度量;二是提高语音可懂度,这是一种客观度量。这两个目的往往不能兼得。

语音增强不仅与信号处理技术有关,而且涉及到人的听觉感知和语音学。另外,噪声来源众多,随应用场合不同,其特性也各不相同。即使在实验室仿真条件下,也很难找出一种通用的语音增强算法适用于各种噪声环境。必须针对不同噪声,采取不同的语音增强对策。目前国外已产生的几种算法也都是针对不同的噪声源处理,减少和消除它们对原始语音的干扰。

- 1 -

图像压缩方法综述

* 2006-06-09收到,2006-10-10改回 **安晓东,女,1967年生,北京理工大学博士研究生,研究方向:计算机应用。 文章编号:1003-5850(2006)12-0024-03 图 像 压 缩 方 法 综 述 A Summarization of Image Compression Methodology 安晓东1,2 陈 静3 (1北京理工大学 北京 100081) (2山西省人事考试中心 太原 030006) (3中北大学 太原 030051)【摘 要】图像压缩是图像处理的重要组成部分,随着科学技术的不断进步,压缩方法也在不断涌现。论述了各个常用图像压缩方法的算法及应用情况,着重研究了预测编码和分形压缩方法。有机结合所介绍的压缩算法能解决很多图像处理问题,介绍的图像压缩方法也可供研究人员参考。【关键词】图像压缩,预测编码,分形压缩 中图分类号:T P 391.41 文献标识码:A ABSTRACT Image co mpr ession is t he impor tant part of im age pr ocessing.Wit h the dev elo pm ent of science and technolog y,mor e and mo re compr essing m et hods have come for th .T his paper discusses many com mon imag e compr ession alg or ithms and it's a pplica-tio n,fo cuses o n the pr edictive enco ding and fr act al co mpressio n methods.It can so lv e lots of image pr o cessing pro blems by these methods,w hich may g iv e a hand to other resear cher s. KEYWORDS imag e co mpression ,pr edictiv e co ding ,fr actal compressio n 众所周知,在开发多媒体应用系统时,遇到的最大障碍是对多媒体信息巨大数据量所进行的采集、存储、处理和传输。其中,数据量最大的是数字视频数据。例如,1幅640*480中等分辨率的彩色图像,其数据量大约为0.92M B 。这么大的图像,传输速度以平均4k /s 估算,完整地传输这幅图需要230s,也就是接近4min 。假设是可视电话,或者数字广播电视,以每秒播放30帧计算,一张光盘里只能存放24s 的视频信息,更不用说在网络上传输的效果了。同时大数据量的图像信息也会给存储器的存储容量,通信干线信道的带宽,以及计算机的处理速度增加极大的压力。单纯靠增加存储器容量,提高信道带宽以及计算机的处理速度等方法来解决这个问题是不现实的。因此,图像压缩方法的研究非常有必要。 1 图像压缩方法研究现状 图像压缩已研究了几十年,提出了诸如DPCM 、DCT 、VQ 等压缩方法,并已出台了基于DCT 等技术的国际压缩标准,如JPEG 、M PEG 、H.261等。人们逐渐发现了这些方法的许多缺点:比如高压缩比时图像出现严重的方块效应、人眼视觉系统的特性不易被引入到压缩算法中等等。目前,许多人正在致力于第二代图像编码技术的研究。第一代图像编码技术(以JPEG 为代表)是指以信息论和数字信号处理技术为理论基础,旨在去除图像数据中的线性相关性的一类编码技 术。这类技术去除客观和视觉的冗余信息的能力已接近极限,其压缩比不高(20:1左右)。而第二代图像编码技术是指不局限于SH ANNON 信息论的框架,要求充分利用人的视觉生理心理特性和图像信源的各种特性,能获得高压缩比的一类编码技术。这其中以小波变换编码、分形编码和模型基编码最具有代表性,也很有可能成为新一代国际图像压缩标准的核心理论。 2 图像压缩编码标准 国际标准化协会(ISO )、国际电子学委员会(IEC )、国际电信协会(IT U )等国际组织,于90年代领导制定了许多重要的多媒体数据压缩标准。如JPEG 、H .261、H .263、M PEG -1、MPEG -2、MPEG -4等等。这些标准已在数字电视、多媒体领域得到广泛应用[1] 。2.1 JPEG JPEG(Joint Pho to Graphic Ex perts Gro up)是联合图像专家组的英文缩写。JPEG 主要是针对静止图像的压缩编码标准,但是在电视图像序列的帧内压缩中也常采用JPEG,是一个适用范围广泛的通用标准。2.2 MPEG M PEG(M oving Pictures Ex pert Gr oup)是ISO 和IEC 两个国际组织的联合技术委员会领导下的运动图像专家组的英文缩写。针对不同的应用目的M PEG 专家组制定了M PEG 系列标准。主要包括M PEG -1,M PEG-2,MPEG-3,M PEG-4。 ?24?(总774) 图像压缩方法综述2006年

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

语音增强算法的研究与实现

语音增强算法的研究与实现 目录 目 录 ..................................................................... ............................................................ I 河西学院本科生毕业论文(设计)诚信声 明 ................................... 错误~未定义书签。I 河西学院本科生毕业论文(设计)任务 书 ...................................... 错误~未定义书签。II 河西学院本科毕业论文(设计)开题报 告 ..................................... 错误~未定义书签。IV 摘 要 ..................................................................... .................................................................. I Abstract ........................................................... ....................................................................... I 1 引 言 ..................................................................... .. (1) 2 语音增强算法概 述 ..................................................................... (1)

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

基本语音增强方法

基本语音增强方法概述 摘要:语音增强是当今语音处理的一个非常重要的领域,本文主要介绍当今比较普遍的几种基于人耳掩蔽阈值的语音增强方法:谱减法,维纳滤波法,子空间方法等,并对它们的优缺点作简要论述。 关键词:语音增强、人耳掩蔽、谱减法、维纳滤波、子空间 现今时代的主流步伐将我们带向自动化方向,语音识别在这一背景下显得尤为重要。目前已经开发出好几款语音识别软件,但是如何较为精确地实现人耳的掩蔽效应下的语音增强,仍是大家着重解决的问题。它的首要目标就是在接收端尽可能从带噪语音信号中提取纯净的语音信号,改善其质量。目前已经出现了谱减法等一系列较为普遍的方法。本文将对这几种方法进行简要介绍。 一、语音的特性 语音信号是一种非平稳、时变的随机过程,其产生过程与发声器官的运动紧密相关。而发声器官的状态变化速度比声音振动的速度要缓慢得多,因此语音信号可以认为是短时平稳的。在一段短时间内其特性基本保持不变即相对稳定,从而可以应用平稳随机过程的分析方法来处理语音信号,并可以在语音增强中利用短时频谱的平稳特性。 人耳在嘈杂的环境中,仍然能够清晰地听到自己想听的内容,一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。在进行机器语音识别的时候,由于干扰信号和目标信号的强度差别不大,导致机器无法识别。这时语音增强就显得特别重要了。 二、时域方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (1)经典的维纳滤波法是根据Winer-Hopf 积分方程求出纯语音和混合音

语音压缩编码的发展和应用

语音压缩编码的发展和应用 摘要:为了满足数字通信及其它商业应用的需求,语音压缩编码技术得到了迅速发展。介绍了目前语音压缩编码技术的研究进展,主要包括连续可变斜率增量调制(CVSD)、小波分析、多脉冲激励线性预测编码、散布脉冲码激励线性预测(DP-CELP)、多重脉冲散布非均匀代数码本激励线性预测(MPD-USACELP)、波形内插(WI)、线谱对(频率)(LSP)的量化。对以上算法进行了分析比较,总结了它们的特点和适用范围,并介绍了其中一些算法在DSP上的实时实现。 关键词:语音压缩编码:线性预测(LP);波形内插;DSP;语音编码 ;波形编码 ;参数编码 ;混合编码 ;编码标准 Abstract: In order to satisfy demands of the digital communication and other commercial apphcations, the speech compression technology has been developed rapidly. The present research progress in speech compression techn ology is introduced in this paper including CVSD,wavelet an alysis an d its application to speech coding, MPLPC, DP—CELP, MPD-USACELP,、Ⅳ1 an d quan tification of LSF.Th ese algorithms are an alyzed an d compared.Th eir characteristics an d applicable scopes are summarized. Some algorithms apphed to DSP are also introduced. Key words:Speech compression coding;LP;waveform interpolation;DSP;voice coding;waveform coding;parametric coding;hybrid coding;Coding Standard 前言:近30 年来, 通信技术一直在发生着深刻的变化, 编码技术日臻完善,高质量、低速率的语音编码算法纷纷出现, 各国相继成立了一些国际通信标准化组织, 及时地制定专门的通信编码标准, 语音编码技术的发展也体现在这些不断制定的标准中。由于实现方式的不同, 语音压缩编码技术种类很多, 一直向着高质低速方向发展, 并出现了不少令人振奋的成果。 随着信息技术的发展, 信道资源显得更加宝贵, 为了在有限的信道内进行更多的信息传输, 必须对语音信号进行压缩。语音信号能够压缩的基本依据是语音信号中存在的冗余和人类的听觉感知机理。语音信号存在多种多样的冗余, 可分别从时间域和频率域描述。从时间域分析: 幅度的非均匀分布, 即语音中的小幅度样本出现的概率高, 信息主要集中在低功率上;采样数据间的相关, 相邻的语音信号间有很强的相关性, 研究表明, 当采样率为8 kHz 时, 相邻样值之间的相关系数大于0.85, 如果采样率提高, 相关性将更强; 周期间的相关, 浊音语音段具有准周期性, 反映在波形上出现图形的重复, 即信息冗余; 语音间隙, 实际语音通信中, 存在通话间隙, 通话分析表明, 全双工话路的典型效率约为通话时间的40%, 即静止系数为0.6;长时自相关, 除了本间、同期间的相关外, 在较长的时间间隔上, 语音信号也存在相关, 统计表明, 8 kHz 采样时的平均相关系数高达0.9。从频率域分析: 非均匀的长时功率谱密度, 从相当长的时间内统计平均, 语音信号的功率谱呈现强烈的非平坦性, 这说明语音信号对给定的

语音信号数字水印技术

数字信号处理课程设计报告 题目:语音信号水印技术系统设计 系(院): 专业: 班级: 学号: 姓名: 指导教师: 学年学期:2013 ~ 2014 学年第学期 2013年月日

摘要 随着网络和信息技术的发展,越来越多的数字多媒体信息通过网络进行传播,与传统的模拟媒体相比,数字媒体产品的编辑、复制和传播都很方便,它一方面促进了社会的进步与发展,另一方面正是这些优点突出了版权问题。由于数字多媒体信息很容易被未经授权的用户复制,且采用传统密码方法加密,不能完全解决盗版问题。 数字水印技术正是应运而生的信息隐藏技术,它通过特定的水印算法把版权信息嵌入在数字产品中,被嵌入的可以是一段文字、标识、序列号等等,人们无法从表面上感知水印的存在,只有专用的检测仪器或计算机软件才可以检测出隐藏的数字水印,从而达到了保护数字作品的所有者利益的目的,并促进了数字产品的开发与使用。在数字产品中,音频数据产品的版权保护也显得越来越重要,因为随着数字化音像制品和音乐制品的大量制作与发行,一个令人关注的突出问题是网上下载音乐对传统CD 业的巨大冲击。音频水印技术主要利用了人类听觉模型,在不影响音频信号质量的前提下,将水印信息隐藏在人耳不能感知的位置,来隐藏水印数据。本文主要研究语音信号水印技术,利用小波变换的优点和特性对音频信号嵌入水印,并提取。使嵌入水印音频想好具有良好的安全性,鲁棒性和不可感知性。 关键词数字水印嵌入提取小波变换

目录 1 课题综述 (1) 1.1数字水印技术的介绍 (1) 1.2 数字水印设计原理 (2) 2系统分析与设计 (3) 2.1涉及基础知识 (3) 2.2算法的流程图 (5) 2.3算法实现 (5) 3代码编写 (7) 3.1主要代码 (7) 3.2程序调试 (10) 3.3程序运行与测试 (10) 结论 (14) 致谢 (16) 参考文献 (17)

多通道语音增强方法简介

多通道语音增强方法简介 【摘要】由于多麦克风越来越多地部署到同一个设备上,基于双麦克风和麦克风阵列的多通道语音增强研究有了较大的应用价值。介绍了自适应噪声对消法、FDM等双通道语音增强方法和波束形成、独立分量分析等麦克风阵列语音增强方法,对各个方法的原理、发展和优缺点进行了详细分析和总结,对多通道语音增强深入研究有一定帮助。 【关键词】语音增强;双通道;麦克风阵列;波束形成 1.引言 语音是人们通讯交流的主要方式之一。我们生活的环境中不可避免地存在着噪声,混入噪声的语音会使人的听觉感受变得糟糕,甚至影响人对语音的理解。在语音编码、语音识别、说话人识别等系统中,噪声也会严重影响应用的效果。语音增强成为研究的一个问题,其模型如图1所示。 图1 语音增强模型 按照采集信号的麦克风数量分类,语音增强方法可被分为单通道(single channel)、双通道(dual-channel)、麦克风阵列(microphone array)三种类型。一般来说,麦克风越多,去噪的效果越好。早期,大部分通信/录音终端都只配有一个麦克风,因此单通道语音增强吸引了大量研究者的目光,方法较为成熟。但单通道方法的缺点是缺少参考信号,噪声估计难度大,增强效果受到限制。近年来随着麦克风设备的小型化和成本的降低,双麦克风和麦克风阵列越来越多地被部署。研究者的注意力也在从单通道语音增强向双通道和麦克风阵列语音增强转移,这里对已有的多通道语音增强算法作以简单介绍。 2.双通道语音增强方法 在语音增强中,一个关键的问题就是获得噪声。在单通道语音增强中,噪声是通过从带噪语音信号中估计得到的,估计算法较为复杂且估计噪声总是与真实噪声存在差异,这就限制了增强效果的提高。为了获得真实噪声,简单的做法就是增加一个麦克风来采集噪声。从带噪语音信号中减去采集噪声来得到语音信号,这种方法叫做自适应噪声对消法(ANC,adaptive noise canceling),是最原始的最简单的双通道语音增强算法。针对双麦克风开发的算法不多,主要有噪声对消法、一阶差分麦克风(FDM,first-order differential microphone)及基于FDM 改进得到的自适应零陷波束形成法(ANF,adaptive null-forming)。 2.1 自适应噪声对消法 噪声对消法采用两个麦克风,一个麦克风采集带噪语音,另一个采集噪声信号,用带噪信号减去噪声信号,得到语音信号。减操作一般在频域进行,如果采

压缩感知理论综述(原创)

压缩感知理论综述 摘要:信号采样是模拟的物理世界通向数字的信息世界之必备手段。多年来,指导信号采样的理论基础一直是著名的Nyquist采样定理,但其产生的大量数据造成了存储空间的浪费。压缩感知(Compressed Sensing)提出一种新的采样理论,它能够以远低于Nyquist采样速率采样信号。本文详述了压缩感知的基本理论,着重介绍了信号稀疏变换、观测矩阵设计和重构算法三个方面的最新进展,并介绍了压缩感知的应用及仿真,举例说明基于压缩感知理论的编解码理论在一维信号、二维图像处理上的应用。 一、引言 Nyquist采样定理指出,采样速率达到信号带宽的两倍以上时,才能由采样信号精确重建原始信号。可见,带宽是Nyquist采样定理对采样的本质要求。然而随着人们对信息需求量的增加,携带信息的信号带宽越来越宽,以此为基础的信号处理框架要求的采样速率和处理速度也越来越高。解决这些压力常见的方案是信号压缩。但是,信号压缩实际上是一种资源浪费,因为大量的不重要的或者只是冗余信息在压缩过程中被丢弃。从这个意义而言,我们得到以下结论:带宽不能本质地表达信号的信息,基于信号带宽的Nyquist 采样机制是冗余的或者说是非信息的。 于是很自然地引出一个问题:能否利用其它变换空间描述信号,建立新的信号描述和处理的理论框架,使得在保证信息不损失的情况下,用远低于Nyquist采样定理要求的速率采样信号,同时又可以完全恢复信号。与信号带宽相比,稀疏性能够直观地而且相对本质地表达信号的信息。事实上,稀疏性在现代信号处理领域起着至关重要的作用。近年来基于信号稀疏性提出一种称为压缩感知或压缩采样的新兴采样理论,成功实现了信号的同时采样与压缩。 简单地说,压缩感知理论指出:只要信号是可压缩的或在某个变换域是稀疏的,那么就可以用一个与变换基不相关的观测矩阵将变换所得高维信号投影到一个低维空间上,然后通过求解一个优化问题就可以从这些少量的投影中以高概率重构出原信号,可以证明这样的投影包含了重构信号的足够信息。在该理论框架下,采样速率不再取决于信号的带宽,而在很大程度上取决于两个基本准则:稀疏性和非相干性,或者稀疏性和等距约束性。事实上,压缩感知理论的某些抽象结论源于Kashin创立的范函分析和逼近论,最近由Candes,Romberg,Tao和Donoho等人构造了具体的算法并且通过研究表明了这一理论的巨大应用前景。目前国内已经有科研单位的学者对其展开研究。如西安电子科技大学课题组基于该理论提出采用超低速率采样检测超宽带回波信号。 显然,在压缩感知理论中,图像/信号的采样和压缩同时以低速率进行,使传感器的采样和计算成本大大降低,而信号的恢复过程是一个优化计算的过程.因此,该理论指出了将模拟信号直接采样压缩为数字形式的有效途径。从理论上讲任何信号都具有可压缩性,只要能找到其相应的稀疏表示空间,就可以有效地进行压缩采样。 当前,压缩感知理论主要涉及三个核心问题: (1) 具有稀疏表示能力的过完备字典设计; (2) 满足非相干性或等距约束性准则的测量矩阵设计; (3) 快速鲁棒的信号重建算法设计。 压缩感知理论必将给信号采样方法带来一次新的革命。这一理论的引人之处还在于它对应用科学的许多领域具有重要的影响,如统计学、信息论、编码等。目前,学者们已经在模拟-信息采样、合成孔径雷达成像、遥感成像、核磁共振成像、深空探测成像、无线传感器网络、信源编码、人脸识别、语音识别、探地雷达成像等诸多领域对压缩感知展开了广泛的应用研究。Rice大学已经成功设计出了一种基于压缩感知的新型单像素相机,在实践中为取代传统相机迈出了实质性的一步。 本文围绕稀疏字典设计、测量矩阵设计、重建算法设计三个核心问题,综述了压缩感知理论以及与之相关的信号稀疏变换、观测矩阵设计、重构算法等一系列最新理论成果和应用研究,描述了国内外的研究进展。本文结构安排如下:第2 部分阐述了压缩感知的理论框架;第3 部分系统介绍了压缩感知的三个核心问题,即信号的稀疏表示、信号的观测矩阵、信号重构算法;第4 部分指出压缩感知有待解决的若干关键问题;第5 部分介绍了压缩感知的应用及仿真;第6部分对全文作了总结。

语音处理技术研究【文献综述】

毕业设计文献综述 电子信息科学与技术 语音处理技术研究 【摘要】:语音处理技术是对语音信号进行采集、压缩、滤波、增强等技术的集合定义。该技术是计算机音频系统的核心,在军事、医学、通信等领域都有较为广泛的应用。本文介绍了语音处理技术研究现状及发展前景。通过对三种主要音频滤波技术的对比和研究归纳,总结了每种技术的特点及适用范围,阐述了语音处理技术的发展方向。 【关键词】:数字信号处理;语音信号处理;音频滤波 一、背景 1.1语音处理技术技术 集就是把这种声波信号经语音信号是一种频率变化范围较宽(16~3000 Hz)的机械波。语音采[]1 过麦克风和高频放大器转换成具有一定幅度的模拟量电信号,再经离散化变成数字量,成为计算机 理,确定语音信号的采样频率。语音处理技术的研究结果能贮存和处理的信号。根据香农采样定[]2 表明:特定的语音信号是由其过零率、帧能量、频谱构成等多因素决定的。 音频是个专业术语,人类能够听到的所有声音都称之为音频。声音是一种模拟信号,它可能包波是语音分析系统中的关键环节,是当今社会前沿技术之一。为了获得更高含各种噪音。音频滤[]3 的音频质量,我们必须对声音中包含的噪声通过某种方法进行滤除,剩下的就是我们所需要的有用信号。这种滤除噪声的方法既为我们今天要讨论的音频滤波技术。 1.2语音处理技术的研究现状 语音处理技术在计算机软硬软件的相结合的方式下,通过几十年的探索,其研究和开发正进入一个黄金时代。在世界发达国家制定的高技术发展规划中,语音处理技术的地位十分引人注目。20世纪60年代中期形成的一系列数字信号处理的理论与算法,如数字滤波器、快速傅里叶变换(FFT)的等语音信号处理的理论与技术基础。随着信息技术的飞速发展,语音信号处理取得了重大进展。 术(LPC),并成为进入70年代之后,提出了用于语音信号的信息压缩和特性提取的线性预测技[]4 语音信号处理最强有力的工具。80年代初,一种新的基于聚类分析的高效数据压缩技术—矢量量化 型(HMM)描述语音信号过程的产生时80年代(VQ)应用于语音信号处理中,而用隐马尔科夫模[]5 语音信号处理技术的重大发展。近年来人工神经网(ANN)的研究取得了迅速发展,语音信号处理技

4G通信技术综述讲解

4G通信技术综述 移动通信技术已经历了三个主要发展阶段。每一代的发展都是技术的突破和观念的创新。第一代起源于20世纪80年代,主要采用模拟和频分多址(FDMA)技术。第二代(2G)起源于90年代初期,主要采用时分多址(TDMA)和码分多址(CDMA)技术。第三代移动通信系统(3G)可以提供更宽的频带,不仅传输话音,还能传输高速数据,从而提供快捷方便的无线应用。然而,第三代移动通信系统仍是基于地面标准不一的区域性通信系统,尽管其传输速率可高达2 Mb/s,但仍无法满足多媒体通信的要求,因此,第四代移动通信系统(4G)的研究随之应运而生。 一、4G通信技术的概念 4G的定义到目前为止依然有待明确,它的技术参数、国际标准、网络结构、乃至业务内容均未有明确说法。在2002年底Wi-Fi热潮中,Wi-Fi被视作4G技术。但4G技术的提倡者认为,4G与 Wi-Fi不同。 2004年6月,市场研究公司Forrester的分析师预测,4G移动服务将是3G与WiMax结合在一起的技术。4G将提供以太网的接入速度(如10Mb/s),并且通过在一部手机中把3G和WiMax技术结合在一起,提供集成无线局域网和广域网的服务。WiMax(或者说是802.16标准)能够提供无线宽带网服务,最远距离可达30英里,速率大约是10 Mb/s。在2004年富士通发布的白皮书中,将WiMAX指为“4G”无线技术。 另外,也有很多专家对LAS-CDMA十分看好,认为LAS-CDMA代表着4G水平。 4G到底是什么样的技术呢?目前普遍描述如下: 4G是集3G与WLAN于一体,并能够传输高质量视频图像,它的图像传输质量与高清晰度电视不相上下。4G 系统能够以100Mb/s的速率下载,比目前的拨号上网快2000倍,上传的速度也能达到20Mb/s,并能够满足几乎所有用户对于无线服务的要求。而在用户最为关注的价格方面,4G与固定宽带网络在价格方面不相上下,而且计费方式更加灵活机动,用户完全可以根据自身的需求确定所需的服务。此外,4G可以在DSL 和有线电视调制解调器没有覆盖的地方部署,然后再扩展到整个地区。很明显,4G有着不可比拟的优越性。4G与3G之间的主要区别在于终端设备的类型、网络拓扑的结构以及构成网络的技术类型。终端设备除了手机之外应当包括头戴式话机、PDA终端、膝上机、手表式话机、电视机、游戏机、DVD、零售机,甚至宠物机等等,凡是人所能构想的和能够识别IP地址的无线电收发信机。其次,4G是由多种技术组成的,包括彼此似乎不相干的技术,如Wi-Fi、超宽带无线电、便携式电脑、软件无线电等技术构成的高速全球通网络。 与3G手机相比,4G手机的功能更强大,应用更广泛。4G手机智能化程度更高,通话只是最最基本的功能之一,更多的功能体现在多媒体应用方面。 二、4G通信的关键技术

语音增强算法的分类

语音增强算法的分类 现实环境中的噪声多种多样,特性各异,很难找到一种通用的语音增强算法适用于各种噪声的消除;同时语音增强算法与语音信号数字处理理论、人的听觉系统和语音学等学科紧密相关,这也促使人们必须根据不同的噪声源来选择不同的对策。以上原因使语音增强技术研究呈现百花齐放的局面。几十年来,许许多多的学者在这方面进行了不懈的努力,总结出了许多有效的方法。 根据信号输入的通道数,可将这些方法分为单通道的语音增强算法与多通道的语音增强算法。单通道的语音系统在现实生活中较常见,手机、耳麦等都属于单通道语音系统。这种情况下,语音与噪声同时存在于一个通道中,语音信号与噪声信号必须从同一个带噪语音中获得。这种系统一般要求信号中的噪声比较平稳,以便在无声段对噪声进行估计,再依据估计得到的噪声参数对有声段进行处理,得到增强语音。而多通道的语音系统中语音增强的一种算法是,利用各个通道的语音信号之间存在的某些相关性,对带噪语音信号进行处理,得到增强的语音。比如,在自适应噪声抵消法中采用了两个话筒作为输入,其中一个采集带噪的语音信号,另外一个采集噪声,从噪声通道所采集的噪声直接当作带噪语音中的噪声,并将它从带噪语音中减去即可。另一种多通道的语音增强算法是采用阵列信号,这种方法采用多个以一定方式排列的采集设备接收信号。由于不同的独立信号源与各个采集设备之间的距离不同,最后在各个接收设备中的合成信号也不同,再根据这些信号将各个独立信号分离出来。 按照所依据原理的不同,我们可以将语音增强分为以下几类: (1)参数方法 此类方法主要依赖于语音生成模型(例如AR模型)的使用,需要提取模型参数(如基音周期、LPC系数等),经常使用迭代方法。这种方法的最大缺点就是如果实际噪声或语音与模型有较大的差别,或者由于某些原因使得提取语音参数较困难,则这方法较容易失败。这类方法常用到一些滤波器,如梳状滤波器、维纳滤波器、卡尔曼滤波器等。 (2)非参数方法 非参数方法不需要从带噪语音信号中估计语音模型参数,这就使得此类方法相对于参数方法而言应用较广。但由于没有利用可能的语言统计信息,故结果一般不是最优的。同时,我们知道,语音信号是非平稳的随机过程,但语音信号特性的缓慢变化使得在较短的时间(比如10~30ms)内,可以视其为平稳的,如果能从带噪语音的短时谱中估计出“纯净”语音的短时谱,即可达到语音增强的目的。由于人耳对语音的感知主要是通过语音信号中各频谱分量的幅度来获得的,而对各分量的相位并不敏感,因此,这类方法的重点是将估计的对象放在语音信号的短时谱幅度上。非参数方法主要包括谱减法、自适应滤波法等。 (3)统计方法 统计方法比较充分地利用了语音和噪声的统计特性,如语音信号可视不同情况和需要采用高斯模型、拉普拉斯模型以及伽玛模型等。此类方法一般是在建立了模型库后,经历一个训练过程来获得初始统计参数,并且在后续的工作过程中要根据实际的数据实时的更新这些统计参数,以使模型能更好的符合实际情况,它与语音系统的联系非常密切。这类方法里面主要包括最小均方误差估计(MMSE,Minimum Mean Square Error)、对数谱估计的最小均方误差(MMSE-LSA,Minimum Mean-Square Error Log-SpectralAmplitude)、听觉掩蔽效应(Masking Effect)等。 (4)多通道方法 多通道方法利用了更多的信息,包括空间信息,可以更好地滤除噪声、分离语音,但对硬件设备要求高,算法一般较复杂。噪声抵消法、延迟一相加波束形成器(delay-sum beamformer)、

基于深度学习的语音增强简述

第8卷第2期Vol.8No.2 2019年3月网络新媒体技术Mar.2019 ?前沿与综述? 基于深度学习的语音增强简述** 本文于2018-12-30收到。 *国家自然科学基金(编号:61671381)0张晓雷 (西北工业大学智能声学与临境通信研究中心西安710072西北工业大学航海学院西安710072) 摘要:语音增强是一种将语音从干扰声中增强出来的技术。它是语音信号处理的核心研究内容之一。近年来,深度学习在语音增强中的成功应用推动了该技术的快速发展。本文将简要回顾基于深度学习的语音增强技术。首先回顾语音增强中所采用的深度学习算法和优化目标,在此基础上,将进一步回顾具有代表性的单声道深度语音增强技术、基于固定麦克风阵列的多声道深度语音增强技术、以及基于自组织阵列的多声道深度语音增强技术。 关键词:深度学习,深度神经网络,语音增强,麦克风阵列 A Brief Review to Deep Learning Based Speech Enhancement ZHANG Xiaolei (Center for Intelligent Acoustics and Immersive Communication,Northwestern Polytechnical University,Xi'an,710072,China, School of Marine Science and Technology,Northwestern Polytechnical University,Xi'an,710072,China) Abstract:Speech enhancement aims to separate target speech from its noise components.It is one of the core problems of speech sig-nal processing.Recently,deep learning has been applied successfully to speech enhancement,which significantly promoted the devel-opment of speech enhancement techniques.This paper will review the deep-learning-based speech enhancement techniques,inclu-ding machine learning algorithms,optimization targets.Then,this paper will review single channel speech enhancement techniques, multichannel speech enhancement techniques based on conventional microphone arrays,as well as multichannel speech enhancement techniques based on ad-hoc microphone arrays. Keywords:Deep learning,Deep neural networks,Speech enhancement,Microphone arrays o引言 语音增强旨在将目标语音从背景干扰中分离出来。它是信号处理中的核心任务之一,具有广泛的应用,例如助听、通信、鲁棒语音识别和说话人识别。人类听觉系统具有将一种声源从多种声源的混合中提取出来的卓越能力。在类似于鸡尾酒会的声学环境中,尽管现场有其他说话人和背景噪声,我们也能够关注于其中某一位说话人的声音。所以,语音增强也被称为“鸡尾酒会问题”。语音增强已经在信号处理领域中得到了广泛的研究。根据麦克风的数量,语音增强方法可以分为单声道增强和基于麦克风阵列的多声道增强。单声道增强的传统方法是噪声估计丄和计算听觉场景分析(computational auditory scene analysis,CA-SA)[2]。噪声估计技术分析语音和噪声的整体数据,随后将纯净语音从含噪语音中估计出来"3;为了估计背景噪声,通常假设背景噪声是平稳的。CASA基于听觉场景分析的感知原理,通过交替进行基音估计和

相关文档