文档库 最新最全的文档下载
当前位置:文档库 › 语音信号处理复习纲要

语音信号处理复习纲要

语音信号处理复习纲要
语音信号处理复习纲要

Ch1 绪论

§1.1 语音信号处理概述

一、语音、语音信号处理的名词解释

1、语音:是语言的声学表现,是声音和意义的结合体,是相互传递信息的重要手段,是人类最重要、最有效、最常用和最方便的交换信息的形式。

2、语音信号处理:是研究用数字信号处理技术对语音信号进行处理的一门学科,它是一门新兴的学科,同时又是综合性的多学科领域和涉及很广的交叉学科。

二、语音处理技术的应用领域

语音处理技术的应用领域包括:工业、军事、交通、医学、民用等。

三、语音信号采用数字处理的原因(数字语音的优点)

语音信号均采用数字处理,是因为数字处理与模拟处理相比具有许多优点:

1、数字技术能够完成许多很复杂的信号处理工作;

2、通过语音进行交换的信息本质上具有离散的性质,语音可以看做是音素的组合,适合数字处理;

3、数字系统具有高可靠性、廉价、快速等优点,容易完成实时处理任务;

4、数字语音适合在强干扰信道中传输,也易于加密传输。

四、语音学的名词解释

语音学:是研究言语过程的一门科学,它包括三个研究内容:发音器官在发音过程中的运动和语音的音位特性;语音的物理特性;以及听觉和语言感知。

§1.2 语音信号处理的发展概况

一、语音信号处理的发展史

1、1874年:电话的发明时现代语音通信的开端;

2、1939年:通道声码器技术;

3、40年代后期:语谱仪;

4、50年代初:第一台口授打字机和英语单词语音识别器;

5、60年代:Fant发表《语音产生的声学理论》;

6、70年代初:Flanagan著作《语音分析、合成和感知》;

7、90年代以来:语音识别的研究由实验室走向实用化。

二、语音编码、语音合成、语音识别名词解释

1、语音编码:语音编码技术是伴随着语音信号的数字化而产生的,目前主要应用在数字语音通信领域。

2、语音合成:语音合成的目的是使计算机能像人一样说话,它是一种人机语音通信技术,应用领域广泛。

3、语音识别:语音识别是使计算机判断出所说的话得内容,和语音合成一样也是一种人机语音通信技术。

为了实现人机语音通信,必须具备语音识别和语音理解两种功能

Ch2 基础知识

§2.2 语音产生的过程

一、现代语音学发展的三个分支:发音语音学、声学语音学、听觉语音学。

二、语音、清音、浊音的名词解释及语音的产生过程(名词解释、简答,集中备课)

1、语音:声音是一种波,能被人耳听到,振动频率在20Hz-20kHz之间。语音室声音的一种,它是由人的发音器官发出的、具有一定语法和意义的声音。语音的振动频率最高可达15kHz左右。

2、人类生成语音过程的第一阶段包括神经核肌肉的生理学阶段和产生语音波、传递语音波的物理阶段。

3、语音由声带振动或不经声带振动来产生,其中由声带振动产生的音统称为浊音,而不由声带振动产生的音统称为清音。浊音中包括所有的元音和一些辅音,清音包括另一部分辅音。

基音周期:声带开启和闭合一次的时间即振动周期称为音调周期或基音周期。

基音频率:基音周期的倒数称为基音频率,简称为基频。

基频取决于声带的尺寸和特性,也决定于它所受的张力。基频还决定了声音频率的高低,频率快则音调高,频率慢则音调低。基音的范围约为80-500Hz左右,老年男性偏低,小孩和青年女性偏高。

四、语音的产生过程:空气从肺部排出形成气流。空气通过声带时,如果声带是紧绷的,则声带将产生张弛振动,即声带周期性地开启和闭合。声带开启时,空气流从声门喷射出来,形成一个脉冲;声带闭合时相应于脉冲序列的间歇期。因此,这种情况下在声门处产生出一个准周期脉冲序列的空气流,即“浊音”语音。如果声带完全舒展,则肺部发出的空气流不受影响地通过声门:一种是形成“摩擦音”和“清音”,一种是形成“爆破音”。

五、对于浊音、清音和爆破音来说,激励源是不同的,浊音语音是位于声门处的准周期脉冲序列,清音的激励源是位于声道的某个收缩区的空气湍流,而爆破音的激励源是位于声道某个闭合点处建立起来的气压及其突然释放。

六、共振峰的概念

1、共振峰名词解释:声道是一个分布参数系统,它是一个谐振腔,有许多谐振频率,称为共振峰,它是声道的重要声学特征。

2、共振峰的公式:Fn=(2n-1)c/4L(会运用公式进行计算,填空、选择)

3、声道的共振峰特性决定所发声音的音色。

4、谐振点间的间隔不同,但平均仍然大约为每1KHz有一个谐振点。

七、几个小的填空题

1、共振峰特性决定信号频谱的总轮廓(谱包络)。

2、共振峰和声道的形状和大小有关。

3、语音的频率特性主要是由共振峰决定的。

4、声道的共振峰特性决定所发声音的频谱特性(音色)。

5、人在说话时,元音的音色和区别特征主要取决于声道的共振峰特性。

6、声门脉冲序列具有丰富的谐波成分,这些频率成分与声道的共振频率之间相互作用的结果对语音的音质有很大影响。

7、语音识别技术中要考虑3个共振峰,而在语音合成技术中要考虑5个共振峰。

8、声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。

§2.3 语音信号的特性

一、语音的物理属性

语音的物理性质包括音质、音调、音强、音长等特性。语音是人的发音器官发出的一种声波,具有声音的物理属性。音质是一种声音区别于其他声音的基本特征;音调指声音的高低,取决于声波的频率:频率高则音调高,频率低则音调低;响度是指声音的强弱,又称音量,它是由声波震动幅度决定的;声音的长短也称音长,它取决于发音持续时间的长短。

二、音素、音节、单词、句子的基本概念以及它们之间的关系

(1)音素是语音的最小、最基本的组成单位,音素都有其独立的各不相同的发音方法和发音部位,它是使听者能区别一个单词和另一个单词的声音的基础。

(2)音节是最小的语言片段,一个音节由一个或几个音素组成。

(3)单词是由音节结合而成的更大单位,是有意义的语言的最小单位。

(4)句子是单词的进一步组合。

三、语音的时间波形和频谱特性

1、元音的时间波形如图2-2所示

特点:其声门波形为脉冲序列,脉冲之间的间隔为基音周期,用g(t)表示。

2、声道的输出如图2-3所示

门脉冲的周期。

3、元音信号的频谱如图2-6所示

特点:g(t)的频域为G(f),冲激h(t)的频域表示为H(f),输出的频谱为G(f)H(f),如图2-6所示。其中虚线称为谱包络,其形状是由H(f)和G(f)的包络乘积得到的。

四、几个小知识点

1、任何语音都有元音和辅音两种音素。

2、元音在音节中占主要部分。

3、每个元音的特点是由声道的形状和尺寸决定的。

4、所有元音都是浊音。

5、发辅音时如果声带不振动,为清音;发辅音时声带振动,为清辅音。

6、在已知语言中元音有少至2个多到12个,辅音从10多个至70多个。一个音节可以是1个元音和1-2个辅音的组合。

五、汉语的特点

1、汉语的特点为自然单位是音节、每一个字都是单音节字,即汉语的一个音节就是一个字的音,字是独立的发音单位;再由音节字构成词,最后由词构成句子。每一个音节字由声母和韵母拼音而成;在音节中,声母较简单,而韵母比较复杂。

2、汉语语音的另一个特点是它具有声调。

3、汉语的特点还有音素少、音节少的特点。

六、汉语中的音节即字音由声母、韵母和声调按一定方式构成,即声、韵、调三个因素构成。

七、清音和浊音的频谱特性

清音和浊音的波形有很大的不同。清音的波形类似于白噪声,具有很弱的振幅;元音具有明显的准周期性,并具有较强的振幅。它们的周期对应的频率就是基音频率。如果考察其中一个周期,还可以大致看出其频谱特性。

§2.4 语音信号产生的数学模型

一、语音信号的数字模型

1、语音信号数字模型的概念:语音信号被看成是线性时不变系统(声道)在随机噪声或准调周期脉冲序列激励下的输出。在满足这样的假设条件下,产生了语音信号的基本数字模型,是语音处理技术的基础。

2、语音信号数字模型的框图:P21 图2-18

图中,清/浊音开关模拟了加在声道上的激励的改变情况:当开关接在浊音位置时,激励源是准周期脉冲序列发生器,其重复频率由基因频率来确定;当开关接在清音位置时,激励源是随机噪声发生器。

二、语音信号数字模型的组成等

1、语音信号数字模型由激励模型、声道模型和辐射模型组成。

2、声道模型包括声管模型和共振峰模型。

3、共振峰模型又可分为级联型、并联型和混合型。

级联型、并联型、混合型的特点分别是:

(1)级联型:比较简单,可用于描述一般的元音。级联的级数取决于声道的长度。

(2)并联型:比级联型复杂,每个谐振器的幅度都要独立控制。

(3)混合型:是级联型和并联型的结合,是比较完备的一种共振峰模型。能够根据不同性质的语音进行切换。

三、一个完整的语音信号数字模型可以用激励模型、声道模型和辐射模型的级联来表示。

四、发不同性质的音时,激励的情况是不同的,大致分为两类:(1)发浊音时,此时气流在通过绷紧的声带时,冲激声带产生振动,使声门处形成准周期性的脉冲串。声带绷紧的程度不同时,振动频率也不同,这个频率就是音调频率,其倒数为音调周期。不同人的音调周期是不同的,男子大,女子小,老人大,小孩低。(2)发清音时,此时声带松弛

五、激励模型的频谱特点

1、发浊音时,由于声带不断张开和关闭,将产生间歇的脉冲波。这个脉冲波类似于斜三角形的脉冲,激励是一个以基音周期为周期的斜三角脉冲串。

2、发清音时,声道被阻碍形成湍流,可以模拟成随机白噪声。

六、P和P/2

P/2代表级联的个数

七、辐射模型是一阶类高通滤波器的形式。

§2.5 语音感知

一、人耳能听到的声音,频率范围在16Hz-16kHz之间,年轻人的上限可以延伸至20kHz,老年人则衰退到10kHz。

二、声音的三要素

声音可以用幅度、频率和相位三个物理量来描述,但相对于人耳的感觉,声音的描述有其三要素,即:响度、音调和音色。

1、响度:响度是人耳对声音强弱程度的主观反应,响度取决于声音的幅度,主要是声压的函数,但和频率和波形也有关,单位是宋(sone)。人耳对3000-4000Hz的声音感觉最灵敏。

2、音调:也称音高,是一种主观心理量,是人耳对声音频率高低的感受,即与声音的频率有关。音调与声音频率是近似的对数关系,单位是美(mel)。

3、音色:也叫音质,反映了声音属性。人根据音色在主观感觉上区别具有相同响度和音调的两个声音。

三、听觉掩蔽的名词解释及其应用

1、听觉掩蔽:人类听觉中存在一种现象,即两个音同时存在时,一个声音有可能受到另一个声音的干扰或压制,即一个音被另一音掩盖,这称为听觉掩蔽。

2、应用:听觉掩蔽现象在语音处理中得到了广泛的应用。在语音编码中,利用听觉掩蔽效应改善输出语音质量已取得很大效益。

Ch3 时域分析

§3.1 概述

一、为什么时域分析要采用短时分析技术(结合语音的特点)

1、短时分析技术的基本概念:语音信号是一种随时间而变化的信号,可能是浊音激励也可能是清音激励,浊音的基音周期以及信号幅度等语音特性也都随时间变化,但这种变化是缓慢的,在一小段短时间内10-30ms,语音信号近似不变。于是,我们把变化的语音信号分成一些相继的短时间段来处理。而每一段时间段具有固定的特性,这种方法称为“短时”处理方法。

2、语音信号本身就是时域信号,因而时域分析是最早使用、也应用最广的一种方法,它具有:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可以得到语音的一些重要参数这三个特点。

§3.2 数字化和预处理

一、取样和量化

1、为了将原始的模拟信号转换为数字信号,必须经过取样和量化两个步骤,从而得到在时间和幅度上均离散的数字语音信号。

2、取样的名词解释:取样是将时间上连续的语音信号离散化为一个样本序列。根据取样定理,当取样频率大于两倍信号带宽时,取样过程不会丢失信息,且从取样信号中可以精确地重构原始信号的波形。

3、量化的名词解释:量化是指将取样后得到的样本序列的幅度再离散化,量化过程是将整个幅度值分割为有限个区间,将落入同一区间的样本赋予相同的幅度值。

4、长途通信、移动通信、卫星通信中的声音以电话宽带语音为主,取样率多取8kHz,在实际的语音系统中,取样率常取10 kHz。某些现代语音处理系统语音频率高端扩展,相应的取样率提高到15-20 kHz。

二、量化噪声的概念及特点

1、量化噪声:量化后信号值与原信号之间的差值称为量化误差,即量化噪声。

2、特点:(1)它是一个平稳的白噪声过程;(2)量化噪声和输入信号不相关;(3)量化噪声在量化间隔内均匀分布,即具有等概率密度分布。

3、量化信噪比的计算公式:SNR (dB )=6.02B-7.2

三、语音信号系统框图(为什么要进行预处理)

1、系统框图:P26 图3-4

2、反混叠滤波器的作用:它是一个具有良好截止特性的模拟低通滤波器,主要是为了防止混叠失真和噪声干扰。

3、D/A 后面的低通滤波器是平滑滤波器,对重构的语音波形的高次谐波起平滑作用,以去除高次谐波失真。

4、在预处理中进行预加重,目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。

§3.3 短时能量分析

一、语音信号的能量分析:语音信号的能量分析是基于语音信号能量随时间有相当大的变化,特别是清音段的能量一般比浊音段的小得多。能量分析包括能量和幅度两个方面。

二、直角窗和海明窗

1、不同的窗口选择将决定短时能量特性,即窗口的形状和长度。

2、直角窗和海明窗的比较

(1)从窗口形状上:直角窗时的响应h(t)具有线性的相位-频率特性,其频率响应中第一个零值点对应的频率为fs/N ,这里fs 为取样频率,T=1/fs 为取样周期。海明窗的第一个零值频率位置比直角窗要大1倍左右,即带宽约增加1倍;同时带外衰减也比直角窗大得多。选用不同的窗口,将使能量的平均结果不同。直角窗的谱平滑较好,但波形细节丢失,海明窗刚好与之相反。

(2)从窗口形状上(窗口选择原则):N 选择太大,则短时能量n E 随时间变化就很小,不能充分反映语音信号

的幅度变化;而N 选择得小,即选择N 等于或小于一个基音周期时,n E 将按照信号波形的细微变化而起伏不定,以

致短时能量n E 不够匀化和平滑。因此,折衷考虑N 的值,在通常情况下,当取样频率为10KHz 时,N =100-200被认为是合适的。

三、短时能量的概念及其结论

短时平均能量反映了语音能量随着时间缓慢变化的规律。它的主要用途有:

1、可以区分清音段和浊音段;

2、可以区分声母与韵母的分界、无声和有声的分界、连字的分界等。

3、作为一种超音段信息,用于语音识别中。

四、对语音信号采用短时分析时,信号流的处理用分段或分帧来实现。每秒的帧数一般约为33-100。

§3.4 短时过零分析

一、过零分析和平均过零数的名词解释

1、过零分析:过零分析是语音时域分析中最简单的一种,对于离散时间信号的相邻两个取样值具有不同的符号时,便出现“过零”现象。

2、平均过零数:单位时间内的过零数。

二、短时平均过零数的实现

1、实现框图:P32 图3-12

2、文字描述:首先对语音信号序列x(n)进行成对的查对采样以确定是否发生过零,若发生符号变化,则表示有一

三、短时过零分析的用途(包含清音、浊音的各自特点)

1、短时平均过零数可应用于语音信号分析中。由于它粗略地描述了信号的频谱特性,因而可以用来区分清音和浊音。发浊音时,语音能量约集中于3kHz 以下。而发清音时,多数能量集中在较高的频谱上。浊音具有较低的平均过零数,而清音时具有较高的平均过零数。可见P33的图3-13

2、利用短时平均过零数还可以从背景噪声中找出语音信号,用于判断寂静无语音和有语音的起点和终点位置。

四、图3-14说明的问题是什么

由图可见,这三句话的平均过零数变换都很大,高平均过零数对应于清音,低平均过零数对应于浊音;但是清音和浊音的变化非常明显。因而,短时平均过零数可用于清音和浊音的大分类上。

§3.5 短时相关分析

一、短时自相关分析得到语音信号有何特点和用途

1、对于浊音语音来说,短时自相关函数具有明显的峰值且呈周期分布,而对于清音来说,则没有很强的自相关周期峰,其性质类似于噪声。

2、短时自相关函数是语音信号时域分析的重要参量。它有两个用途,一是判断清/浊音,并估计浊音的基音周期;二是它的傅里叶变换是短时谱。

二、短时平均幅度差函数能够代替自相关函数进行语音分析,是基于:语音的浊音具有准周期性。

三、自相关函数的性质

1、如果序列是周期的,则自相关函数也是同周期的周期函数;

2、是偶函数;

3、k=0时,自相关函数具有极大值;

4、R(0)等于确定性信号序列的能量或随机性序列的平均功率。

Ch4 短时傅里叶分析

§4.1 概述

一、傅里叶分析在信号分析与处理中的地位与作用

在语音信号处理中,傅里叶表示在传统上一直起主要作用。其原因一方面在于稳态语音的产生模型由线性系统组成,此系统被一随时间作周期变化或随机变化的源所激励,因而系统输出频谱反映了激励与声道频率响应特性。另一方面,语音信号的频谱具有非常明显的语言声学意义,可以获得某些重要的语音特征。同时,语音的感知过程与人类听觉系统具有频谱分析功能是密切相关的。

二、短时傅里叶分析的重要性。

短时傅里叶分析是分析缓慢时变频谱的一种简便方法,是用稳态分析方法处理非稳态信号的一种方法,在语音处理中是一个非常重要的工具。

三、常用的频域分析方法有带通滤波器组法、傅里叶分析、线性预测分析等。

§4.2 短时傅里叶变换

一、短时傅里叶变换的定义(集中备课)

语音信号可以认为是局部平稳的,所以可以对某一帧语音进行傅里叶变换,即短时傅里叶变换,定义为:

∑∞

-∞=--=m n j j e

m n m x e X ωωω)()()(n

二、短时傅里叶变换的两种解释(集中备课)

一是标准傅里叶变换的解释,二是滤波器的解释。

三、标准傅里叶变换解释

1、与序列的傅里叶变换相同,短时傅里叶变换随着ω作周期变化,周期为2π。

2、窗口序列具有的特性:

(1)频率分辨率高,即主瓣狭窄、尖锐;

(2)通过卷积,在其他频率成分产生的频谱泄漏少,即旁瓣衰减大。

3、海明窗与直角窗(矩形窗)对浊音语音的频谱分析比较

它们在基音谐波、共振峰结构以及频谱具有相似性,但其频谱间也具有差别。(1)是基音谐波尖锐度增加,这是因为矩形窗频率分辨率较高;(2)矩形窗较高的旁瓣产生了一个类似于噪声的频谱。因此,在语音频谱分析中极少采用矩形窗。

4、窗口宽度与短时傅里叶变换特性之间的关系,即用窄窗可得到好的时间分辨率,用宽窗可得到好的频率分辨率。

四、滤波器的解释

1、短时傅里叶变换滤波器的解释包括复数运算和只有实数运算。

2、第一种形式的滤波器为低通滤波器;第二种形式的滤波器为带通滤波器。具体掌握图4-5及下一段的解释。

§4.3 短时傅里叶变换的取样率

一、时间取样率、频域取样率和总取样率的相关概念

1、时间取样率

2B=2fs/N 直角窗

2B=4fs/N 海明窗

2、频域取样率

为使恢复的时域信号不产生混叠失真,需满足条件L≥N(取样频率L≥取样点N)。

3、总取样率SR(单位是Hz)

SR=时域取样率*频域取样率=2B*L=2BL

SR=2fsL/N 直角窗

SR=4fsL/N 海明窗

§4.4 语音信号的短时综合

一、语音的短时综合两种经典的方法是:滤波器组求和法和快速傅里叶变换求和法。

两者的比较:滤波器组求和法与快速傅里叶变换求和法之间存在着对偶性,即一个与频率取样有关,另一个却与时间取样有关。

当传输中存在噪声时,滤波器组求和法将比较优越。

Ch5 同态滤波及倒谱分析

§5.1 概述

一、根据语音信号的产生模型,可以将其用一个线性非时变系统的输出表示,即看做是声门激励信号和声道冲激响应的卷积。

二、为了分离加性组合信号,常采用线性滤波方法;而为了分离非加性组合信号,常采用同态滤波技术。

§5.2 同态信号处理的基本原理

一、同态信号处理的概念

同态信号处理就是将非线性问题转化为线性问题来处理,按处理的信号可分为乘积同态处理和卷积同态处理。

二、同态信号处理的实现框图(自己补充)

任何同态系统都可以表示为三个同态系统的级联,框图如图5-2所示。即同态系统可分解为两个特征系统和一个线性系统。

三、特征系统与逆特征系统的组成

在同态系统的组成中第一个系统以若干信号的卷积作为输入,并将它变换成对应输出的相加性组合。第二个系统是一个普通的线性系统,服从叠加定理。第三个系统是第一个系统的逆变换,即它将信号的相加性组合反变换为卷积组合。特征系统和逆特征系统如图5-3所示。(自己补充)

§5.3 复倒谱和倒谱

一、复倒谱和倒谱的概念

复倒谱:()x n Λ是一个时域序列,称()x n Λ

是()x n 的“复倒频谱”,简称为“复倒谱”。

倒谱:()c n 是序列()x n 对数幅度谱的傅里叶逆变换。对数幅度谱的傅里叶逆变换并没有使信号返回到时域,而是进入一个新域,这个新域称作倒谱域。用()c n 表示“倒频谱”,简称为“倒谱”。

若12()()()x n x n x n =*则倒谱12()()()c n c n c n =+

§5.4 两个卷积分量复倒谱的性质

一、一个周期冲激的有限长度序列,其复倒谱也是一个周期冲激序列,并且长度Np 不变,只是序列变为无限长度序列。

二、声门激励信号的特点

发清音时,声门激励是能量较小、频谱均匀分布的白噪声;发浊音时,声门激励是以基音周期为周期的冲激序列。

三、声道冲激响应序列复倒谱的性质

1、 是双边序列,存在于-∞

2、 是衰减序列。

3、 随|n|增大而衰减的速度至少比1/|n|快。

4、如果x(n)是最小相位序列,即极零点均在z 平面单位圆内,此时 只在n ≥0时有值,即 是因果序列。最小相位信号序列的复倒谱是因果序列。

5、如果x(n)是最大相位序列,即极零点均在z 平面单位圆外,此时 只在n ≤0时有值,为左边序列。最大相位信号序列的复倒谱是左边序列。

§5.5 避免相位卷绕的算法

一、相位卷绕的定义

在复倒谱分析中,Z 变换后得到的是复数,所以取对数时进行的是复对数运算。这时存在相位的多值性问题,称为“相位卷绕”。

二、避免相位卷绕求复倒谱的方法包括:微分法、最小相位信号法、递推法。

三、几种方法的比较

1、微分法:这种方法避免了求复对数的问题,但其缺点是会产生严重的频谱混叠。

2、最小相位信号法:是一种较好的避免产生相位卷绕的方法,但仅适用于信号x(n)是最小相位信号。

3、递推法:也仅适用于x(n)是最小相位信号。

Ch6 线性预测分析

§6.1 概述

一、线性预测分析的基本概念

线性预测分析所包含的基本概念是,一个语音的抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值,即进行最小均方误差的逼近,能够决

二、线性预测分析参数包括LPC参数、PARCOR参数及LSP参数。

§6.2 线性预测分析的基本原理

一、线性预测模型采用全极点模型的原因

全极点模型最易于计算,对全极点模型作参数估计是对线性方程组的求解过程;有时无法知道输入序列;人的听觉对于那种只能用零点来表示的频谱陡峭谷点是迟钝的;如果不考虑鼻音和摩擦音,那么语音的声道传递函数就是一个全极点模型。

二、全极点模型——非鼻音浊音语音

极零点模型——鼻音和摩擦音

三、线性预测(LPC)谱的特点

1、对于浊音信号谱在谐波成分处的匹配效果要远比谐波之间好得多。

2、LPC谱对其他谱的优点是可以很好地表示共振峰结构而不出现额外的峰起和起伏。

§6.4 线性预测分析的解法(1)

一、线性预测的经典解法有两种,一种是自相关法,一种是协方差法。

二、自相关法和协方差法的比较

1、就信号的特性而言,自相关法适用于平稳信号,而协方差法适用于非平稳信号。

2、自相关法对摩擦音能给出比较好的结果,而协方差法对于周期性语音可以给出比较好的结果。

3、自相关函数需加窗,求得的预测系数精度不高,而协方差法无需加窗,计算精度较高,但稳定性得不到保证。

4、自相关法用定点运算有其优点,更适合于硬件实现,而协方差法的困难在于对中间量的比例运算。

通过选择窗函数,以及加大窗口的宽度,子相关法在精度上的劣势不再明显,而高速性能仍然突出。因此在实际应用中大都采用自相关法。

§6.5 线性预测分析的解法(2)

一、反射系数的概念

在声管模型中,声道被模拟成一系列长度不同,截面积为Ai的声管的级联,ki规定了声波在各声管段边界处的反射量;而这里的每一个格型网络就相当于一个小声管段,ki反映了第i节格型网络处的反射,故称k1-kp为p级格型滤波器的反射系数。

二、格型法的优点

与自相关法和协方差法相比较,格型法具有的优点是:

1、反射系数可被直接用于计算预测系数,格型滤波器的级数等于预测系数的个数。

2、滤波器的不稳定会导致输出语音信号无规律地振荡。格型法的稳定性可由其反射系数的值来判定。

三、根据滤波器的结构形式,定义了三个均方误差,即正向均方误差、反向均方误差和交叉均方误差。

格型法还可分为:正向格型法、反向格型法、平均几何格型法、伯格法和协方差格型法。

Ch7 矢量量化

§7.1 概述

一、量化可以分为两类:标量量化和矢量量化。

二、矢量量化VQ的基本概念

矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化,即作为一个整体进行量化。

根据仙农信息论可以得出,矢量量化总是优于标量量化,且矢量维数越大性能越优越。因为矢量量化有效利用了矢量中各分量间的各种相互关联的性质。采用矢量量化技术对信号波形数据进行压缩,可以获得非常高的压缩比。

§7.2 矢量量化的基本原理

一、矢量量化的过程

将语音信号波形的K个样点的每一帧,或有K个参数的每一帧参数,构成K维空间中的一个矢量,然后对这个矢量进行量化。

二、码书(码本)、码字(码矢)

通常把所有M个量化矢量构成的集合称为码书(码本)。

把码书中的每个量化矢量称为码字(码矢)。

三、设计矢量量化器的关键是编码器的设计方法,而译码器的工作过程仅是一个简单的查表过程。

四、矢量量化器的性能指标与码书大小M及量化产生的平均信噪比有关。

五、在训练数据已知的情况下,矢量量化的准则是在给定码本大小K时使量化所造成的失真最小。

§7.3 失真测度

一、失真测度必须具备的几个特性

必须在主观评价上有意义;必须是易于处理的;平均失真存在且可计算;易于硬件实现。

二、失真测度主要有均方误差失真测度(即欧式距离)、加权的均方误差失真测度、板仓-斋藤似然比距离、似然比失真测度。

三、几种常用的欧式距离:r方平均误差、r平均误差、绝对值平均误差和最大平均误差

§7.4 最佳矢量量化器和码本的设计

一、矢量量化器最佳设计的两个条件是:最佳划分和最佳码书。

二、几种初始码书的生成方法包括:随机选取法、分裂法、乘积码书法。

三、维数:K1,大小为M1的码书

维数:K-K1,大小为M2的码书

得到一个:维数:K,大小为M1*M2的码书

§7.5 降低复杂度的矢量量化系统

一、矢量量化系统的组成

矢量量化器主要由编码器和译码器组成。

编码器由码书搜索算法和码书构成。

译码器由查表方法和码书构成。

二、矢量量化器的研究主要是围绕着降低速率、减少失真和降低复杂度展开的。速率、失真和复杂度是矢量量化器的三个关键问题。

降低复杂度一般有两条途径:一是寻找好的快速算法,二是使码书结构化。

三、降低复杂度的设计方法包括两类:无记忆的矢量量化器和有记忆的矢量量化器。

四、无记忆的矢量量化器和有记忆的矢量量化器的概念及区别

有记忆的矢量量化器与无记忆的矢量量化器不同,它是量化每一个输入矢量时,不仅与此矢量本身有关,而且也与其前面的矢量有关。

五、无记忆的矢量量化系统包括树形搜索的矢量量化系统和多级矢量量化系统。

有记忆的矢量量化分为反馈矢量量化和自适应矢量量化两类。

Ch9 基音检测分析

§9.1 基音检测

一、基音、基音周期

基音是指发浊音时声带振动所引起的周期性。

基音周期是指声带振动频率的倒数。

二、基音检测的重要性和难点(大纲)

基音的提取和估计是语音信号处理中十分重要的一个问题,准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要意义。在低速率语音编码中,准确的基音检测是非常关键的,它直接影响到整个系统的性能。

三、基因检测的三个研究方面

1、稳定并提取准周期性信号的周期性方法;

2、因周期混乱,采取基音提取误差补偿的方法;

3、消除声道影响的方法。

四、基音检测的三种方法:波形估计法、相关处理法和变换法。

五、清/浊音判断的辅助参量

1、语音信号能量

2、过零数

3、自相关函数

4、线性预测系数

六、常用的几种基音检测方法包括:自相关法、并行处理法、倒谱法、简化逆滤波法。

七、

§9.2 共振峰估值

一、共振峰估计中存在的问题

1、虚假峰值

2、共振峰合并

3、高基音语音

二、几种常用的提取共振峰特性的方法

1、带通滤波器组法

2、离散傅立叶变换

3、倒谱法

4、LPC法

三、浊音和清音时DFT谱特性比较

1、浊音时

2、清音时

此时信号具有随机噪声的特点,其频谱不具有离散谐波特性,但其包络基本上反映了声道的特性。对其频谱进行线性平滑而得到谱包络,并用一个峰值搜索算法来确定峰值。

四、浊音和清音时倒谱法检测效果对比

见P131

五、倒谱法难以解决的两个问题

1、并不是所有的谱峰都为共振峰

2、带宽的计算

六、LPC法进行共振峰估计的两个方案

1、求根法

2、LPC谱估计

七、LPC法的优点和缺点

优点:

1、通过对预测多项式的分解能够精确地决定共振峰的频率和带宽。

2、能很好的表示共振峰结构而不出现额外的峰起和起伏。

3、额外的极点一般容易排除。

缺点:

用一个全极点模型逼近语音谱,对于含有零点的某些音来说,根反映了极零点的复合效应,因而无法区分这些根是相应于零点还是极点,或完全与声道的谐振极点有关。

Ch10 语音编码(1)——波形编码

§10.1 概述

一、编码分为信源编码和信道编码两类。

二、语音编码的目的

语音编码的目的是在保持可以接受的失真的情况下尽可能少的比特数表示语音。

三、传输码率(数码率)的概念

是指传输每秒语音信号所需的比特数,也称为数码率。

四、语音压缩编码需要在保持可懂度与音质、降低数码率和降低编码过程的计算代价三个方面折中。

五、语音信号数字传输的优点

1、可以在窄带信道上传输;

2、能克服信道失真;

3、在大多数信道中,当误码率给定时,低数码率比高数码率所需要的发射功率更小;

4、给定容量的复接电路或复按网络允许通过更多的信道;

5、为了存储一定的语音所需的存储器容量将更少;

6、当和差错纠正与扩频技术结合使用时,将具有更大的抗噪声与抗干扰能力。

六、语音编码的两类应用

1、语音信号的数字传输

2、语音信号的数字存储

七、语音编码的分类

2、生码器技术

§10.2 语音信号的压缩编码原理

一、语音压缩的必要性(大纲)

语音编码的目的是在保持可以接受的失真情况下,采用尽可能少的比特数表示语音。如果对语音直接数字化,则传输或存储语音的数据量太大。为了降低传输或存储的费用,必须对其压缩。

二、语音压缩的两个基本依据

对语音进行压缩编码的基本依据有两个。

一个是从产生语音的物理机理和语言结构的性质来看,语音信号中存在较大的冗余度。

第二个依据是利用人类听觉的某些特性。

三、冗余度的概念

分客观冗余和主观冗余。

客观冗余包括:

1、语音信号样本间相关性很强;

2、浊音语音段具有准周期性;

3、声道的形状及其变化比较缓慢;

4、传输码值的概率分布式非均匀的。

主观冗余包括:

1、人的听觉生理-心理特性对于语音感知的影响存在听觉掩蔽现象;

2、人的听觉对低频端比较敏感,对高频端不太敏感;

3、人耳对语音信号的相位变化不敏感;

4、人耳听觉特性对语音幅度分辨率是有限的。

四、语音压缩编码需考虑的因素

1、输入语音信号的特点;

2、传输比特率的限制

3、对输出重构语音的音质要求

五、语音通信质量的分类

语音通信中语音质量分为四等(质量越来越差):

1、广播质量:

2、长途电话质量:

3、通信质量:

4、合成质量:

六、两种压缩编码方式:波形编码和声码器的比较

1、波形编码的目的是在给定传输比特率下,使重构误差最小,采用信噪比作为评定标准。声码器音质的好坏由主观评价,缺乏客观依据。

2、波形编码的语音质量好,但降低比特率困难。声码器语音的自然度、可懂度差,受噪声和误码的影响大,算法复杂。

§10.3 脉冲编码调制及其自适应

一、脉冲编码调制(PCM)包括均匀PCM和非均匀PCM。

二、PCM的定义

将语音变换成与其幅度成正比的二进制序列,并用脉冲对采样幅度进行编码,称为脉冲编码调制。

SNR(dB)=6.02B-7.2

四、非均匀PCM

1、基本思想:对大幅度的样本使用大的Δ,对小幅度的样本使用小的Δ;在接收端按此还原。

2、两种非均匀量化的方法:A律和μ律。

我国采用的是A律;美国采用的是μ律。

五、自适应PCM(APCM)

1、原理:它是使量化器的特性自适应于输入信号的幅值变化,或使量化器的增益G随着幅值而变化从而使量化前信号的能量为恒定值。

2、按自适应参数的来源划分,自适应量化分为前馈和反馈两种。

3、原理框图(一个是Δ匹配自适应,一个是G匹配自适应,如图10-6所示)

§10.4 预测编码调制及其自适应

一、预测编码

1、定义:在接收端,使用与发送端相同的预测器,就可恢复原信号。这种编码方式称为预测编码。

2、预测编码分为:差分脉冲编码调制和增量调制。

二、短时预测和长时预测

短时预测:利用比较相邻的相本值的预测,是频谱包络的预测。

长时预测:基于基音周期的预测,是频谱细微结构的预测。

三、噪声整形的概念

能使噪声谱随语音频谱的包络变化,则语音共振峰的频率成分就必然会掩盖量化噪声,这种技术称为噪声整形。

§10.5 自适应差分脉冲编码调制(ADPCM)及自适应增量调制(ADM)

一、DPCM和ADPCM

DPCM(差分脉冲编码调制):对相邻样本间的差信号进行编码,可谋求信息量的压缩,这种编码方式称为DPCM。

ADPCM(自适应差分脉冲编码调制):采用自适应量化及高阶自适应预测的DPCM。

二、ADPCM的国际标准

采用ADPCM作为长途传输中的一种新的国际通用语音编码方案。这种ADPCM可达到标准64kbit/sPCM的语音传输质量,并具有很好的抗误码性能。

三、ADPCM的系统框图(如图10-14)

四、增量调制(DM)定义

DM是一种特殊简化的DPCM,是一种极限情况,只用1bit的量化器。最大的特点是简单,易于实现。

五、斜率过载和颗粒噪声

1、斜率过载:在DM中,与量化阶梯Δ相比,当语音波形幅度发生急剧变化时,译码波形不能充分跟踪这种急剧变化而必然产生失真,称为斜率过载。

2、噪声颗粒:在没有输入语音的无声状态时,或者是信号幅度为固定值时,量化输出都将呈现0、1交替的序列,而译码后的波形只是Δ的重复增减,这种噪声称为颗粒噪声。

自适应增量调制是克服斜率过载和颗粒噪声最理想的方法。

§10.6 子带编码(SBC)

一、频域编码的两个基本原则

1、通过合适的滤波或变换,在频域上得到数目较少、相关性较小的分量,从而提高编码效率;

二、子带编码的概念与实现

SBC也称为频带分割编码,是在频域上寻求语音压缩途径的编码方法。它不对信号进行直接变换,而是首先使用带通滤波器组将语音信号分割成若干个子带,用调制的方法对滤波后的信号进行频谱平移变成低通信号,再利用奈奎斯特速率对其进行取样,最后进行编码处理。

三、SBC的优点

SBC的优点是对应于人的听觉特性,可以比较容易地考虑噪声的抑制:即各子带可以选用不同的量化参数以分别控制其信噪比,满足主观听觉的要求。量化噪声只能出现在各被分割的频带内,对其他频带没有任何影响,可以较轻易地控制噪声谱。

四、正交镜像滤波法的特点:上子带滤波器的频率响应是下子带滤波器频率响应的镜像。

§10.7 自适应变换编码(ATC)

一、自适应变换编码的基本概念(大纲)

变换编码是一种优秀的高质量的语音压缩编码方法,它将时域的语音信号变换到频域,变换后的数值表示信号中不同频率分量的强度,然后将这些变换系数按照比特分配的结果进行量化编码。

二、DCT和KLT的定义及比较

DCT:离散余弦变换

KLT:简称为卡洛变换

DCT具有的优点:

1、DCT与KLT相比,频域变换明确,与人的听觉频率分析机理相对应,容易控制噪声的频率范围。

2、DCT提供的性能一般在KLT的1-2dB之内,KLT计算量大。

3、DCT运算量少、数据量少,无需传输特征矢量。

4、DCT比DFT变换效率高。

5、DCT与DFT相比,在端点取出波形的影响较小,在频域区的畸变小。

Ch11 语音编码(2)——声码器技术及混合编码

§11.1 概述

一、语音参数编码的基本概念

1、语音参数编码通过对语音信号的参数进行提取及编码,力图使重建语音信号具有尽可能高的可懂度,即保持原语音的语意。这类编码的优点是编码率低,可低至2.4kbit/s以下。

2、参数编码的基础是语音产生的数学模型。实现参数编码的器件称为声码器,主要用于窄带信道的语音通信。

3、为了充分发挥声码器的性能而必须的三个重要因素:

(1)去掉语音波形中的冗余部分,提取对于听觉所需的重要参数。

(2)对参数进行有效编码。

(3)根据编码的参数,尽可能忠实地将语音还原出来。

§11.2 声码器的基本结构

一、声码器的基本结构及实现过程

1、声码器的基本结构包括分析和合成两部分。

2、实现过程:语音信号经过分析得到谱包络和基音以及清浊音判别,编码后送入信道传输;在接收端,压缩后的语音由合成器加以恢复。

二、声码器的局限

1、由于声道滤波器阶数有限,因而合成的语音的频谱精度收到一定限制。

2、浊音激励是规则的准周期脉冲,含有语音中将会出现的人为规则的特性。

3、采用了清浊音二元判决,或产生纯粹的清音,或产生纯粹的浊音,与实际的语音有区别。

5、语音合成器中的激励源只有两个,每次只能产生一个音。

三、目前常用的声码器包括:通道声码器、共振峰声码器和LPC声码器。

§11.5 线性预测声码器

一、LPC参数的变换和量化包括:反射系数、对数面积比和预测多项式的根。

二、为什么要对反射系数进行量化

对反射系数的研究表明,各反射系数幅度值的分布是不相同的:k1和k2的分布是非对称,对于多数浊音信号,k1接近于-1,k2接近于+1;而较高阶次的反射系数k3、k4等趋向于均值为零的高斯分布。此外,反射系数的谱灵敏度也是非均匀的,其值接近于1时,谱的灵敏度越高,此时反射系数很小的变化将导致信号频谱的较大偏移。

上面的分析表明,对反射系数的值在(-1,+1)区间作线性量化是低效的,一般都是进行非线性量化。

§11.6 混合编码

一、混合编码的概念(大纲)

混合编码是波形编码和声码器两种优点的结合:既利用了语音生成模型,通过对模型中的参数进行编码,减少了波形编码中被编码对象的动态范围或数目;又使编码的过程产生接近原始语音波形的合成语音,以保留说话人的各种自然特征,提高了合成语音质量。

二、混合编码包括:多脉冲线性预测声码器(MPLPC)和码激励线性预测编码(CELP)。前者是使用一个数目有限、幅度和位置可调整的脉冲序列作为激励源;后者是使用一个波形码矢量作激励源,它通常从高斯白噪声序列构成的码本中选取。

三、MPLPC与CELP的特点

1、MPLPC

MPLPC具有LPC和ADPCM的预测编码结构,采用感知加权进行设定,通过改进激励模型提高LPC的性能,采用几个脉冲作为一个语音帧的激励信号;脉冲数量事先选好,但需考虑复杂性和语音音质。

2、CELP

CELP的目的是将MPLPC中使用的混合编码方法扩展到低比特范围,它是中低速率编码中最成功的一种方案,它以高质量的合成语音及优良的抗噪声和多次转接性能,在9.6kbit/s以下的速率中得到了广泛的应用。

两者的区别:CELP是从矢量激励码本中选择激励信号,然后激励合成系统产生最优合成声音。而MPLPC是通过一个迭代算法,在给定脉冲总数的情况下,寻找能产生最优合成语音的脉冲位置和幅度。

CELP和MPLPC的区别仅在于激励部分是不同的。

§11.7 各种语音编码方法的比较及语音编码研究方向

一、波形编码和声码器优缺点的比较

具体参见P170图11-1

§11.8 语音编码的性能指标和质量评价

一、语音编码的基本性能指标包括编码速率和顽健性。

编码速率:又称比特率,是指一个编码器的信息速率。

顽健性:通过取多种不同来源的语音信号进行编码解码,并对输出语音质量进行比较测试得到的一种指标。

二、编码器的质量评价方法,包括主观评价法和客观评价法。

客观评价准则:信噪比和谱失真测度。

主观评价准则:通过人的感觉器官来测试。

三、可懂度与自然度

语音编码后,其再生语音质量包括可懂度和自然度。

自然度:指语音听起来有多自然,听起来像是机器发出的,不能辨认出说话人是谁。

四、常用的几种语音主观评价标准包括:平均评价测试法MOS、押韵测试DRT和可接受程度测试DAM。

不同编码对应的MOS值

1、64kbit/s PCM——4.2

2、32kbit/s ADPCM——4.0

3、4.8kbit/s CELP——3.2

4、2.4kbit/s LPC声码器——2.2

Ch12 语音编码(2)——声码器技术及混合编码

§12.1 概述

一、语音合成的概念

又人工制作出来的语音称为语音合成,即由机器产生出声音,它是人机语声通信的重要组成部分。

二、用语音合成来传递语言的优点

1、不用特别注意和专门训练,任何人都可以理解。

2、可以直接使用电话网和电话机。

3、无需消耗纸张等资源

三、语音合成技术的两个关键性能

一是正确,一是自然。

§12.2 语音合成原理

一、语音合成的三个基本方法

1、语音合成的三种基本方法:波形合成法、参数合成法和规则合成法。

2、波形合成法、参数合成法和规则合成法的概念

(1)波形合成法:把人发音的语音波形直接存储或者进行波形编码后存储,根据需要编辑组合输出。

(2)参数合成法:也称分析-合成法,采用声码器技术,是一种比较复杂的方法。

(3)规则合成法:通过语音学规则产生语音。

3、波形合成法、参数合成法和规则合成法三者在波形、特征参数、语言的符号组合方面的比较

具体参见表12-1

Ch13 语音识别

§13.1 概述

一、语音识别的概念

语音识别是语音链中的一环,它是研究使机器能准确地听出人的语音内容的问题,即准确地识别所说的话。

二、用语音识别的优点

1、语音是人们最自然、最方便的交互工具,不需要作专门训练;

2、操作简单,使用方便;

3、语音的反应速度快;

4、同时利用手、脚等,在进行其他工作的同时兼顾周围动作来输入信息;

5、在输入终端可使用麦克风等,非常经济,可直接利用电话网遥控输入信息。

三、语音识别的7种分类方法

1、从所要识别的单位来分:孤立单词语音识别、选词语音识别、连续语音识别、语音理解。

2、从识别的用词量来分:小词汇(10-50个)、中词汇(50-200个)、大词汇(200个以上)。

3、从讲话人的范围来分:单个特定讲话人、多讲话人、与讲话者无关。

4、从识别的方法分:模板匹配法、随机模型法、概率语法分析法。

(2)随机模型法:一种是用HMM的概率参数来对似然函数进行估计与判决,从而得到识别结果的方法。

(3)概率语法分析法:利用连续语言中的形式语法约束的知识来对似然函数进行估计和判决。

5、从识别的环境分:隔音室、计算机房、公共场合。

6、从传输系统分:高质量话筒、电话、近讲话筒。

7、从说话人的类型分:男声、女声、儿童声。

四、语音识别中存在的几个主要问题

1、语音识别的一种重要应用时自然语言的识别和理解。

2、语音信息的变化很大。

3、语音的模糊性。

4、单个字母及单个词语发音时语音特性受上下文化境的影响,使相同字母有不同的语音特性。

5、环境的噪声和干扰对语音识别有严重影响。

§13.2 语音识别原理

一、根据比较输入模式与标准模式方法不同,模式识别被分为模式匹配法、统计模式识别和句法模式识别。

二、语音识别的两个步骤

第一步是学习或训练;第二步是识别。

三、模板匹配法的三个基本单元

模板匹配法包括三个基本单元:特征提取、模式匹配、参考模式库。

四、语音识别的原理框图(图13-1看懂)

滤波器语音信号去噪要点

******************* 实践教学 ******************* 兰州理工大学 计算机与通信学院 2013年春季学期 信号处理课程设计 题目:基于MATLAB的FIR滤波器语音信号去噪专业班级:通信工程(1)班 姓名:王兴栋 学号:10250114 指导教师:陈海燕 成绩:

摘要 语音信号在数字信号处理中占有极其重要的地位,因此选择通过对语音信号的研究来巩固和掌握数字信号处理的基本能力十分具有代表性。对数字信号处理离不开滤波器,因此滤波器的设计在信号处理中占有极其重要的地位。而MATLAB 软件工具箱提供了对各种数字滤波器的设计。本论文“在MATLAB平台上实现对语音信号的去噪研究与仿真”综合运用了数字信号处理的各种基本知识,进而对不带噪语音信号进行谱分析以及带噪语音信号进行谱分析和滤波处理。通过理论推导得出相应的结论,再通过利用MATLAB作为编程工具来进行计算机实现比价已验证推导出来的结论。在设计过程中,通过设计FIR数字滤波器和IIR数字滤波器来完成滤波处理。在设计过程中,运用了MATLAB对整个设计中的图形的绘制和一些数据的计算以及仿真。 关键字滤波器;MATLAB;仿真;滤波

前言 语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。随着社会文化的进步和科学技术的发展,人类开始进入了信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储、和获取语音信息,这对于促进社会的发展具有十分重要的意义,因此,语音信号处理正越来越受到人们的关注和广泛的研究。 语音信号是信息技术处理中最重要的一门科学,是人类社会几步的标志。那么什么是语音?语音是人类特有的功能,也是人类获取外界信息的重要工具,也是人与人交流必不可少的重要手段。那么什么又是信号?那信号是什么呢?信号是传递信息的函数。离散时间信号——序列——可以用图形来表示。 语音信号处理是一门用研究数字信号处理研究信号的科学。它是一新兴的信息科学,同时又是综合多个学科领域的一门交叉科学。语音在我们的日常生活中随时可见,也随处可见,语音很大程度上可以影响我们的生活。所以研究语音信号无论是在科学领域上还是日常生活中都有其广泛而重要的意义。 本论文主要介绍的是的语音信号的简单处理。本论文针对以上问题,运用数字信号学基本原理实现语音信号的处理,在matlab7.0环境下综合运用信号提取,幅频变换以及傅里叶变换、滤波等技术来进行语音信号处理。我所做的工作就是在matlab7.0软件上编写一个处理语音信号的程序,能对语音信号进行采集,并对其进行各种处理,达到简单语音信号处理的目的。 对语音信号的研究,本论文采用了设计两种滤波器的基本研究方法来达到研究语音信号去噪的目的,最终结合图像以及对语音信号的回放,通过对比,得出结论。

语音信号处理与及其MATLAB实现分析

目录 摘要 (2) 第一章绪论 (3) 1.1 语音课设的意义 (3) 1.2 语音课设的目的与要求 (3) 1.3 语音课设的基本步骤 (3) 第二章设计方案论证 (5) 2.1 设计理论依据 (5) 2.1.1 采样定理 (5) 2.1.2 采样频率 (5) 2.1.3 采样位数与采样频率 (5) 2.2 语音信号的分析及处理方法 (6) 2.2.1 语音的录入与打开 (6) 2.2.2 时域信号的FFT分析 (6) 2.2.3 数字滤波器设计原理 (7) 2.2.4 数字滤波器的设计步骤 (7) 2.2.5 IIR滤波器与FIR滤波器的性能比较 (7) 第三章图形用户界面设计 (8) 3.1 图形用户界面概念 (8) 3.2 图形用户界面设计 (8) 3.3 图形用户界面模块调试 (9) 3.3.1 语音信号的读入与打开 (9) 3.3.2 语音信号的定点分析 (9) 3.3.3 N阶高通滤波器 (11) 3.3.4 N阶低通滤波器 (12) 3.3.5 2N阶带通滤波器 (13) 3.3.6 2N阶带阻滤波器 (14) 3.4 图形用户界面制作 (15) 第四章总结 (18) 附录 (19) 参考文献 (24)

摘要 数字信号处理是将信号以数字方式表示并处理的理论和技术。数字信号处理与模拟信号处理是信号处理的子集。 数字信号处理的目的是对真实世界的连续模拟信号进行测量或滤波。因此在进行数字信号处理之前需要将信号从模拟域转换到数字域,这通常通过模数转换器实现。而数字信号处理的输出经常也要变换到模拟域,这是通过数模转换器实现的。 数字信号处理的算法需要利用计算机或专用处理设备如数字信号处理器(DSP)和专用集成电路(ASIC)等。数字信号处理技术及设备具有灵活、精确、抗干扰强、设备尺寸小、造价低、速度快等突出优点,这些都是模拟信号处理技术与设备所无法比拟的。 数字信号处理的核心算法是离散傅立叶变换(DFT),是DFT使信号在数字域和频域都实现了离散化,从而可以用通用计算机处理离散信号。而使数字信号处理从理论走向实用的是快速傅立叶变换(FFT),FFT的出现大大减少了DFT的运算量,使实时的数字信号处理成为可能、极大促进了该学科的发展。 MATLAB是矩阵实验室(Matrix Laboratory)的简称,和Mathematica、Maple 并称为三大数学软件。它在数学类科技应用软件中在数值计算方面首屈一指。MATLAB可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等,主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。 MATLAB的基本数据单位是矩阵,它的指令表达式与数学、工程中常用的形式十分相似,故用MATLAB来解算问题要比用C,FORTRAN等语言完相同的事情简捷得多,并且mathwork也吸收了像Maple等软件的优点,使MATLAB成为一个强大的数学软件。在新的版本中也加入了对C,FORTRAN,C++ ,JAVA的支持。可以直接调用,用户也可以将自己编写的实用程序导入到MATLAB函数库中方便自己以后调用,此外许多的MATLAB爱好者都编写了一些经典的程序,用户可以直接进行下载就可以用。

语音信号处理实验指导书

语音信号处理实验指导书 实验一 语音信号采集与简单处理 一、 实验目的、要求 (1)掌握语音信号采集的方法 (2)掌握一种语音信号基音周期提取方法 (3)掌握短时过零率计算方法 (4)了解Matlab 的编程方法 二、 实验原理 基本概念: (a )短时过零率: 短时内,信号跨越横轴的情况,对于连续信号,观察语音时域波形通过横轴的情况;对于离散信号,相邻的采样值具有不同的代数符号,也就是样点改变符号的次数。 对于语音信号,是宽带非平稳信号,应考察其短时平均过零率。 其中sgn[.]为符号函数 ?? ?? ?<=>=0 x(n)-1sgn(x(n))0 x(n)1sgn(x(n)) 短时平均过零的作用 1.区分清/浊音: 浊音平均过零率低,集中在低频端; 清音平均过零率高,集中在高频端。 2.从背景噪声中找出是否有语音,以及语音的起点。 (b )基音周期 基音是发浊音时声带震动所引起的周期性,而基音周期是指声带震动频率的倒数。基音周期是语音信号的重要的参数之一,它描述语音激励源的一个重要特征,基音周期信息在多个领域有着广泛的应用,如语音识别、说话人识别、语音分析与综合以及低码率语音编码,发音系统疾病诊断、听觉残障者的语音指导等。因为汉语是一种有调语言,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能,所以,基音的提取和估计对汉语更是一个十分重要的问题。 ∑--= -=1 )]1(sgn[)](sgn[21N m n n n m x m x Z

由于人的声道的易变性及其声道持征的因人而异,而基音周期的范围又很宽,而同—个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。基音提取的主要困难反映在:①声门激励信号并不是一个完全周期的序列,在语音的头、尾部并不具有声带振动那样的周期性,有些清音和浊音的过渡帧是很难准确地判断是周期性还是非周期性的。②声道共振峰有时会严重影响激励信号的谐波结构,所以,从语音信号中直接取出仅和声带振动有关的激励信号的信息并不容 易。③语音信号本身是准周期性的(即音调是有变化的),而且其波形的峰值点或过零点受共振峰的结构、噪声等的影响。④基音周期变化范围大,从老年男性的50Hz 到儿童和女性的450Hz ,接近三个倍频程,给基音检测带来了一定的困难。由于这些困难,所以迄今为止尚未找到一个完善的方法可以对于各类人群(包括男、女、儿童及不向语种)、各类应用领域和各种环境条件情况下都能获得满意的检测结果。 尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题,为此提出了各种各样的基音检测算法,如自相关函数(ACF)法、峰值提取算法(PPA)、平均幅度差函数(AMDF)法、并行处理技术、倒谱法、SIFT 、谱图法、小波法等等。 三、使用仪器、材料 微机(带声卡)、耳机,话筒。 四、 实验步骤 (1)语音信号的采集 利用Windows 语音采集工具采集语音信号,将数据保存wav 格式。 采集一组浊音信号和一组清音信号,信号的长度大于3s 。 (2)采用短时相关函数计算语音信号浊音基音周期,考虑窗长度对基音周期计算的影响。采用倒谱法求语音信号基音周期。 (3)计算短时过零率,清音和浊音的短时过零率有何区别。 五、实验过程原始记录(数据,图表,计算) 短时过零率 短时相关函数 P j j n s n s j R N j n n n n ,,1) ()()(1 =-=∑-= ∑--=-=10 )]1(sgn[)](sgn[21N m n n n m x m x Z

毕业论文--自适应噪声对消在语音信号处理中的应用研究

本科生毕业论文 (设计) 中文题目自适应噪声对消在语音信号处理中的应用研究 英文题目

摘要 在实际生活中,任何语音信号都不可避免的受到噪声信号的影响,如何有效的抑制和去除噪声,提高语音的可懂度是近年来的热门研究课题,文中介绍了自适应滤波器的基本原理,结构和应用,应用matlab软件,对自适应算法在噪声对消中的应用进行了仿真研究,并完成了语音信号噪声消除实例。 本文对自适应滤波算法在语音信号去噪方面进行了研究,对自适应对消系统进行了深入的学习与研究,在固定步长的基础上,建立了步长因子u与信噪比及噪声幅度之间的一种非线性函数关系,使步长随误差信号e(n)的变化而变化,从而提高了收敛速度,能够有效的滤除实际生活中语音信号中的高斯白噪声,工频干扰,以及其他讲话者的干扰,大幅度提高输出语音信号的信噪比,有效的提高语音的可懂度。通过实验证明,该算法在收敛速度,消噪性能,信噪比提高方面与常规的自适应算法相比均有一定的提高。 关键词:自适应滤波变步长LMS算法语音降噪

Adaptive noise cancellation in speech signal processing research Abstract: In our daily life ,all speech signal will be influenced by noise, How to effectively eliminate the noise is one of hot subjects for years.The paper begins with the principle of adaptive filter,structure and application. Based on the MATLAB platform, simulation is carried out for the applications of adaptive algorithms in noise cancelling,and completed the instance of voice signal noise reduction. This paper discuss about adaptive filtering algorithm in the speech signal denoising aspects of the research on the adaptive cancellation system in-depth study and research and establishes another step factor u and the error signal e (n) between the non-linear function of a new relationship, the algorithm using variable step size, the step with the magnitude of the noise signal to noise ratio and the change, to improve the convergence rate, can effectively filter out in real life speech signal Gaussian white noise, frequency interference, and interference with other speakers. Can greatly enhance the output speech signal to noise ratio, experiments show that the algorithm convergence rate, noise reduction performance, improving signal to noise ratio with the conventional adaptive algorithms have improved to some extent compared. In this paper, the coefficient of the formula

基于Matlab的语音信号处理与分析

系(院)物理与电子工程学院专业电子信息工程题目语音信号的处理与分析 学生姓名 指导教师 班级 学号 完成日期:2013 年5 月 目录 1 绪论.............................................................................................................. 错误!未定义书签。 1.1课题背景及意义................................................................................. 错误!未定义书签。 1.2国内外研究现状................................................................................. 错误!未定义书签。 1.3本课题的研究内容和方法................................................................. 错误!未定义书签。 1.3.1 研究内容................................................................................ 错误!未定义书签。 1.3.2 开发环境................................................................................ 错误!未定义书签。 2 语音信号处理的总体方案............................................................................ 错误!未定义书签。 2.1 系统基本概述.................................................................................... 错误!未定义书签。 2.2 系统基本要求与目的........................................................................ 错误!未定义书签。 2.3 系统框架及实现................................................................................ 错误!未定义书签。 2.3.1 语音信号的采样.................................................................... 错误!未定义书签。 2.3.2 语音信号的频谱分析............................................................ 错误!未定义书签。 2.3.3 音乐信号的抽取.................................................................... 错误!未定义书签。 2.3.4 音乐信号的AM调制.............................................................. 错误!未定义书签。 2.3.5 AM调制音乐信号的同步解调............................................... 错误!未定义书签。 2.4系统设计流程图................................................................................. 错误!未定义书签。 3 语音信号处理基本知识................................................................................ 错误!未定义书签。 3.1语音的录入与打开............................................................................. 错误!未定义书签。 3.2采样位数和采样频率......................................................................... 错误!未定义书签。 3.3时域信号的FFT分析......................................................................... 错误!未定义书签。 3.4切比雪夫滤波器................................................................................. 错误!未定义书签。 3.5数字滤波器设计原理......................................................................... 错误!未定义书签。 4 语音信号实例处理设计................................................................................ 错误!未定义书签。 4.1语音信号的采集................................................................................. 错误!未定义书签。

语音信号处理答案

二、问答题(每题分,共分) 、语音信号处理主要研究哪几方面的内容? 语音信号处理是研究用数字信号处理技术对语言信号进行处理的一门学科,语音信号处理的理论和研究包括紧密结合的两个方面:一方面,从语言的产生和感知来对其进行研究,这一研究与语言、语言学、认知科学、心理、生理等学科密不可分;另一方面,是将语音作为一 种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法 和技术。 、语音识别的研究目标和计算机自动语音识别的任务是什么? 语音识别技术,也被称为自动语音识别,(),其目标是将人类的语音中的词汇内容转换为 计算机可读的输入,例如按键、二进制编码或者字符序列。 计算机自动语音识别的任务就是让机器通过识别和理解过程把语音信号转变为相应的文本 或命令的高技术。 、语音合成模型关键技术有哪些? 语音合成是实现人机语音通信,建立一个有听和讲能力的口语系统所需的两项关键技术,该系统主要由三部分组成:文本分析模块、韵律生成模块和声学模块。.如何取样以精确地抽取人类发信的主要特征,.寻求什么样的网络特征以综合声道的频率响应,.输出合成声音的质量如何保证。 、语音压缩技术有哪些国际标准? 二、名词解释(每题分,共分) 端点检测:就从包含语音的一段信号中,准确的确定语音的起始点和终止点,区分语音信号和非语音信号。 共振峰:当准周期脉冲激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率或简称共振峰。 语谱图:是一种三维频谱,它是表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间,任一给定的频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。 码本设计:就是从大量信号样本中训练出好的码本,从实际效果出发寻找好的失真测度定义 公示,用最少的搜素和计算失真的运算量。 语音增强:语音质量的改善和提高,目的去掉语音信号中的噪声和干扰,改善它的质量 三、简答题(每题分,共分) 、简述如何利用听觉掩蔽效应。 一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。人耳的掩蔽效应一个较弱的声音(被掩蔽音)的听觉感受被另一个较强的声 音(掩蔽音)影响的现象称为人耳的“掩蔽效应”。被掩蔽音单独存在时的听阈分贝值,或者 说在安静环境中能被人耳听到的纯音的最小值称为绝对闻阈。实验表明,—绝对闻阈值最小,即人耳对它的微弱声音最敏感;而在低频和高频区绝对闻阈值要大得多。在范围内闻阈随频率变化最不显著,即在这个范围内语言可储度最高。在掩蔽情况下,提高被掩蔽弱音的强度, 使人耳能够听见时的闻阈称为掩蔽闻阈(或称掩蔽门限),被掩蔽弱音必须提高的分贝值称为 掩蔽量(或称阈移)。 、简述时间窗长与频率分辨率的关系。 采样周期、窗口长度和频率分辨率△之间存在下列关系:△(*) 可见,采样周期一定时,△随窗口宽度的增加而减少,即频率分辨率相应得到提高,但同时时间分辨率降低;如果窗口取短,频率分辨率下降,而时间分辨率提高,因而二者是矛盾的。 、简述时域分析的技术(最少三项)及其在基因检测中的应用。()

新语音信号处理实验指导2015年秋

《语音信号处理》 实验指导书 哈尔滨理工大学 自动化学院 电子信息科学与技术系 2014.10

语音信号处理是研究用数字信号处理技术和语音学知识对语音信号进行处理的新兴的学科,是目前发展最为迅速的信息科学研究领域的核心技术之一。通过语音传递信息是人类最重要、最有效、最常用和最方便的交换信息形式。同时,语言也是人与机器之间进行通信的重要工具,它是一种理想的人机通信方式,因而可为信息处理系统建立良好的人机交互环境,进一步推动计算机和其他智能机器的应用,提高社会的信息化程度。语音信号处理是一门新兴的学科,同时又是综合性的多学科领域和涉及面很广的交叉学科。虽然从事这一领域研究的人员主要来自信号与信息处理及计算机应用等学科,但是它与语音学、语言学、声学、认知科学、生理学、心理学等许多学科也有非常密切的联系。 20世纪60年代中期形成的一系列数字信号处理的理论和算法,如数字滤波器、快速傅立叶变换(FFT)等是语音信号数字处理的理论和技术基础。随着信息科学技术的飞速发展,语音信号处理取得了重大的进展:进入70年代之后,提出了用于语音信号的信息压缩和特征提取的线性预测技术(LPC),并已成为语音信号处理最强有力的工具,广泛应用于语音信号的分析、合成及各个应用领域,以及用于输入语音与参考样本之间时间匹配的动态规划方法;80年代初一种新的基于聚类分析的高效数据压缩技术—矢量量化(VQ)应用于语音信号处理中;而用隐马尔可夫模型(HMM)描述语音信号过程的产生是80年代语音信号处理技术的重大发展,目前HMM已构成了现代语音识别研究的重要基石。近年来人工神经网络(ANN)的研究取得了迅速发展,语音信号处理的各项课题是促进其发展的重要动力之一,同时,它的许多成果也体现在有关语音信号处理的各项技术之中。 为了深入理解语音信号数字处理的基础理论、算法原理、研究方法和难点,根据数字语音信号处理教学大纲,结合课程建设的需求,我们编写了本实验指导书。

语音信号处理 (第2版)赵力 编著 语音信号处理勾画要点

语音信号处理(第2版)赵力编著 重点考点 第2章语音信号处理的基础知识 1.语音(Speech)是声音(Acoustic)和语言(Language)的组合体。可以这样定义语音:语音是由一连串的音组成语言的声音。 2.人的说话过程可以分为五个阶段:(1)想说阶段(2)说出阶段(3)传送阶段(4)理解阶段(5)接收阶段。 3.语音是人的发声器官发出的一种声波,它具有一定的音色,音调,音强和音长。其中,音色也叫音质,是一种声音区别于另一种声音的基本特征。音调是指声音的高低,它取决于声波的频率。声音的强弱叫音强,它由声波的振动幅度决定。声音的长短叫音长,它取决于发音时间的长短。 4.说话时一次发出的,具有一个响亮的中心,并被明显感觉到的语音片段叫音节(Syllable)。一个音节可以由一个音素(Phoneme)构成,也可以由几个音素构成。音素是语音发音的最小单位。任何语言都有语音的元音(Vowel)和辅音(Consonant)两种音素。 5.元音的另一个重要声学特性是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,它一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。 6.区分语音是男声还是女声、是成人声音还是儿童声音,更重要的因素是共振峰频率的高低。 7.浊音的声带振动基本频率称基音周期(或基音频率),F0表示。 8.人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉掩蔽效应。 9.掩蔽效应分为同时掩蔽和短时掩蔽。 10.激励模型:一般分成浊音激励和清音激励。浊音激励波是一个以基音周期为周期的斜三角脉冲串。 11.声道模型:一是把声道视为由多个等长的不同截面积的管子串联而成的系统。按此观点推导出的叫“声管模型”。另一个是把声道视为一个谐振腔,按此推导出的叫“共振峰模型”。 12.完整的语音信号的数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。 13.语谱图:人们致力于研究语音的时频分析特性,把和时序相关的傅立叶分析的显示图形。 第三章语音信号分析 1.贯穿于语音分析全过程的是“短时分析技术”。 2.语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码(一般就是PCM码);预处理一般包括预加重、加窗和分帧等。 3.预滤波的目的有两个:

语音信号处理试验教程

语音信号处理试验 实验一:语音信号时域分析 实验目的: (1)录制两段语音信号,内容是“语音信号处理”,分男女声。 (2)对语音信号进行采样,观察采样后语音信号的时域波形。 实验步骤: 1、使用window自带录音工具录制声音片段 使用windows自带录音机录制语音文件,进行数字信号的采集。启动录音机。录制一段录音,录音停止后,文件存储器的后缀默认为.Wav。将录制好文件保存,记录保存路径。男生女生各录一段保存为test1.wav和test2.wav。 图1基于PC机语音信号采集过程。 2、读取语音信号 在MATLAB软件平台下,利用wavread函数对语音信号进行采样,记住采样频率和采样点数。通过使用wavread函数,理解采样、采样频率、采样位数等概念! Wavread函数调用格式: y=wavread(file),读取file所规定的wav文件,返回采样值放在向量y中。

[y,fs,nbits]=wavread(file),采样值放在向量y中,fs表示采样频率(hz),nbits表示采样位数。 y=wavread(file,N),读取前N点的采样值放在向量y中。 y=wavread(file,[N1,N2]),读取从N1到N2点的采样值放在向量y中。 3、编程获取语音信号的抽样频率和采样位数。 语音信号为test1.wav和test2.wav,内容为“语音信号处理”,两端语音保存到工作空间work文件夹下。在M文件中分别输入以下程序,可以分两次输入便于观察。 [y1,fs1,nbits1]=wavread('test1.wav') [y2,fs2,nbits2]=wavread('test2.wav') 结果如下图所示 根据结果可知:两端语音信号的采样频率为44100HZ,采样位数为16。 4、语音信号的时域分析 语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且夜市最直观的是它的时域波形。语音信

《语音信号处理》期末考试试题

2011-2012学年第一学期 《语音信号处理》期末考试试题(A) 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(共7小题,每空2分,共20分) 1、矢量量化系统主要由编码器和组成,其中编码器主要 是由搜索算法和构成。 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰 模型:级联型、并联型和。 3、语音编码按传统的分类方法可以分为、和混合 编码。 4、对语音信号进行压缩编码的基本依据是语音信号的和人 的听觉感知机理。 5、汉语音节一般由声母、韵母和三部分组成。 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时 频分析特性;另一个是人耳听觉的效应。 7、句法的最小单位是,词法的最小单位是音节,音节可 以由构成。 二、判断题:(共3小题,每小题2分,共6分)

1、预测编码就是利用对误差信号进行编码来降低量化所需的比 特数,从而使编码速率大幅降低。() 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据 语音信号的基音周期和清/浊音标志信息来决定要采用的激 励信号源。() 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输 入信号的短时能量的变化而调整的编码方法。() 三、单项选择题:(共3小题,每小题3分,共9分) 1、下列不属于衡量语音编码性能的主要指标是()。 (A)编码质量(B)矢量编码(C)编码速率(D)坚韧性 2、下列不属于编码器的质量评价的是() (A)MOS (B)DAM(C)DRT(D)ATC 3、限词汇的语音合成技术已经比较成熟了,一般我们是采用() 作为合成基元。 (A)词语(B)句子(C)音节(D)因素 四、简答题:(共2小题,每小题12分,共24分) 1、画出矢量量化器的基本结构,并说明其各部分的作用。 2、试画出语音信号产生的离散时域模型的原理框图,并说明各 部分的作用。 五、简答题:(共5小题,前三小题,每题5分,后两小题,每题10分,共35分) 1、线性预测分析的基本思想是什么?

语音信号处理实验报告

通信与信息工程学院 信息处理综合实验报告 班级:电子信息工程1502班 指导教师: 设计时间:2018/10/22-2018/11/23 评语: 通信与信息工程学院 二〇一八年 实验题目:语音信号分析与处理 一、实验内容 1. 设计内容 利用MATLAB对采集的原始语音信号及加入人为干扰后的信号进行频谱分析,使用窗函数法设计滤波器滤除噪声、并恢复信号。 2.设计任务与要求 1. 基本部分

(1)录制语音信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (2)对所录制的语音信号加入干扰噪声,并对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (3)分别利用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman 窗几种函数设计数字滤波器滤除噪声,并画出各种函数所设计的滤波器的频率响应。 (4)画出使用几种滤波器滤波后信号时域波形和频谱,对滤波前后的信号、几种滤波器滤波后的信号进行对比,分析信号处理前后及使用不同滤波器的变化;回放语音信号。 2. 提高部分 (5)录制一段音乐信号并对其进行采样;画出采样后语音信号的时域波形和频谱图。 (6)利用MATLAB产生一个不同于以上频段的信号;画出信号频谱图。 (7)将上述两段信号叠加,并加入干扰噪声,尝试多次逐渐加大噪声功率,对加入噪声的信号进行频谱分析;画出加噪后信号的时域波形和频谱图。 (8)选用一种合适的窗函数设计数字滤波器,画出滤波后音乐信号时域波形和频谱,对滤波前后的信号进行对比,回放音乐信号。 二、实验原理 1.设计原理分析 本设计主要是对语音信号的时频进行分析,并对语音信号加噪后设计滤波器对其进行滤波处理,对语音信号加噪声前后的频谱进行比较分析,对合成语音信号滤波前后进行频谱的分析比较。 首先用PC机WINDOWS下的录音机录制一段语音信号,并保存入MATLAB软件的根目录下,再运行MATLAB仿真软件把录制好的语音信号用audioread函数加载入MATLAB仿真软件的工作环境中,输入命令对语音信号进行时域,频谱变换。 对该段合成的语音信号,分别用矩形窗、三角形窗、Hanning窗、Hamming窗及Blackman窗几种函数在MATLAB中设计滤波器对其进行滤波处理,滤波后用命令可以绘制出其频谱图,回放语音信号。对原始语音信号、合成的语音信号和经过滤波器处理的语音信号进行频谱的比较分析。 2.语音信号的时域频域分析 在Matlab软件平台下可以利用函数audioread对语音信号进行采样,得到了声音数据变量y,同时把y的采样频率Fs=44100Hz放进了MATALB的工作空间。

《数字信号处理》课程教学大纲

《数字信号处理》课程教学大纲 (10级) 编号:40023600 英文名称:Digital Signal Processing 适用专业:通信工程;电子信息工程 责任教学单位:电子工程系通信工程教研室 总学时:56 学分:3.5 考核形式:考试 课程类别:专业基础课 修读方式:必修 教学目的:数字信号处理是通信工程、电子信息工程专业的一门专业基础课,通过本课程的学习使学生建立数字信号处理的基本概念、掌握数字信号处理的基本理论、基本分析方法和数字滤波器的基本设计方法,具有初步的算法分析和运用MATLAB编程的能力,了解数字信号处理的新方法和新技术。为学习后续专业课程和从事数字信号处理方面的研究工作打下基础。 主要教学内容及要求: 1.绪论 了解数字信号处理的特点,应用领域,发展概况和发展局势。 2.时域离散信号和时域离散系统 了解连续信号、时域离散信号和数字信号的定义和相互关系;掌握序列的表示、典型序列、序列的基本运算;掌握时域离散系统及其性质,掌握时域离散系统的时域分析,掌握采样定理、连续信号与离散信号的频谱关系。 3.时域离散信号和系统的频域分析 掌握序列的傅里叶变换(FT)及其性质;掌握序列的Z变换(ZT) 、Z变换的主要性质;掌握离散系统的频域分析;了解梳状滤波器,最小相位系统。 4.离散傅里叶变换(DFT) 掌握离散傅里叶变换(DFT)的定义,掌握DFT、ZT、FT、DFS之间的关系;掌握DFT的性质;掌握频域采样;掌握DFT的应用、用DFT计算线性卷积、用DFT分析信号频谱。 5.快速傅里叶变换(FFT) 熟悉DFT的计算问题及改进途经;掌握DIT-FFT算法及其编程思想;掌握IDFT的高效算法。 6.数字滤波网络 了解滤波器结构的基本概念与分类;掌握IIR-DF网络结构(直接型,级联型,并联型);掌握FIR-DF网络结构(直接型,线性相位型,级联型,频率采样型,快速卷积型)。 7.无限冲激响应(IIR)数字滤波器设计 熟悉滤波的概念、滤波器的分类及模拟和数字滤波器的技术指标;熟悉模拟滤波器的设计;掌握用冲激响应不变法设计IIR数字滤波器;掌握用双线性变换法设计IIR数字滤波器。 8.有限冲激响应(FIR)数字滤波器设计 熟悉线性相位FIR数字滤波器的特点;掌握FIR数字滤波器的窗函数设计法;掌握FIR数字滤波器的频率抽样设计法;了解FIR数字滤波器的切比雪夫最佳一致逼近设计法。 本课程与其他课程的联系与分工:先修课程:信号与系统,复变函数与积分变换,数字电路;后续课程有:DSP原理及应用,语音信号处理,数字图像处理等。

语音识别论文

语音信号的分析与处理 摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人孤立词语音信号的识别。 关键词:语音信号;短时傅里叶;MFCC;动态时间规整 引言 语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数,才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1]。 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[2]。 在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。 MATLAB是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在MA TLAB基础上来进行语音信号参数的分析与语音信号的识别的。 一、语音信号的分析 1参数分析 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4]。本文仅涉及时域及频域参数分析。 2时域分析 进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5]。 2.1短时能量分析 短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信

(完整)《语音信号处理》期末试题总结,推荐文档

2011-2013学年 《语音信号处理》期末考试试题 适用班级:时量:120分钟闭卷记分: 考生班级:姓名:学号: 注:答案全部写在答题纸上,写在试卷上无效! 一、填空题:(每空2分) 1、矢量量化系统主要由编码器和译码器组成,其中编码器主要是由搜索算法和码书构成。P101 2、基于物理声学的共振峰理论,可以建立起三种实用的共振峰模型:级联型、并联型和混合型。P18 3、语音编码按传统的分类方法可以分为波形编码、参数编码和混合编码。P137 4、对语音信号进行压缩编码的基本依据是语音信号的冗余度和人的听觉感知机理。 P137-138 5、汉语音节一般由声母、韵母和声调三部分组成。P10 6、人的听觉系统有两个重要特性,一个是耳蜗对于声信号的时频分析特性;另一个是人耳听觉的掩蔽效应。P22 7、句法的最小单位是词,词法的最小单位是音节,音节可以由音素构成。P9 8、复倒谱分析中避免相位卷绕的算法,常用的有微分法和最小相位信号法。P62 9、语音信号处理也可以简称为语音处理,它是利用数字信号处理技术对语音信号进行处理的一门学科,包括语音编码、语音合成、语音识别、说话人识别和语音增强等五大分支。P3 10、语音信号处理也可以简称为语音处理,它是以数字信号处理和语音学为基础而形成的一个综合新的学科,包括发音语音学、声学语音学、听觉语音学和心理学等四大分支。P2,6 11、语音的四大要素:音质、音调、音强和音长。P9 12、人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音、和爆破音。P8 13、元音的一个重要声学特性是共振峰,它是区别不同元音的重要参数,它一般包括共振峰频率的位置和频带宽度。 14、语音信号的倒谱分析就是求取语音倒谱特征参数的过程,它可以通过同态信号处理来实现。P56 二、判断题:(每小题2分)√× 1、预测编码就是利用对误差信号进行编码来降低量化所需的比特数,从而使编码速率大幅降低。(×)P143 2、以线性预测分析-合成技术为基础的参数编码,一般都是根据语音信号的基音周期和清/浊音标志信息来决定要采用的激励信号源。(×)P181 3、自适应量化PCM就是一种量化器的特性,能自适应地随着输入信号的短时能量的变化而调整的编码方法。(×)P142 4、线性预测法正是基于全极点模型假定,采用时域均方误差最小准则来估计模型参数的。(×)P72 5、波形编码是依赖模型假定的语音编码方法。(×)P137 6、掩蔽效应是使一个声音A能感知的阀值因另一个声音B的出现而提高的现象,这时A叫

大学本科语音信号处理实验讲义8学时

语音信号处理实验讲义 时间:2011-12

目录 实验一语音信号生成模型分析 (3) 实验二语音信号时域特征分析 (7) 实验三语音信号频域特征分析 (12) 实验四语音信号的同态处理和倒谱分析 (16)

实验一 语音信号生成模型分析 一、实验目的 1、了解语音信号的生成机理,了解由声门产生的激励函数、由声道产生的调制函数和由嘴唇产生的辐射函数。 2、编程实现声门激励波函数波形及频谱,与理论值进行比较。 3、编程实现已知语音信号的语谱图,区分浊音信号和清音信号在语谱图上的差别。 二、实验原理 语音生成系统包含三部分:由声门产生的激励函数()G z 、由声道产生的调制函数()V z 和由嘴唇产生的辐射函数()R z 。语音生成系统的传递函数由这三个函数级联而成,即 ()()()()H z G z V z R z = 1、激励模型 发浊音时,由于声门不断开启和关闭,产生间隙的脉冲。经仪器测试它类似于斜三角波的脉冲。也就是说,这时的激励波是一个以基音周期为周期的斜三角脉冲串。单个斜三角波的频谱表现出一个低通滤波器的特性。可以把它表示成z 变换的全极点形式 12 1()(1) cT G z e z --= -? 这里c 是一个常数,T 是脉冲持续时间。周期的三角波脉冲还得跟单位脉冲串的z 变换相乘: 112 1 ()()()1(1)v cT A U z E z G z z e z ---=?= ?--? 这就是整个激励模型,v A 是一个幅值因子。 2、声道模型 当声波通过声道时,受到声腔共振的影响,在某些频率附近形成谐振。反映在信号频谱图上,在谐振频率处其谱线包络产生峰值,把它称为共振峰。 一个二阶谐振器的传输函数可以写成 12 ()1i i i i A V z B z C z --= -- 实践表明,用前3个共振峰代表一个元音足够了。对于较复杂的辅音或鼻音共振峰要到5个以上。多个()i V z 叠加可以得到声道的共振峰模型 12 1 11 ()()11R r r M M i r i N k i i i i k k b z A V z V z B z C z a z -=---======---∑∑∑ ∑ 3、辐射模型 从声道模型输出的是速度波,而语音信号是声压波。二者倒比称为辐射阻抗,它表征了

相关文档
相关文档 最新文档