文档库 最新最全的文档下载
当前位置:文档库 › 基于HMM与神经网络的语音识别技术研究

基于HMM与神经网络的语音识别技术研究

基于HMM与神经网络的语音识别技术研究
基于HMM与神经网络的语音识别技术研究

第5卷 第11期 中 国 水 运 Vol.5 No.11 2007年 11月 China Water Transport November 2007

收稿日期:2007-9-25

作者简介:邹超君 女(1981-) 衡阳师范学院计算机科学系 助教 学士 (421008) 研究方向:企业信息化、电子商务,人工智能等

基于HMM 与神经网络的语音识别技术研究

邹超君 黄 琰 邓秋香

摘 要:语音识别主要是让机器准确地识别出语音的内容。利用隐马尔科夫链(HMM)与人工神经网络(ANN) 各自的优点,通过HMM/ ANN 混合模型处理语音识别有综合的优势。本文就其中的各主要技术展开论述。 关键词:HMM ANN 语音识别

中图分类号:TP311.131 文献标识码:A 文章编号:1006-7973(2007)11-0118-02

一、语音识别技术概述

语音识别系统本质上是一种模式识别系统,目前有很多语音识别算法,但其基本原理和基本技术相似。一个完整的语音识别系统一般都包括有语音特征提取、模式匹配和参考模式库3个基本单元,它的基本结构如图1所示。

1.语音特征提取

所谓特征提取就是从语音信号中提取用于语音识别的有用信息,其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质特征的参数抽取出来,如平均能量、平均跨零率、共振峰、LPC 系数、MFCC 系数等。

图1 语音识别系统基本结构

2.模式匹配(识别算法)

这是整个语音识别系统的核心,它是根据一定规则(如HMM)以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与参考模式库之间的相似度(如匹配距离、似然概率),判断出输入语音的语意信息,得到最佳的识别结果。

3.参考模式库

在识别之前首先建立参考模式库,通过讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按照一定规则对数据加以聚类,形成模式库。

二、语音识别主流技术比较

1.基于隐马尔科夫模型HMM (Hidden Markov Model)的识别算法

该算法通过对大量语音数据进行数据统计,建立识别条的统计模型,然后从待识别语音中提取特征,与这些模型匹配,通过比较匹配分数以获得识别结果。通过大量的语音,就能够获得一个稳健的统计模型,能够适应实际语音中的各

种突发情况。因此,HMM 算法具有良好的识别性能和抗噪性能。他的缺点在于统计模型的建立需要依赖一个较大的语音库,这在实际工作中占有很大的工作量。且模型所需要的存储量和匹配计算(包括特征矢量的输出概率计算) 的运算量相对较大, 通常需要具有一定容量SRAM 的DSP 才能完成。

2.基于人工神经网络ANN( Artificial Neural Network)的识别算法

使用多层神经网络,不同层之间的神经元通过一定的加权系数相互连接,这些加权系数可以在训练中进行学习,每一个神经元对所有输入进行读取,然后把结果传给下一层的神经网节点上。但是ANN 相对于模式匹配而言,在反映语音的动态特性上存在重大缺陷。单独使用ANN 的系统识别性能不高,所以目前ANN 通常在多阶段识别中与HMM 算法配合使用。

三、HMM/ANN 混合模型对于识别的影响 1.HMM 的建模假设及对识别系统的影响

HMM 存在着很多和语音信号的实际情况不相符合的先验假设和训练方面的缺陷。这些假设使HMM 对协同发音建模困难,同时HMM 方法不同于人脑对语音的处理理解方式,其自适应能力、鲁棒性都不理想。因此必须在探索人脑机理的基础上,寻求新的途径。

2.ANN 用于语音识别的优势

ANN 采用非线性处理单元来模拟人脑神经元,用处理单元之间的可变连接强度来模拟神经元的突触行为,构成了一个大规模并行的非线性系统。神经网络技术以其自适应性、并行性、非线性、鲁棒性和学习特性而被广泛应用于语音识别领域。

由于HMM 的时序性强、神经网络的多输入可以考虑帧间相关性和分类能力强等方面的综合优势,采用HMM/ ANN 混合模型用于语音识别很合适。

四、HMM/ANN 模型的结构

HMM 的特点是能够有效地提取时序特征,但仅能够用到各个模型中的累积概率最大的状态,而并没有充分利用其

第11期 邹超君等:基于HMM与神经网络的语音识别技术研究 119

它状态的累积概率,同时还忽略了各个模式之间相似特征,

从而影响了HMM识别的性能。

将自组织神经网络(Self - organized Neural Network,

SONN)改进后用于HMM语音识别,并利用自组织神经网

络能够确定样本空间概率聚类中心的自组织能力对语音进行

识别,具体方法是将HMM 中所有状态累积概率:

123

{,,,...,}

L

X x x x x

=11

{(1),...,(),...,(1),...,()}

K K

T T T T

a a N a a N

=

作为自组

织神经网络分类器的输入特征,其中k 为所要识别的语音基

元个数,k = {1 ,2 , ?,K},以汉语中的数字识别为例,

选择K= 10。神经网络模型由输入层、隐层和输出层构成,

如图2 所示。输入层包括L 个神经元,与HMM中各个语

音基元的状态累积概率相对应;隐层为动态组织层,包括P

个神经元,P 在网络训练中动态变化;输出层包括K(10)

个神经元,每个神经元分别对应于一个要识别的语音基元。

这种网络结构具有自组织神经网络的特点,学习速度快。

图2 HMM/ANN模型

五、改进的混合模型

1.特征参数的提取

靠特征提取从语音信号中提取出对语音识别有用的信

息,并去除对语音识别无关紧要的冗余信息,获得影响语音

识别的重要信息。

目前多采用的是LPCC特征。LPCC系数主要是模拟人

的发声模型。而MFCC参数比LPC倒谱系数更符合人耳的

听觉特性,在有信道噪声和频谱失真情况下,能产生更高的

识别精度。研究者由心理学实验得到了类似耳蜗作用的一组

滤波器组,即Mel 频率滤波器组。Mel 频率可表示为:

2595log(1/700)

M el

f f

=+。将频率按照上式变化到Mel 域后,

Mel 带通滤波器组的中心频率是按照Mel频率刻度均匀排

列的。Mel 倒谱系数计算如下:

(1)经信号进行分帧、预加重和汉明窗处理,然后进行

短时傅立叶变换并得到其频谱。

(2)求出频谱平方,即能量谱,并用M 个Mel 带通

滤波器进行滤波。

(3)将每个滤波器的输出取对数,得到相应频带的对数

功率谱,并进行反离散余弦变换,得到L 个MFCC 系数,

一般L 取12~16个左右,MFCC系数为:

1

log()cos[(0.5)/]

M

n

k

c x k k n M

π

=

=?

∑n=1,2,…,L

(4)将直接得到的MFCC 特征作为静态特征,再将该

静态特征做一阶和二阶差分,得到动态特征。

2.网络中隐节点数目的优化

网络结构的改进主要体现在找到最优的隐节点的数目。

隐节点的确定方式如下:

(1)用迭代自组织数据分析方法得到训练数据的聚类中

心的数目,再为属于不同类的一对聚类中心分配一个隐节点。

由此估计出一个对于训练和训练后的剪枝都合适的隐节点的

数目N 。

图3 一种新的隐节点剪枝算法

(2)训练N 个节点的MLP 网络。

(3)通过迭代去除网络中冗余隐节点。如图3 所示,

在移去节点A 后,调整余下节点的权参数,使得节点B 的

净输入值在最小平方定义下近似保持不变,即对于训练集中

所有的模式有:

,,,

{,,}{,}

()()(),{1,2,...,}

j B j j B j B j

j A C D j C D

w y n w y n n N

δ

∈∈

=+?∈

∑∑

其中

,j B

w代表节点j 到B 的权值,

,j B

δ代表节点j 到

B的残差,()

j

y n代表第n 个节点的输出值,这就相当于

一个线性方程:

A

C B

A B

D B

A

(1)

(1)(1)

M

(N)(N)(N)

C D

C D

y

y y

M M

y y y

δ

ω

δ

??

??

????

??=

????

??

??

????

????

用LMS 迭代法可以得到这个线性方程在最小平方意义

下的最优解

C B

D B

δδ

,,

( ,)为了保证输入输出关系,应该去

掉使线性方程的残差达到最小的结点。

六、结论

实验证明:在许多识别任务上,改进的混合HMM/ ANN 模

型的识别性能比具有相同参数数目和输入特征的传统HMM/

ANN要好。要实现相同的识别性能,HMM/ ANN系统必须

使用更多的参数和更复杂的模型结构。充分显示了混合

HMM/AN作为一种新的语音识别系统模型具有强大生命

力。

参考文献

[1] 宋叔飚.神经网络在语音识别中的应用研究(硕士学位论

文).西安:西北工业大学.2002.

[2] 张有为.混合HMM/ ANN 模型在汉语语音识别的应用

(硕士学位论文).广州:华南理工大学.2000.

[3] 胡光锐,吴硕.自组织特征映射神经网络用于语音识别的

研究.应用科学学报.1997.15 (1):55~60.

[4] 李晶皎.语音识别中HMM与自组织神经网络结合的混合

模型.东北大学学报(自然科学版).1999..

语音识别技术的发展与未来

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到

人工神经网络原理及实际应用

人工神经网络原理及实际应用 摘要:本文就主要讲述一下神经网络的基本原理,特别是BP神经网络原理,以及它在实际工程中的应用。 关键词:神经网络、BP算法、鲁棒自适应控制、Smith-PID 本世纪初,科学家们就一直探究大脑构筑函数和思维运行机理。特别是近二十年来。对大脑有关的感觉器官的仿生做了不少工作,人脑含有数亿个神经元,并以特殊的复杂形式组成在一起,它能够在“计算"某些问题(如难以用数学描述或非确定性问题等)时,比目前最快的计算机还要快许多倍。大脑的信号传导速度要比电子元件的信号传导要慢百万倍,然而,大脑的信息处理速度比电子元件的处理速度快许多倍,因此科学家推测大脑的信息处理方式和思维方式是非常复杂的,是一个复杂并行信息处理系统。1943年Macullocu和Pitts融合了生物物理学和数学提出了第一个神经元模型。从这以后,人工神经网络经历了发展,停滞,再发展的过程,时至今日发展正走向成熟,在广泛领域得到了令人鼓舞的应用成果。本文就主要讲述一下神经网络的原理,特别是BP神经网络原理,以及它在实际中的应用。 1.神经网络的基本原理 因为人工神经网络是模拟人和动物的神经网络的某种结构和功能的模拟,所以要了解神经网络的工作原理,所以我们首先要了解生物神经元。其结构如下图所示: 从上图可看出生物神经元它包括,细胞体:由细胞核、细胞质与细胞膜组成;

轴突:是从细胞体向外伸出的细长部分,也就是神经纤维。轴突是神经细胞的输出端,通过它向外传出神经冲动;树突:是细胞体向外伸出的许多较短的树枝状分支。它们是细胞的输入端,接受来自其它神经元的冲动;突触:神经元之间相互连接的地方,既是神经末梢与树突相接触的交界面。 对于从同一树突先后传入的神经冲动,以及同一时间从不同树突输入的神经冲动,神经细胞均可加以综合处理,处理的结果可使细胞膜电位升高;当膜电位升高到一阀值(约40mV),细胞进入兴奋状态,产生神经冲动,并由轴突输出神经冲动;当输入的冲动减小,综合处理的结果使膜电位下降,当下降到阀值时。细胞进入抑制状态,此时无神经冲动输出。“兴奋”和“抑制”,神经细胞必呈其一。 突触界面具有脉冲/电位信号转换功能,即类似于D/A转换功能。沿轴突和树突传递的是等幅、恒宽、编码的离散电脉冲信号。细胞中膜电位是连续的模拟量。 神经冲动信号的传导速度在1~150m/s之间,随纤维的粗细,髓鞘的有无而不同。 神经细胞的重要特点是具有学习功能并有遗忘和疲劳效应。总之,随着对生物神经元的深入研究,揭示出神经元不是简单的双稳逻辑元件而是微型生物信息处理机制和控制机。 而神经网络的基本原理也就是对生物神经元进行尽可能的模拟,当然,以目前的理论水平,制造水平,和应用水平,还与人脑神经网络的有着很大的差别,它只是对人脑神经网络有选择的,单一的,简化的构造和性能模拟,从而形成了不同功能的,多种类型的,不同层次的神经网络模型。 2.BP神经网络 目前,再这一基本原理上已发展了几十种神经网络,例如Hopficld模型,Feldmann等的连接型网络模型,Hinton等的玻尔茨曼机模型,以及Rumelhart 等的多层感知机模型和Kohonen的自组织网络模型等等。在这众多神经网络模型中,应用最广泛的是多层感知机神经网络。 这里我们重点的讲述一下BP神经网络。多层感知机神经网络的研究始于50年代,但一直进展不大。直到1985年,Rumelhart等人提出了误差反向传递学习算法(即BP算),实现了Minsky的多层网络设想,其网络模型如下图所示。它可以分为输入层,影层(也叫中间层),和输出层,其中中间层可以是一层,也可以多层,看实际情况而定。

基于BP神经网络的语音识别技术

海事大学 神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间:

目录 一.绪论 (3) 1.1 研究背景及意义 (3) 1.2 语音识别的国外研究现状 (3) 1.3研究容 (4) 二.语音识别技术 (5) 2.1语音信号 (5) 2.2语音信号的数学模型 (5) 2.3 语音识别系统结构 (6) 2.4 语音信号预处理 (7) 2.4.1 语音信号的采样 (8) 2.4.2语音信号的分帧 (8) 2.4.3语音信号的预加重 (9) 2.4.4 基于短时能量和过零率的端点检测 (9) 2.5 特征参数提取 (12) 三.基于BP神经网络语音识别算法实现 (14) 3.1 BP神经网络原理 (14) 3.2 输入层神经元个数的确定 (14) 3.3网络隐含层数的确定 (15) 3.4隐含层神经元个数的确定 (15) 3.5 BP神经网络构造 (15) 3.6 BP神经网络的训练 (16) 3.6.1训练样本集合和目标值集合 (16) 3.6.2 网络训练 (16) 3.7网络训练 (17) 3.8 语音的识别结果 (18) 四.总结 (19) 参考文献 (20) 附录 (21)

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的容,

语音识别技术研究

基于Google技术的语音识别实现 前言 语音识别技术在手机上应用得相当广泛,我们日常最频繁的沟通方式是语音,在手机应用中,大部分是通过硬件手动输入,目前这依然是主要与手机互动的方式,然而对于像手机这种小巧的移动设备来说,使用键盘甚至是虚拟键盘打字是一件非常不爽的事情。于是,Google 推出了强大的语音搜索业务。2008年11月,Google的语音搜索已经在iPhone平台上线,而Android在1.5 SDK版本中也加强了语音识别功能,并应用到了搜索功能上,这的确是一个非常让人惊喜的更新。 Android语音识别 Android系统集成了Google的语音识别技术,我们只需要实现少量代码便可以是使用语音识别。 android语音识别方法一:使用intent调用语音识别程序 1、通过intent传递语音识别的模式 Intent intent = new Intent(RecognizerIntent.ACTION_RECOGNIZE_SPEECH); 2、语言模式和自由形势的语音识别 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE_MODEL,https://www.wendangku.net/doc/df15596147.html,NGUAG E_MODEL_FREE_FORM); 3、设置语言库 intent.putExtra(RecognizerIntent.EXTRA_LANGUAGE, Locale.CHINA.toString()); 4、开始执行intent、语音识别 intent.putExtra(RecognizerIntent.EXTRA_PROMPT, "请开始说话"); 5、开始 startActivityForResult(intent, 1234); RecognizerIntent包括的常量:

人工神经网络的发展及应用

人工神经网络的发展与应用 神经网络发展 启蒙时期 启蒙时期开始于1980年美国著名心理学家W.James关于人脑结构与功能的研究,结束于1969年Minsky和Pape~发表的《感知器》(Perceptron)一书。早在1943年,心理学家McCulloch和数学家Pitts合作提出了形式神经元的数学模型(即M—P模型),该模型把神经细胞的动作描述为:1神经元的活动表现为兴奋或抑制的二值变化;2任何兴奋性突触有输入激励后,使神经元兴奋与神经元先前的动作状态无关;3任何抑制性突触有输入激励后,使神经元抑制;4突触的值不随时间改变;5突触从感知输入到传送出一个输出脉冲的延迟时问是0.5ms。可见,M—P模型是用逻辑的数学工具研究客观世界的事件在形式神经网络中的表述。现在来看M—P 模型尽管过于简单,而且其观点也并非完全正确,但是其理论有一定的贡献。因此,M—P模型被认为开创了神经科学理论研究的新时代。1949年,心理学家D.0.Hebb 提出了神经元之间突触联系强度可变的假设,并据此提出神经元的学习规则——Hebb规则,为神经网络的学习算法奠定了基础。1957年,计算机学家FrankRosenblatt提出了一种具有三层网络特性的神经网络结构,称为“感知器”(Perceptron),它是由阈值性神经元组成,试图模拟动物和人脑的感知学习能力,Rosenblatt认为信息被包含在相互连接或联合之中,而不是反映在拓扑结构的表示法中;另外,对于如何存储影响认知和行为的信息问题,他认为,存储的信息在神经网络系统内开始形成新的连接或传递链路后,新 的刺激将会通过这些新建立的链路自动地激活适当的响应部分,而不是要求任何识别或坚定他们的过程。1962年Widrow提出了自适应线性元件(Ada—line),它是连续取值的线性网络,主要用于自适应信号处理和自适应控制。 低潮期 人工智能的创始人之一Minkey和pape~经过数年研究,对以感知器为代表的网络系统的功能及其局限性从数学上做了深入的研究,于1969年出版了很有影响的《Perceptron)一书,该书提出了感知器不可能实现复杂的逻辑函数,这对当时的人工神经网络研究产生了极大的负面影响,从而使神经网络研究处于低潮时期。引起低潮的更重要的原因是:20世纪7O年代以来集成电路和微电子技术的迅猛发展,使传统的冯·诺伊曼型计算机进入发展的全盛时期,因此暂时掩盖了发展新型计算机和寻求新的神经网络的必要性和迫切性。但是在此时期,波士顿大学的S.Grossberg教授和赫尔辛基大学的Koho—nen教授,仍致力于神经网络的研究,分别提出了自适应共振理论(Adaptive Resonance Theory)和自组织特征映射模型(SOM)。以上开创性的研究成果和工作虽然未能引起当时人们的普遍重视,但其科学价值却不可磨灭,它们为神经网络的进一步发展奠定了基础。 复兴时期 20世纪80年代以来,由于以逻辑推理为基础的人工智能理论和冯·诺伊曼型计算机在处理诸如视觉、听觉、联想记忆等智能信息处理问题上受到挫折,促使人们

神经网络在语音识别上应用

Harbin Institute of Technology 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性x(n)频谱,变换公式: X (k ) 0n,k N-1 X (k )=∑N ?1n =0x(n)e ?j2πk n ≤≤(3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为f mel =2595log (1+f hz 700) (4)求对数能量。为了使计算结果对噪声和谱估计噪声有更好的鲁棒性,一般将上述经过Mel 频谱取对数能量。则由线性频谱得到对数频谱的总的X(k)S(m)传递函数为:

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别 (Speech Recognition) 技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷 , 最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状 语音识别的研究工作可以追溯到 20世纪50年代AT&T贝尔实验室的Audry 系统,它是第一个可以识别十个英文数字的语音识别系统。 但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在 60年代末

人工神经网络题库

人工神经网络 系别:计算机工程系 班级: 1120543 班 学号: 13 号 姓名: 日期:2014年10月23日

人工神经网络 摘要:人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成,由大量处理单元互联组成的非线性、自适应信息处理系统。它是在现代神经科学研究成果的基础上提出的,试图通过模拟大脑神经网络处理、记忆信息的方式进行信息处理。 关键词:神经元;神经网络;人工神经网络;智能; 引言 人工神经网络的构筑理念是受到生物(人或其他动物)神经网络功能的运作启发而产生的。人工神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method )得以优化,所以人工神经网络也是数学统计学方法的一种实际应用,通过统计学的标准数学方法我们能够得到大量的可以用函数来表达的局部结构空间,另一方面在人工智能学的人工感知领域,我们通过数学统计学的应用可以来做人工感知方面的决定问题(也就是说通过统计学的方法,人工神经网络能够类似人一样具有简单的决定能力和简单的判断能力),这种方法比起正式的逻辑学推理演算更具有优势。 一、人工神经网络的基本原理 1-1神经细胞以及人工神经元的组成 神经系统的基本构造单元是神经细胞,也称神经元。它和人体中其他细胞的关键区别在于具有产生、处理和传递信号的功能。每个神经元都包括三个主要部分:细胞体、树突和轴突。树突的作用是向四方收集由其他神经细胞传来的信息,轴突的功能是传出从细胞体送来的信息。每个神经细胞所产生和传递的基本信息是兴奋或抑制。在两个神经细胞之间的相互接触点称为突触。简单神经元网络及其简化结构如图2-2所示。 从信息的传递过程来看,一个神经细胞的树突,在突触处从其他神经细胞接受信号。 这些信号可能是兴奋性的,也可能是抑制性的。所有树突接受到的信号都传到细胞体进行综合处理,如果在一个时间间隔内,某一细胞接受到的兴奋性信号量足够大,以致于使该细胞被激活,而产生一个脉冲信号。这个信号将沿着该细胞的轴突传送出去,并通过突触传给其他神经细胞.神经细胞通过突触的联接形成神经网络。 图1-1简单神经元网络及其简化结构图 (1)细胞体 (2)树突 (3)轴突 (4)突触

语音识别发展现状与展望

中国中文信息学会第七次全国会员代表大会 暨学会成立30周年学术会议 语音识别发展现状与展望中科院自动化研究所徐波 2011年12月4日

报告提纲 ?语音识别技术现状及态势?语音识别技术的行业应用?语音识别技术研究方向?结论与展望

2010年始语音识别重新成为产业热点?移动互联网的兴起成为ASR最重要的应用环境。在Google引领下,互联网、通信公司纷纷把语音识别作为重要研究方向 –Android系统内嵌语音识别技术,Google语音 翻译等; –iPhone4S 上的Siri软件; –百度、腾讯、盛大、华为等都进军语音识别领 域; –我国语音技术领军企业讯飞2010年推出语音云识别、讯飞口讯 –已有的QQ2011版语音输入等等

成熟度分析-技术成熟度曲线 ?美国市场调查咨询公司Gartner于2011年7月发布《2011新兴技术成熟度曲线》报告:

成熟度分析-新兴技术优先矩阵?Gartner评出了2011年具有变革作用的技术,包括语音识别、语音翻译、自然语言问答等。其中语音翻译和自然语言问答有望在5-10年内获得大幅利用,而语音识别有望在2-5年内获得大幅利用;

三十年语音识别技术发展 ---特征提取与知识方面?MFCC,PLP,CMS,RASTA,VTLN;?HLDA, fMPE,neural net-based features ?前端优化 –融入更多特征信息(MLP、TrapNN、Bottle Neck Features等) ?特征很大特点有些是跟模型的训练算法相匹配?大规模FSN图表示,把各种知识源集中在一起–bigram vs. 4-gram, within word dependencies vs. cross-word

基于BP神经网络的语音识别技术

上海海事大学神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间: 目录

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 语音识别的国内外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几

语音识别研究的背景意义及现状

语音识别研究的背景意义及现状 研究的背景及意义 自从人类可以制造和使用各种机器以来,人们就有一个理想,那就是让各种机器能听懂人类的语言并能按人的口头命令来行动,从而实现人机的语言交流。随着科学技术的不断发展,语音识别(Speech Recognition)技术的出现,使人类的这一理想得以实现。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合,使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。当今,语音识别产品在人机认交互应用中己经占到越来越大的比例。 音乐就是一种艺术。通常可以解释为一系列对于有声、无声具有时间性的组织,并含有不同音阶的节奏、旋律及和声。音乐与人的生活情趣、审美情趣、言语、行为、人际关系等等,有一定的关联。音乐是人们抒发感情、表现感情、寄托感情的艺术,不论是唱、奏或听,都内涵着关联人们千丝万缕情感的因素。特别对人的心理,会起着不能用言语所能形容的影响作用。 音乐可以通过几种途径来体验,而音乐播放器是现代生活中最便捷,最实用的一种。现如今社会在飞速发展,人们的生活节奏也在不断加快,工作压力也在日益增大,致使越来越多的人选择在闲暇时间放松自己。而听音乐就成了人们缓解生活压力的第一选择,医学表明音乐不仅可以对人们紧张的心情带来放松,还能有效的缓解高血压对心血管造成的压力。因此音乐播放器已经成为人们日常生活中至关重要的物品。 然而可惜的是,传统的音乐播放器通常上是通过两种方式实现人们对播放器的控制的:一是按键式控制(其中也包括线控式),通过直接按键改变电平发出指令;二是通过远程控制,通过红外线或者蓝牙等对播放器发布命令。这对于疲劳中的人们或者残障人士来说是不方便的。为了减少手动操作的繁琐,此次设计专门致力于研究一种方案通过语音控制来实现对音乐播放器的控制,使其更加方便、更加人性化,实现音乐播放器的全自动语音控制。这个设计不仅是为了解决人们日常使用传统音乐播放器不方便的烦恼,而且是为了研究语音识别技术在单片机中的应用,特别是在SPCE061A中实现语音识别的应用,设计出具有语音控制功能的音乐播放器。 国内外研究现状

人工神经网络及其应用实例_毕业论文

人工神经网络及其应用实例人工神经网络是在现代神经科学研究成果基础上提出的一种抽 象数学模型,它以某种简化、抽象和模拟的方式,反映了大脑功能的 若干基本特征,但并非其逼真的描写。 人工神经网络可概括定义为:由大量简单元件广泛互连而成的复 杂网络系统。所谓简单元件,即人工神经元,是指它可用电子元件、 光学元件等模拟,仅起简单的输入输出变换y = σ (x)的作用。下图是 3 中常用的元件类型: 线性元件:y = 0.3x,可用线性代数法分析,但是功能有限,现在已不太常用。 2 1.5 1 0.5 -0.5 -1 -1.5 -2 -6 -4 -2 0 2 4 6 连续型非线性元件:y = tanh(x),便于解析性计算及器件模拟,是当前研究的主要元件之一。

离散型非线性元件: y = ? 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6 ?1, x ≥ 0 ?-1, x < 0 ,便于理论分析及阈值逻辑器件 实现,也是当前研究的主要元件之一。 2 1.5 1 0.5 0 -0.5 -1 -1.5 -2 -6 -4 -2 2 4 6

每一神经元有许多输入、输出键,各神经元之间以连接键(又称 突触)相连,它决定神经元之间的连接强度(突触强度)和性质(兴 奋或抑制),即决定神经元间相互作用的强弱和正负,共有三种类型: 兴奋型连接、抑制型连接、无连接。这样,N个神经元(一般N很大)构成一个相互影响的复杂网络系统,通过调整网络参数,可使人工神 经网络具有所需要的特定功能,即学习、训练或自组织过程。一个简 单的人工神经网络结构图如下所示: 上图中,左侧为输入层(输入层的神经元个数由输入的维度决定),右侧为输出层(输出层的神经元个数由输出的维度决定),输入层与 输出层之间即为隐层。 输入层节点上的神经元接收外部环境的输入模式,并由它传递给 相连隐层上的各个神经元。隐层是神经元网络的内部处理层,这些神 经元在网络内部构成中间层,不直接与外部输入、输出打交道。人工 神经网络所具有的模式变换能力主要体现在隐层的神经元上。输出层 用于产生神经网络的输出模式。 多层神经网络结构中有代表性的有前向网络(BP网络)模型、

神经网络在语音识别上的应用

H a r b i n I n s t i t u t e o f T e c h n o l o g y 神经网络与智能信号处理 实验报告 神经网络实验报告 1、实验名称: 神经网络在语音识别上的应用 2、实验目的: 进一步了解神经网络在语音识别上的应用,了解神经网络的基本原理,学习神经网络的算法,还可以进一步分析不同的隐节点数以及训练步数对误差性能的影响。 3、实验要求: 1、设计一个标准的BP学习算法网络来对语音信号26个字母进行识别。 2、在训练时采用不同的隐含层神经元个数,分析其对网络性能、语音识别系统的识别率的影响。 3、用所创建的BP神经网络进行26个字母的语音识别,观察并记录结果,并分析其误差。 4、实验步骤: 1、语音识别的基本原理

语音识别的总体流程如下: 语音输入时要先经过预处理,包括预加重、分帧加窗等。然后进行特征提取,该实验中的特征参数为MFCC 参数。语音特征参数的时间序列构成语音的模式,将其与获得的参考模式逐一比较,获得最佳匹配的参考模式便是识别结果。 由于语音信号的复杂性,所以在一开始在语音信号输入语音识别系统时需要进行预处理,预处理包括预加重,分帧加窗,端点检测等。预加重的目的是为了加强语音的高频部分,以便在特征提取阶段进行频谱分析。分帧加窗的目的是为了使帧与帧之间平滑过渡,保持连续性以及保持语音信号的短时平稳性,降低由于不连续而产生的Gibbs 效应。端点检测的目的就是从语音信号序列中截取实际有效的语音信号。 特征提取阶段,是从语音数据中提取能反映语音信号特征和变化规律的参数,以唯一表征语音,这儿选用的语音信号特征参数为MEL 频率倒谱系数,即MFCC 。MEL 频率倒谱的实现过程如下图所示: (1)对语音信号进行预处理,加窗、分帧将其变为短时信号。 (2) 将短时时域信号转变为频域信号,并计算其短时能量,离散傅立叶变换。将时域信号 后补若干0形成长为N 的序列,再经过离散傅立叶变换得到线性频谱,变换公式: 0n,k N-1 (3)在频标内三角带通滤波器个加于坐标得到滤波器组,转化关系为

语音识别技术的发展与未来

语音识别技术的发展与未来-标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

语音识别技术的发展与未来 与机器进行语音交流,让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”,该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令。 在1952年的贝尔研究所,Davis等人研制了世界上第一个能识别10个英文数字发音的实验系统。1960年英国的Denes等人研制了第一个计算机语音识别系统。 大规模的语音识别研究始于上世纪70年代以后,并在小词汇量、孤立词的识别方面取得了实质性的进展。上世纪80年代以后,语音识别研究的重点逐渐转向大词汇量、非特定人连续语音识别。 同时,语音识别在研究思路上也发生了重大变化,由传统的基于标准模板匹配的技术思路开始转向基于统计模型的技术思路。此外,业内有专家再次提出了将神经网络技术引入语音识别问题的技术思路。 上世纪90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。比如,DARPA是在上世界70年代由美国国防部远景研究计划局资助的一项计划,旨在支持语言理解系统的研究开发工作。进入上世纪90年代,DARPA计划仍在持续进行中,其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。 我国的语音识别研究起始于1958年,由中国科学院声学所利用电子管电路识别10个元音。由于当时条件的限制,中国的语音识别研究工作一直处于缓慢发展的阶段。直至1973年,中国科学院声学所开始了计算机语音识别。 进入上世纪80年代以来,随着计算机应用技术在我国逐渐普及和应用以及数字信号技术的进一步发展,国内许多单位具备了研究语音技术的基本条件。与此同时,国际上语音识别技术在经过了多年的沉寂之后重又成为研究的热点。在这种形式下,国内许多单位纷纷投入到这项研究工作中去。 1986年,语音识别作为智能计算机系统研究的一个重要组成部分而被专门列为研究课题。在“863”计划的支持下,中国开始组织语音识别技术的研究,并决定了每隔两年召开一次语音识别的专题会议。自此,我国语音识别技术进入了一个新的发展阶段。 自2009年以来,借助机器学习领域深度学习研究的发展以及大数据语料的积累,语音识别技术得到突飞猛进的发展。

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

基于BP神经网络的语音识别技术

上海海事大学 神经网络与语音识别 院系: 物流工程学院 课程名称: 制造与物流决策支持系统学生姓名: 学号: 时间:

目录 一.绪论 (3) 1.1 研究背景及意义 (3) 1.2 语音识别的国内外研究现状 (3) 1.3研究内容 (4) 二.语音识别技术 (5) 2.1语音信号 (5) 2.2语音信号的数学模型 (5) 2.3语音识别系统结构 (6) 2.4语音信号预处理 (7) 2.4.1 语音信号的采样 (8) 2.4.2语音信号的分帧 (8) 2.4.3语音信号的预加重 (9) 2.4.4 基于短时能量和过零率的端点检测 (9) 2.5 特征参数提取 (13) 三.基于BP神经网络语音识别算法实现 (16) 3.1 BP神经网络原理 (16) 3.2 输入层神经元个数的确定 (16) 3.3网络隐含层数的确定 (17) 3.4隐含层神经元个数的确定 (17) 3.5 BP神经网络构造 (17) 3.6 BP神经网络的训练 (18) 3.6.1训练样本集合和目标值集合 (18) 3.6.2 网络训练 (18) 3.7网络训练 (19) 3.8 语音的识别结果 (20) 四.总结 (21) 参考文献 (22) 附录 (23)

一.绪论 计算机的飞速发展,使人们的生活方式发生了根本性的改变,鼠标、键盘,这些传统的人机接口使人们体会到了生活的便利。科学技术日新月异,假如让“机器”能够听懂人的语言,并根据其信息去执行人的意图,那么这无疑是最理想的人机智能接口方式,因此语音识别作为一门极具吸引力的学科应运而生,很多专家都指出语音识别技术将是未来十年信息技术领域十大重要的科技发展技术之一。 语音识别(Speech Recognition)是指,计算机从人类获取语音信息,对语音信息进行分析处理,准确地识别该语音信息的内容、含义,并对语音信息响应的过程。语音信号具有非稳定随机特性,这使得语音识别的难度大。目前人类甚至仍没有完全理解自身听觉神经系统的构造与原理,那么要求计算机能像人类一样地识别语音信号很有挑战性。 1.1 研究背景及意义 语言在人类的智能组成中充当着很重要的角色,人与人之间的交流和沟通大部分是通过语言的方式有效的完成。作为人与人之问交流最方便、自然、快捷的手段,人们自然希望它成为人与计算机交流的媒介。随着数字信号处理及计算机科学的飞速发展,人们对实现人机对话产生越来越迫切的要求,使得语音识别技术近年来得到了迅速的发展,语音识别技术的研究进入了一个比较成熟的时期。语音识别是一门交叉科学,它综合了声学、语言学、语音学、生理科学、数字信号处理、通信理论、电子技术、计算机科学、模式识别和人工智能等众多学科。也是人机交互最重要的一步。 1.2 语音识别的国内外研究现状 通过语音传递信息是人类最重要,最有效,和最方便的交换信息的形式,语音识别主要指让机器转达人说的话,即在各种情况下,准确的识别出语音的内容,

相关文档