当前位置：文档库 › 语音识别技术与进展

语音识别技术与进展

摘要：本文首先介绍了语音识别技术的发展历史，再对它的基本原理做了简要概括，最后对语音识别技术时下的研究热点和相关问题做了介绍。

关键字：语音识别技术基本原理HMM

一、语音识别技术的发展历史

简要来讲，语音识别技术就是让机器通过识别和理解过程，把人类的语音信号转变为相应的文本或命令的技术，属于多维模式识别和智能计算机接口的范畴。其研究目标是让计算机听懂人类口述的语言。

语音识别起源于20世纪50年代贝尔实验室的Audry系统。它第一次实现了10个英文数字的语音识别。这是语音识别研究工作的开端。

60年代,计算机的应用推动了语音识别的发展。其中，动态规划(DP)和线性预测分析技术(LP)等技术的提出和运用,对语音识别的发展产生了深远影响。

70年代,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟。特别是矢量量化(VQ)和隐马尔可夫模型(HMM)理论在实践上的运用,初步实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统

20世纪80年代,随着HMM模型和人工神经元网络(ANN)等技术在语音识别中的成功应用,人们终于在实验室突破了大词汇量、连续语音和非特定人这三大语音识别障碍。在声学识别层面,以多个说话人发音的大规模语音数据为基础,通过对连续语音中上下文发音变体的HMM建模,语音音素识别率有了长足的进步;在语言学层次,以大规模语料库为基础，通过统计两个邻词或三个邻词之间的相关性，可以有效地区分同音词和由于识别带来的近音词的模糊性。另外再结合高效、快捷的的搜索算法,就可以实现实时的连续语音识别系统。

进入90年代以后，人工神经网络技术的应用成为语音识别的一条新途径。它具有自适应性、并行性、非线性、鲁棒性、容错性和学习特性，在结构和算法上都显示出了很大的潜力。而且还在细化模型的设计、参数提取和优化以及系统的自适应技术上取得了关键进展。语音识别技术进一步成熟，语音识别系统从实验室走向实用。

我国的语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划，由中科院声学所、自动化所及北京大学等单位

组织研究开发。目前,国内也涌现出了诸如科大讯飞和北京捷通等专业研究和开发语音识别产品的高科技公司。我国中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统，其准确率和系统响应率均可达90%以上，国外的IBM、APPLE、MOTOROLA等公司也投入了汉语语音识别系统的开发。IBM 公司于1997年正式推出中文听写机系统Via V oice。该系统对新闻语音识别有较高的精度，是目前比较有代表性的汉语连续语音识别系统。

二、语音识别技术的基本原理

2.1、语音识别系统及其分类

语音识别系统根据对说话人说话方式的要求，可以分为孤立字(词)语音识别系统、连接字语音识别系统和连续语音识别系统；根据对说话人的依赖程度，可以分为特定人和非特定人语音识别系统；根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

2.2、语音识别基本方法

语音识别方法主要有动态时间归正技术（DWT）、矢量量化技术（VQ）、隐马尔可夫模型（HMM）、基于段长分布的非齐次隐含马尔可夫模型（DDBHMM）和人工神经元网络（ANN）。

2.2.1、DWT和VQ

DWT是较早的一种模式匹配和模型训练技术。它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题，在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统，目前已被HMM模型和ANN代替。

VQ技术从训练语音提取特征矢量，得到特征矢量集通过LBG算法生成码本，在识别时从测试语音提取特征矢量序列，把它们与各个码本进行匹配，计算各自的平均量化误差，选择平均量化误差最小的码本作为被识别的语音。但同样只适用孤立词而不适合连续语音大词汇量语音识别。

2.2.2、HMM模型

HMM模型是语音信号时变特征的有参表示法。它由相互关联的两个随机过程共同描述信号的统计特性，其中一个是隐蔽的，不可观测的，具有有限状态的

Markov链，另一个是与Markov链的每一状态相关联的观察矢量的随机过程HMM模型统一了语音识别中声学层和语音学层的算法结构，以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起，极大地增强了连续语音识别的效果。

2.2.3、改进的HMM--DBBHMM

王作英教授提出了一个基于段长分布的非齐次隐含马尔可夫模型DBBHMM，以此理论为指导所设计的语音识别听写机系统在1998年的全国语音识别系统评测中取得冠军，从而显示了这一新模型的生命力和在这一研究领域内的领先水平。

DBBHMM是一个非齐次的HMM语音识别模型，从非平稳的角度考虑问题，用状态的段长分布函数替代了齐次HMM中的状态转移矩阵，彻底抛弃了“平稳的假设”，使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾" 这使得DBBHMM比国际上流行的HMM语音识别模型有更好的识别性能更低的计算复杂度。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制，因此为语音识别研究的深入发展提供了一个和谐的框架。

2.2.5、人工神经元网络ANN

人工神经元网络在语音识别中的应用是现在研究的又一热点。ANN本质上是一个自适应非线性动力学系统，模拟了人类神经元活动的原理，具有自学、联想、对比、推理和概括能力。这些能力是HMM模型不具备的，但又不具有HMM 模型的动态时间归正性能。因此人们尝试研究基于HMM和ANN的混合模型。把二者的优点有机结合起来，从而提高整个模型的鲁棒性，这也是现在研究的一个热点。

2.3语音识别基本原理

不同的语音识别系统虽然具体实现细节有所不同，但所采用的识别过程基本相似，具体过程下图所示：

首先确定语音识别单元的选取。语音识别单元有单词、句、音节和音素3种，单词、句单元广泛应用于中小词汇语音识别系统，但不适合大词汇系统。原因在于模型库太庞大，训练模型任务繁重，模型匹配算法复杂，难以满足实时性要求。因为汉语是单音节结构的语言，音节数量相对较少，因此音节单元多用于大词汇量汉语语音识别，音素单元以前多见于英语语音识别的研究中，现在也开始用于大词汇量汉语语音识别。

然后进行特征提取。通过特征提取，去除语音中对识别无关紧要的冗余信息。目前广泛应用的有基于线性预测分析技术提取的倒谱，Mel参数和基于感知线性预测分析提取的感知线性预测倒谱。实验证明，采用后者，语音识别系统的性能有一定提高。

接着采用适当的语音识别方法。通过对确定的语音特征进行模型训练得到模板库，然后将输入的待识别的语音信号特征与模板库进行模式匹配，从而实现识别目标。

三、语音识别技术现存的技术难点

语音识别面临的主要困难是理论上没有突破。虽然各种新的修正方法不断涌现，但其普遍适用性都值得商榷。另外，语音识别系统在商品化的进程中还要解决诸如识别速度、拒识问题以及关键词、句检测等具体问题。主要表现在三个方面：

一是对环境的依赖性强。语音识别系统在某些环境下采集的语音进行训练后，必须在相同的环境下进行识别，否则性能急剧下降，例如自适应性差。最近凸现出的方言或口音、背景噪音、口语发音的“新三难”问题等都会影响识别的准确性。目前可采用麦克风阵列技术消除单一麦克对语音的影响，同时在预处理阶段通过语音增强算法，使语音的可懂度和信噪比增强。

二是模型和算法都存在一定的缺陷。随着HMM语音识别方法研究工作的深

入，人们也越来越认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷，既不符合语音信号的实际情况，又使得模型的训练量和存储量太大。目前提出了各种各样的改进算法，还加入了遗传算法、并行算法和神经网络等新技术，使得HMM的训练和识别更加准确。

三是系统的适应性差。主要表现在语音识别系统的性能受许多因素影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。如何提高系统鲁棒性也是语音识别中的一个难题。由于训练与识别环境的差异,同一个识别系统对于不同的用户、不同的使用需求、不同的声学环境下性能差异可以达到30%甚至更多,甚至同一个用户在不同的生理和心理状态下性能也相差很大。目前的语音识别技术在鲁棒性、灵活性和自适应能力上还远远不能满足实际的需要。

四、语音识别技术的发展趋势

目前,各种形式的HMM模型和算法日趋成熟,以它为基础已经形成了语音识别的整体框架模型,它统一了语音识别中声学层和语音学层的算法结构,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起。

世界各国都加快了语音识别应用系统的研究，开发,并已有一些实用的语音识别系统投入商业运营。比较典型的语音识别系统有AT&T于1992年开发的VRCP系统。此外,已经实用的系统还有AT&T800语音识别服务系统,NTTANSER 语音识别银行服务系统,Northen Telecom股票价格行情系统等等。

另外,通过语音命令控制可以使原本需要手工操作的工作用语音来完成。因此,语音命令控制可广泛用于家电语音遥控、玩具、智能仪器及移动电话等便携设备中。

我国在语音技术研究水平和原型系统开发方面已经达到世界级水平。在中国科学院自动化研究所模式识别国家重点实验室,汉语非特定人、连续语音听写机系统的普通话系统,其错误率可以控制在10%以内的的水平,并具有非常好的自适应功能。尤其是在国内外首创研究开发了汉语自然口语的人机对话系统和汉语到日语、英语的直接语音翻译系统。

参考文献

[1]马志欣. 语音识别技术综述. 昌吉学院学报,2006年第三期.

[2]詹新明.语音识别技术研究进展.电子工业出版社,2004

[3]王炳锡.实用语音识别基础[M].国防工业出版社,2005

[4]雷静.语音识别技术的研究及基本实现.武汉理工大学硕士学位论文,2002年3月

[5]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000