文档库 最新最全的文档下载
当前位置:文档库 › 基于DTW算法的语音识别系统实现 (1).pdf

基于DTW算法的语音识别系统实现 (1).pdf

基于DTW算法的语音识别系统实现 (1).pdf
基于DTW算法的语音识别系统实现 (1).pdf

第30卷第7期电子工程师

Vol.30 No.7 2004年7月EL ECT RON IC EN GIN EER Jul.2004

基于DTW算法的语音识别系统实现

吴晓平,崔光照,路康

(郑州轻工业学院信息与控制工程系, 河南省郑州市 450002)

【摘要】动态时间归整(DTW)算法的实现简单有效,在孤立词语音识别系统中得到了广泛的应用。介绍了将DTW算法移植到TMS320VC5402上实现孤立词语音识别的原理、系统硬件组成和软件设计。研究结果表明,系统能满足实时性能要求,识别效果良好。

关键词:动态时间归整(DTW)算法,语音识别,线性预测,端点检测

中图分类号:TN912.34

0 引言

动态时间归整(DTW)算法是把时间归整和间距测量计算结合起来的一种非线性归整技术,与隐式马尔可夫模型(H MM)算法相比,它不是一种有效的利用统计方法进行训练的算法,同时,也不容易将底层和顶层的各种知识用到识别算法中,在解决大词汇量、连续语音、非特定发音人语音识别系统时,识别效果较差,但在孤立词语音识别系统中识别效果良好,并且,由于DTW算法计算量较少。因此,DTW算法在孤立词语音识别系统中得到了较为广泛的应用。将DTW 算法移植到TMS320VC5402上实现语音识别,能满足实时性要求。

1 识别系统基本原理

图 1 是实时语音识别系统的结构框图。

图1语音识别系统原理框图

语音信号的数字化包括预滤波和A/D采样。语音信号的频率一般介于100 Hz~ 3 400 H z之间,需设计一个带通滤波器以便滤去语音信号频率以外的干

收稿日期:2004-03-24 扰。语音信号经滤波和采样后,由A/D转换器转换为二进制数字码。

语音信号的预处理一般包括预加重、加窗和分帧处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,以保持在信号的整个频带内具有同样的信噪比,便于声道参数分析。在语音信号的数字处理中常用的是矩形窗和汉明窗等,窗口的形状、长度对短时分析参数的影响很大,为此,应选择合适的窗函数。语音信号有10 ms~30 ms的短时平稳性,一般每秒的帧数为33帧~100帧。为了使帧与帧之间平滑过渡,前一帧与后一帧之间必须保持一定的帧移,帧长与帧移的比值一般取为0~1/2。

语音信号的端点检测一般采用平均能量、平均幅度值、平均过零率等或上述几种方法的综合来判断,也有一些学者提出采用频带方差、倒谱特征等方法来判断。采用前者算法的计算量较小,在噪声不大的环境下可以有效地判别语音信号的起始点与终止点。在端点检测时若选择的窗长较大,可以加快语音处理的速度,会跳过一些短时噪声,但是端点检测的误差会增加。语音信号的端点检测直接影响语音信号倒谱特征提取的误差,为此,应选择合适的端点检测算法。

由于语音信号之间存在相关性,可以用过去的样点值来预测现在的或未来的样点值,即一个语音的采样值可以用过去若干个语音采样或它们的线性组合来逼近。通过线性预测采样与实际语音采样之间的误差达到最小值来决定唯一的一组预测系数。线性预测系数(LPC)倒谱运算采用声道系统函数中的最小相位特性,避免了相位卷绕问题,并且,LPC倒谱运算量较FFT 求倒谱运算量小, 在实时语音识别中经常采用LPC 倒谱作为特征矢量。在线性预测分析过程中,若选择的阶数p很大,LPC的值出现振荡,其携带的信息会使语音的内在特征出现很大的随机性,一般选择p 在 8 ~ 14 之间。

· 17 ·

·通信技术· 电子工 程 师 2004 年 7 月

2 实时识别系统的实现

2 .1 识别系统的硬件组成

为了实现实时语音识别, 采用 TMS320VC5402 为

主控芯片,可以在 TI 公司推出的 TMS320VC5402 DSK

开发平台上实现,其最小系统硬件组成可参考图 2 。

图 2 语音识别系统硬件组成框图

TMS320VC5402 是 TI 公司生产的一种性价比较 高的 16 位定点 DSP 。它的指令周期为 10 ns ,具有运 算速度快、通用性强、接口连接方便等特点 , 适合在语 音编码和通信中应用。T LC320AD50C 是 T I 公司生 产的∑- 型单片音频接口芯片, 它集成了 16 位 A/D 和D/A 转换器,采样速率可通过 DSP 编程来设置 ,最

高可达 22 .05 kbit/s 。TLC320AD50C 内部 D/A 转换 器之前有插值滤波器, A/D 转换器之后有采样滤波 器,接收和发送可同时进行。 TM S320VC5402 芯片包 括 2 个高速、全双工多通道缓存串行 McBSPs 口。 M cBSPs 提供了全双工的通信机制、128 通道的接收和 发送, 数据长度可以在 8 位、12 位、16 位、20 位、24 位 或32 位中选择。采用多通道缓存串行 M cBSPs 口实 现 TLC320AD50C 芯片的数据采集, 采用串行通信方 式,采样频率可由 TLC320AD50C 的控制寄存器设置。 在进行串行口通信之前 ,需要对 TLC320AD50C 初始 化,建立 TLC320AD50C 与 TMS320VC5402 的连接,

从而实现两芯片之间的数据传输。

TMS320VC5402 仅提供 4 k ×16 bit 的片上 ROM 和 16 k ×16 bit 的片上 DARAM 。DARAM 由 2 块 8 k

×16 bit 的区块组成 , 每一区块均可在一个指令周期 内完成 2 次读操作或 1 次写操作。对片内物理存储器 的访问通过访问映射寄存器实现, 即片内物理存储器 必须被映射到映射存储器上才能被访问。将实际的物 理存储区空间映射到映射存储器空间上 , 由存储器配 置文件实现。DSP 上电硬复位后, DSP 自动调用执行 固化于内部ROM 中的 BOOT 程序, 将外部Flash 存储 器的程序读入 DSP 内部的高速 RAM 程序区中。 2 .2 识别系统的软件设计

实时识别系统软件编程在 CCS DSK C5000 1 .22

开发环境中进行。CCS DSK C5000 1 .22 是 TI 公司开

发的专用于 DSP 软件设计的集成软件开发环境。整 个系统软件主要采用 C 语言编写, 可调用开发环境下

· 18 ·

的专用库函数实现初始化过程。初始化过程主要包括

TMS320VC5402 初始化及 TLC320AD50C 初始化。 前

者主要包括设置 TMS320VC5402 时钟为100 MHz ,

初始化 CPU 各状态标志寄存器, 以保持 CPU 正确的 工作状态。然后 ,将 DSP 串口 1 复位, 对串口 1 的 16 个寄存器进行编程, 使 DSP 串口工作在以下状态:以 SPI 模式运行 ,每帧 1 段, 每段 1 个字 ,每字 16 位。采 样率发生器由 DSP 内部产生 , 帧同步脉冲低电平有 效,并且, 帧同步信号和移位时钟信号由外部产生。

TLC320AD50C 与 TMS320VC5402 间的串行通 信

有主串行通信和二次串行通信。主串行通信用来接 收和发送转换信号数据 , 二次串行通信用来初始化或 读取 T LC320AD50C 的控制寄存器。T LC320AD50C

初始化操作过程包括通过 TMS320VC5402 的同步串 口发送 2 串 16 位数字信息到 TLC320320AD50C 。第 1 串为 0000 0000 0000 0001B ,最低有效位(bit0)为 1 ,

说明下一个要传输的数据字属于二次通信。第 2 串数

据值用来对 TLC320AD50C 的 4 个数据寄存器的某一 个进行配置。bit0 ~ bit7 为所选中寄存器的编程值, bit8 ~ bit10 为所选寄存器地址值 ,bits11 ~ bit15 为 0 。 4 个用户可编程寄存器为:R1 中包含模拟输入通道选 择、硬件/软件编程方式选择;R2 进行单机/从机工作 和电话模式选择 ;R3 控制带从机个数选择;R4 用来设 置模拟信号可编程放大增益和 A/D 、D/A 转换频率。 其他两个寄存器 R5 、R6 是厂家留着测试用的, 用户不 能对其编程。我们在以下例程中对 4 个可编程寄存器 编程, 使 TLC320AD50C 工作在以下状态:选择 INP/

INM 为工作模拟输入 ,15 +1 位 A/D 转换器和 15 +1 位 D/A 转换器模式, 不带从机 ,采样频率为 8 kHz ,模 拟信号输入和输出放大增益均为 0 dB 。

DTW 算法能够较好地解决用于孤立词识别时说 话速度不均匀的难题。测试的语音参数共有 N 帧矢 量, 而参考模板有 M 帧矢量 ,且 M ≠N ,则 DTW 就是 寻找一个时间归整函数 m =f(n), 它将测试矢量的 时间轴 n 非线性地映射到模板的时间轴 m 上 ,并使该 函数满足第 n 帧测试矢量和第 m 帧模板矢量之间的 距离测度最小。

在实际识别系统中 , 语音的起点或终点由摩擦音 构成 ,环境噪声也比较大 ,语音的端点检测会存在较大

的误差。DTW 算法出发点可以选择在(n , m )=(1 ,

1),称为固定起点;也可以选择在(1 ,2)、(2 ,1)、(1 ,3)、 (3 ,1)等点, 称为松驰起点 。同样 , 路径可以选择在 (n , m )=(N , M)点 , 称为固定终点 ;也可以选择在

(N -1 , M)、(N , M -1)、(N -2 , M)、(N , M -2)等

点,称为松弛终点。固定起始点的 DTW 算法要求从

第 30 卷第 7 期 吴晓平, 等:基于 DT W 算法的语音识别系统实现 ·通信技术·

(1 ,1)出发 ,到(N , M )结束,松弛的 DTW 算法的起始 点从(1 ,1)、(1 ,2)、(2 , 1)、(1 , 3)、(3 ,1)等点中选择一 最小值 ,终止点从(N , M)、(N -1 , M)、(N , M -1)、 (N -2 , M)、(N , M -2)中选择一最小值,两语音样本 之间的相互距离在相应的点放松后选择一最小距离。 松弛起点、终点的优点是可以克服由于端点检测不精 确引起的误差, 但运算量加大。在训练阶段, 将计算出 的特征矢量序列作为模板存入模板库。在识别阶段, 将输入语音的特征矢量系列与模板中的每一特征矢量 序列进行模式匹配, 匹配相似度最高者作为识别结果 输出。识别系统软件设计如图 3 所示。

图 3 识别系统软件流程

3 结束语

DTW 算法应用在小词汇量 、孤立词语音识别系 统中, 算法计算量较少, 识别效果良好。松弛起点的 DTW 算法实现实时语音识别系统, 能有效减少端点 检测的误差 , 但算法的复杂度将增大。采用高速 TMS320VC5402 为核心芯片设计实时语音识别系统, 对孤立词的识别时间短, 可以达到实时识别的要求。

参 考 文 献

[ 1] 赵 力, 等.语音信号处理.北京:机械工业出版社, 2003 [ 2] 楼顺天.基于 MA T LA B 的系统分析与设计.西安 :西安电

子科技大学出版社, 2000

[ 3] 张 勇.C/C ++语言硬件程序设计.西安:西安电子科技 大学出版

社, 2003

[ 4] 陈志鑫, 郭华伟.基于 TM S320C54xDSP 的实时语音识别系

统 .半导体技术, 2001 , 26(4):5~ 8 [ 5] 祝晓阳, 卢中宁, 崔光照.数字信号处理芯片 T M S320VC5402

的语音接口设计.郑州轻工业学院学报,

2002 , 17(2):71 ~ 73

The Realization of Speech Recognition System Based on DTW Algorithm

Wu Xiaoping , Cui Guangzhao, Lu Kang

(Zhengzhou University of Light Industry , Zhengzhou 450002 , China)

【Abstract 】 Therealization of the DTW algorithm is sim ple and effective , so it is widely used in the isolated-w ord speech recognition system .This paper introduces the transplant of the DTW algorithm on TMS320VC5402 to achieve the isolated-word speech recognition .The research results show that the sys-tem meets the requirement of real time and the recognition performance is good .

Keywords :DTW algorithm , speech recognition , linear prediction , terminal detection

(上接第 13 页)

4 结束语

目前 ,该仪器的设计研制工作均已完成, 样机工作 稳定可靠, 操作方便, 结果准确。据我们掌握的资料, 到目前为止未见到有关碘测试仪研制工作的报道。该 仪器的研制成功将为临床上测定水碘、尿碘以及防治 碘缺乏病提供一种方便的测试仪器。

参 考 文 献

[ 1] 上海第一医学院统计学教研组.医学统计学.上海:上海

科学技术出版社, 1979

图 4 测定的第 2 阶段流程

[ 2] 何立民.I 2

C 总线应用系统设计.北京:北京航空航天大学

出版社, 1995

· 19 ·

matlab语音识别系统(源代码)最新版

matlab语音识别系统(源代码)最新版

目录 一、设计任务及要求 (1) 二、语音识别的简单介绍 2.1语者识别的概念 (2) 2.2特征参数的提取 (3) 2.3用矢量量化聚类法生成码本 (3) 2.4VQ的说话人识别 (4) 三、算法程序分析 3.1函数关系 (4) 3.2代码说明 (5) 3.2.1函数mfcc (5) 3.2.2函数disteu (5) 3.2.3函数vqlbg (6) 3.2.4函数test (6) 3.2.5函数testDB (7) 3.2.6 函数train (8) 3.2.7函数melfb (8) 四、演示分析 (9) 五、心得体会 (11) 附:GUI程序代码 (12)

一、设计任务及要求 用MATLAB实现简单的语音识别功能; 具体设计要求如下: 用MATLAB实现简单的数字1~9的语音识别功能。 二、语音识别的简单介绍 基于VQ的说话人识别系统,矢量量化起着双重作用。在训练阶段,把每一个说话者所提取的特征参数进行分类,产生不同码字所组成的码本。在识别(匹配)阶段,我们用VQ方法计算平均失真测度(本系统在计算距离d时,采用欧氏距离测度),从而判断说话人是谁。 语音识别系统结构框图如图1所示。 图1 语音识别系统结构框图 2.1语者识别的概念 语者识别就是根据说话人的语音信号来判别说话人的身份。语音是人的自然属性之一,由于说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩,这就使得通过分析语音信号来识别说话人成为可能。用语音来鉴别说话人的身份有着许多独特的优点,如语音是人的固有的特征,不会丢失或遗忘;语音信号的采集方便,系统设备成本低;利用电话网络还可实现远程客户服务等。因此,近几年来,说话人识别越来越多的受到人们的重视。与其他生物识别技术如指纹识别、手形识别等相比较,说话人识别不仅使用方便,而且属于非接触性,容易被用户接受,并且在已有的各种生物特征识别技术中,是唯一可以用作远程验证的识别技术。因此,说话人识别的应用前景非常广泛:今天,说话人识别技术已经关系到多学科的研究领域,不同领域中的进步都对说话人识别的发展做出了贡献。说话人识别技术是集声学、语言学、计算机、信息处理和人工智能等诸多领域的一项综合技术,应用需求将十分广阔。在吃力语音信号的时候如何提取信号中关键的成分尤为重要。语音信号的特征参数的好坏直接导致了辨别的准确性。

语音识别字符分割算法_原创.

5.设计方法 5.1概述 5.2硬件系统的设计 语音信号预处理 (1)预加重 预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。在计算机里用具有6dB/频程升高频特性的预加重数字滤波器来实现,一般是一阶的FIR数字滤波器: 为预加重系数,值接近于l,在0.9和1之间,典型值为0.94。 预加重的DSPBuilder实现: 为了便于实现,将上式中的一阶FIR预加重滤波器用差分方程表示为: 其中,为原始语音信号序列,N为语音长度,上面的公式显示其在时域 上的特性。又因为0.94接近于15/16,所以将上面的式子变为 除以16可以用右移4位来实现,这样就将除法运算化简为移位运算,降低了计算复杂度。在后面的模块设计中,也乘以或者除以一些这样的数,这些数为2的幂次,都可以用移位来实现。 预加重的硬件实现框图如下: 预加重实现框图 DSP Builder中的图形建模为:

预加重滤波器的DSPBuilder结构图 (2)分帧 语音信号是一种典型的非平稳信号,其特性随时间变化,其在很短的时间内是平稳的,大概为1小20ms,其频谱特性和物理特征可近似的看做不变,这样就可以采用平稳过程的分析处理方法来处理。 分帧的DSP Builder实现: 语音信号在10到20ms之间短时平稳(这样可以保证每帧内包含1一7个基音周期),也就是说选取的帧长必须介于10到20ms之间,此外,在MFCC特征提取时要进行FFT变换,FFT点数一般为2的幂次,所以本文中选择一帧长度为16ms,帧移为1/2帧长,这样一帧就包含了16KHz*16ms=256个点,既满足短时平稳,又满足FFT变换的要求。 由于采集的语音是静态的,语音长度已知,很容易计算出语音的帧数,但是在硬件上或实时系统中,语音长度是无法估计的,而且还要考虑存储空间的大小和处理速度,采用软件实现时的静态分帧方法是行不通的,可以利用硬件本身的特点进行实时的动态分帧。 为了使帧与帧之间平滑过渡,保持连续语音流的自相关性和过渡性,采用交叠分帧的算法。帧移取1/2帧长,即128个数据点当作一个数据块。FIFO1大小为一帧语音长度,分成两个数据块,预加重后的数据写入这个FIFO。为了实现帧移交叠,在FIFO1读数据时,同时再用FIFO2保存起来,当FIFO的一块数据读完以后,紧接着从FIF22读出这一块的副本。写入的一块数据,相当于被重复读出2次,所以FIFO1的读时钟频率设计为写时钟频率的2倍,而FIFOZ的读写时钟频率和FIFO1的读时钟频率相同。分帧以后的数据在图中按时间标号为1、2、2、3.··…,1、2为第一帧,2、3为第二帧,以此类推。

语音识别系统调研报告

语音识别系统调研报告 姓名:罗小嘉学号:2801305018 1、摘要:本文简要的介绍了语音识别系统的原理,发展和在各个方面的应用前景。 2、关键词:语音识别;应用 3、引言:语音识别主要是指用机器在各种情况下,根据信息执行人的各种意图,有效地了解、识别语音和其它声音。它是近十几年来发展起来的具有理论价值和实用价值的新兴学科:从计算机大学科角度看,可视为智能计算机的智能接口;从信息处理学科来看,可视为信息识别的一个重要分支;从自动控制学科来看,又可视为模式识别的一个重要组成部分. 早在18 世纪,人们就对语音学进行了科学研究,但由于各种条件的限制,语音识别仅在计算机技术迅速发展之后,才成为一个非常活跃的研究领域. 60 年代末期,面对语音识别的种种困难,人们开始研究特定人、孤立词、小词汇量的识别,从而使语音识别的问题能够在当时的条件下得以开展;70年代后期,特定人、孤立词、小词汇量的语音识别取得较为满意的效果,语音识别的研究则沿着特定人向非特定人、孤立词向连续词、小词汇量向大词汇量方向扩展研究领域和目标;80 年代中期以来,计算机技术、信息技术及模式识别等技术的迅猛发展,极大地促进了语音识别技术的发展. 4、正文:语音识别系统要求能够实现实时语音识别。该语音识别系统的关键技术主要是语言实时识别技术、语音端点检测与声韵分割。如图: 对于语音端点检测与声韵分割的问题,从背景噪声中找出语音的开始和终止,这在语音处理中是很基本的问题,因为准确的端点检测,不仅可以提高识别精度,还可以避免计算噪声,减少计算量. 大多数语音处理系统采用过零率和能量两参数作端点检测. 但过零率受噪声影响较大,采用多门限过零率作语音起点检测,将能量信息直接反应在门限中,同时将分析窗长取小,使起点检测比较准确,效果较好. 语音识别技术的应用可以分为两个发展方向:一个方向是大词汇

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音识别文献综述

噪音环境下的语音识别 1.引言 随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们开始了对语音识别的研究. 语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。 2.语音识别的发展历史和研究现状 2.1国外语音识别的发展状况 国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。 20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版.20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。 20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。 20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。 当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识

语音识别综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:语音识别综述 授课教师(职称): 研究生姓名: 年级: 学号: 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

语音识别综述 摘要随着大数据、云时代的到来,我们正朝着智能化和自动化的信息社会迈进,作为人机交互的关键技术,语音识别在五十多年来不仅在学术领域有了很大的发展,在实际生活中也得到了越来越多的应用。本文主要介绍了语音识别技术的发展历程,国内外研究现状,具体阐述语音识别的概念,基本原理、方法,以及目前使用的关键技术HMM、神经网络等,具体实际应用,以及当前面临的困境与未来的研究趋势。 关键词语音识别;隐马尔科夫模型;神经网络;中文信息处理 1.引言 语言是人类相互交流最常用、有效的和方便的通信方式,自从计算机诞生以来,让计算机能听懂人类的语言一直是我们的梦想,随着大数据、云时代的到来,信息社会正朝着智能化和自动化推进,我们越来越迫切希望能够摆脱键盘等硬件的束缚,取而代之的是更加易用的、自然的、人性化的语音输入。语音识别是以语音为研究对象,通过对语音信号处理和模式识别让机器自动识别和理解人类口述的语言。 2.语音识别技术的发展历史及现状 2.1语音识别发展历史 语音识别的研究工作起源与上世纪50年代,当时AT&T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。1959年,J.W.Rorgie和C.D.Forgie采用数字计算机识别英文元音及孤立字,开始了计算机语音识别的研究工作。 60年代,计算机应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好的解决了语音信号产生模型的问题,对后来语音识别的发展产生了深远的影响。 70年代,LP技术得到了进一步的发展,动态时间归正技术(DTW)基本成熟,特别是矢量量化(VQ)和隐马尔科夫(HMM)理论的提出,并且实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 80年代,实验室语音识别研究产生了巨大的突破,一方面各种连接词语音识别算法被开发,比如多级动态规划语音识别算法;另一方面语音识别算法从模板匹配技术转向基于统计模型技术,研究从微观转向宏观,从统计的角度来建立最佳的语音识别系统。隐马尔科夫模型(HMM)就是其典型代表,能够很好的描述语音信号的时变性和平稳性,使大词汇量连

语音识别技术在物流中的应用

语音识别技术在物流中的应用 语音识别是以语音为研究对象,通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科,它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 1、语音识别的基本原理 语音识别系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示: 未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。 2、语音识别技术的发展历史及现状 1952年,AT&TBell实验室的Davis等人研制了第一个可十个英文数字的特定人语音增强系统一Audry系统1956年,美国普林斯顿大学RCA实验室的Olson和Belar等人研制出能10个单音节词的系统,该系统采用带通滤波器组获得的频谱参数作为语音增强特征。1959年,Fry和Denes等人尝试构建音素器来4个元音和9个辅音,并采用频谱分析和模式匹配进行决策。这就大大提高了语音识别的效率和准确度。从此计算机语音识别的受到了各国科研人员的重视并开始进入语音识别的研究。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。语音识别技术与语音合成技术结合使人们能够摆脱键盘的束缚,取而代之的是以语音输入这样便于使用的、自然的、人性化的输入方式,它正逐步成为信息技术中人机接口的关键技术。 3、语音识别的方法

基于DTW算法的语音识别原理与实现

广州大学机械与电气工程学院 数字语音信号处理 基于DTW算法的语音识别原理与实现 院系: 机电学院电子与通信工程 姓名: 张翔 学号: 2111307030 指导老师: 王杰 完成日期: 2014-06-11

基于DTW算法的语音识别原理与实现 [摘要]以一个能识别数字0~9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果,结果显示该算法可以很好的显示特定人所报出的电话号码。 [关键字]语音识别;端点检测;MFCC系数;DTW算法 Principle and Realization of Speech Recognition Based on DTW Algorithm Abstract With an example of the realization of a 0~9 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm, including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm. Programming method under Matlab and experimental results are given at the end of the paper.,and the results show that the algorithm can well display the phone number of the person reported. Keyword speech recognition; endpoint detection; MFCC parameter; DTW algorithm 一、引言 自计算机诞生以来,通过语音与计算机交互一直是人类的梦想,随着计算机软硬件和信息技术的飞速发展,人们对语音识别功能的需求也更加明显和迫切。语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴。传统的键盘、鼠标等输入设备的存在大大妨碍了系统的小型化,而成熟的语音识别技术可以辅助甚至取代这些设备。在PDA、智能手机、智能家电、工业现场、智能机器人等方面语音识别技术都有着广阔的前景。 语音识别技术起源于20世纪50年代,以贝尔实验室的Audry系统为标志。先后取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等一系列关键技术的突破和以IBM的ViaVoice、Microsoft的V oiceExpress为代表的一批显著成果。国内的语音识别起步较晚,1987年开始执行国家863计划后语音识别技术才得到广泛关注。具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室,中科院声学所等。其中中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上。 常见的语音识别方法有动态时间归整技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN)。

语音识别技术

目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可大致分为三部分: (1)语音特征提取: (2)声学模型与模式匹配(识别算法) (3)语义理解:计算机对识别结果进行语法、语义分析。 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR), 语音识别的发展简史 1952年AT& T Bell实验室实现了一个单一发音人孤立发音的十个英文数字的语音识别系统,到现在的人机语音交互。语音识别研究从二十世纪50年代开始到现在历半个多世纪的蓬勃发展,在这期间获得了巨大的进展。 现代语音识别技术研究重点包括即兴口语的识别和理解,自然口语对话,以及多语种的语音同声翻译。 语音识别应用的特点 1.语音识别系统必须覆盖的功能包括: (1)语音识别系统要对用户有益(希望它是能检测到的)。例如提高生产率,容易使用,更好的人机界面,或更自然的信息交流模式。 (2)语音识别系统要对用户“友好”。这种“友好”的含义是:用户在和系统进行语音对话时感到舒适;系统的语音提示既有帮助,又很亲近。 (3)语音识别系统必须有足够的精度 (4)语音识别系统要有实时处理能力;例如系统对用户询问的响应时间要很短。 2. 语音识别错误的处理 有以下四种方式可以处理这个问题。 (1)错误弱化法。这种处理仅仅花费用户很少一点时间,对用户几乎没什么其它不利影响。 (2)错误自检纠正法 系统利用已知任务的限制自动地检测并纠正错误。 (3)确认或多层次判定

(4)拒绝/转向人工座席。系统对其中通常较易导致系统识别错误的极少部分语音指令拒绝做出识别决定,而是将其转给人工座席。 在很多情况下,语音识别技术可以充分发挥出RFID的潜能: 1.积压产品、脱销产品 2.被废弃、被召回或已过期产品 3.回收的商品 4.促销产品 RFID系统在利用原有语音导向投资的情况下可以大大增加收益 语音识别技术在邮件分拣中的应用 现代化分拣设备在邮政上的应用大大提高了邮件处理的效率。但是,并不是所有的邮件都能上分拣机处理,那些需要人工处理的邮件成了邮政企业实现自动化的瓶颈。邮政使用人工标码技术以及先进的计算机软件 系统来处理不能上机的邮件,仍需要大量的劳动力。 由MailCode公司开发并准备申请专利的Spell-ItTM软件技术通过提高系统数据库能力的方式对语音识别自动化设备进行了革命性的变革。这种技术提供了无限的数据库能力,并且保证分拣速度不会因数据库的增大而减小。由各大语音引擎公司开发的系统还支持世界上的各种主要语言,这样,语音技术就成为世界性的产品。 以英语语音识别系统为例,系统建立了36个可识别字符26个字母加上0~9的10个数字,同时还建立了一套关键词。Spell-It软件使用这些字符来识别成千上万的口语词汇和无数的词语组合。 对于大公司的邮件收发中心来说,使用MailCode公司的Spell-It软件技术,分拣员实际上只需发出几个字符的音来找到和数据库中相对应的词。例如:碰到了寄给Joseph Schneider的邮件,操作员只需发出“J”、“S”、“C”和“H”几个音就可以得到准确的分拣信息。 姓名和邮箱编码:Jennifer Schroeder, 软件工程部;Joseph Schneider, 技术操作部;Josh Schriver, 技术操作部,因为这三个姓名全都符合(J,S,C,H)的发音标准。邮件中心的操作员知道邮件实际上是寄给Joseph Schneider的,就可以把邮件投入Joseph Schneide的信箱了。 邮局要把邮件按投递路线分发,分拣员必须熟悉长长的投递段列表以及各种各样的国际邮件投递信息。Spell-It技术把地址、投递路线等信息都存入了系统,这样就大大方便了分拣工作。 例如,有一件寄往Stonehollow 路2036号的邮件。使用语音识别技术,分拣员仅仅需要发出“2”、“0”、“S”、“T”和“O”几个音,如表2所示,数据库就会给出所有可能和这几 表2 和20 sto对应的数据库信息

《语音识别入门教程》

语音识别入门(V1.0) 丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊 中科院自动化所高创中心,北京,100080 【摘要】本文主要以剑桥工程学院(CUED)的语音识别系统为例,并结合我们实验室自身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR)的框架和相关技术,对实验室的同学进行一个普及和入门引导。 【关键词】语音识别,HTK,LVCSR,SRI 1. 引言 语音识别技术发展到今天,取得了巨大的进步,但也存在很多的问题。本文主要以CUED 的语言识别系统为例,说明LVCSR系统技术的最新进展和研究方向,对实验室的同学进行一个普及和入门引导。 1.1 国际语音识别技术研究机构 (1)Cambridge University Engineering Department (CUED) (2)IBM (3)BBN (4)LIMSI (5)SRI (6)RWTH Aachen (7)AT&T (8)ATR (9)Carnegie Mellon University (CMU) (10)Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊 (1)Speech Communication (2)Computer Speech and Language (CSL) (3)IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议 (1)ICASSP(International Conference on Acoustic, Speech and Signal Processing)每年一届,10月截稿,次年5月开会。 (2)ICSLP(International Conference on Spoken Language Processing) 偶数年举办,4月截稿,9月开会。

语音识别的matlab实现

语音识别的MATLAB实现 声控小车结题报告 小组成员:关世勇吴庆林 一、项目要求: 声控小车是科大华为科技制作竞赛命题组的项目,其要求是编写一个语言识别程序并适当改装一个小型机动车,使之在一个预先不知道具体形状的跑道上完全由声控来完成行驶比赛。跑道上可以有坡面,坑,障碍等多种不利条件,小车既要具有较快的速度,也要同时具有较强的灵活性,能够克服上述条件。 二、项目分析: 由于小车只要求完成跑道上的声控行驶,所以我们可以使用简单的单音命令来操作,如“前”、“后”、“左”、“右”等。 由于路面有各种不利条件,而且规则要求小车尽可能不越过边线,这就决定了我们的小车不能以较高的速度进行长时间的快速行驶。所以我们必须控制小车的速度和行进距离。 由于外界存在噪声干扰,所以我们必须对噪声进行处理以减小其影响。 鉴于上诉各种要求,我们决定对购买的遥控小车进行简单改造,使用PC机已有的硬件条件编写软件来完成语音的输入,采集,处理和识别,以实现对小车的控制。 三、解决思路与模块: 整个程序大致可划分为三个模块,其结构框图如下图所示: 整个程序我们在Visual C++ 环境下编写。 四、各模块的实现: 1 声音的采集: 将声音信号送入计算机,我们利用了声卡录音的低层操作技术,即对winmm.lib进行API调用。具体编程时这一部分被写在一个类中(Soundin类)。 在构造函数中设定包括最大采样率(11025),数据缓存(作为程序一次性读入的数据,2048),声卡本身所带的一些影响采样数据等的各种参数; 调用API函数waveInGetNumDevs(返回UNIT,参数为空)检察并打开声音输入设备,即声卡;并进而使用waveInGetDevCaps得到声卡的容量(在waveInCaps中存有该数据,对其进行地址引用,从DWORD dwFormats得到最大采样率、声道数和采样位); 创建一个叫WaveInThreadEvent的事件对象,并赋予一个Handle,叫m_WaveInEvent,开始利用线程指针m_WaveInThread调用自定义的线程WaveInThreadProc; 对结构WAVEFORMATEX中WaveInOpen开始提供录音设备。注意设备句柄的得到是通过对HWAVEIN 型数据m_WaveIn的引用。 由于通过这种方式进行录音的文件格式是.wav,所以要先设置录音长度,以及对头文件进行一些设置:包括buffer的地址为InputBuffer的初始地址,大小为录音长度的两倍,类型。使用waveInPrepareHeader 为录音设备准备buffer。然后使用waveInAddBuffer函数为录音设备送出一个输入buffer。最后使用waveInStart(m_WaveIn)打开设备。 程序中WaveInThreadProc需要提出另外说明,因为通过这个线程我们可以实现采样和数据提取。该线程首先定义一个指向CsoundIn类的指针pParam,并将其宏定义为PT_S。而线程参数即为空指针pParam。使用WaitForSingleObject将录音过程设置为一旦开始就不中止(除非中止线程)。在此线程中做如下两个工作:将数据送入buffer,并将数据传入某个参数(其调用一个函数,将buffer中的数据送入该函数的参

(完整版)语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

语音识别的非线性方法

52国家自然科学基金资助项目.收文日期:1997年6月12日(June 12,1997) ΞV ol.3N o.1M arch 1998 电路与系统学报JOURNAL OF CIRCUIT S AND S Y S TEMS 第3卷第1期 1998年3月Ξ 语音识别的非线性方法董远胡光锐 (上海交通大学电子工程系,上海,200030) 【摘要】语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来人们开始逐渐重视非线性理论在语音识别技术中的应用。本文概括地介绍了非线性理论在语音识别技术中的所取得的成果和发展方向,除了涉及较为流行的隐马尔柯夫过程和人工神经网络在语音识别中的应用外,文中着重论述了近年来发展迅猛的混沌、分形理论在语音识别中的应用,本文最后还提到了不可忽视的分形理论在语音编码中的应用。 【关键词】语音识别,隐马尔柯夫过程,人工神经网络,混沌,分形,迭代函数系统,语音编码 Non 2linear Methods for S p eech Reco g nition D on g Y uan Hu G uan g rui (De p t.of E lectronic En g ineerin g ,Shan g hai Jiaoton g Universit y ,Shan g hai ,200030) Abstract :S p eech si g nal is traditionall y treated as a linear p rocess.H ow ever ,it is indicated b y extensive research that the s p eech si g nals are actuall y com p licated non 2linear p rocesses.T o im p rove the reco g nition rate ,recent research ef 2fort has started to m i g rate to anal y ze s p eech si g nal usin g non 2linear theor y .T his article summ arizes the new develo p m ent in this area.Besides HM M and ANN ,which have been w idel y used b y m an y authors ,this p a p er introduces in p articular a series of fast g row in g non 2linear such as chaotic and fractal theories and their a pp lications in s p eech reco g nition and codin g . K e y w ords :s p eech reco g nition ,HM M ,ANN ,chaos ,fractal ,IFS ,s p eech codin g 引言 语音识别技术自本世纪五十年代起步发展至今已四十多年,取得了很大的进步,语音识别的研究愈来愈受到人们的重视。 语音信号处理分别基于确定性线性系统理论和不确定性非线性系统理论。80年代的子词单元、多级识别、多模板和聚类技术、连续语音匹配技术等语音识别方法都是基于线性系统理论。经研究表明,语音信号是一个复杂的非线性过程,这使得基于线性系统理论发展起来的传统语音识别技术性能难以进一步提高。近年来发展起来并逐渐完善的非线性科学为语音识别技术的发展带来了新的生机。 1语音识别与隐马尔柯夫过程(HM M ) 在传统的线性理论难以使得语音识别技术进一步提高时,随着对隐马尔柯夫模型(HM M )的重新认识和广泛应用,掀起了语音识别研究的一个热潮[1]。 语音信号是短时平衡的随机信号,在足够小时音段上语音信号的特性近似稳定,就整个语音序列而言,它可以看成是依次从相对稳定的某一状态过渡到另一状态。尽管如此,语音信号序列用一个按预定顺序排列的状态转移过程来描述是不够充分的,因为不同发音人、不同的发音环境、不同的发音时间发

基于DTW算法的语音识别原理与实现概要

基于DTW算法的语音识别原理与实现 【摘要】以一个能识别数字0~9的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果。 【关键字】语音识别;端点检测;MFCC系数;DTW算法 【中图分类号】TN912.34 【文献标识码】A 0引言 自计算机诞生以来,通过语音与计算机交互一直是人类的梦想,随着计算机软硬件和信息技术的飞速发展,人们对语音识别功能的需求也更加明显和迫切。语音识别技术就是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令的技术,属于多维模式识别和智能计算机接口的范畴[1]。传统的键盘、鼠标等输入设备的存在大大妨碍了系统的小型化[10],而成熟的语音识别技术可以辅助甚至取代这些设备。在PDA、智能手机、智能家电、工业现场、智能机器人等方面语音识别技术都有着广阔的前景。 语音识别技术起源于20世纪50年代,以贝尔实验室的Audry系统为标志[1,8]。先后取得了线性预测分析(LP)、动态时间归整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等一系列关键技术的突破和以IBM的ViaVoice、Microsoft的VoiceExpress[9]为代表的一批显著成果。国内的语音识别起步较晚,1987年开始执行国家863计划后语音识别技术才得到广泛关注。具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室,中科院声学所等[9]。其中中科院自动化所研制的非特定人连续语音听写系统和汉语语音人机对话系统,其准确率和系统响应率均可达90%以上[1]。 常见的语音识别方法有动态时间归整技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐马尔可夫模型(DDBHMM)和人工神经元网络(ANN)[1,9]。DTW 是较早的一种模式匹配和模型训练技术,它应用动态规划的思想成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。虽然HMM模型和ANN 在连续语音大词汇量语音识别系统优于DTW,但由于DTW算法计算量较少、无需前期的长期训练,也很容易将DTW算法移植到单片机、DSP上实现语音识别且能满足实时性[7]要求,故其在孤立词语音识别系统中仍然得到了广泛的应用。本文将通过能识别数字0~9的语音识

语音识别的研究现状和应用前景

语音识别的研究现状和应用前景 语音识别技术并不是一夜之间冒出来的神话,早在三四十年前,在美国的一些大学和研究单位,就已经有人开始从事这一方向的研究,并有一些相关论文发表;七十年代前后,研究的脉络日渐清晰,于是贝尔实验室和国际商用机器公司(I BM)等都先后建立了专门的研究机构。今天这两家公司在这一领域都已取得了显著的成果,并且在商业上应用成功,但贝尔实验室主要是偏重于电信方面应用的语音识别系统,如电话查询等;而I BM则偏重于商务应用,因而在连续语音识别上取得了不小的成功。 不谈商业方面的应用,事实上,很多家公司都提供语音识别的引擎 (En gi ne),并且都表示能支持微软的SA PI。看一看 SA PI4.0 SU ITE 就不难发现,微软在这方面的研究并不逊于任何一家公司,只是很奇怪它居然没有将成果商业化。微软同时提供了一系列引擎,如 Spee ch R e cog ni ti on ( 语音识别)、C omm and & C ont rol( 发布指令并控制)、Ph one Qu ery ( 电话语音识别)、T ext to spee ch( 文本语音转换) 等。 今天,许多用户已经能享受到语音技术的优势了,可以对计算机发送命令,或者要求计算机记录下用户所说的话,以及将文本转换成声音朗读出来。尽管如此,距离真正的人机自由交流的前景似乎还远。目前,计算机还需要对用户作大量训练才能识别用户的语音。并且,识别率也并不总是尽如人意。换言之,语音识别技术还有一段路需要走,要做到真正成功的商业化,它还必须在很多方面取得突破性进展,这实际就是其技术的未来走向。 就算法模型方面而言,需要有进一步的突破。 目前能看出它的一些明显不足,尤其在中文语音识别方面,语言模型还有待完善,因为语言模型和声学模型正是听写识别的基础,这方面没有突破,语音识别的进展就只能是一句空话。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,而要使计算机确实理解人类的语言,就必须在这一点上取得进展,这是一个相当艰苦的工作。此外,随着硬件资源的不断发展,一些核心算法如特征提取、搜索算法或者自适应算法将有可能进一步改进。可以相信,半导体和软件技术的共同进步将为语音识别技术的基础性工作带来福音。 就自适应方面而言,语音识别技术也有待进一步改进。 目前,象IB M 的V i aV oi ce 和A si a works 的 SPK都需要用户在使用前进行几百句话的训练,以让计算机适应你的声音特征。这必然限制了语音识别技术的进一步应用,大量的训练不仅让用户感到厌烦,而且加大了系统的负担。并且,不能指望将来的消费电子应用产品也针对单个消费者进行训练。因此,必须在自适应方面有进一步的提高,做到不受特定人、口音或者方言的影响,这实际上也意味着对语言模型的进一步改进。现实世界的用户类型是多种多样的,就声音特征来讲有男音、女音和童音的区别,此外,许多人的发音离标准发音差距甚远,这就涉及到对口音或方言的处理。如果语音识别能做到自动适应大多数人的声线特征,那可能比提高一二个百分点识别率更重要。事实上,V i aV oi ce 的应用前景也因为这一点打了折扣,只有普通话说得很好的用户才可以在其中文版连续语音识别方面取得相对满意的成绩。

相关文档