文档库 最新最全的文档下载
当前位置:文档库 › M201371744_郭伟刚_孤立汉语数字语音识别系统

M201371744_郭伟刚_孤立汉语数字语音识别系统

M201371744_郭伟刚_孤立汉语数字语音识别系统
M201371744_郭伟刚_孤立汉语数字语音识别系统

孤立汉语数字语音识别系统

摘要:本文通过提取声音信号的Mel 倒谱系数作为特征,利用动态时间规整技术实现匹配算法,实现了特定人孤立汉语数字语音的识别,并利用Matlab 编写了简单的图形用户界面。

关键词:语音识别;MFCC ;DTW

一、引言

语言是人类所特有的最重要最自然的交流工具,也是人类信息的重要来源之

一。让机器拥有“听懂”人类口述语言的能力,将使得人与计算机之间的沟通变得更为方便快捷。自从1952年AT&T 贝尔实验室的开发出能识别十个英文数字的Audry 系统以来,语音识别技术已经得到了飞速发展,其中IBM 、Microsoft 、Apple 等公司在语音识别技术实用化上的巨资投入也使得这项技术在日常生活中得到广泛应用。计算机技术的发展大大促进了数字信号处理技术的开发与应用,也使得更多的技术应用在语音识别方面。

MATLAB 是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,使得技术人员可以在较短的时间里对自己的想法进行实验验证。本文就是在MATLAB 基础上进行汉语数字语言识别的图形用户界面开发与程序设计的。

二、语音识别系统概述

针对不同的任务,语音识别系统也可以采用对应的多种设计方案,但其大致的结构和模型思想基本上是相同的。语音识别系统本质上是一种模式识别系统,它包括了特征提取、模式匹配、参考模型库这三个基本单元。典型系统的基本结构如图1所示。 语言信号

预处理特征提取

模式识别模型库

语音输入识别训

练识别结果

图1 典型语音识别系统

目前常用的技术有特征参数匹配法、隐马尔科夫法和神经网络法。其中语音特征参数可以是能量、基音频率、过量率、共振峰值等,目前常用的参数为基于发声声道特征模型,通过线性预测分析的线性预测倒谱系数LPCC 和基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的梅尔倒谱系数MFCC 等。

MFCC 的频率特性反映了人耳的听觉特性,因而在用于代替人耳来分析语音时,其性能和鲁棒性比较符合实际听音效果。与LPCC 相比,不依赖于全极点语音产生模型的假定,抗噪能力较强。本系统也将使用MFCC 参数作为语音识别的主要特征参数。

三、语音信号的分析与处理

1 信号采集

本实验直接用电脑的声卡进行语音信号的数字化采样量化处理。根据奈奎斯特采样定理,采样频率必须到达信号的两倍带宽以上时,才不会发生频域上的混叠失真,能够从采样信号恢复出原始信号。理论上说,通常人声的频率范围上限可达15kHz 或更高,但是即使当带宽限制到低于3kHz 附近的频率时语音仍是较容易听懂的。对于数字电话通信系统,标准采样率为8000Hz 。量化是将时间上离散而幅度依然连续的波形幅度值离散化,其决定了声音的动态范围。若采用8位,则可将声波分为256级。

本系统采用Matlab 的audiorecorder 对象进行声音信号采集。使用默认参数8kHz 采样率,8位量化精度,单声道。

2 预加重处理

将经采样后的数字语音信号s(n)通过一个高通滤波器:H(z)= 1 – a ×z -1 ,0.9 ≤a ≤1.0 (本系统中取0.97)。经过预加重后的信号为:s'(n)= s(n)– a ×s(n-1)。 因为发声过程中声带和嘴唇的效应,使得高频共振峰的振幅低于低频共振峰的振幅,进行预加重的目的就是为了对信号进行平滑,提升高频部分,补偿声带和嘴唇的效应,平坦信号频谱,保持整个频带中的信噪比,以便于进行频谱分析或声道参数分析。

3 端点检测

05001000150020002500

3000350040004500

-0.4-0.2

0.2

0.4

时域波

形051015

202530010

20

30

短时能

图2 端点检测结果

端点检测即从一段信号中检测出语音信号的起始点和结束点,在孤立词识别中,可以减少非实时系统中的大量计算。常见的端点检测方法有利用时域特征的音量、过零率,利用频域特征的频谱变异数、频谱的熵等。时域方法计算量小,实现简单,且足以满足一般应用。

短时能量可以利用帧内数据的平方和进行计算。理论上有声语音的能量值较大,无声语音(如摩擦音)的过零率较高,可以通过计算短时能量大致判断出语音的端点,然后使用过零率找到语音端点的相对精确位置。实验时发现汉语语音通过能量特征已能较好地确定端点,此时通过过零率特征并不能进一步精化结果,因此系统只使用了能量参数。

编程时当能量值大于开启阈值时确定为起始点,小于关闭阈值时确定为语音结束点。阈值大小根据实验情况确定。图2为汉语5发音的端点检测情况。 4 MFCC 特征提取

数字语音信号经过以上的预加重处理和端点检测之后,将进行梅尔倒谱系数MFCC 的计算。计算方法如下:

1)分帧

语音整体上是非平稳信号,但其特性在20ms 的量级内基本保持不变。取10ms 为一帧,为避免相邻帧间的过大变化,帧之间应设置重叠,选取帧移为帧长的一半。另外为了方便后面的FFT 计算,这里的帧长取为2的整幂指数。

2)加窗

由于进行离散傅里叶变换时将时域信号进行了周期延拓,在两端一般会有不连续的现象,为了减少吉布斯效应,通常要进行加窗处理,弱化边缘信号。在语音信号处理中常用海明窗(hamming windows ),在Matlab 中有其实现函数。

3)傅里叶变换

语音的时域信号变化迅速,不易分析,而频域变化相对缓慢,因此对加窗后的信号进行快速傅里叶变换FFT ,再折半舍弃对称部分后平方计算信号能量谱。

4)三角带通滤波器

02040608010012014000.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

图3 梅尔频率滤波器组

将每帧能量谱中的线性频谱刻度转化成符合人耳听觉特性的梅尔刻度后,将其通过如图3的一组N 个三角形带通滤波器(N 一般取20~30个,本系统取为

24),计算通过每个频带的能量并取对数。

其中梅尔刻度与线性频率的转换关系为:

10Mel()2595*log (1)700

f f =+ 5)离散余弦转换

将上面得到的N=24个对数能量E k 带入离散余弦转换公式,求出L 阶的梅尔频率倒谱系数,这里L 通常取12。离散余弦转换公式如下:

11cos (),1,2...2m k k N

C E m k m L N π=??=-= ???∑ 通过离散余弦转换,将能量集中在前面几项中,达到在减少判别参数提高运算速度的同时又不失其准确性的目的。

6)差量倒谱参数

很多文献中提到利用差量倒谱参数来对语音的动态特性参数进行描述,可以提高系统的识别能力。本系统实验发现使用差量倒谱系数后,系统的识别性能并未有明显提高,有些情况下甚至有所下降。综合考虑,本系统仅使用静态MFCC 参数进行识别。

5 训练与识别

在特征匹配方面有动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题。此外还有矢量量化(VQ)和隐马尔科夫模型(HMM)理论,但这些基于统计的识别技术都需要大量的语音材料来提取统计特征,实现也比较麻烦。相对而言,DTW 实现简单,在特定人孤立词的识别方面也能够有足够的准确度,为本实验所采用的方法。

动态时间规整是将时间规整和距离测度结合起来的一种非线性规整技术。算法的思想就是把未知量均匀地伸长或缩短,直到与参考模式的长度一致。在这一过程中,未知语音的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。

图4 DTW 算法搜索路径示意图

如图4,要找时间规整函数M= w(N),使测试矢量的时间轴N 非线性地映射到模板的时间轴M 上,并满足:

式中,d 是第i 帧测试矢量T(i)和第w(i)帧模板矢量R(w(i))之间的距离(一般采用欧氏距离)。一般DTW 采用逆向思路,从最后点开始,逆推到起始点,寻找其()1[(),(())]min M

w i i D d T i R w i ==∑

中的最优路径。在求解中除了要约束路径的起点和终点外,还可以约束斜率在0~2之间,使路径不至于过度倾斜,这样每一个格点向前向后都只有三种可能落点,以加快算法的计算速度。

真正进行语音识别时,首先需要采集0~9的汉语语音信号,计算各自的MFCC 参数并存储起来作为参考模板。进行识别时,将待识别信号的参数特征依次与模板特征进行DTW匹配,并从中选取距离最小的作为识别结果。

四、Matlab的GUI实现

最后采用Matlab的GUI工具箱搭建一个简单的用户界面,能够用前面介绍的原理进行汉语数字语音的识别,而且便于操作,方便使用。

用户界面如图5所示,开始时用户要根据界面提示依次读出0~9的汉语读音,每次录音结束后,界面上会用两条竖线显示出端点检测的结果,因为有时候检测的端点是错误的,此时需要用户判断本次录音是否有效,选择“是,重读数字”或“否,往下进行”。10个样本数据采集完毕后,就可以录入语音进行识别,并在界面上显示出识别的结果。

图5 系统界面

参考文献

[1]A.V..奥本海姆,R.W.谢弗,J.R.巴克.离散时间信号处理[M].刘树堂,黄建国译.西安:西安交通大学出版社,2001.

[2]刘玄和,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008

[3]张培玲,成凌飞.基于MATLAB的汉语数字语音识别系统[J].机械管理开发,2011,122(4):205~207.

[4]王华朋,杨洪臣.声纹识别特征MFCC的提取方法研究[J].中国人民公安大学学报(自然科学版),2008,55(1):28~30.

[5]林常志.基于统计的语音识别方法分析报告.2003

特定人孤立词语音识别的研究毕业论文

本科学生毕业论文(设计) 题目(中 文): 特定人孤立词语音识别的研究 (英文): Research Of Speaker-dependent Isolated-word Speech recognition 姓名学号院(系)专业、年级指导教师

毕业设计(论文)原创性声明和使用授权说明 原创性声明 本人重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作及取得的成果。尽我所知,除文中特别加以标注和致谢的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得及其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了谢意。 作者签名:日期: 指导教师签名:日期: 使用授权说明 本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部容。

作者签名:日期:

科技学院本科毕业论文(设计)诚信声明 本人重声明:所呈交的本科毕业论文(设计),是本人在指导老师的指导下,独立进行研究工作所取得的成果,成果不存在知识产权争议,除文中已经注明引用的容外,本论文不含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 本科毕业论文(设计)作者签名: 二○○八年月日

Sphinx用于汉语连续数字语音识别的研究

Sphinx用于汉语连续数字语音识别的研究 王韵,张雪英 太原理工大学信息工程学院,太原(030024) E-mail:312118847@https://www.wendangku.net/doc/5613947495.html, 摘要:本文介绍了一个基于Sphinx的汉语连续数字语音识别系统,其声学模型采用SphinxTrain训练生成,语言模型由cmuclmtk统计语言模型生成,识别引擎采用PocketSphinx 工具。实验证明该系统对于非特定人不定长数字串的句子识别率为89.583%,词识别率为97.20%,说明该系统有良好的性能。 关键词:Sphinx;语音识别;声学模型;语言模型 中图分类号:TN912.34 1.引言 作为汉语语音识别的一个重要分支,非特定人连续数字识别有着广阔的应用前景。它在语音电话拨号、数字家电遥控、移动通信、电话证券交易等众多实用化领域[1]都给人们带来极大的便利。连续数字识别是一个小词汇量的语音识别系统,识别对象仅包括0~9十个数字,但由于汉语的单音节及易混淆性使得识别率同实际应用还存在一定差距。 本文利用卡内基梅陇大学(CMU)开发的嵌入式识语音识别引擎PocketSphinx,声学模型训练工具SphinxTrain,语言模型生成工具cmuclmtk[2]构建了一个汉语数字识别系统。PocketSphinx是CMU开发的一款用于快速语音识别的嵌入式语音识别引擎,它对于小词汇量的英语连续语音有很高的识别率。这里我们借助此识别引擎,通过训练汉语数字的声学模型和语言模型来构建一个高性能的汉语连续数字语音识别系统。这些工具的源代码都是公开的,通过改进算法,在汉语连续数字识别方面取得了一定的成效。 2.系统结构 连续语音识别系统主要由特征提取,声学模型,语言模型,识别引擎四部分组成如图1。以下会根据本文构建的数字连续语音系统对这四部分分别介绍。 图1 连续语音识别系统的基本结构 2.1 特征提取 SphinxBase是卡内基梅隆大学著名的Sphinx语音识别工程的公用库,主要用MFCC实现了语音识别系统的前端特征提取,其流程如图2示:

孤立词语音识别程序

孤立词语音识别程序

信息处理仿真实验语音处理部分 一、实验目的 按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析所设计系统的特性。熟悉不同模块间如何进行有效的组合,以及模 块内的设计,重点掌握特征参数的提取和模式识别方法,并对不同的特 征参数提取方法和模式匹配方法有大概的了解,知道其不同的优缺点。 二、实验内容 1、熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计 这三个模块的matlab子程序。 2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并 测试。 三、实验原理及设计步骤 1、孤立词语音识别系统:先用端点检测将语音中有用的语音部分提取出来(即 将头部和尾部的静音部分除掉),然后提取语音信号的Mel尺度倒谱参数(MFCC),进行动态归整(DTW算法)后与模板库里面的标准语音作比较,具体流程如下: 图3.1孤立词语音识别系统 2、各模块解析 ⑴预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。这里 将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点检测以捕捉到数据中的语音信息。 端点检测采用双门限法来检测端点。同时,利用过零率检测清音,用短时能量检测浊音,两者配合。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量status来表示当前 所处的状态。 在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。 在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要

两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。 而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信 进入语音段了。 一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不 能维持足够长的时间,这些可以通过设定最短时间门限来判别。当 前状态处于语音段时,如果两个参数的数值降低到低门限以下,而 且总的计时长度小于最短时间门限,则认为这是一段噪音,继续扫 描以后的语音数据。否则就标记好结束端点,并返回 ⑵特征参数提取:常用的语音识别参数有线性预测参数(LPC),线性预测倒谱 参数(LPCC)和Mel 尺度倒谱参数(MFCC)等。这里提取语音信号的Mel 尺度倒谱参数(MFCC),步骤如下: 预 加 重汉明窗傅立叶变 换取模三角滤波函数组取对数离散余弦变换语音 信号MFCC 归一化导谱提升计算差分系数并合 并特征参数 图3.2特征参数提取 分析: ①预加重 ()()-0.97(1)y n x n x n =- ②加汉明窗 ()()()w x n y n w n =? ③ FFT 1 2/0()()N j nk N w w n X k x n e π--==∑ 这里直接采用现成的FFT 快速算法。 ④对频谱进行三角滤波 程序采用归一化mel 滤波器组系数 ⑤计算每个滤波器的输出能量 120()ln ()()0N w m k S m X k H k m M -=??=≤< ??? ∑ ⑥离散余弦变换(DCT)得到MFCC ()1()()cos (0.5)/1,2,...,M m C n S m n m M n p π==-=∑ 通常协方差矩阵一般取对角阵,三角滤波器组的对数能量输出之间

用于孤立词识别的语音识别系统实验报告

用于孤立词识别的语音识别系统实验报告 语音是人际交流的最习惯、最自然的方式,它将成为让计算机智能化地与人通信,人机自然地交互的理想选择。让说话代替键盘输入汉字,其技术基础是语音识别和理解。语音识别将人发出的声音、音节、或短语转换成文字和符号,或给出响应执行控制,作出回答。 该系统用于数字0~9的识别,系统主要包括训练和识别两个阶段。实现过程包括对原始语音进行预加重、分帧、加窗等处理,提取语音对应的特征参数。在得到了特征参数的基础上,采用模式识别理论的模板匹配技术进行相似度度量,来进行训练和识别。在进行相似度度量时,采用DTW 算法对特征参数序列重新进行时间的对准。 一、 特征提取 1、端点检测 利用短时平均幅度和短时过零率进行端点检测,以确定语音有效范围 的开始和结束位置。 首先利用短时平均幅度定位语音的大致位置。做法为:(1)确定一个 较高的阈值MH,短时平均幅度大于MH 的部分一定是语音段。(2)分别沿这一语音段向两端搜索,大于某个阈值ML 的部分还是语音段,这样能较为准确地确定语音的起始点,将清音与无声段分开。因为清音的过零率远远高于无声段,确定一个过零率的阈值Z min , 从ML 确定的语音段向前搜 索不超过一帧的长度,短时过零率突然低于Z min 三倍的点被认为是语音的 起始点。 2、预加重 对输入的原始语音进行预加重,其目的是为了对语音的高频部分进行加重,增加语音的高频分辨率。假设在n 时刻的语音采样值为x(n),则经过预加重处理后的结果为: y(n)=x(n)+αx(n-1) α=0.98 3、分帧及加窗 语音具有短时平稳的特点,通过对语音进行分帧操作,可以提取其短时特性,便于模型的建立。帧长取为30ms ,帧移取为10ms ,然后将每帧信号用Hamming 窗相乘,以减小帧起始和结束处的信号不连续性。Hamming 窗函数为: w(n)=0.54-0.46cos(1 2-N n π) (0≤n ≤N-1) 该系统中,hamming 窗的窗长N 取为240。 设原始信号为s(n),加窗后为:

基于离散隐马尔科夫模型的语音识别技术

第24卷 第2期 2007年6月 河 北 省 科 学 院 学 报Journal of the Hebei Academy of Sciences Vol .24No .2June 2007 文章编号:1001-9383(2007)02-0008-04 基于离散隐马尔科夫模型的语音识别技术 高清伦,谭月辉,王嘉祯 (军械工程学院计算机工程系,河北石家庄 050003) 摘要:概述语音识别技术的基本原理,对当前三种主要识别技术———动态时间规整技术、隐含马尔科夫模型 技术及人工神经网络技术进行比较,重点介绍基于离散隐马尔科夫模型(DH MM )的语音识别系统的实现。关键词:语音识别;隐马尔科夫模型;动态时间规整;人工神经网络中图分类号:T N912.34 文献标识码:A Speech recogn iti on technology ba sed on d iscrete H MM GAO Q ing 2l un,TAN Yue 2hu i,WAN G J i a 2zhen (D epart m ent of Co m puter Engineering,O rdnance Engineering College,Shijiazhuang Hebei 050003,China ) Abstract:The conditi on and the basic p rinci p le of s peech recogniti on technol ogy are intr oduced,three differ 2ent kinds of s peech recogniti on syste m s such as DT W ,H MM ,ASR are compared,and p lace e mphasis on how t o realize DH MM in s peech recogniti on syste m is p resented e mphatically . Keywords:Speech recogniti on;H idden Markov Model (H MM );Dyna m ic Ti m e W ar p ing (DT W );A rtificial Neural Net w ork (ANN ) 语音识别技术是语音信号处理技术一个重要的研究方向,是让机器通过识别和理解过程把人 类的语音信号转变为相应的文本或命令的技术,它属于多维模式识别和智能计算机接口的范畴,涉及到声学、语音学、语言学、计算机科学、信号与信息处理和人工智能等诸多学科,是21世纪衡量一个国家信息科学技术发展水平的重要标准之一。 1语音识别技术概述 语音识别系统本质上是一种模式识别系统, 目前有很多语音识别算法,但其基本原理和基本 技术相似。一个完整的语音识别系统一般都包括有特征提取、模式匹配和参考模式库3个基本单元,它的基本结构如图1所示。 (1)特征提取 所谓特征提取就是从语音信号中提取用于语 音识别的有用信息,其基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质特征的参数抽取出来,如平均能量、平均跨零率、共振峰、LPC 系数、MFCC 系数等。 图1语音识别系统基本结构 (2)模式匹配 这是整个语音识别系统的核心,它是根据一定规则(如H MM )以及专家知识(如构词规则、语法规则、语义规则等),计算输入特征与参考模式 3收稿日期:2007-01-26 作者简介:高清伦(1976-),男,河北沧州人,硕士,主要从事信息工程理论应用方面的研究.

汉语连续语音识别中声学模型

第六届全国人机语音通讯学术会议,267-271页,2001年11月20-22日,深圳 汉语连续语音识别中声学模型基元比较汉语连续语音识别中声学模型基元比较:: 音节音节、、音素音素、、声韵母 李净,徐明星,张继勇,郑方,吴文虎,方棣棠 语音技术中心,智能技术与系统国家重点实验室, 清华大学计算机科学与技术系, 北京, 100084 [lijing, xumx, zjy, fzheng, wuwh]@https://www.wendangku.net/doc/5613947495.html,, fangdt@https://www.wendangku.net/doc/5613947495.html, https://www.wendangku.net/doc/5613947495.html, 摘要 本文研究的是汉语连续语音识别中声学模型基元的选 择问题。根据汉语语音的特点,本文分别采用音节、 音素和声韵母等三种语音识别基元进行声学建模。为 了描述连续语音中的协同发音现象,本文针对音素和 声韵基元,设计了相应的问题集,利用基于决策树的 状态共享策略建立了上下文相关音素模型 (Triphone )和上下文相关声韵模型(TriIF ),并对 几种声学基元进行了对比。实验结果表明,对于上下 文无关模型,音素和声韵模型都要劣于音节模型,而 对于上下文相关模型,Triphone 和TriIF 模型与音节 模型相比,识别性能有了很大提高,其音节误识率分 别降低了8.5%和23.6%。 1. 引言 声学建模是连续语音识别中声学层面处理的关键步骤。声学模型用来描述识别基元对应的特征矢量序列的产生过程。通过声学建模,可以估计待识别特征矢量序列所对应的语音识别基元,从而完成特征矢量序列到语音识别基元的识别转换。 基元的选择是声学建模中一个基本而重要的问题。在汉语连续语音识别中,可以选择的基元包括:词(Word )、音节(Syllable )、半音节(Semi-Syllable )、声韵母(Initial/Final )、音素(Phone )等。识别基元的选择一般是基于语音学知识的,但是,基元也可以通过数据驱动的方式来产生,使用这种方式确定的基元可能在语音学上没有什么明确的意义,但也可以达到很好的性能。 对于词,在小词表语音识别系统中,或者命令与控制(Command & Control )系统中,使用词作为识别基元是适当的。但是,在连续语音识别中将词作为识别基元是不合适的。首先,在连续语音识别系统中,词条的数目比较多,一般都要使用几千或者几万 条词条,所以声学模型的规模必然很大。这不但会增 加存储的开销,还会极大地增加搜索的复杂度。其 次,当词表以外的词条,即OOV (Out Of Vocabulary )问题出现时,声学模型处理起来比较困 难。第三,要对这么多基元进行训练,必然需要一个 很大的数据库,并且要尽量覆盖词表中的词条,这一 点是很难达到的。所以,在汉语连续语音识别系统 中,采用类似于词这样较长的语音段作为识别基元是 不合适的。 对于音节,在汉语中,无调音节约有400个,如果考虑音调,有1300多个有调音节[1]。在进行上下文无关的声学建模时,使用有调或者无调音节是可以的,而且还可以取得相当好的性能,因为音节作为识别基元时,它很好地刻划了音节内部的变化。但是,在连续语音识别中,音节间的协同发音现象是比较严重的,因此,必须采用适当的方式来描述这种现象。一般地,上下文相关信息应在声学建模中加以考虑,这样,识别基元就会变成上下文相关的基元。如果采用音节作为识别基元,当考虑上下文信息时,基元数目会变得非常庞大,这将会使声学模型的规模变得无法接受。同时,由于基元数目过大,也会引起训练数据稀疏的问题,从而难以对模型参数给出较为准确的估计。所以,在进行上下文相关建模时,不适宜采用 音节模型。 音素在汉语中有三十多个(本文中定义的音素数目为35个)。音素基元在英语连续语音识别系统中得到了广泛的应用,并取得了很好的识别性能[2][3]。由此可见,音素也是一个很好的选择。但音 素并没有反映出汉语语音的特点,而且,相对于声韵母,音素显得更加不稳定,这一方面给手工标注带来了困难,同时,也给声学描述带来困难。 对于半音节和声韵母,它们在形式和数量上十分接近。半音节就是将音节分为两部分,而声韵母的划分更依赖于汉语语音学的知识。可以说,声韵母基元是适合汉语特点的一种识别基元,使用这种基元,还可以有很多语言学知识可以利用,从而进一步提高声 学模型的性能。声韵母作为识别基元具有以下优点: ? 汉语中的汉字是单音节的,而汉语中的音节是声韵结构的,这种独特而规则的结构,使对音节、以及词条的表示变得比较规则和统一; ? 使用声韵母作为识别基元,上下文相关信息也变得比较确定。比如,与声母相接的只能是韵母或者静音,而与韵母相接的也只能是声母或静音,而且,韵母左边相接的声母只能是与其搭配起来能够成汉语音节的那些声母。所以,上下文相关的声韵母基元的数目并不是基元数目的立方,而是远远小于这个数值的。

孤立词语音识别程序文件

信息处理仿真实验语音处理部分 一、实验目的 按所学相关语音处理的知识,自己设计一个孤立词语音识别程序,分析所设计系统的特性。熟悉不同模块间如何进行有效的组合,以及模块的设计,重点掌握特征参数的提取和模式识别方法,并对不同的特征参数提取方法和模式匹配方法有大概的了解,知道其不同的优缺点。 二、实验容 1、熟悉预处理、特征参数提取、模式匹配三个模块的原理,并设计这三个模块的matlab子程序。 2、设计主程序,将上述3个模块合理组合构成一个系统,训练模板并测试。 三、实验原理及设计步骤 1、孤立词语音识别系统:先用端点检测将语音中有用的语音部分提取出来 (即将头部和尾部的静音部分除掉),然后提取语音信号的Mel尺度倒谱参数(MFCC),进行动态归整(DTW算法)后与模板库里面的标准语音作比较,具体流程如下: 图3.1孤立词语音识别系统 2、各模块解析 ⑴预处理:包括反混叠失真滤波器、预加重器、端点检测和噪声滤波器。 这里将预加重器和噪声滤波器放在下一个模块里,所以预处理主要进行端点检测以捕捉到数据中的语音信息。 端点检测采用双门限法来检测端点。同时,利用过零率检测清音,用短时能量检测浊音,两者配合。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。 在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进 入过渡段。 在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要 两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。 而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信进入语 音段了。

Microsoft Speech SDK孤立词语音识别

基于Microsoft Speech SDK实现用户孤立词识别的过程如下: 1、初始化COM端口:在CWinApp的子类中,调用CoInitializeEx函数进行COM 初始化:::CoInitializeEx(NULL,COINIT_APARTMENTTHREADED); 2、创建识别引擎:微软Speech SDK 5.1 支持两种模式的:共享(Share)和独享(InProc)。一般情况下可以使用共享型,大的服务型程序使用InProc。如下:hr = m_cpRecognizer.CoCreateInstance(CLSID_SpSharedRecognizer);//Share hr = m_cpRecognizer.CoCreateInstance(CLSID_SpInprocRecognizer);//InProc 如果是Share型,直接到步骤3;如果是InProc型,必须使用ISpRecognizer::SetInput 设置输入:CComPtr cpAudioToken; hr = SpGetDefaultTokenFromCategoryId(SPCAT_AUDIOIN, &cpAudioToken); if (SUCCEEDED(hr)) { hr = m_cpRecognizer->SetInput(cpAudioToken, TRUE);} 或者:CComPtr cpAudio; hr = SpCreateDefaultObjectFromCategoryId(SPCAT_AUDIOIN, &cpAudio); hr = m_cpRecoEngine->SetInput(cpAudio, TRUE); 3、创建识别上下文接口:调用ISpRecognizer::CreateRecoContext 创建识别上下文接口:hr = m_cpRecoEngine->CreateRecoContext( &m_cpRecoCtxt ); 4、设置识别消息:调用SetNotifyWindowMessage 告诉Windows哪个是我们的识别消息,需要进行处理: hr = m_cpRecoCtxt->SetNotifyWindowMessage(m_hWnd, WM_RECOEVENT, 0, 0); 5、设置事件:最重要的事件是“SPEI_RECOGNITION”: const ULONGLONG ullInterest = SPFEI(SPEI_SOUND_START) | SPFEI(SPEI_SOUND_END) | SPFEI(SPEI_RECOGNITION) ; hr = m_cpRecoCtxt->SetInterest(ullInterest, ullInterest); 6、创建语法规则:语法规则分为两种,一种是听说式(dictation),一种是命令式(command and control---C&C)。首先利用ISpRecoContext::CreateGrammar 创建语法对象,然后加载不同的语法规则: //dictation hr = m_cpRecoCtxt->CreateGrammar( GIDDICTATION, &m_cpDictationGrammar ); if (SUCCEEDED(hr)) { hr = m_cpDictationGrammar->LoadDictation(NULL, SPLO_STATIC); }

基于Matlab仿真的孤立词语音识别技术研究

基于Matlab仿真的孤立词语音识别技术研究 摘要:研究一种改进的语音识别算法---改进的端点检测(滑动帧)动态时间规整(DTW)算法, 以一个能识别数字0~10的语音识别系统的实现过程为例,阐述了基于DTW算法的特定人孤立词语音识别的基本原理和关键技术。其中包括对语音端点检测方法、特征参数计算方法和DTW算法实现的详细讨论,最后给出了在Matlab下的编程方法和实验结果。 关键词:语音识别,端点检测,MFCC,动态时间规整算法,短时傅里叶变换Research Of Chinese Isolated Words Speech Recognition Based on Matlab Abstract: The paper researched an improved speech recognition system which is the moving frame of endpoint detection and simplified algorithm of Dynamic Time Warping (DTW) With an example of the realization of a 0~10 identifiable speech recognition system, the paper described the basic principles and key technologies of isolated word speech recognition based on DTW algorithm, including method of endpoint detection, calculation of characteristic parameters, and implementation of DTW algorithm. Programming method under Matlab and experimental results are given at the end of the paper. Key: speech recognition,endpoint detection,MFCC,DTW, Short time Fourier transform 1引言 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景21世纪是信息和网络的时代,Internet和移动通信、固话通信的网络把全球各地连接起来。自然口语对话、电子商务、信息索取、数字图书馆、语音翻译、远程教育等一系列的人类活动都可在网络上实现。语音识别系统的出现,会让人更加自由的沟通,让人在任何地方,任何时间,对任何事都能够通过语音交互的方式,方便地享受到更多的社会信息资源和现代化服务。这必然会成为语音识别技术研究和应用的重要发展趋势[1][2]。 当前,根据识别的对象不同,语音识别任务大体可分为3类,即 (1)孤立词识别(isolated word recognition),

特定人孤立词语音识别系统的仿真与分析

西安工程科技学院学报 Jo urnal of Xi ’an University of Engineering Science and Technology  第21卷第3期(总85期)2007年6月Vol.21,No.3(Sum No.85) 文章编号:16712850X (2007)0320371203 收稿日期:2006212212 通讯作者:党幼云(19622),女,陕西省澄城县人,西安工程大学教授.E 2mail :xk 2dyy @https://www.wendangku.net/doc/5613947495.html, 特定人孤立词语音识别系统的仿真与分析 马 莉,党幼云 (西安工程大学电子信息学院,陕西西安710048) 摘要:在MA TL AB 环境下利用语音工具箱Voice Box ,设计并实现了基于D TW 算法的特定人 的孤立词语音识别系统.论述了高效D TW 算法的基本原理及系统的实现过程.仿真结果表明,该系统对特定人的孤立词取得了良好的识别率.关键词:语音识别;MCC ;动态时间规整;MA TLAB 中图分类号:TN 912.34 文献标识码:A 0 引 言 语音识别是近年来十分活跃的一个研究领域.在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制.而在手持式PDA 、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[1]. 在特定人孤立词语音识别中,最为简单有效的方法是采用D TW (Dynamic Time Warping ,动态时间规整)算法,该算法基于动态规划(DP )的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[2].商业软件MA TL AB 以其强大的功能,已经成为工科研究人员的基本研究工具.信号处理更是MA TL AB 的强项,它自带的信号处理工具箱能有效缩短系统软件的开发周期. 本文借助MA TL AB 环境下的语音工具箱Voice Box ,基于D TW 算法的基本原理,实现了特定人孤立词语音识别系统,验证了该算法的有效性,同时该仿真为实际应用系统的硬件实现提供了一定的参考价值. 1特定人孤立词语音识别系统分析 一个完整特定人孤立词语音识别系统通常包括语音的输入,语音信号的预处理,特征提取,训练与识别等几个环节,基本构成如图1所示 . 图1 孤立词语音识别系统框图 语音识别的过程可以被看作模式匹配的过程,模式匹配是指根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程.模式匹配中需要用到的参考模板通过模板训练获得.在训练阶段,将特征参数进行一定的处理后,为每个词条建立一个模型,保存为模板库.在识别阶段,语音信号经过相

语种辨识

1语言辨识的基本概念 自动语言辨识(又称语种识别),是计算机分析处理一个语音片段以判别其所属语种的技术。随着当前全球合作的增长,各种余元之间的通信要求增加,这就对自动语言识别提出新的挑战,在机械能够懂得语言含义之前,必须辨别使用了哪种语言。自动语言辨识的任务在于快速准确的辨识出所使用的语言,目前它已经成为通信和信息领域一个新的学科增长点。自动语言辨识技术的学术特点在于它横跨技术的融合。对它的研究,不仅需要掌握信息理论和技术,而且需要具有多种信息处理的手段和方法。众所周知,语音中包含着多种信息,从语音中提取不同的信息进行处理也就形成了不同语言处理方法。从内容上分,语音中包含着所属语言种类的信息、说话内容的语义信息和说话人个体特征,因此从识别的角度来说,我们可以利用从语音中提取的这些信息进行识别,语音信息的识别可以分为语音识别、语言辨识和说话人识别。语音识别中要提取出包含在语音信号中的字词意思和言语内容,说话人识别则是从语音信号中获取说话人的身份,语言辨识是从语音信号中提取出包含的语言的种类(或方言的种类)。与语音识别和说话人识别不同的是,语言辨识利用的是语音信号中的语言学信息,而不考虑语音信号中的字词意思,不考虑说话人的个性。 语种识别在信息检索和军事领域都有很重要的应用,包括自动转换服务多语言信息补偿等。在信息服务方面, 很多信息查询中可提供多语言服务, 但一开始必须用多种语言提示用户选择用户语言。语种辨识系统必须预先区分用户的语言种类, 以提供不同语言种类的服务。这类典型服务的例子包括旅游信息、应急服务、以及购物和银行、股票交易。例如AT&T 向处理911 紧急呼救的社会机构和警察局推出语言热线服务。图1 说明了两个讲不同语言的人是如何通过一个多语言话音系统进行交流。自动语言辨识技术还能够用于多语言机器翻译系统的前端处理, 当对大量录音资料进行翻译分配时, 需要预先判定每一段语音的语言。随着信息时代的到来以及国际因特网的发展, 语言辨识越来越显示出其应用价值, 国际

汉语语音识别技术

让人与计算机自由地交谈,机器能听懂人讲话,是汉语语音识别技术最终将实现的目标。进入九十年代,语音识别方面的研究进一步升温,连续语音识别技术正趋于成熟,还出现了诸多实用化的研究方向。今后,将由连续语音识别发展到自然话语识别与理解,并着手解决语音识别中的一系列难题。难度虽然很大,但前景乐观。 计算机技术的飞速发展,使人与机器用自然语言进行对话的梦想一步步接近实现。进入九十年代之后,语音识别的研究进一步升温,除了连续语音听写机之外,还出现了诸多实用化的研究方向。ibm公司率先推出的viavoice标志着大词汇量、非特定人、连续语音识别技术正在趋于成熟。今后的发展方向,将由连续语音进一步进入自然话语识别与理解,并着手解决语音识别中的一系列难题,如鲁棒性问题。难度还会加大,但前景是乐观的。 语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 声学特征 声学特征的提取与选择是语音识别的一个重要环节。声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。 由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常要对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。 下面介绍常用的一些声学特征。 线性预测系数lpc:线性预测分析从人的发声机理入手,通过对声道的短管级联模型的研究,认为系统的传递函数符合全极点数字滤波器的形式,从而n时刻的信号可以用前若干时刻的信号的线性组合来估计。通过使实际语音的采样值和线性预测采样值之间达到均方差最小lms,即可得到线性预测系数lpc。对lpc的计算方法有自相关法(德宾durbin法)、协方差法、格型法等等。计算上的快速有效保证了这一声学特征的广泛使用。与lpc这种预测参数模型类似的声学特征还有线谱对lsp、反射系数等等。 倒谱系数cep:利用同态处理方法,对语音信号求离散傅立叶变换dft后取对数,再求反变换idft就可得到倒谱系数。对lpc倒谱(lpccep),在获得滤波器的线性预测系数后,可以用一个递推公式计算得出。实验表明,使用倒谱可以提高特征参数的稳定性。 mel倒谱系数mfcc和感知线性预测plp:不同于lpc等通过对人的发声机理的研究而得到的声学特征,mel倒谱系数mfcc和感知线性预测plp是受人的听觉系统研究成果推动而导出的声学特征。对人的听觉机理的研究发现,当两个频率相近的音调同时发出时,人只能听到一个音调。临界带宽指的就是这样一种令人的主观感觉发生突变的带宽边界,当两个音调的频率差小于临界带宽时,人就会把两个音调听成一个,这称之为屏蔽效应。mel刻度是对这一临界带宽的度量方法之一。 mfcc的计算首先用fft将时域信号转化成频域,之后对其对数能量谱用依照mel刻度分布的三角滤波器组进行卷积,最后对各个滤波器的输出构成的向量进行离散余弦变换dct,取前n个系数。plp仍用德宾法去计算lpc参数,但在计算自相关参数时用的也是对听觉激励的对数能量谱进行dct的方法。 声学模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。本节和下一节分别介绍声学模型和语言模型方面的技术。 hmm声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型hmm是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用hmm刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状

人工智能与语音识别

语音识别及其发展 本文简要介绍了语音识别技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别在通信等领域中的应用。 ——机器能听懂人类的语言吗?我们能扔掉键盘、鼠标用自然语言操纵计算机吗?随着语音识别技术的发展,梦想正在变为现实。 ——语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 ——本文将简要介绍语音识别的发展历史,采用的关键技术,面临的困难与挑战以及广阔的应用前景。 1 语音识别的发展历史 ——语音识别的研究工作大约开始于50年代,当时A T& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 ——60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 ——70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 ——80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于A T&T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性能相当。 ——进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、A T&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。 ——我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

HTK工具包孤立词识别系统(详细过程)

HTK工具包孤立词识别系统(详细过程) 1.前言 介绍HTK工具包建立孤立词识别系统,包含详细过程和可能出现的错误,分享错误分析和解决心得。主要参考书籍博客:HTK,https://www.wendangku.net/doc/5613947495.html,/jamesju/blog/116151 2.孤立词识别系统 2.1搭建流程 A:创建语料库,brightness,channel,color各录制5次。 B:声学分析,把wavform的声音文件转换为mfcc格式。 C:模型定义,为词典里面的每一个词建立一个HMM原型。 D:模型训练,HMM模型初始化和迭代。 E:问题定义,即语法定义。 F:对测试结合进行识别 G:评测 2.2.工作环境的搭建 创建如下目录结构: (1) data/: 存储训练和测试数据(语音文件、语音标签、特征矢量文件)。 子目录: data/train/lab data/train/wav data/train/mfcc data/test/lab data/test/wav data/test/mfcc (2)analysis/:存储声学分析步骤的文件 (3)training/:存储初始化和训练步骤的文件 (4)model/:存储识别系统的模型(HMMS)的相关文件。子目录:model/proto (5)def/:存储任务定义的相关文件。 (6)test/:存储测试相关文件

2.3.标准HTK工具选项 一些标准选项对每个HTK工具都是通用的。将使用以下一些选项: 1. -A :显示命令行参数 2. -D :显示配置设置 3.-T 1:显示算法动作的相关信息 3.语料库的准备 录制{brightness,channel,color}这三个词的读音。每个读9次。同时对每个录音都要进行标注,也就是有一个文本文件与其对应描述它的内容。 3.1语料库的准备 每个词各录制9次,保存为wav格式。5次存放在 data/train/wav/brightness data/train/wav/channel train/train/wav/color 4次作为测试音频,存放在: data/test/wav/brightness data/test/wav/channel train/test/wav/color 3.2 语音标注 我使用的是praat软件进行语音标注。在这之前我用手机进行录音,文件格式是m4a,首先采用音频转换软件将m4a格式转换为wav格式,进而进行praat标注,将标注结果保存为lab 形式。需要注意的是,praat标注单位为s,而HTK是以100ns为单位的,因此需要自己修改

语音识别概述

语音识别项目概述 1.语音识别概述与分类 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。 根据识别的对象不同,语音识别任务大体可分为3类,即孤立词识别(isolated word recognition),关键词识别(或称关键词检出,keyword spotting)和连续语音识别。 孤立词识别的任务是识别事先已知的孤立的词,如“开机”、“关机”等; 连续语音识别的任务则是识别任意的连续语音,如一个句子或一段话; 连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字,而只是检测已知的若干关键词在何处出现。 根据针对的发音人,可以把语音识别技术分为特定人语音识别和非特定人语音识别,前者只能识别一个或几个人的语音,而后者则可以被任何人使用。显然,非特定人语音识别系统更符合实际需要,但它要比针对特定人的识别困难得多。 注:在特定人语音识别中,不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。 2.项目概述 近年来,随着汽车产业的发展和汽车的普及,人们对车辆性能要求的不断提高,舒适性和便利性成为了当代社会汽车产业产业所追求的一致目标。因而车载电子产品的种类和功能也日益增加,越来越便于车主的使用,然而随之而来的也造成了操作的繁琐性,甚至于存在一定安全隐患。车载设备以服务用户为目的,因此人们需要一种更方便、更自然、更加人性化的方式与控制系统交互,而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC机或笔记本来完成,这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域。结合这一应用背景,本项目以语音识别模块LD3320为核心,结合Avr系列的MCU控制器,提出了一种方便现代生活的智能车载语音识别控制系统,以满足现代车辆车主在车内工作、休息、娱乐以及行车安全等方面的要求。本项目以语音识别技术为基础,利用语音命令作为人机接口,来实现对车上装备的音频和视频播放器、空调、电动车窗、移动电话、车载导航系统、卫星电台等电子产品进行智能控制的功能。

关键词识别在语音监听系统中的应用

Scientific Journal of Information Engineering February 2014, Volume 4, Issue 1, PP.13-18 Key Words Recognition Applied to Speech Monitoring System Min Wang#, Huiting Ni, Lizhi Li, Xiaoqun Zhao Electronic and Information Engineering College, Tongji University, Shanghai 201804, China #Email: viviansea87@https://www.wendangku.net/doc/5613947495.html, Abstract Along with our government’s paying attention to national defense and security, monitoring on telephone is more and more important. Obviously, traditional way cannot meet the requirements now, so developing automated speech monitoring technology is very urgent. This paper introduced a speech monitoring system based on key words recognition (KWR), on the basis of previous research, the system achieved the following functions---online real-time monitoring and offline non real-time detection. Through the theoretical analysis, this system can save human resources and improve the working efficiency. Keywords: CSR; Speech Monitoring System; KWR 关键词识别在语音监听系统中的应用 王民,倪慧婷,李立志,赵晓群 同济大学电子与信息工程学院,上海201804 摘要:随着我国对国家安全事业的重视,电话内容的监听越来越重要。传统的人工方式的监听已不能适应新时期的要求,迫切要求引入自动化的语音监听技术。本文介绍了一个基于语音关键词识别的电话语音监听系统,在现阶段已经成 熟的语音关键词识别技术的基础上,实现对语音电话的在线实时监听和离线非实时的检测功能,可以大大节省人力资源, 提高整个监听系统的工作效率。 关键词:连续语音识别;语音监听系统;关键词识别 引言 自9.11事件以后,如何对国家重要安全部门和敏感的公共场合进行全天候、自动、实时的监控,已成为世界各国高度重视的一个全球性问题。在这样的背景下,视频监控技术得到了广泛的应用,即通过分散设置的摄像机记录监控场景,并集中显示,使得监控人员可以实时了解发生的事件,以及时做出反应。但是,有关研究已经表明,仅依靠视频监控中的人眼检测,即使是专业操作人员也难以构成真正有效的安全系统。因为只要连续专注于监控屏幕超过20分钟,监控人员的注意力都会降低至不能满足监控要求的水平。并且视频监控的前提是建立在要监控的嫌疑人到场的情况下的。在这种情况下,语音监听显示出了视频监听所不具有的优点:1)电话监听不需要嫌疑人到场;2)电话作为公共通讯设备现在几乎人人都会使用。因此,语音电话监听比视频监控更加有效,也就成为了近年来国家安全等领域的重要研究课题,但是纯人工监听需要24小时不间断的实时监听,大大耗费了人力和时间,而且由于人的注意力不可能长时间高度集中,有时也会把极其重要的内容忽略掉[1]。 相比于目前通常采用的人工监听方式,计算机自动处理有着速度快、效率高、漏检率低等特点,尤其是针对需要同时对多路电话进行实时监听的场合,电话内容自动检测和处理技术更是具有不可替代的作用。基于连续语音的关键词识别作为语音识别的重要分支,近年来发展迅速,并广泛应用于国防、生活等各个领域。用于监听的关键词识别系统不同于其他服务类的系统,在服务类系统中,被识别的对象往往是合作状态的,

相关文档