文档库 最新最全的文档下载
当前位置:文档库 › 人工智能 语音识别 论文

人工智能 语音识别 论文

人工智能 语音识别 论文
人工智能 语音识别 论文

基于神经网络的语音信号识别

摘要

语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点.BP 神经网络在语音识别技术中的应用进行了探索性研究,对进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP 算法识别准确率高但训练速度慢的缺点,对BP 网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP 网络RECOGNITIO THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.is not the overall description of human brain,the abstract,It but simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc. can be opened up. Artificial neural network is a system which using a physically feasible system to imitate the structure and function of nerve cells in human brain,which has the ability of self—learning,contrasting,reasoning and summarizing .It have offered a new way in solving such complicated pattern classification problems as speech recognition.This paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low, a new recognizing algorithm based on BP algorithm by combining with good effect method in ANN which named genetic algorithm (GA) was proposed and used to improve the BP neural network. Experiments results show that the training speed can be accelerated by the method and the recognition performance is also promoted.words: Key words speech recognition, neural network, genetic algorithm, genetic neural network, BP network 1.绪论1.1 1.1 课题背景1.1.1 语音识别概述随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究诸领域中的一个。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技

术及声学技术等的发展,使得能满足各种需要的语音识别系统实现成为可能。近二三十年来,语音识别在工业、军事、交通、医学、民用诸方面,特别是在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。1.1.2 数字语音识别研究的意义语音识别的目标是让机器能听懂人类口述的语言,语音识别中的汉语数字语音识别,具有更为重要的意义,在众多场合的实用化都会给人们带来极大的便利。语音电话拨号的应用是现阶段语音识别技术中最重要的一个应用方向,在很多场合下,如司机开车、黑夜或盲人拨打电话时,用手指拨电话号码是很不方便或不安全的,此时最自然的方式就是采用语音拨号。今天计算机和电子通信设备日益微型化,未来的计算机将会微缩成腕上的手表般大小,而如果仍采用键盘输入是不可能的,有了数字语音识别技术,就可以在桌面上用声音命令、控制或操纵计算机。利用语音进行工业控制可以避免复杂的控制面板,只要一声令下,所有的机器就都在你的指挥之下了,它们真的可以做到听到你的话了。语音控制也是以后家电遥控的一个必然发展方向,而家电遥控中不可避免地会用到数字的识别,如电视机的频道、空调设定的温度、洗衣机的定时等。总之,数字语音识别的研究对于推动社会发展具有重要的作用。我们将在生活工作中渐渐体会到数字语音识别带来的种种便利,它将有可能涉足人类生活的每一领域。1.2 语音识别的发展和现状语音识别的研究工作大约开始于50 年代,当时AT& T Bell 实验室实现了第一个可识别十个英文数字的语音识别系统——Audry 系统,可以识别10 个英文数字发音[1]。60 年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP)[2],其中后者较好地解决了语音信号产生模型的问题。70 年代,语音识别领域取得了突破。在理论上,LP 技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW 技术的特定人孤立语音识别系统。80 年代,语音识别研究进一步走向深入,其显著特征是HMM 模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM 模型的广泛应用应归功于AT&T Bell 实验室Rabiner 等科学家的努力,他们把原本艰涩的HMM 纯数学模型工程化,从而为更多研究者了解和认识。ANN 和HMM 模型建立的语音识别系统,性能相当。进入90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。美国、日本、韩国以及IBM、Apple、AT&T、NTT 等著名公司都为语音识别系统的实用化开发研究投以巨资。我国语音识别研究工作一直紧跟国际水平,国家把大词汇量语音识别的研究列入“863”计划,除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。 2.语音识别的基本原理语音识别SR(Speech Recognition)是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图[3]。现代语音识别技术以神经网络为主要发展趋势,进入20 世纪90 年代以来,神经网络已经成为语音识别的一条重要途径。由于神经网络反映r 人脑功能的基本特征,故具有自组织性、白适应性和连续学习能力等特点,特别适合于解决像语音识别这类模拟人的认知过程和智能处理能力,难以用算法来描述[4] 而义有大量样本可供学习的问题。人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP 神经网络是神经网络中前向神经网络的核心部分,BP 算法的学习过程由信号的正向传播和误差的反向传播组成。随着误差逆传播修正的不断进行,网络对输入模式响应的正确率不断上升。然而BP 算法是一种梯度F 降算法,梯度下降存在多极值问题,且BP 网络学习训练速度慢,容易陷入局部最小或振荡。因此,参数的选择非常重要。为克服标准BP 算法存在的各种缺点,本文研究用BP 算法结合人T 智能领域较为有效的方法——遗传(GA)算法来训练网络进行语音识别,仿真实验表明,GABP 算法使BP 网络在收敛速度上有了很大提高,尤其是克

服了容易陷入局部最小值的缺点,基于GABP 的语音识别系统的最高识别率和平均识别率都有了很大的提高。大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程.该过程如下图l 所示:神经网络识别语音识别预处理特征处理测试模板识别结果测度估计识别决策神经网络学习参考模板模板库专家知识图 1 语音识别系统原理框图该文主要面向孤立数字识别系统作一些改进研究,其摹本识别过程也符合上图l 描述:输入的语音信号首先进行预处理,包括抗混叠滤波、声音的预加重、加窗分症处理与端点检测等。预加重的目的是在于滤出低频干扰,尤其是50Hz 或60Hz 的工频干扰,将对于语音识别更为有用的高频部分的频谱进行提升,以便于语音参数分析。预加重滤波器传递函数为: H(Z) = 1 - 0.9375Z -1 (1) ? 若s(n)为预加重前语音信号,则经过预加重滤波器后得到的信号s (n)为:? s (n)= S ( n ) ? 0.9375S ( n-1) (2) 该文主要完成孤立数字识别,所要求识别的字数不多,对环境的噪声的适应能力的要求也并不高。因此采用了目前比较流行的双门限端点检测算法.借助于语音信号短时平均能量和短时过零率来判定语音有效范围的开始和结束。语音信号经过预处理后,接下来很重要的一环就是进行特征提取,常用的特征包括短时平均能量和幅度、短时平均过零率、线性预测系数(LPC)、短时傅里叶变换和Mel 频率倒谱系数(MFCC)。语音特征参数的时间序列构成了语音的模式,将其与通过应用一系列已知信号训练提取的参考模式逐一进行比较.获得最佳匹配的参考模式便是识别结果。本文中对于预处理的每个有效语音信号段,都要提取其12 个一阶MFCC 系数。提取过程为:用汉明窗将语音切割成长短一致的语音帧,对每帧语音进行正反傅里叶变换,经对数和离散余弦变换后取前12 个数作为MFCC 系数来描述每一个帧。最后将每个语音信号对应的MFCC 系数序列用K —means 聚类算法进行聚类,分为4 个聚类,使得每个语音信号都得到相应的12 个4 维一阶MFCC 系数,即可作为语音的特征参数成为神经网络的输人信号。3.语音识别中的BP 网络构造语音识别中的BP 网络构造主要包括输入层、隐层、输出层、初始权值、学习速率与期望误差的选取几个方面的问题。1)网络层数:理论上,在不限制隐层节点数的情况下,两层(只有一个隐层)的BP 网络可以实现任意非线性映射。当模式样本很多时,减小网络规模,增加一个隐层是必要的,但BP 网络隐层数一般不超过两层。本文所要求识别的模式样本不多,因此一个隐层已经足够。2)输入层节点数:BP 网络语音识别系统中,在输入层节点数与选取的语音信号特征参数的维度和阶数有关。本文中每个语音信号都得到相应的12 个 4 维一阶MFCC 系数,故输入层的节点数为12×4=48。3)输出层节点数:输出层的节点数取决于输出数据的类型和表示该类型所需的数据大小。当BP 网络用于语音识别时,以二进制形式来表示不同的识别结果,则输出层的节点数可根据训练模板的语音数来确定。本文设定输出节点数为1O,分别对应于0—9 这10 个数字。

4)隐层节点数:通过采用一个隐层,增加其神经元数的方法来达到网络训练精度的提高,这在结构上。要比增加更多的隐层简单的多。但究竞选取多少个隐层节点才合适?在理论上并没有1 个明确的规定。在具体设计时.比较实际的做法是通过对不同神经元数进行训练对[5] 比。然后适当的加上一点余量。一般可利用下面式子决定:[6] n1 = m +a +a (3) 其中n1 为隐层节数;m 为输入节点数;n 为输出节点数;a 为取l—10 的常数。本实验中输入节点数为48,输出节点数为10,a 选取为常数4,因此隐层节点数n1 =12。5)初始权值:由于系统是非线性的,初始值对于学习是否达到局部最小、是否能收敛以及训练时间的长短关系很大。一般总是希望经过初始加权后的每个神经元的输出值都接近于零。所以,一般取初始值在(-1,1)之间的随机数。6)学习速率与期望误差的选取:学习速率决定每一次循环训练中所产生的权值变化量。小的学习速率虽然会导致收敛速度慢,不过能保证网络的误差值不跳出误差表面的低谷而最终趋于最小值。所以,一般情况下,学习速率的选取范围在0.01~0.8 之间。期望误差0.O00001。解决了上述几个方面的问题后。本

文采用i 层结构神经网络。如图2 所示:输入层各节点将输入信号经权重藕合到隐层的每个节点.隐层各节点对来自前一层的信号加权,经激发函数转换后再藕合到输出层。x1 x2 xn 图2 含有一个隐层的神经网络o1 o2 oi 4.基于遗传神经网络的语音识别本文研究引用遗传算法对网络的初始连接权值进行优化处理,BP 算法完成给定精度用的学习。4.1 个体编码方案编码对于网络进化过程的性能和效率影响很大。因此.编码技术是连接权值进化过程中学解决的首要问题和关键步骤。本文中考虑到BP 网络的节点数和结构已经固定,可以采用实数编码方案,将网络的权值和各节点的阀值依此排列得到一个向量。假设一个具有m 个节点的n 层BP 网络,如果第i 个节点对应的权值分别为v i (v i [-l,+l]),则一个个体用实数向量表示为X=[v 1 ,v 2 ,…v m ]。4.2 适应度函数的选择一个网络连接权值优劣的标准,是根据网络对一组输入得到的实际输出与期望输出之间的误差大小来制定的。BP 网络中误差平分和小,则表示该网络性能比较好。本文中适应度函数为:其中,

E 为神经网络的输出误差,即[7] f(x ) = 1 1+E (4) E = ? ? (y k ? y k )2 ∑n k =1 其中n 为学习样本总数,y k , y k 为第k 个个体的期望输出和实际输出向量。∧ 1 N ∧(5) 4.3 进化参数连接权的进化过程中所涉及到的主要进化参数有:种群规模、交叉率、变异率和进化代数等等。交叉是最主要的进化操作,交叉率是指各代中交叉产生的后代数与种群规模之比。常用的交叉率取值范围为0.6—1.0。变异率是指种群中变异的基因数占总基因数的比例,其值控制了新基因引入的比例。常用变异率的数量级范围为0.1—0.00l。种群规模是连接权进化过程首先需要确定的参数。是算法会否陷入局部解的主要影响因素。综合考虑BP 网络的初始连接权值和交叉率、变异率的选择,这里选择种群规模为50。5.仿真实验结果仿真实验为针对非特定人的孤立数字词语音识别。语音数据由二男二女(O 到9 共10 个数字的普通话发音)通过PC 话筒输入,每个音每人发20 遍。共计1000 次发音,其中以每人每个音的前1O 次作训练样本,后1O 次作测试样本,录音环境为安静实验室,采样频率为11.025kHz。经过反复实验。小断改善实验环境.基于演化神经网络的识别得到了相对较高的识别率。对实验结果分析可知,结合了GA 算法的BP 网络通过GA 全局搜索得到一个权值最优解,只迭代151 次便使得误差值为O.00000l,而普通BP 算法要迭代517 次才能勉强达到期望误差,[8] 由此可知。结合了GA 算法的BP 网络避免了局部极小,减低了学习速率,提高了收敛速度。表 1 基于遗传神经网络和BP 网络语音识别系统对比表训练代数普通BP 神经网络遗传神经网络517 151 平均识别率84.2% 87.8% 最高识别率96.0% 96.0% 通过表l 对比可知,基于演化神经网络识别算法的语音识别系统无论是在训练时的收敛速度还是在最后的识别率上,都要优于普通的BP 网络语音识别系统。6.结论语音信号处理和神经网络均是目前研究的热点,文章主要针对语音识别的特点,结合人工智能领域两种比较有效的方法——BP 网络和GA 算法,构建了一种基丁遗传神经网络的语音识别算法。仿真实验结果表明:该算法避免了传统BP 算法容易陷入局部极小的缺点,减低了训练时间,有效的提高了系统识别率。参考文献【1】K.H.Davis,R.Biddulph,and S.Balashek.Automatic Recognition of Spoken Digits【M】.Acoust.Soc.Am.952,24(6):637—642. ,1 【2】胡航.语音信号处理(第一版)【M】.哈尔滨:哈尔滨工业大学出版社,2000.【3】赵力.语音信号处理【M】.北京:机械工业出版社,2003.【4】蔡莲红,黄德智,蔡锐.现代语音技术基础于应用【M】.北京:清华大学出版社,2003.【5】孙宁,孙劲光,孙宁.基于神经网络的语音识别技术研究【J】.计算机与数字工程,2005,34(3):58—61.【6】夏克文,李吕彪,沈钧毅.前向神经网络隐含层节点数的最优算法【J】.计算机科学,2005,32(10):143—145.【7】王万良.人工智能及其应用(第二版)【M】北京:高等教育出版社,2008. 【8】Lippman R P. Review of Neural Network for Speech Recognition【J】.Neural Computation,1989,l(1):l—38.

人工智能与语言识别

人工智能与语言识别 摘要:语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学。本文针时语音识别的特点,对BP神经网络在语音识别技术中的应用进行了探索性研究,进而结合人工智能领域较为有效的方法——遗传(GA)算法。该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。 关键词:语言识别;神经网络;遗传算法;BP网络 Artificial Intelligence and Speech Recognition Abstract:Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science. This paper mainly studies the application of the BP neural network in the research of speech recognition.The training speed can be accelerated by the method and the recognition performance is also promoted. Key words:speech recognition;neural network;genetic algorithm;BP network 正文 一、语言识别的概述 随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。 二、语言识别的基本原理 语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。现代语音识别技术以神经网络为主要发展趋势,进入20世纪90年代以来,神经网络已经成为语音识别的一条重要途径。人工神经网络(ANN)是采用大量的简单处理单元广泛连接起来构成的一种复杂信息处理网络。网络的训练学习是应用一系列输入矢量,通过已确定的算法逐步调整网络的权值,最终达到期望的目标。BP神经网络是神经网络中前向神经网络的核心部分,BP算法的学习过程由信号的正向传播和误差的反向传播组成。大部分基于神经网络的语音识别系统实现识别功能都要经过从特征参数提取到应用识别算法进行识别的过程。 三、语音识别中的BP网络构造

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

2020年公需课程-人工智能技术与应用(一骨骼识别、二人脸识别、三步态识别、四虹膜识别、五语音识别)

人工智能技术与应用(练习一:骨骼识别) 1、(单选,10分)单人骨骼识别不需要包含如下处理过程() A 、关键点区分 B 、关键点检测 C 、关键点串联 D 、结果输出 答案:A 2、(单选,10分)以下哪项不属于目前常用的人体骨架关键点的定义方式() A 、18 个关键点 B 、14 个关键点 C、25 个关键点 D、7 个关键点 答案:D 3、(单选,10分) 以下哪种环境/ 条件有助于提升人体骨骼识别的准确率() A 、肢体遮挡 B 、光照良好 C 、观察视角变化 D 、衣服包裹严实 答案:B 4、(单选,10分)人体骨骼识别与哪项技术的关联程度最低() A 、区块链技术 B 、视频采集技术 C 、图像处理技术 D 、人工智能相关技术 答案:A 5、(单选,10分)以下哪项不是骨骼识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、骨骼关键点识别 答案:C 6、(单选,10分)以下哪项不属于造成多人骨骼识别较单人骨骼识别更具挑战的因素() A 、关键点区分性弱 B 、背景中的局部区域容易混淆 C 、人与人的重叠 D 、需串联的关键点个数增多 答案:D

7、(单选,10分)当前的骨骼识别技术不适用于以下哪个应用场景() A 、身份认证 B 、视频监控 C 、体感游戏 D 、运动员辅助训练答案:A 8、(单选,10分) 8. 以下哪家公司不属于人体骨骼识别领域的代表企业() A 、商汤科技 B 、旷视科技 C 、携程旅行网络科技 D 、凌感科技 答案:C 9、(单选,10分)人的头颈、肩部、手肘关节、手腕关节、髋关节、膝关节等可作为人体骨骼关键点。 A 、正确 B 、错误 答案:A 10、(单选,10 分)在自顶向下方法中,人体目标检测需要用方框标记出一块尽可能大的区域。 A 、正确 B 、错误 答案:B 人工智能技术与应用(练习二:人脸识别) 1、(单选,10分) 以下哪项不是人脸识别系统包含的功能() A 、图像采集 B 、图像预处理 C 、图像模糊化 D 、匹配比对 答案:C 2、(单选,10分) 未来人脸识别的个人隐私防护不包含() A 、随意授权自己的人脸信息 B 、立法保障“脸权” C 、规范化人脸数据的使用方法 D 、打击隐私泄露行为 答案:A 3、(单选,10分) 以下哪项不属于生物识别技术() A 、人脸识别 B 、车牌识别 C 、掌纹识别 D 、语音识别 答案:B

人工智能语音识别发展报告

人工智能语音识别发展报告Report of Artificial I ntelligence Development

目录 1.语音识别 (3) 1.1.语音识别概念 (3) 1.2.语音识别发展历史 (4) 1.3.人才概况 (6) 1.4.论文解读 (8) 1.5.语音识别进展 (173)

语音识别 1.语音识别 1.1.语音识别概念 语音识别是让机器识别和理解说话人语音信号内容的新兴学科,目的是将语 音信号转变为文本字符或者命令的智能技术,利用计算机理解讲话人的语义内容, 使其听懂人类的语音,从而判断说话人的意图,是一种非常自然和有效的人机交流方式。它是一门综合学科,与很多学科紧密相连,比如语言学、信号处理、计算机科学、心理和生理学等[8]。 语音识别首先要对采集的语音信号进行预处理,然后利用相关的语音信号处 理方法计算语音的声学参数,提取相应的特征参数,最后根据提取的特征参数进行 语音识别。总体上,语音识别包含两个阶段:第一个阶段是学习和训练,即提取语音 库中语音样本的特征参数作为训练数据,合理设置模型参数的初始值,对模型各个参 数进行重估,使识别系统具有最佳的识别效果;第二个阶段就是识别,将待识别语音信 号的特征根据一定的准则与训练好的模板库进行比较,最后通过一定的识别算法得出识 别结果。显然识别结果的好坏与模板库是否准确、模型参数的好坏以及特征参数的选择 都有直接的关系。 实际上,语音识别也是一种模式识别,其基本结构如下图所示。和一般模式 识别过程相同,语音识别包括如图所示3 个基本部分。实际上,由于语音信息的复 杂性以及语音内容的丰富性,语音识别系统要比模式识别系统复杂的多。 图 6-1 语音识别系统框架 其中,预处理主要是对输入语音信号进行预加重和分段加窗等处理,并滤除其 中的不重要信息及背景噪声等,然后进行端点检测,以确定有效的语音段。特征参数 提取是将反映信号特征的关键信息提取出来,以此降低维数减小计算量,

人工智能与模式识别

人工智能与模式识别 摘要:信息技术的飞速发展使得人工智能的应用围变得越来越广,而模式识别作为其中的一个重要方面,一直是人工智能研究的重要方向。在介绍人工智能和模式识别的相关知识的同时,对人工智能在模式识别中的应用进行了一定的论述。模式识别是人类的一项基本智能,着20世纪40年代计算机的出现以及50年代人工智能的兴起,模式识别技术有了长足的发展。模式识别与统计学、心理学、语言学、计算机科学、生物学、控制论等都有关系。它与人工智能、图像处理的研究有交叉关系。模式识别的发展潜力巨大。 关键词:模式识别;数字识别;人脸识别中图分类号; Abstract: The rapid development of information technology makes the application of artificial intelligence become more and more widely. Pattern recognition, as one of the important aspects, has always been an important direction of artificial intelligence research. In the introduction of artificial intelligence and pattern recognition related knowledge at the same time, artificial intelligence in pattern recognition applications were discussed.Pattern recognition is a basic human intelligence, the emergence of the 20th century, 40 years of computer and the rise of artificial intelligence in the 1950s, pattern recognition technology has made great progress. Pattern recognition and statistics, psychology,

语音识别技术文献综述

语音识别技术综述 The summarization of speech recognition 张永双 苏州大学 摘要 本文回顾了语音识别技术的发展历史,综述了语音识别系统的结构、分类及基本方法,分析了语音识别技术面临的问题及发展方向。 关键词:语音识别;特征;匹配 Abstact This article review the courses of speech recognition technology progress ,summarize the structure,classifications and basic methods of speech recognition system and analyze the direction and the issues which speech recognition technology development may confront with. Key words: speech recognition;character;matching 引言 语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 1.语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT&Tbell实验室的Davis等人成功研制出了世界上第一个能识别十个英文数字发音的实验系统:Audry系统。

语音识别方法及发展趋势分析

语音识别改进方法及难点分析 ——《模式识别》结课小论文 学院:化工与环境学院 学号:2120151177 姓名:杜妮

摘要:随着计算机技术的不断发展,人工智能程度也越来越高,作为人工智能的一部分——模式识别也在模型和算法上愈发成熟。本文根据近105年文献,分析最新声音识别的方法和应用。 关键字:模式识别声音识别方法应用 随着人工智能的迅速发展,语音识别的技术越来越成为国内外研究机构的焦点。人们致力于能使机器能够听懂人类的话语指令,并希望通过语音实现对机器的控制。语音识别的研究发展将在不远的将来极大地方便人们的生活。 语音识别大致的流程包括:特征提取、声学模型训练、语音模型训练以及识别搜索算法。作为一项人机交互的关键技术,语音识别在过去的几十年里取得了飞速的发展,人们在研究和探索过程中针对语音识别的各部流程进行了各种各样的尝试和改造,以期发现更好的方法来完成语音识别流程中的各步骤,以此来促进在不同环境下语音识别的效率和准确率。本文通过查阅近10年国内外文献,分析目前语音识别流程中的技术进展和趋势,并在文章最后给出几项语音识别在日常生活中的应用案例,从而分析语音识别之后的市场走势和实际利用价值。 一、语音识别的改进方法 (一)特征提取模块改进 特征提取就是从语音信号中提取出语音的特征序列。提取的语音特征应该能完全、准确地表达语音信号,特征提取的目的是提取语音信号中能代表语音特征的信息,减少语音识别时所要处理的数据量。语音信号的特征分析是语音信号处理的前提和基础,只有分析出可以代表语音信号本质特征的参数,才能对这些参数进行高效的语音通信,语音合成,和语音识别等处理,并且语音合成的好坏,语音识别率的高低,也都取决于语音特征提取的准确性和鲁棒性。目前,针对特定应用的中小词汇量、特定人的语音识别技术发展已较为成熟,已经能够满足通常应用的要求,并逐步投入了实用。而非特定人、大词汇量、连续语音识别仍是

人工智能 语音识别 论文

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好地解决语音识别这样一个复杂的模式分类问题提供了新的途径。本文针时语音识别的特点.BP 神经网络在语音识别技术中的应用进行了探索性研究,对进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP 算法识别准确率高但训练速度慢的缺点,对BP 网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提高了网络训练速度和语音的识别率。关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP 网络RECOGNITIO THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.is not the overall description of human brain,the abstract,It but simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc. can be opened up. Artificial neural network is a system which using a physically feasible system to imitate the structure and function of nerve cells in human brain,which has the ability of self—learning,contrasting,reasoning and summarizing .It have offered a new way in solving such complicated pattern classification problems as speech recognition.This paper mainly studies the application of the BP neural network in the research of speech recognition. BP neural network can get higher identification precision, but its training speed is very low, a new recognizing algorithm based on BP algorithm by combining with good effect method in ANN which named genetic algorithm (GA) was proposed and used to improve the BP neural network. Experiments results show that the training speed can be accelerated by the method and the recognition performance is also promoted.words: Key words speech recognition, neural network, genetic algorithm, genetic neural network, BP network 1.绪论1.1 1.1 课题背景1.1.1 语音识别概述随着计算机技术的发展,人与机器之间的交流也越来越广泛和深入,计算机己经渗透到人们生活的各个方面。在现代社会中,人们逐渐习惯借助计算机来完成各项事务。在这种情况下,如何让计算机智能化地与人进行通信,使人机交互更加自然方便成为现代计算机科学的重要研究课题之一。语音识别(Speech Recognition)主要是指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。语音识别是一门涉及面很广的交叉学科,它是目前发展最为迅速的信息研究诸领域中的一个。语音识别的最大优势在于使得人机用户界面更加自然和容易使用。随着计算机技术、模式识别和信号处理技

六年级信息技术《语音识别》教学设计

月日第周星期总第课时 第26课语音识别 【教材分析】 本课是人工智能模块的最后一课。本课是一个实践活动,应用计算思维,结合xDing软件AI模块来解决生活中的问题。 首先提出问题——如何实现语音控制。xDing软件中AI选项中有“智能语音输入”模块。通过该模块可以向开源机器人“小丁”发出语音指令。 然后解决问题——“小丁”怎样才能“听懂”语音指令?教材中指引学生用“如果”条件语句进行指令判断,然后根据语音指令写出不同执行方式。 最后总结验证——运行程序,并通过话筒发出指令,观察舵机运行状况。根据舵机转动情况调整程序让“小丁”能“听懂”更多语音指令。 【学情分析】 六年级学生经过本单元前3课的学习已经对人工智能的定义、发展、分类有了初步的了解。对于xDing软件中AI模块中的控件的应用也有了使用经验。 【教学目标与要求】 1.通过数字化学习方式了解现实生活中语音识别的意义。 2.通过硬件搭建和xDing软件编程制作语音控制的门,培养学生计算思维。 3.尝试利用编程和语音识别技术实现更细致的舵机控制,培养创新意识。 【教学重点与难点】 重点: 1.掌握使舵机摇臂模拟开关门的算法。 2.学会使用xDing软件实现语音控制舵机开关门的编程操作。 难点:体验用计算思维解决生活中的实际问题的方法,尝试利用语音识别技术进行控制舵机的编程。 【教学方法与手段】 方法:通过提问激发学生的学习动机,教学过程中采用了任务驱动法进行教学,将自主探究和小组合作学习相结合,重点培养学生对应用xDing软件实现人工智能的兴趣,提高学生编程热情。 手段:多媒体教学课件、教师演示与学生操作相结合。

【课时安排】 安排1课时。 【教学过程】 一、导入 1. 播放语音识别相关视频,让学生欣赏。 2. 讨论所看到的画面介绍了什么知识? 3. 现实生活中语音识别有哪些实际应用?未来语音识别可能会帮助人们做什么? 4. 小问号看了以后也想要设计一个“听话”的门。小博士说xDing软件中的人工智能模块可以帮助他实现。同学们觉得应该利用哪些控件帮助小问号实现梦想? 板书:语音识别 【设计意图】观看视频了解人工智能正在步入人们的生活之中。特别是语音识别技术越来越成熟,被广泛应用在翻译、门禁等领域。 二、新授 1. 硬件搭建。 (1)舵机接上白色摇臂代表门的开关状态。 舵机是一种位置(角度)伺服的驱动器,适用于那些需要角度不断变化并可以保持的控制系统,在很多玩具中都有使用。 (2)将白色摇臂按照垂直于舵机最长边的方向固定好(这里代表舵机0度)。 (3)用数据线连接开源机器人“小丁”和舵机。 舵机连接线“棕”“红”“橘”,与开源机器人舵机接口1“黑”“红”“黄”相对应。 (4)用USB数据线将开源机器人与电脑连接起来并安装固件。 【设计意图】硬件有固定的连接方法,这里必须通过课件或者教师演示把固定接法讲述清楚,特别是接口号和后面编程时选择的号码要一一对应。 2.编写程序。 (1)设置初始角度。 我们先把门先关上,找找看哪个控件可以帮我们设置好关门的初始状态?

人工智能语音篇文案

语音转写页面:(隶属于语音识别) 主标题:语音转写。 副标题:可将长段音频文件转为文字 按钮1:立即使用 按钮2: 查看文档 应用场景的文案: 1.会议和访谈记录: 将会议和访谈的音频转化为文字存稿,让后期的信息检索和整理更加方便快捷。 2.电话销售和客服: 将坐席通话转化成文字,帮助电话质量检查和信息同步,同时为数据挖掘提供原料基础。 3.视频字幕: 将视频中的音频文件进行语言转写,轻松生成与视频相对应的字幕文件。 参数说明的文案: 1.支持语种:中文普通话,英文,中英混合。 2.文件识别的大小限制为32MB。 3.支持语音的格式:采样率为16K,采样位数为16bit,单声道的wav语音。 支持平台的文案: 按钮1:REST API(短语音) 按钮2:REST API(长语音) 长语音转写页面:(隶属于语音识别) 主标题:长语音转写。 副标题:可将长段音频文件转化为文字。 按钮1:立即使用 按钮2:产看文档 应用场景的文案: 1.会议和访谈记录: 将会议和访谈的音频转化为文字存稿,让后期的信息检索和整理更加方便快捷。 2.电话销售和客服: 将坐席通话转化成文字,帮助电话质量检查和信息同步,同时为数据挖掘提供原料基础。 3.视频字幕: 将视频中的音频文件进行语言转写,轻松生成与视频相对应的字幕文件。 参数说明的文案: 1.支持语种:中文普通话,英文,中英混合。 2.文件识别的大小限制为32MB。 3.支持语音的格式:采样率为16K,采样位数为16bit,单声道的wav语音。 支持平台的文案: 按钮1:REST API(短语音) 按钮2:REST API(长语音) 普通语音合成页面(隶属于语音合成) 主标题:普通语音合成, 副标题:同花顺语音合成依托人工智能技术,为开发者 提供全面优质的文字转语音服务。支持中英双语及多种音色,合成语音自然流畅乎真人发声。可为智能助手、智能机器人、文学阅读等领域提供语音合成解决方案,让您的应用开口说话。 按钮1:免费试用 按钮2 :技术文档 功能体验的文案: 文本框:欢迎使用同花顺AI开放平台。 技术提供方按钮1:同花顺AI Lab 按钮2:同花顺优图 声音类型选择框:中英男声选择框:中文女声选择框:英文女生 语速放一个音量调节旋转按钮 按钮:播放 产品优势的文案 1.实时合成:支持普通话,英文,中英混杂的实时录入实时合成,随写随听。

语音识别技术人工智能5092200

语音识别技术人工智能论文 一:前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 二:语音识别技术概述 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,

其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 三.语音识别的研究历史 语音识别的研究工作始于20世纪50年代,1952年Bell 实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。 进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、

基于人工智能深度学习的语音识别方法分析

血I「技术昌应用〕信息记录材料2019年9月第20卷第9期_______________________________________________基于人工智能深度学习的语音识别方法分析 崔娟,吴磊 (潍坊职业学院山东潍坊262737) 【摘要】随着新一代信息技术的发展,语音识别在各个领域的应用越来越广泛,我们可以在日常生活中更加普遍地接触到各类语音识别产品,如手机中的智能语音助手、车栽语音导航、天猫精灵等.语音识别技术已经在很多应用领域取得重大进展,但是在语音特征提取准确性、识别稳定性、语言建模等方面仍需亟待改进,而深度学习技术的可以很好的解决这些问题。因此,本文针对人工智能深度学习在语音识别领域方面的应用进行分析,做出了简要的阐述。 【关键词】人工智能;语音识别;方法分析 【中图分类号】TP24【文献标识码】A【文章编号】1009-5624(2019)09-0168-02 1引言 随着大数据、物联网、云计算等信息技术的发展,以深度学习为代表的人工智能技术的飞速发展,大幅度跨越了科学研究与实际应用之间的鸿沟,人工智能技术实现了语音识别系统从“不能用”到"可以用”的跨越式突破,迎来了迅猛发展的新高潮切。目前,在当前的市场上,虽然很多语音识别系统都初步实现了人与机器的沟通,但是仍有一些语音识别技术不是很完善。因此在针对语音识别技术改进方面,我们可以充分利用人工智能的深度学习,加强语音识别系统对语音、语义识别的准确性和实时性。而且在研究的过程中,研究人员也要深刻意识到研究结果和实际运用会出现的差异和问题,以及研究结果是否可以满足人们对人工系统的语音识别需求。深度学习的加入就是为了加强语音识别系统的运用,满足人们对语音识别系统提出的更高要求。 2语音识别技术的简介 语言识别技术其实就是让机器通过识别人的发音或者是声线去进行理解,然后将语音信号转变为一种相应的文本,其过程可以简单总结为:语音信号预处理— —语音信号特征提取— —在语音模型库中找到相应的模式进行匹配— —在语言模型库中对语言进行处理— —完成识别。 人们对语音识别准确性、实用型的需求促进了语音识别系统应用的快速发展,使得语音识别技术取得了一定的研究成果,语音识别系统也逐渐从实验室走向了人们的生活和市场。随着智能时代的到来,语音识别技术不仅在生活上对人们起到帮助,而且在工业发展、通信技术、甚至医疗区域都慢慢体现出了自己的价值⑵。尤其在2000年到2010年这一期间,是信息技术迅速发展的黄金时期,语音识别技术也是在这一时期得到更好的研究和探索,研究人员并将语音识别系统自身所能涉及的领域又进行了新的扩大。其中就包括对噪音信号的处理、信息的识别、以及对声线的识别和智能语音合成等等。总的来说,人类能够与机器进行畅通交流一直都是我们极力研究和期待的事情,语言识别技术很好的满足了人们这一想象和需求。 3目前传统语音识别系统存在的问题 3.1语音识别技术无法进行更好的提升 虽然时代在慢慢进步,但是在研究语音识别系统方面,我们的研究者也遇到了研究事业的“瓶颈期”。虽然现在有很多的设备都安装了语音识别系统,也做到了人与机器之间进行沟通,但是机器始终是机器,就算能够识别语音但是也只能识别一些基础的简单语言回。相对于专业的术语还很难做到识别和理解。研究者在通过各个方面的改造和创新,最终使得语音识别系统在知识理解方面加强了一些对外语以及方言的理解。但是对于噪声处理、系统鲁棒性、语音复杂模型等方面仍然是需要克服的问题,有待进一步提升。 3.2语音识别系统无法进行准确的数据特征提取 近年来互联网技术突飞猛进,很多设备也与互联网接轨,在当下信息技术发达的时代背景下,智能系统就成为了现在的社会主流。而语音识别就是这种主流中最重要的 这些命令调整自身运行参数。 4结论 10kV以下配电网无功电压优化与智能控制设计的目的是降低系统无谓损耗,保证供电电压平稳,提升配电网运行的经济效益。随着我国1ORV以下配电网性能及运行压力的变化,其产生的无功电压也会随之改变。因此无功补偿应作为10kV以下配电网维护管理中的重点工作之一,结合行业发展对配电网运行效率的新要求,积极引进现代化技术,做好低压配电网无功补偿工作。 【參考文献】 [1]张世伟,连鸿波.配电网无功电压混成自动控制研究[J].华东电力,2018(09). [2]张文琼,戈狄,赵兴华.许昌地区无功电压合格率偏低的原因及对策[J].农村电工,2018(06). [3]陈章潮,林桂钱.地区电网的无功电压规划和运行的优化方法研究[J].中国电力,2019(03). ⑷何志桥.略谈电网无功电压与几种调压措施[JL华东电力,2018(02). [5]吴启富,王井钢,陈汝侧,林忠敏.川南电力系统电压无功综合分析[J].四川电力技术,2018(06). 作者简介:范晓帅(1987-),男,山东省高密县人,开滦唐山矿业分公司机电科,工程师,从事矿井机电方向的研究. 168

语音识别技术人工智能论文_大学论文

一:前沿 语音识别技术是2000年至2010年间信息技术领域十大重要的科技发展技术之一。它是一门交叉学科,正逐步成为信息技术中人机接口的关键技术。语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业。 二:语音识别技术概述 语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术

开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 三.语音识别的研究历史 语音识别的研究工作始于20世纪50年代,1952年Bell 实验室开发的Audry系统是第一个可以识别10个英文数字的语音识别系统。1959年,Rorgie和Forge采用数字计算机识别英文元音和孤立词,从此开始了计算机语音识别。60年代,苏联的Matin等提出了语音结束点的端点检测,使语音识别水平明显上升;Vintsyuk提出了动态编程,这一提法在以后的识别中不可或缺。60年代末、70年代初的重要成果是提出了信号线性预测编码(LPC)技术和动态时间规整(DTW)技术,有效地解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。 80年代语音识别研究进一步走向深入:HMM模型和人工神经网络(ANN)在语音识别中成功应用。1988年,FULEE Kai等用VQ/I-IMM方法实现了997个词汇的非特定人连续语音识别系统SPHINX。这是世界上第1个高性能的非特定人、大词汇量、连续语音识别系统。 进入90年代后,语音识别技术进一步成熟,并开始向市场提供产品。许多发达国家如美国、日本、韩国以及IBM、Apple、AT&T、Microsoft等公司都为语音识别系统的实用化开发研究投以巨

人工智能与语音识别

语音识别及其发展 本文简要介绍了语音识别技术的发展历史,所采用的关键技术以及所面临的困难与挑战,最后讨论了语音识别在通信等领域中的应用。 ——机器能听懂人类的语言吗?我们能扔掉键盘、鼠标用自然语言操纵计算机吗?随着语音识别技术的发展,梦想正在变为现实。 ——语音识别以语音为研究对象,它是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到生理学、心理学、语言学、计算机科学以及信号处理等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信。 ——本文将简要介绍语音识别的发展历史,采用的关键技术,面临的困难与挑战以及广阔的应用前景。 1 语音识别的发展历史 ——语音识别的研究工作大约开始于50年代,当时A T& T Bell实验室实现了第一个可识别十个英文数字的语音识别系统——Audry系统。 ——60年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划(DP)和线性预测分析技术(LP),其中后者较好地解决了语音信号产生模型的问题,对语音识别的发展产生了深远影响。 ——70年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间归正技术(DTW)基本成熟,特别是提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。 ——80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于A T&T Bell实验室Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统,性能相当。 ——进入90年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及IBM、Apple、A T&T、NTT等著名公司都为语音识别系统的实用化开发研究投以巨资。 ——我国语音识别研究工作一直紧跟国际水平,国家也很重视,并把大词汇量语音识别的研究列入“863”计划,由中科院声学所、自动化所及北京大学等单位研究开发。鉴于中国未来庞大的市场,国外也非常重视汉语语音识别的研究。美国、新加坡等地聚集了一批来自大陆、台湾、香港等地的学者,研究成果已达到相当高水平。因此,国内除了要加强理论研究外,更要加快从实验室演示系统到商品的转化。

相关文档
相关文档 最新文档