文档库 最新最全的文档下载
当前位置:文档库 › 语音识别技术论文

语音识别技术论文

语音识别技术论文
语音识别技术论文

摘要:语音识别技术是一门涉及面很广的交叉学科。随着新理论的提出和应用,语音识别技术取得了很大的进步,许多产品已经得以实际的应用,但在其进一步的发展进程中,还有许多棘手的问题有待解决。

关键词:语音识别;动态时间规整算法;人工神经元网络

1 背景介绍

语言是人类特有的功能,是人们思维最重要的寄托体,是人类交流最主要的途径。语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。语言和语音与人类

社会科学文化发展紧密相连。

语音识别技术是让机器接收,识别和理解语音信号,并将其转换成相应的数字信号的

技术。它是一门交叉学科,涉及到语音语言学、数理统计、计算机、信号处理等一系列学科。

2 发展历史

1952年贝尔实验室的Davis等人研制成功了能识别十个英文数字发音的Audry系统,

标志着语音识别技术研究工作开始。20世纪60年代计提出了动态规划(Dynamic programming)和线性预测分析技术(Liner Predictive)等重要成果。20世纪70年代,语音

识别领域取得了突破。实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。20世纪80年代语音识别研究进一步走向深入, 基于特定人孤立语音技术的系统研制成功,

隐马尔可夫模型和人工神经元网络(Artificial Neural Network)在语音识别中的成功应用。进

入20世纪90年代后语音识别系统开始从实验室走向实用。我国对语音识别的研究开始于

20世纪80年代,近年来发展迅速,并取得了一系列的成果。

3 具体应用

随着计算机技术、模式识别等技术的发展,适应不同场合的语音识别系统相继被开发

出来,语音识别及处理技术已经越来越突现出其强大的技术优势。近三十年来,语音识别

在计算机、信息处理、通信与电子系统、自动控制等领域的应用越来越广泛。

在许多政府部门、商业机构,语音识别技术的应用,可免除大量操作人员的重复劳动,既经济又方便。如:语音邮件、IP电话和IP传真、电子商务、自动语音应答系统、自动语音信箱、基于IP的语音、数据、视频的CTI系统、综合语音、数据服务系统、自然语音识别系统、专家咨询信息服务系统、寻呼服务、故障服务、秘书服务、多媒体综合信息服务、专业特别服务号(168自动信息服务系统,112、114、119等信息查询系统)等。许多特定环境下,如工业控制方面,在一些工作环境恶劣、对人身有伤害的地方(如地下、深水及辐射、高温等)或手工难以操作的地方,均可通过语音发出相应的控制命令,让设备完成各种工作。

当今,语音识别产品不仅在人机交互中,占到的市场比例越来越大,而且在许多领域

都有了广阔的应用前景,在人们的社会生活中起着举足轻重的作用。

4 语音识别系统原理

语音识别一般分为两个步骤:学习阶段和识别阶段。学习阶段的任务是建立识别基本

单元的声学模型以及语言模型。识别阶段是将输入的目标语音的特征参数和模型进行比较,得到识别结果。

语音识别过程如图所示。下面对该流程作简单介绍:

(1)语音采集设备如话筒、电话等将语音转换成模拟信号。

(2)数字化一般包括预滤波、采样和A/D变换。该过程将模拟信号转变成计算机能

处理的数字信号。

(3)预处理一般包括预加重、加窗分帧。经预处理后的信号被转换成了帧序列的加窗的短时信号。

(4)参数分析是对短时信号进行分析,提取语音特征参数的过程,如时域、频域分析,矢量量化等。

(5)语音识别是目标语音根据特征参数与模型库中的参数进行匹配,产生识别结果的过程。一般有模板匹配法、随机模型法和神经网络等。

(6)应用程序根据识别结果产程预定动作。

(7)该过程是语音模型的学习过程。

5 现有算法介绍

语音识别常用的方法有:模板匹配法、人工神经网络法。

(1)模板匹配法是语音识别中常用的一种相似度计算方法。模板匹配法一般将语音或单词作为识别单元,一般适用于词汇表较小的场合。在训练阶段,对用户语音进行特征提

取和特征维数的压缩,这个过程常用的方法是采用矢量量化(VQ)技术。然后采用聚类方法或其他方法,针对每个模式类各产生一个或几个模板。识别阶段将待识别的语音模式的

特征参数与各模板进行相似度的计算,将最高相似者作为识别结果。但由于用户在不同时

刻发同一个音的时间长度有较大随意性,所以识别时必须对语音时间进行伸缩处理。研究

表明,简单的线性伸缩是不能满足要求的。由日本学者板仓在70年代提出的动态时间伸缩算法(DTW)很好的解决了这一问题。DTW算法能够较好地解决小词汇量、孤立词识别

时说话速度不均匀的难题。DTW算法示意图如图所示。

设测试的语音参数共有M帧矢量,而参考模板有N帧矢量,且M≠N,则DTW 就是

寻找一个时间归整函数tn=f(tm),它将测试矢量的时间轴tm非线性地映射到模板的时间轴

tn上,并使该函数满足第k帧(k=1,2,…M)测试矢量I和第f(k)帧(f(k)=1,2…N)模板矢量J之间的距离测度之和最小:

另外,在实际识别系统中,语音的起点或终点由摩擦音构成,环境噪声也比较大,语

音的端点检测会存在较大的误差。DTW 算法起点点可以固定在(tm,tn)=(1,1),称为固定起点;也可以选择在(1,2)、(2,1)等点,称为松驰起点。同样,中止点可以选择在(M,N)点,称为固定终点;也可以选择在(N一1,M)、(N,M一1)等点,称为松弛终点。松弛的DTW 算法的起始点从(1,1)、(1,2)、(2,1)等点中选择一最小值,终止点从(M,N)、(M,N-1)、(M-1,N)等点中选择一最小值,两语音样本之间的相互距离在相应的点放松后选择一最小距离。松弛DTW可以克服由于端点检测不精确引起的误差,但运算量加大。

(2)人工神经网络法。现实世界的语音信号会随着许多特征如:说话人语速、语调以及环境的变化而动态变化的,想要用传统的基于模板的方法建立一个适应动态变化的语音

识别系统是非常困难的。因此需要设计一个带有自学习能力的自适应识别系统,以便可以

适应语音的动态变化。

人工神经网络由神经元、网络拓朴和学习方法构成。人工神经网络拓朴结构可分为反

馈型和非反馈型(前馈型)。学习方法可分为监督型和非监督型。各种人工神经网络模型

中应用得最典型的是采用反向传播(Back Propagation)学习算法的多层前馈网络。多层前馈型网络如图所示。

除上述介绍的几种常用的方法外,还有许多其它的识别方法以及改进算法。

6 尚未解决的问题及值得研究的方向

(1)就算法模型方面而言,需要有进一步的突破。声学模型和语言模型是听写识别的基础。目前使用的语言模型只是一种概率模型,还没有用到以语言学为基础的文法模型,

而要使计算机确实理解人类的语言,就必须在这一点上取得进展。

(2)语音识别的自适应性也有待进一步改进。同一个音节或单词的语音不仅对随着的讲话者的不同而变化,而且对同一个讲话者在不同场合,不同上下文环境中也会发生变化。这意味着对语言模型的进一步改进。

(3)语音识别技术还需要能排除各种环境因素的影响。目前,对语音识别效果影响最大的就是环境杂音或噪音。要在嘈杂环境中使用语音识别技术必须有特殊的抗噪麦克风才

能进行,这对多数用户来说是不现实的。在公共场合中,如何让语音识别技术能有摒弃环

境嗓音并从中获取所需要的特定声音是一个艰巨的任务。

虽然在短期内还不可能造出具有和人相比拟的语音识别系统,但在未来几年内,语音

识别系统的应用将更加广泛,各种语音识别系统产品将陆续进入我们的生活。语音识别各

个方面的技术正在不断地进步,一步步朝着更加智能化的方向发展。

参考文献

[1] 杨尚国,杨金龙.语音识别技术概述[J].福建电脑,2006,(8).

[2] 孙宁,孙劲光,孙宇. 基于神经网络的语音识别技术研究[J]. 计算机与数字工程,2006.

[3] Phil Woodland. Speech Re cognition. Speech and Language Engineering-State of the Art (Ref. No. 1998/499).

[4] Morgan, N.. Bourlard, H.A.Neural networks for statistical recognition of continuous speech. Proceedings of the IEEE Volume 83,Issue 5,May 1995 Page(s):742-772.

(完整版)数字电路基础知识外文翻译毕业设计论文

优秀论文审核通过 未经允许切勿外传 原文: Digital circuit definition: Completes with the digital signal to the digital quantity carries onthe arithmetic operation and the logic operation electric circuit iscalled the digital circuit, or number system. Because it and the logical processing function, therefore calls thenumeral logic circuit. Numeral logic circuit classification (according to function minute): 1st, combinatory logic electric circuit The abbreviation combination circuit, it becomes by the mostbasic logical gate electric circuit combination. The characteristicis: Output value only and then input value related, namely output onlyby then input value decision. The electric circuit , the output condition changes along with the inputcondition change, is similar to the resistance electric circuit, likethe accumulator, the decoder, the encoder, the data selector and so onall belong to this kind. 2nd, succession logic circuit

浅析语音识别技术的难点及对策

浅析语音识别技术的难点及对策 在人际交往中,言语是最自然并且最直接的方式之一。随着技术的进步,越来越多的人们也期望计算机能够具备与人进行言语沟通的能力,因此,语音识别这一技术也越来越受到关注。尤其,随着深度学习技术应用在语音识别技术中,使得语音识别的性能得到了显著提升,也使得语音识别技术的普及成为了现实。 语音识别技术 自动语音识别技术,简单来说其实就是利用计算机将语音信号自动转换为文本的一项技术。这项技术同时也是机器理解人类言语的第一个也是很重要的一个过程。 语音识别是一门交叉学科,所涉及的领域有信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等,甚至还涉及到人的体态语言(如人民在说话时的表情手势等行为动作可帮助对方理解)。其应用领域也非常广,例如相对于键盘输入方法的语音输入系统、可用于工业控制的语音控制系统及服务领域的智能对话查询系统,在信息高度化的今天,语音识别技术及其应用已成为信息社会不可或缺的重要组成部分。 语音识别技术的发展历史 语音识别技术的研究开始二十世纪50年代。1952年,AT">60年代计算机的应用推动了语音识别技术的发展,提出两大重要研究成果:动态规划(Dynamic Planning,DP)和线性预测分析(Linear Predict,LP),其中后者较好的解决了语音信号产生模型的问题,对语音识别技术的发展产生了深远影响。 70年代,语音识别领域取得突破性进展。线性预测编码技术(Linear Predict Coding,LPC)被Itakura成功应用于语音识别;Sakoe和Chiba将动态规划的思想应用到语音识别并提出动态时间规整算法,有效的解决了语音信号的特征提取和不等长语音匹配问题;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。在同一时期,统计方法开始被用来解决语音识别的关键问题,这为接下来的非特定人大词汇量连续语音识别技术走向成熟奠

人工智能论文 语音识别

信息学院 《人工智能及其应用》课程论文题目:基于神经网络的语音信号识别 作者黄超班级自动08-1BF班 系别信息学院专业自动化 完成时间 2011.6.12

基于神经网络的语音信号识别 摘要 语言是人类之间交流信息的主要手段之一,自电脑发明以来,人们就一直致力于使电 脑能够理解自然语言。语音识别技术是集声学、语音学、语言学、计算机、信息处理和人工 智能等诸领域的一项综合技术,应用需求十分广阔,长期以来一直是人们研究的热点。 神经网络是在现代科学研究成果的基础上提出来的模拟人脑结构机制的一门新兴科 学,它模拟了人类神经元活动的原理,具有自学习、联想、对比、推理和概括能力,为很好 地解决语音识别这样一个复杂的模式分类问题提供了新的途径。 本文针时语音识别的特点.对BP神经网络在语音识别技术中的应用进行了探索性研究, 进而结合人工智能领域较为有效的方法——遗传(GA)算法。针对传统BP算法识别准确率高 但训练速度慢的缺点,对BP网络进行改进,构建了一种基于遗传神经网络的语音识别算法(GABP),并建立相应的语音识别系统。仿真实验表明,该算法有效地缩短了识别时问,提 高了网络训练速度和语音的识别率。 关键词:语音识别,神经网络,遗传算法,遗传神经网络,BP网络 THE RSREARCH OF SPEECH RECOGNITION BASED ON THE NEURAL NETWORK ABSTRACT Language is one of the most important means of exchanging information among the mankind.Since the computer was invented,many scientists have been devoted to enabling the computer to understand the natural language.Speech recognition is a comprehensive technology of such areas as acoustics,phonetics,linguistics,computer science,information processing and artificial intelligence,which can be used widely.The research of speech recognition technology has been focused by the world for a long time.The neural network is a new developing science,which simulates the mechanism of human brain and was putted forward by the developing of modern science.It is not the overall description of human brain,but the abstract,simulation and simplifying of the physical neural networks of human beings. The purpose of the research in this area is exploring the human brain mechanisms in information processing,storing and searching.If people can understand these mechanisms,a new way for the research of artificial intelligence,information processing and etc.

数电小论文

神奇脑电波 内容提要:本文由电气化时代切入,主要探究了人类对脑电波的认识,包括理论研究、现实成果和科学设想,个别猜想结合了作者看科幻小说的认识,但谁又能说,科幻不是未来的科学呢。被称为“科幻小说之父”的法国作家儒勒·凡尔纳这位伟大的幻想家以科学为依据,在自己小说中描述的飞机、潜艇、电视经历了一个世纪后都变成了现实。对于大脑的认识更要突破现有知识的局限。 关键词:脑电波精神控制电子技术 一、总述 电子技术是目前发展最快的技术领域之一,在数字集成电路集成度越来越高的情况下,开发数字系统的实用方法和用来实现这些方法的工具日新月异,可编程逻辑器件大量应用。在数字电子技术的学习中,我们了解到利用三级管和MOS管的特性可以制作门电路,这是非常神奇的。电流本是变化多端的,但我们却可以利用集成电路把电流电压等物理量变身成我们熟知的0、1,如此就大大方便了我们对电的利用。 在电气化时代飞速发展的今天,我们对电的利用早已超乎前人的想象,而各个学科之间本是没有固定界限的,推广开来,我不禁开始思考,人类可以利用生物电吗?也许未来的某一天,我们可以实现将人类脑电波的数字化,加以编程,便可以实现精神控制。大脑对人类来说本就是最神秘最神圣的存在,对此,我做了更深入的探究,让我们来一窥大脑的奥秘吧! 二、脑电波的探索 看过电影《阿凡达》的人一定不会忘记影片中这样一个桥段:在潘多拉星上,下身瘫痪的的前海军战士杰克·萨利躺在密封舱中,通过头上戴着的复杂设备,利用意念操控人造的混血阿凡达。当然,潘多拉星和阿凡达只是导演卡梅隆的虚构,利用意念操控阿凡达自然也不可能发生。但是你或许不知道,利用“意念”操控物体已经不再是人类的空想。 脑电波是大脑在活动时,脑皮质细胞群之间形成电位差,从而在大脑皮质的细胞外产生电流。它记录大脑活动时的电波变化,是脑神经细胞的电生理活动在大脑皮层或头皮表面的总体反映。脑电波被发现于1924年,德国医生汉斯·贝格尔(Hans Berger)从一个颅骨受损的病人头部,检测到极为微弱的电流。在经过近五年的漫长实验后,他终于确认了这种神秘的电流的确来自于脑部活动,并发明了脑电图(EEG,electroencephalogram)。他从一千多张脑电图记录中发现了脑电的部分规律,并测量出人们在清醒且闭眼后的脑电波为8-12Hz (另外的数据说是8-13Hz,阿尔法波或α波),而将睁开眼睛后的脑电波处于13-30Hz(另外的数据说是14-26Hz,贝塔波或β波)。而“意念”操控,是利用人类的脑波操控,相关的科学研究已经超过半个世纪。通俗地讲,人类在进行各项生理活动时都在放电,当然,电场和磁场总是相伴而生,既然人脑有生物电或电场的变化,那么肯定有磁场的存在。心脏跳动时会产生1~2毫伏的电压,眼睛开闭会产生5~6毫伏的电压,而思考问题时大脑会产生0.2~1毫伏的电压。如果用科学仪器测量大脑的电位活动,那么在荧幕上就会显示出波浪一样的图形,这就是“脑电波”。脑电波活动具有一定的规律性特征,和大脑的意识存在某种程度的对应关系。人在兴奋、紧张、昏迷等不同状态之下,脑电波的频率会有明显的不同,约在1~40赫兹之间,依照不同的频率,脑电波又被进一步分为α(阿尔法)波、β(贝塔)波、θ(西塔)波、δ(德儿塔)波。当人在一定的压力之下精神高度集中时,脑波的频率在12~38赫兹之间,这个波段被称为β波,是“意识”层面的脑波;当人注意力下降,处

语音识别论文

语音信号的分析与处理 摘要:本文针对语音信号时域、频域参数进行了系统详尽的分析,并在MATLAB环境下实现了基于DTW算法的特定人孤立词语音信号的识别。 关键词:语音信号;短时傅里叶;MFCC;动态时间规整 引言 语音信号参数分析是语音信号处理的前提和基础。语音信号处理包括语音通信、语音增强、语音合成、语音识别和说话人识别等方面。只有通过语音信号的分析才能获得语音本质特性的参数,才能利用这些参数进行高效的语音通信,才能建立语音合成的语音库,也才可能建立用于语音识别的模板和知识库。此外,语音合成音质的好坏、语音识别率的高低,都取决于语音信号参数分析的准确性和精度。因此,语音信号参数分析是语音信号处理研究中一项非常有意义的工作[1]。 近年来,语音识别已经成为一个非常活跃的研究领域。在不远的将来,语音识别技术有可能作为一种重要的人机交互手段,辅助甚至取代传统的键盘、鼠标等输入设备,在个人计算机上进行文字录入和操作控制。而在手持式PDA、智能家电、工业现场控制等应用场合,语音识别技术则有更为广阔的发展前景[2]。 在特定人孤立词语音识别中,最为简单有效的方法是采用DTW(Dynamic Time Warping,动态时间规整)算法,该算法基于动态规划(DP)的思想,解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法[3]。 MATLAB是一种功能强大、效率高、交互性好的数值计算和可视化计算机高级语言,它将数值分析、信号处理和图形显示有机地融合为一体,形成了一个极其方便、用户界面友好的操作环境。本文就是在MA TLAB基础上来进行语音信号参数的分析与语音信号的识别的。 一、语音信号的分析 1参数分析 语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢得多,因此语音信号常常可被假定为短时平稳的,即在10一20ms这样的时间段内,其频谱特性和某些物理特征参量可被近似地看作不变。这样,我们就可以采用平稳过程的分析处理方法来处理,一般而言语音信号处理的方法都是基于这种短时平稳的假设的。根据语音信号所分析参数的不同,语音信号参数分析可以分为时域、频域、倒谱域分析等[4]。本文仅涉及时域及频域参数分析。 2时域分析 进行语音信号最为直观的分析方法就是时域分析。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析以及语音的分割、预处理和大分类等。时域分析方法的特点是:第一,表示语音信号比较直观,物理意义明确;第二,实现起来比较简单,运算量少;第三,可以得到语音的一些重要参数;第四,采用示波器等通用设备,使用简单[5]。 2.1短时能量分析 短时能量分析用途:第一,可以区分清音段和浊音段,因为浊音时的短时平均能量值比清音时大得多;第二,可以用来区分声母与韵母的分界、无声与有声的分界、连字的分界等。如对于高信

基于语音识别的智能小车设计-毕设论文

基于语音识别的智能小车 摘要 随着计算机技术、模式识别和信号处理技术及声学技术等的发展,使得能满足各种需要的语音识别系统的实现成为可能。近二三十年来,语音识别在计算机、信息处理、通信与电子系统、自动控制等领域中有着越来越广泛的应用。本设计是语音识别在控制领域的一个很好实现,它将原本需要手工操作的工作用语音来方便地完成。 语音识别按说话人的讲话方式可分为孤立词(Isolated Word)识别、连接词(Connected Word)识别和连续语音(Continuous Speech)识别。从识别对象的类型来看,语音识别可以分为特定人(Speaker Dependent)语音识别和非特定人(Speaker Independent)语音识别。本设计采用的识别类型是特定人孤立词语音识别。 本系统分上位机和下位机两大方面。上位机利用PC上MATLAB强大的数学计算能力,进行语音输入、端点监测、特征参数提取、匹配、串口控制等工作,根据识别到的不同语音通过PC串口向下位机发送不同的指令。下位机是单片机控制的一个小车,单片机收到上位机传来的指令后,根据不同的指令控制小车完成不同的动作。 该设计对语音识别的现有算法进行了验证和实现,并对端点检测和匹配算法进行了些许改进。本设计达到了预期目标,实现了所期望的功能效果。 关键词:MATLAB,语音识别,端点检测,LPC,单片机,电机控制

SMART CAR GASED SPEECH RECOGNITION ABSTRACT With the development of computer technology,pattern recognition,signal processing technology and acoustic technology etc, the speech recognition system that can meet the various needs of people is more possible to achieve.The past three decades, the voice recognition in the field of computer, information processing, communications and electronic systems, automatic control has increasingly wide range of applications. Speech recognition by the speaker's speech can be divided into isolated word (Isolated Word) identification, conjunctions (Connected Word) and continuous speech recognition (Continuous Speech) identification. Identifying the type of object from the point of view, the voice recognition can be divided into a specific person (Speaker Dependent) speech recognition and non-specific (Speaker Independent) speech recognition. This design uses the identification type is a specific person isolated word speech recognition. This design is of a good implementation of speech recognition in the control field, it does the work that would otherwise require manual operation by the voice of people easily.This system includes two major aspects:the host system and the slave system. The host system use the MATLAB on the computer which has powerful mathematical computing ability to do the work of voice input, endpoint monitoring, feature extraction, matching, identification and serial control,then it send different commands through the PC serial port to slave system according different recognised voice. The slave system is a car controlled by a single-chip micro-controller.It controls the car do different actions according different instructions received.

数字电路结课论文

《数字电路》结课论文 第一部分论文 对不同触发方式空翻现象的研究 电平触发方式存在空翻问题问题,即在一次时钟信号的有效期间,触发器发生了一次以上翻转现象称为空翻。空翻问题违背了触发器的设计初衷,每来一次时钟,中允许触发器翻转一次。若多次翻转,电路会发生状态的差错,因而是不允许的。以时钟RS触发器为例,电路如图(a)所示。在CP=1期间,时钟对门C和门D的封锁作用消失,R和S的多次变化会通过门C和门D到达基本RS触发器的输入端,造成触发器在一次时钟周期内的多次翻转,如图(b)说明了空翻的产生。为解决空翻问题,必须采用其他电路结构的触发器。 (a)电路图 (b)空翻 边沿触发器的状态转换仅发生在时钟脉冲的正边沿和负边沿时刻,而在其他时间状态不会发生变化。因此,边沿触发器具有很强的抗干扰性,有效解决了空翻问题。边沿触发器主要有维持阻塞,传输延迟和CMOS主从结构三种电路结构。

主从触发器是一种较早期的触发器,主要有主从RS触发器和主从JK触发器,目前使用已不多。主从RS触发器的翻转是在CP的下降沿发生的,CP一旦变为0后,主触发器被封锁,其状态不再受R、S的影响,故主从触发器对输入信号的敏感时间大大缩短,只在CP由1变为0的时刻动作,因此没有空翻现象。主从JK 触发器的逻辑功能与主从RS触发器的逻辑功能基本相同,J端输入端与RS触发器的S端相类似,K端与R端相类似。不通之处是主从JK触发器没有约束条件,在J=K=1时,每输入一个时钟脉冲后,触发器向相反的状态翻转一次。 主从RS触发器 主从JK触发器 不同触发方式的触发器在有效电平期间,输入端发生状态变化,是学习触发器的重点和难点,通过整理,加深了对这部分的理解,更好的掌握了触发器的特点,

语音识别(人机交互小论文)

计算机科学与信息工程学院《人机交互》课程 小论文 2014年6月

语音识别 1、语音识别的背景与意义 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。 随着现代科学的发展,人们在与机器的信息交流中,需要一种更加方便、自然的方式,而语言是人类最重要、最有效、最常用和最方便的通信形式。这就很容易让人想到能否用自然语言代替传统的人机交流方式(如键盘、鼠标等)。人机自然语音对话就意味着机器应具有听觉,能“听懂”人类的口头语言,这就是语音识别(Speech Recognition)的功能。语音识别是语音信号处理的重要研究方向之一,它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学、模式识别、声学和人工智能等学科都有密切的联系。它还涉及到生理学、心理学以及人的体态语言。 2、语音识别系统 语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。图1是基于模式匹配原理的自动语音识别系统原理框图。 (1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。 (2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反映信号特征的关键特征参数用于后续处理。现在较常用的特征参数有线性预测(LPC)参数、线谱对(LSP)参数、LPCC、MFCC、ASCC、感觉加权的线性预测(PLP)参数、动态差分参数和高阶信号谱类特征等[1]。其中,Mel频率倒谱系数(MFCC)参数因其良好的抗噪性和鲁棒性而应用广泛。 (3)训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,建立或修改训练语音的参考模式库。

基于单片机的语音识别系统 毕业设计

基于单片机的语音识别系统毕业设计 目录 摘要..................................... 错误!未定义书签。Abstract ................................. 错误!未定义书签。目录..................................................... I 前言.. (1) 1 方案介绍及设计简介 (2) 1.1小车的控制要求及设计方案 (2) 1.1.1小车的控制要求 (2) 1.1.2方案设计与论证 (2) 1.2SPCE061A 简介 (3) 1.2.1SPCE061A单片机概述 (5) 1.2.2SPCE061A的介绍 (7) 1.2.3SPCE061A的结构 (7) 1.3SPCE061A 单片机强大的语音功能 (7) 1.3.1语音识别的原理 (8) 1.3.2系统的结构框图 (9) 1.4语音控制小车设计要求 (10) 1.4.1功能要求 (10) 1.4.2语音控制小车的主要功能 (10) 1.4.3参数说明 (10) 1.4.4注意事项 (10) 2电路设计及程序设计 (11) 2.1电路设计基础知识 (11) 2.2电路方框图及说明 (13) 2.3各部分电路设计 (13) 2.3.1电机的选择 (14)

2.3.2继电器驱动电路的设计 (14) 2.3.3行驶状态控制电路设计 (15) 2.3.4麦克录音输入及AGC电路 (16) 2.3.5语音播报电路 (18) 3软件设计 (19) 3.1软件流程图及设计思路说明 (19) 3.1.1程序设计 (20) 3.2模块设计 (20) 3.2.1中断流程图部分 (20) 3.2.2语音识别部分 (22) 4连接和操作说明 (25) 4.1硬件模块连接图 (25) 4.1.1功能说明 (25) 4.1.2代码下载 (26) 4.1.3训练小车 (27) 4.1.4声控小车 (28) 4.1.5重新训练 (28) 总结 (30) 致谢 (31) 参考文献 (32) 附件1 系统程序说明 (33)

完成的数电论文

目录: 绪论 (1) 第一章数字抢答器的总体设计 (2) 1.1原理图的确定 (2) 1.2声光控灯的工作原理 (3) 1.3声光控灯实现功能 (3) 第二章硬件电路详细设计 (4) 2.1硬件的选择与电路设计 (4) 2.1芯片的选择 (4) 第三章面包板连线及硬件调试 (7) 3.1电路面规划设计 (7) 3.2组装后调试 (7) 第四章课程设计体会与不足 (8) 绪论 转眼大三上学期即将结束,一直以来都在不停的问自己3年来到底学到了什么,我也一直很迷惘,很为自己毕业后着急。站在人来人往的校园里完全没有一个立足点去审视自己的能力,一直在等待着能自己实践的机会。老师给我们专业安排了一次综合课程设计,自己设计产品。这样的一个安排我很是高兴,听到这消息我就暗暗的告诉自己一定好好努力做这次设计,结果并不是最重要的,就象我们老师说的:能实现固然是最好,不能成功,只要每位同学认真的走好每个过程都是非常有好处的。声光控制灯由主体电路由声音控制电路、光控制电路和单稳态触发器、放大器、比较器组成。

第一章数字抢答器的总体设计 1.1原理图的确定 在设计开始,笔者查了不少关于声光控灯的资料,其大体分为2种,一种是纯硬件实现,另一种是单片机实现。由于要求用纯硬件实现,于是设计的原理图是纯硬件实现。 图1.1

这是由单稳态触发器74HC123和由NE555振荡器和LM358运算放大器和比较器构成的驱动数码管显示组成的纯硬件声光控灯,能实现实用的日常照明功能。为便于观察研究,决定光控部分在358的输入端用电位器RV4来控制灯的亮灭时间来实现,声控部分用按钮模拟Speaker如下图1.2 图1.2 1.2声光控灯的工作原理 白天,亮度大于一定程度时,光敏电阻呈现底阻状态≤1KΩ,使358“+”端小于基准电阻“-”端,此时电源通过R T向C T充电,暂稳态开始。流过灯的电流≤3mA,灯LED不能发光。夜晚,亮度小于一定程度时,光敏电阻呈现高阻状态≥100KΩ,使灯发光 1.3声光控灯实现功能 本系统可实现以下功能:在夜间(黑罩模拟)有声音信号时照明灯(用LED 发光二极管模拟)点亮;无灯时延迟5s后熄灭。如有声音间隔小雨5s,用LED 持续点亮,白天有声无声均不点亮。

语音识别开题报告

青岛大学 毕业论文(设计)开题报告 题目:孤立词语音识别的并行编程实现 学院:自动化工程学院电子工程系 专业:通信工程 姓名:李洪超 指导教师:庄晓东 2010年3月22日

一、文献综述 语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业和每个方面。 广泛意义上的语音识别按照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别[1]。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别对象的技术,它是4个方面中最重要和研究最广泛的一个方向,也是本文讨论的主要内容。 1.1 语音识别技术现状 1.1.1 语音识别获得应用 伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统E-talk。这是全球惟一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语,还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业带来无限商机。 目前,飞利浦推出的语音识别自然会话平台SpeechPearl和SpeechMania已成功地应用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达20万字的超大容量词库,尤其在具有大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应用。 1.1.2 语音合成信息服务被用户接受 语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需求、应用前景和经济效益等可见一斑。

基于单片机的智能语音识别系统设计毕业设计论文

基于单片机的智能语音识别系统设计 (硬件部分) 系别: 专业班: 姓名: 学号: 指导教师:

基于单片机的智能语音识别系统设计 (硬件部分) The Design of Intelligent Speech Recognition System Based on Single-chip Computer (HardWare)

摘要 本文设计一个让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术的语音识别系统。本语音识别系统以LD3320语音识别芯片为核心部件,主控MCU选用STC10L08XE。主控MCU通过控制LD3320内部寄存器以及SPI flash实现语音识别和对话。通过麦克风将声音信息输入LD3320进行频谱分析,分析后将提取到的语音特征和关键词语列表中的关键词语进行对比匹配,找出得分最高的关键词语作为识别结果输出给MCU,MCU针对不同的语音输入情况通过继电器对语音命令所对应的电器实现控制。同时也可以通过对寄存器中语音片段的调用,实现人机对话。 设计中,电源模块采用3.3V供电,主要控制及识别部分采用LM1117-3.3稳压芯片,语音播放及继电器部分采用7812为其提供稳定的电流电压。寄存器采用一片华邦SPI flash芯片W25Q40AVSNIG,大小为512Kbyte。系统声音接收模块采用的传感器为一小型麦克风——驻极体话筒,在它接收到声音信号后会产生微弱的电压信号并送给MCU。另外系统还采用单片机产生不同的频率信号驱动蜂鸣器来完成声音提示,此方案能完成声音提示功能,给人以提示的可懂性不高,但在一定程度上能满足要求,而且易于实现,成本也不高。 关键词:语音识别 LD3320 STC10L08XE单片机频谱分析

数电论文

北京交通大学 模拟电子技术研究论文流水控制电路的设计 学院:电信学院 专业: 学号: 学生: 指导教师: 2012年12月

XXX:流水电路的设计 目录 1 单稳态电路 (1) 1.1单稳态触发器的工作原理 (2) 1.2555设计单稳态触发器 (2) 1.2.1基于555定时器的单稳态触发器逻辑组成 (2) 1.2.2单稳态触发器的特点及工作原理 (3) 1.3单稳态触发器应用 (4) 1.3.1定时 (4) 1.3.2看门狗 (4) 2 集成定时器 (4) 2.1 概述 (4) 2.2 工作原理 (5) 2.3 引脚功能以及功能表 (6) 2.4 555定时器的应用举例 (7) 2.4.1多谐振荡器 (7) 2.4.2单稳态电路 (8) 3 流水控制电路的设计 (10) 3.1时钟信号发生 (10) 3.2电路实现方法一 (11) 3.3电路实现方法二 (12) 4 总结 (13)

流水控制电路的设计 XXX 北京交通大学电子信息工程学院自动化1001班 摘要:本文阐述了用集成555电路设计一流水自动控制生产线电路的设计原理和设计思路。生产线有3道工序,第一道工序需要加工10s,第二道工序需要加工15s,第三道工序需要加工20s。原理方面以单稳态电路和集成定时器的原理为重点。 关键字:流水电路单稳态电路集成定时器 555 1单稳态电路 在电路设计过程中,把只有一种稳定运行工作状态的触发器就称为单稳态触发器。其在运行过程中的主要状态特征为:当电路外围没有接受到外加触发脉冲信号时,整个电路就处于一种稳定运行工况状态,即单稳态;而当电路接受到外部相关触发脉冲信号(包括上升沿或下降沿脉冲信号,具体由电路功能决定)时,触发器电路的输出状态就会间发生跳变,并进入一个暂时稳定工况状态,即暂稳态。按照电路结构功能来划分,单稳态触发器包括微分型和积分型2大类。前者主要适用于窄脉冲触发领域,后者主要适用于宽脉冲触发领域。从单稳态触发器的工作原理来看,无论哪种结构的单稳态触发器,其单稳态状态的产生是通过外围电容充放电过程来实现的。具有555定时器的单稳态触发器电路逻辑组成如图1所示。

数字信号处理作业之语音识别小论文

绪论 语言是人类交流信息的基本手段,在人们日益扩大的交流中占据着重要地位。在如今高度发达的信息社会中用数字化的方法进行语音的传送、储存识别、合成、增强等是整个数字化通信网中最重要、最基本的组成部分之一随着信息科学技术的飞速发展,语音信号处理的研究也日益显示出它的要性,并取得了重大进展。大体上说,语音信号处理技术可以分为以下四个面:即语音编码,语音合成、说话人识别和语音识别等。语音压缩编码是压语音信号便于传输通信和保密;语音合成系统是模仿和代替人口的发音功能语音识别系统则是模仿或代替人耳的听觉功能,说话人识别系统属于生物识技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数识别说话人身份的技术。与语音识别不同的是,说话人识别利用的是语音信中的说话人信息,而不考虑语音中的字词意思,它强调一说话人的个性;而音识别的目的是识别出语音信号中的言语内容,并不考虑说话人是谁,它强共性。随着现代数字通讯、多媒体系统、信息高速公路等技术的应用和发展己经越来越深入地影响并改变着我们每个人地生活和工作方式,这同时也对音信号处理的研究工作提出了更高的要求,它在各方面的进展也令人瞩目。 1.语音识别概述 语音识别是试图使机器能“听懂”人类语音的技术。语音识别的作用是将语音转换成等价的书面信息,也就是让计算机听懂人说话。作为一门交叉学科,语音识别又是以语音为研究对象,是语音信号处理的一个重要研究方向,是模式识别的一个分支,涉及到计算机、信号处理、生理学、语言学、神经心理学、人工智能等诸多领域,甚至还涉及到人的体态语言(如人在说话时的表情、手势等行为动作可帮助对方理解),其最终目标是实现人与机器进行自然语言通信 1.1国外研究历史及现状 语音识别的研究工作可以追溯到20世纪50年代。1952年AT&T贝尔实验室的Audry系统,是第一个可以识别十个英文数字的语音识别系统。20世纪60年代末、70年代初出现了语音识别方面的几种基本思想,其中的重要成果是提出了

语音识别机器人的设计—毕业论文

毕业论文(设计) 题目语音识别机器人的设计 系部电子信息工程 专业电子信息工程年级 06级学生姓名 学号 指导教师 语音识别机器人的设计

【摘要】语音识别可划分为训练和识别两个过程。在第一阶段,语音识别系统对人类的语言进行学习,把学习内容组成语音库存储起来,在第二阶段就可以把当前输入的语音在语音库中查找相应的词义或语义。凌阳16位SPCE061A单片机内嵌32K字闪存,2K字SRAM,内置10位ADC、DAC,有多达14个的中断源。它的CPU内核采用16位具有DSP功能的微处理器芯片, 而且CPU可最高工作在49MHz的主频下,能够非常容易地、快速地处理复杂的数字信号,因此与其他类型的单片机相比,在数字语音处理方面SPCE061A更具有优势。基于SPCE061A设计了一个具有语音识别功能的机器人。经过训练,训练人可使用各种命令让机器人完成许多有趣的动作,使得人机交互更具智能化。 【关键词】SPCE061A单片机语音识别机器人

The Design of the Speech Recognition Robot 【Abstract】The speech recognition is divided into two stages, namely, training and recognition. At the first stage, the speech recognition system learns about the language and stores what it a speech database. Then at the next stage, the meaning of each inputted speech can immediately be found in the speech database.Sunplus 16-bit SPCE061ASCM is embedded with 32K word Flash and 2K word SRAM, with built-in 10-bit ADC and DAC as well as more than 14 interrupt sources. The core of its CPU is a 16-bit microprocessor chip which of DSP. Besides, the CPU can work with a frequency up to 49 MHz, and process complex digital signals easily and quickly. Therefore, compared with other types of SCM, SPCE061A speech processing. Based on SPCE061A, a speech recognition robot designed. After training, the robot can complete many interesting actions according to the orders, which makes the -computer interaction more intelligent. 【Key words】SPCE061A SCM Speech Recognition Robot 目录

数字电子技术的实际应用探析

信患工程 数字电子技术的实际应用探析 作者/陈群芳,肇庆市工程技术学校 摘要:近年来,由于数字电子技术的革新,推动了世界经济的发展,并且在人类的日常生活中发挥了很大的作用。本文主要概述了数字电 子技术,并探讨了数字电子技术在实际生活中的应用情况,希望能促进数字电子技术的应用和发展。 关键词:实际应用;数字电子技术;发展形势 引言 由于世界科学水平的提升,推动了经济发展,提升了人 类生活水平,数字电子技术就是其中之_。现阶段,人类的 曰常生活基本离不开数字电子技术,不管是信息网络,还是 手机、计算机终端,数字电子技术都发挥了很大的作用。这 里,笔者主要结合自身的工作经验,对实际生活中数字电子 技术的应用进行综合分析,并探讨了该技术的发展形势,希 望能促进数字电子技术的进一步发展。 1. 数字电子技术的发展概述 从本质上来看,数字电子技术只是电子技术的分支之 _,和传统模拟电子技术不同,数字电子技术具有很强的抗 干扰性和传递性。经过几年的发展,数字电子技术已经包含 了很多内容,包括集成芯片、逻辑电路、功能器件等各种硬 件的集成设计以及数字信号的传递处理。最近几年,由于各 种智能设备、信息化、计算机网络的飞速发展,使得人类对 工作和生活的质量要求也相应地提高,在此基础上,数字电 子技术应运而生。在数字电子技术的研究内容中,也包括了 各种集成芯片和电路的研究,使得该技术在智能生活领域和 工业生产领域的应用力度大大增强。比如人类现阶段使用的 智能手机,就是数字电子技术应用的最好例证,该技术在人 类生活中的地位已越来越重要W。 2. 实际生活中数字电子技术的应用分析 ■2.1应用于USB总线微波功率计 USB微波功率计是一种微波功率测量采集以及传输的 装置,而这种装置主要是应用数字电子技术制成的,USB 微波功率是数字电子技术和软件设计进行结合应用的典型 范例。USB微波功率计在工作的过程中,采集微波的功率 信号通常借助功率探测器进行,之后利用计算机软件程序除 去信号的噪音,并进行求值等步骤,将信号的数据修改固件 之后,再将处理完毕的数据信息通过链路发送到上位机,之 后,利用上位机进行数据分析处理。其中,微信号检测电路 和USB通信接口共同组成了功率探测器。从而得到微波功 率值,该功率值具有很高的测量精度,并且操作更加简便,体积非常小巧,数据可以和个人计算机进行交换和收发,比56丨电子制作2017年5月前者优势更大。由以上分析可知,在USB微博功率计装置中,数字电子技术起到了很重要的作用。 ■ 2.2应用于雷达接收机 和其他电子设备不_样的是,在信号的抗干扰性和精度 方面雷达接收机的要求非常高,是一种高精度的电子设备,对于设备的抗干扰能力要求非常严格,然而,利用模拟电子 技术制造的雷达接收机在信号的抗干扰性和精度两个方面,存在着很多问题,最严重的是反应迟缓。这种传统的模拟电 子技术已经无法满足现阶段雷达接收机的要求。由于这个原 因,人们逐渐将视线转移到数字电子技术在雷达接收机的应 用方面。在雷达接收机应用的技术中,将传统的模拟电子技 术转变成现代的数字电子技术,既扩宽了雷达的工作频率,同时,也使雷达接收机的工作灵敏度得以提升,并且将原来 的接收信号转变成现在的数字信号,在一定程度上增强了信 号的抗干扰能力,提高了雷达的使用性能,满足了各领域应 用雷达的需求P1。比如数字滤波和数字变频在抑制混纺电路 和放大器中均应用广泛。 ■2.3应用于网络 在现阶段人类生活中,因为有了网络的存在而变得更加 便利,同时,也为数字电子技术应用于网络提供了条件,在 很大程度上,促进了数字电子技术的发展。由现实生活来看,数字电子技术的应用范围越来越广阔。数字电子技术应用于 网络时,具有很大的优势,可以在一定程度上提高网络的抗 干扰能力,且存储能力也相应提高,信息的传输更安全快 捷,体现了设备综合数字化和集成化的特点。现在的数字电 子技术和网络技术相结合的发展已经超越了时代,在很大程 度上,满足了人们日常生活和科学研究的需求。在现代社会 的每一个方面都会有数字电子技术和网络技术的综合使用,从人们的生产方式和生活方式层面来说,在很大程度上改善 了这两个层面的发展,在现实生活中,,在处理网络信息时,数字电子技术的运用能力显得至关重要。 2.3.1应用于n鳝信息处理 基于信息技术的发展,在进行信号处理时,采用数字电 子技术具有明显的优势,是现代文明的标志。具体是将原来 的模拟信号转换为数字信号,在进行完善处理之后,转换成 模拟信号,再根据相应的情况进行信号输出。

相关文档
相关文档 最新文档