文档库 最新最全的文档下载
当前位置:文档库 › 嵌入式语音识别系统的研究和实现

嵌入式语音识别系统的研究和实现

嵌入式语音识别系统的研究和实现
嵌入式语音识别系统的研究和实现

中 文 信 息 学 报

第18卷第6期 JOURNA L OF CHINESE INFOR MATION PR OCESSING V ol118N o16文章编号:1003-0077(2004)06-0073-06

嵌入式语音识别系统的研究和实现①

方 敏,浦剑涛,李成荣,台宪青

(中国科学院自动化研究所高技术创新中心,北京 100080)

摘要:本文首先给出了一种适合于在嵌入式平台上实现的可变命令集的非特定人语音识别系统,同传统的基于PC的非特定人语音识别系统相比,该系统具备内存消耗小,运算速度快的优点。然后给出了该语音识别系统在多种嵌入式平台上的实现和评估结果,论证了非特定人语音识别系统在嵌入式平台上实现的可行性及其对硬件的最低配置要求,在技术层次上分析了目前实现高性能语音识别S OC的主要问题和困难,并指出了今后相关的研究方向。

关键词:计算机应用;中文信息处理;嵌入式平台;非特定人语音识别;语音识别S OC

中图分类号:TP39114 文献标识码:A

R esearch and R ealization of Embedded Speech R ecognition System

FANG M in,PU Jian2tao,LI Cheng2rong,T AI X ian2qing

(Hi2tech Innovation Center,Institute of Automation,Chinese Acadamy of Science Beijing100080,China)

Abstract:Proposed in this paper is a novel speaker2independent speech recognition system,which is command2variable and suitable for realization based on embedded platform.C om pared with traditional speaker2independent speech recognition sys2 tem based on PC,our system is featured small storage and com putation cost.The system is evaluated on several embedded platforms that are specially designed.According to the result of the evaluation,the feasibility of speaker-independent speech recognition system based on embedded platform is proved and the least requirement for the hardware is given.Then we analyzed the main problems and difficulties in the development of high per formance speech recognition S OC(System On a Chip)from the point of technology,and pointed out s ome future w orks.

K ey w ords:com puter application;Chinese in formation processing;embedded platform;speaker2independent speech recog2 nition;speech recognition S OC

1 前言

随着计算机软硬件技术、半导体技术、电子技术、通讯技术和网络技术等的飞速发展,人类已经进入后PC时代。这个时代一个典型的特征就是:各种新型智能化的设备日益广泛地走进人们的工作和生活,而人与这些智能化终端之间的自然快捷稳定可靠的交互方式有助于提高人机交互的效率,增强人对智能化设备的控制。作为人机交互最自然的方式,语音技术的研究近几十年来取得了长足的进展,其中语音识别由于其重要性和研究的难度更成为研究的热点[1,8]。

嵌入式语音识别系统是指应用各种先进的微处理器在板级或是芯片级用软件或硬件实现

①收稿日期:2003-08-01

基金项目:863计划重点资助项目(2002AA118020);北京市自然科学基金资助项目(4022010)

作者简介:方敏(1980—),男,硕士研究生,研究方向为嵌入式语音识别技术.

语音识别技术。语音识别系统的嵌入式实现要求算法在保证识别效果的前提下尽可能优化,以适应嵌入式平台存储资源少、实时性要求高的特点。实验室中高性能的大词汇量连续语音识别系统代表当今语音识别技术的先进水平。但由于嵌入式平台在资源和速度方面的限制,其嵌入式实现尚不成熟。而中小词汇量的命令词语音识别系统由于算法相对简单,对资源的需求较小,且系统识别率和鲁棒性较高,能满足大多数应用的要求,因而成为嵌入式应用的主要着眼点。

目前,在嵌入式平台实现了的主要是对系统的运算资源和存储资源要求比较低的特定人孤立词语音识别系统[7]。而在现实中,更多的语音识别应用要求系统具有非特定人的特点。相对而言,特定人语音识别系统可以对整词声学建模,识别则采用简单的DT W等匹配算法,这对小词汇量识别系统的实现效果比较理想。其缺点是,如果词表更换,就要求采集大量数据,重新训练模型,且训练好的模型又具有特定人的局限。本文介绍的非特定人语音识别系统采用基于汉语声韵母的声学建模单元,命令集可变,更换词表时无需重新训练模型,避免了特定人识别系统词表增大模型空间线性增加的缺点。

此项研究的目的在于:通过比较不同平台上的系统实现,分析语音识别系统嵌入式实现的最低运算和存储资源配置要求及系统优化方向,为语音识别系统板级及芯片级的设计开发提供参考依据。

为使系统尽可能少的占用嵌入式平台存储和运算资源并保证识别效果,我们对系统进行了优化,采用压缩的声学模型。我们分别在数字信号处理能力强的DSP平台和通用性好、性价比高的ARM平台上实现了该系统,考虑到不同的处理器及不同的硬件平台在系统时钟频率、数据处理速度、存储资源、缓冲机制等方面的差异,针对不同的平台对系统进行了模型大小及代码等方面的优化,进一步给出了在各平台上系统实现所要求的最小硬件资源配置及系统能达到的最高实时性能。嵌入式板级平台的测试评估结果为今后语音识别片上系统(S OC)的研制奠定了技术基础。

本文各小节内容安排如下:第二部分给出了一种适合于嵌入式平台实现的非特定人语音识别系统及其改进系统,第三部分分别介绍了三种嵌入式平台,第四部分给出了该非特定人语音识别系统的实验结果及其在不同嵌入式平台上的评估结果,并对结果进行了分析,最后是本项研究的阶段性结论,并对今后嵌入式语音识别技术的研究方向进行了探讨和展望。

2 适用于嵌入式平台的基于汉语声韵母建模的非特定人语音识别系统汉语大词汇量连续语音识别系统(LVCSR)[2~6]一般采用以声韵母为建模单元的上下文相关的声学模型,一遍或多遍的搜索算法,以及N2G RAM的语言模型,词汇量一般达到几万个词,因此对运行平台的计算能力和存储能力要求非常高,目前只能在主流的PC机上运行。听写机曾是LVCSR的主流应用模式,但在实际应用中,由于语音识别引擎的识别率及其鲁棒性还不能达到应用的要求,因此听写机的应用并没有得到推广。但是,LVCSR系统的与说话人无关和自然语言交互的特点,却始终是语音交互接口所不懈追求的。由于运算资源和存储资源,以及语音识别引擎本身性能的限制,目前要在嵌入式平台上实现一个可用的口语交互接口是很困难的。所以本文的研究集中在说话人无关上,希望能够在嵌入式平台上实现一个非特定人的语音识别系统。

211 BASE LINE系统(简称系统1)

图1给出了非特定人语音识别BASE LI NE系统的框架结构。

图1 非特定人语音识别系统框架 首先,本系统的BASE LI NE 可以看作是

LVCSR 的一个简化版本。具体简化是:忽略

词间扩展,这样系统就成为一个命令词的语

音识别系统;忽略语言模型,因为没有了词

间扩展,语音识别引擎不再是连续的,语言

模型也就不需要了;降低词汇量,因为一般

而言,词汇量越小,词表的混淆度越低,识别

引擎的识别率就越高,同时数据存储空间、

搜索空间和计算量也就越小;采用不带音调

的上下文无关声学模型,因为对于小词汇量

而言,上下文无关的BASEPH ONE 模型在数据存储空间和计算量方面都要比上下文相

关的TRIPH ONE 模型小得多,同时识别率也能够满足实际应用的要求,而采用音调会使模型的大小增加到原来的5倍,并且对口音敏感,因此也被忽略;把采样率从16K H z 降为8K H z ,实验表明,对中小词表而言,采样率的降低所造成的识别引擎识别率的降低不超过1%,但可以节省语音识别前端50%的动态存储空间,减少运行时识别前端25%的计算量。关于声学特征的选择,根据文献[7]中的实验结果,我们选择“能量+MFCC +一阶差分”,共26维,同39维的声学特征相比,节省了1/3的特征缓冲区空间。表1给出了该BASE LI NE 系统的识别率测试结果。我们在基于TI 公司的T MS320C5409DSP 的嵌入式平台上实现和评估了该系统,评估结果参考表2。

212 改进后的系统(简称系统2)

由BASE LI NE 系统在T MS320C540平台上的评估结果可以看出,该系统对硬件平台的计算能力和存储能力的要求仍然很高。主要问题是,即便采用BASEPH ONE 模型,但声学模型仍然占用了系统整体存储空间消耗的80%,声学得分的计算占用了搜索时间消耗的90%,因此有必要对系统进行改进。这里研究了一种声学模型压缩算法,在几乎不降低系统识别率的前提下,对声学模型进行压缩,同时通过减少模型参数,降低声学得分运算的计算量。另外,通过优化某些数据结构,删除其中一些不必要的信息,能够节省大约50%的动态空间。表1给出了模型压缩后不同压缩比下的系统识别率,可从中选择一种既能大大减小模型空间且对识别率影响不大的压缩比。这样就得到改进后的系统(系统2)。表2给出了系统2在基于T MS320C5402DSP 的嵌入式平台上的评估结果。

CPU 采用不同的体系结构和指令集时,代码大小和执行效率都会相差很大。为了保证算法评估结果的可靠性,我们在当前比较流行的嵌入式中央处理器ARM 平台上实现了上述优化后的非特定人语音识别系统。由于ARM 处理器的对某些数学运算(如LOG 函数)的处理能力远不如DSP 强,大大影响了识别引擎的运行效率,因此对一些数学运算的函数进行了优化。表2给出了ARM 平台的评估结果。

3 三种嵌入式平台描述

311 平台的硬件框架描述

平台的硬件结构如图2所示。

图2 评估平台的硬性结构图

该平台包含:

a)一个CPU芯片

b)一片F LASH

c)一个C ODEC语音输入输出接口

d)一片AD/DA芯片

e)一个麦克风

f)如果CPU芯片的片内RAM存储空间太小,还必须外扩RAM

g)如果需要向外设输出识别结果,可以增加UART接口和RS232接口

312 基于TMS320C5409的DSP嵌入式平台(简称DSP5409平台)

T MS320C5409DSP是TI公司T MS320C54X系列的产品。T MS320C54X系列的DSP是一种典型的高性能、低功耗、16位定点DSP,广泛应用在各种嵌入式应用场合。54X系列的DSP的处理器速度快,片内资源丰富,完全能够满足非特定人语音识别系统的要求。我们选择的T MS320C5409DSP的处理器速度最高可达100MIPS;片内共48K字的存储空间,其中DRAM是32K字,ROM是16K字;片内具有丰富的外设,如P LL,McBSP,DMA,HIP等,其中McBSP0我们用来和AD\DA连接,接收采集到的语音数据。

外扩的资源有:两片1M字节的8位F LASH,支持16位BOOT LOADER模式;外扩512K字SRAM,其中256K字映射在程序区,供程序以扩展寻址方式访问,另外256K映射在数据区的高32K字的空间,分成8页访问,页面切换由烧录在外部CP LD中的逻辑控制。AD\DA芯片采用TI公司的高速模拟接口芯片T LC320AD50,该芯片支持多种采样率,包括16K H z和8K H z,支持16位精度的采样,动态范围为91dB。

313 基于TI320C5402的DSP嵌入式评估平台(简称DSP5402平台)

TI320C5402DSP也是TI公司T MS320C54X系列的产品,同TI320C5409DSP相比,主要差别是,片内的存储空间要小得多,其中DARAM是16K字,ROM是4K字。由于片内DARAM是影响系统的功耗和成本的主要因素,因此TI320C5402DSP的功耗比5409DSP更低,成本也只有5409DSP的1/3。TI320C5402DSP的处理器的速度最高也可达100MIPS。

外扩的资源有:一片64K字的16位F LASH,支持16位BOOT LOADER模式;外扩64K字的S ARAM,其中高48K字的空间为程序空间和数据空间共享,低16K字的空间的使用方法视DSP 的中央处理器的配置寄存器的OV LY位的状态而定,当OV LY=0时,S ARAM低16K字的空间映射到程序区的低16K字空间,当OV LY=1时,程序空间和数据空间的低16K字共享DSP的片内16K字的DARAM,片外扩展S ARAM的低16K字将无法访问。由于程序在片内运行的速度比程序在片外运行的速度快6~9倍,需要把语音识别系统中某些运算量大的代码放到片内运行,因此我们选择OV LY=1,这样,如果不考虑F LASH和ROM的话,程序空间和数据空间一共可用的RAM空间是64K字,这要比上述TI320C5409评估平台的存储资源小得多。AD\DA 芯片采用AIC11,该芯片支持多种采样率,包括16K H z和8K H z,支持16位精度的采样。另外,该平台对基于TI320C5409DSP的评估平台上一些不必要的外部扩展资源进行了精简。

314基于S3C4510b的AR M的嵌入式平台(简称AR M平台)

ARM处理器采用三星公司的S3C4510b芯片,该芯片的主要特点是:采用32位ARM7T DMI 内核[9],主频50MH z,采用RISC指令集,包含8kb的可编程片内Cache/SRAM,主要的片内外设包括:两路H D LC通道,两路UART通道,2个32位定时器,18个G PI O。选择该芯片的主要考

虑是:处理速度较快,基本满足我们识别算法的要求;价格相当便宜,这对于该系统的商业化应用极具吸引力;功耗低。

其他硬件部件:外扩了1片512K 的SRAM ,提供程序运行所需的临时空间;1片2M 的F LASH (SST 39VF160)存放程序代码及模型等数据;一个C ODEC 语音输入输出接口(16位ADC/DAC );1片TI 公司的T LC320AD50,用于采集语音数据。

4 实验和评估结果分析

411 压缩模型性能测试

表1 压缩模型性能测试结果模型压缩比模型大小(K B )识别率

1∶132585198%

718∶14114785167%

1114∶12814785179%

1418∶12119785106%

1614∶11918785167%

1714∶118172

84142%首先以系统1为BASE LI NE ,我们测试了声学模型压缩对系统识别率的影响。测试环境描述如下:词表大小为298词,词长为2~6个字,平均为3个字;测试集采用实验室采集的孤立词测试集,共2960个孤立词,由24个说话人(14男,10女)采集得到。测试结果如表1所示,其中BASE LI NE 采用未经压缩的模型(大小为325K B ),系统识别率为85198%。压缩比为原模型与压缩后模型的大小比。

测试结果表明:该声学模型压缩算法能够在压缩比达到11∶1的情况下,基本保持系统在采用C DH M M 模型的识别率。当模型压缩的更小时会对系统识别率有较大影响。因此在系统2中选用压缩比为1114∶1的模型。

412 非特定人语音识别系统在嵌入式平台上的评估结果

需要说明的是,用于算法评估的嵌入式平台都是针对语音识别算法设计的,算法的改进,总是用资源更有限的硬件平台来实际验证之。系统1对资源的要求比较高,因此我们选择和设计了T MS320C5409DSP 嵌入式平台。系统2对资源的要求比系统1小得多,因此我们设计了基于T MS320C5402DSP 的嵌入式平台来实现和评估。T MS320C5402和T MS320C5409DSP 的

表2 系统在嵌入式平台上的评估结果

评估指标

评估平台

DSP5409DSP5402ARM 前端耗时

01310131115搜索耗时

1160130112消耗片上RAM

64K B 32K B 无消耗片外RAM

339K B 64K B 192K B 消耗F LASH

365K B 64K B 167K B C ACHE 无无8K B

处理器速度可以根据需要在10~100MIPS 之间选择。通过测试系统在不同处理器速度下的运行情况,发现当处理器速度降低到30MIPS 时,语音识别前端仍能实时运行,而搜索引擎的运行为113倍实时,在可接受的范围内,因此又选用了主频为50MH z (相当于45MIPS )的基于ARM 内核的S3C4510B ARM 嵌入式平台,以验证评估结果,同时作为算法进一步优化的平台。表2

给出了三次评估的最终结果。413 实验结果分析

1)系统2相对于系统1在速度和资源消耗方面的优势说明,系统的改进和优化是合理有效的;在资源有限的嵌入式平台上,完全有可能实现高性能的非特定人语音识别系统,这为将来在嵌入式平台上实现更为复杂的语音识别技术,如关键词检测等,奠定了基础。

2)从ARM 平台的评估结果中,发现如下两个问题,一是ARM 的处理速度比预想的要慢一倍左右,这说明,为语音识别系统选择CPU 的时候,处理器的MIPS 指标不能成为衡量其数据

处理速度的唯一指标;二是开发环境为ARM生成的可执行代码为109K B,而同样的代码在T MS320C54X的开发环境下生成的可执行代码仅22K B,是前者的1/5,经分析,认为这是由于ARM采用了精简指令集的体系结构的缘故。

5 结论和展望

嵌入式语音识别系统具有广阔的市场应用前景。本文介绍的非特定人语音识别系统,相对于特定人孤立词语音识别系统具有多方面的优点,因此成为嵌入式语音识别系统研究和实现的主要着眼点。该系统的BASE LI NE是在LVCSR的基础上简化的,采用未压缩的模型,并在T MS320C5409DSP平台实现。为了使系统更适合于嵌入式应用,对BASE LI NE进行了模型的压缩和数据结构的优化,并在T MS320C5402DSP平台实现。系统改进后在ARM平台实现,也能基本满足实时性要求,且成本下降很多。通过这几种平台的系统测试,发现对BASE LI NE系统进行模型的压缩、数据结构的精简和代码优化之后,能大大降低系统实现平台的资源配置要求。同时,根据不同平台的自身特点(如DSP平台具有较强的信号处理能力,ARM平台具有缓冲机制等),对代码进行必要的优化。此项研究对于语音识别嵌入式模块的开发,对于今后研制嵌入式语音识别API及语音识别片上系统(S OC)具有很好的参考意义。

目前系统已在各个平台上实现并进行了综合评估,今后进一步的工作是:在语音识别算法方面,为了增强系统的环境鲁棒性,需要研究计算量和存储空间消耗都比较少的噪声消除或补偿算法、可靠的集外词和噪声的拒识算法等;在嵌入式平台方面,研发语音识别前端的专用处理模块,使其能执行更为复杂的语音信号前端处理算法。

参 考 文 献:

[1] Lawrence Rabiner,Biing-H wang Juang.语音识别基本原理(影印版)[M].北京:清华大学出版社,1999.

[2] 杨行峻,迟惠生.语音信号数字处理[M].西安:电子工业出版社,1995.

[3] 高升.语境相关的声学模型和搜索策略的研究[D].中国科学院图书馆:中国科学院自动化研究所博士

学位论文,2001.

[4] 高升,徐波,黄泰翼.基于决策树的汉语三音子模型[J].声学学报,2000,25(6).

[5] 马龙.汉语命令词识别,关键词检测的研究与应用[D].中国科学院图书馆:中国科学院自动化研究所

硕士学位论文,2002.

[6] 易克初,田斌,付强.语音信号处理[M].北京:国防工业出版社,2000.

[7] 丁国宏,李成荣,徐波.非特定人孤立词语音识别系统在定点DSP上的应用[A].第六届全国人机语音

通讯会议[C],2001.

[8] B.H.Juang.The past,present and future of speech processing[J].IEEE S ignal Processing Magzine,May,1998.

[9] [英]S teve Furber著,田泽等译.ARM S oc体系结构[M].北京:北京航空航天大学出版社,2002.

一种嵌入式语音识别模块的设计与实现

嵌入式系统结业(论文) 基于STM32的嵌入式 语音识别模块设计 学生姓名: 所在学院:信息技术学院 班级:电气 学号: 中国·大庆 2013 年12 月

摘要:介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。 关键词:ARM;语音识别;对话管理;LD3320;μC/OS-II 1 引言 服务机器人以服务为目的,因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互,而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC机或笔记本来完成,这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。 嵌入式语音识别系统和PC机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域。 2 模块整体方案及架构

现有的语音识别技术按照识别对象可以分为特定人识别和非特定人识别。特定人识别是指识别对象为专门的人,非特定人识别是指识别对象是针对大多数用户,一般需要采集多个人的语音进行录音和训练,经过学习,达到较高的识别率。 基于现有技术开发嵌入式语音交互系统,目前主要有两种方式:一种是直接在嵌入式处理器中调用语音开发包;另一种是嵌入式处理器外围扩展语音芯片。第一种方法程序量大,计算复杂,需要占用大量的处理器资源,开发周期长;第二种方法相对简单,只需要关注语音芯片的接口部分与微处理器相连,结构简单,搭建方便,微处理器的计算负担大大降低,增强了可靠性,缩短了开发周期。 语音识别技术在国内外的发展十分迅速。目前国内在PC应用领域,具有代表性的有:科大讯飞的InterReco2.0、中科模式识别的Pattek ASR3.0、捷通华声的jASRv5.5;在嵌入式应用领域,具有代表性的有:凌阳的SPCE061A、ICRoute的LD332X、上海华镇电子的WS-117。 本文的语音识别方案是以嵌入式微处理器为核心,外围加非特定人语音识别芯片及相关电路构成。语音识别芯片选用ICRoute公司的LD33 20芯片。 3 硬件电路设计 3.1 语音识别电路 图3为语音识别部分原理图,参照了ICRoute发布的LD3320数据手册进行设计。LD3320的内部集成了快速稳定的优化算法,不需外接Fla-sh、RAM,不需要用户事先训练和录音而完成非特定人语音识别,识别准确率高。

语音识别输入系统

IBM语音识别输入系统(ViaVioce) V9.1 简体中文光盘版| 用嘴巴控制电脑... sjyhsyj 2009-8-28 12:13:271# 软件大小:276.08MB 软件语言:多国语言 软件类别:国外软件 / 汉字输入 运行环境:Win9x/NT/2000/XP/ 软件介绍: 该系统可用于声控打字和语音导航。只要对着微机讲话,不用敲键盘即可打汉字,每分钟可输入150个汉字,是键盘输入的两倍,是普通手写输入的六倍。该系统识别率可达95%以上。并配备了高性能的麦克风,使用便利,特别适合于起草文稿、撰写文章、和准备教案,是文职人员、作家和教育工作者的良好助手。 IBM潜心研究26年,他领导了世界的语音识别技术,其语音识别产品在全球销售已达一百万套以上。使用语音输入方式,您的工作空间更加自由舒畅: *即使您不会打字,也可迅速准备好文稿; *只要集中精力思考问题,无须琢磨怎样拼音,怎样拆字; *当您疲劳时,闭上眼、伸伸腰,双手方在脑后,然后轻松地说:开始听写吧... ... 注:价值超数千元的IBM的中文语音录入工具,有耳麦的朋友可以试一试,也可以当作学习普通话的工具,没有理由不下载使用它。 IBM ViaVoice语音输入系统详解 作者: 艾寒出处: 天极网 目前汉字输入的方式主要有四种:键盘输入,手写输入,扫描输入和我们现在要谈到的语音输入。让我们先来了解一下这四种输入方式。 键盘输入:键盘输入基本上是基于各种输入法,主要又分为字形输入法和拼音输入法。实际上字形输入法是不符合人的写作思维习惯,因为人们在措辞时,头脑中首先反映出的是即将这个词语的语音,所以字形输入法更适合专业录入人员使用。拼音输入法也分两种,一种以词语为输入单位,另一种以语句为输入单位,而后者不符合写作的思维习惯,因为人们在写作时是以词为思考单位。键盘输入法在输入速度有要求的情况下对于键盘操作、指法要求比较高; 手写输入:手写输入是最容易上手的输入方法,但是同样由于手写输入的先天不足,很难达到较高的输入速度; 扫描输入:扫描输入对于硬件要求比较高,主要是适用于资料的整理; 语音输入:语音输入对输入人员的键盘操作能力、指法要求很低,几乎可以说你只要会说汉语,就可以进行语音输入。 语音输入尤其是汉字语音输入经历了很长时间的研究和应用,到目前已经达到了一个相

嵌入式实时操作系统

嵌入式实时操作系统 嵌入式实时操作系统(Embedded Real-time Operation System,RTOS)。 1 嵌入式实时操作系统概念 当外界事件或数据产生时,能够接受并以足够快的速度予以处理,其处理的结果又能在规定的时间之内来控制生产过程或对处理系统作出快速响应,并控制所有实时任务协调一致运行的嵌入式操作系统。 2 嵌入式实时操作系统特点 1)多任务; 2)有线程优先级 3)多种中断级别 3 嵌入式实时操作系统应用 在工业控制、军事设备、航空航天等领域对系统的响应时间有苛刻的要求,这就需要使用实时系统。 采用嵌入式实时操作系统(简称RTOS)能够支持多任务,使得程序开发更加容易,便于维护,同时能够提高系统的稳定性和可靠性。

4 实时操作系统的必要性: 首先,嵌入式实时操作系统提高了系统的可靠性。 其次,提高了开发效率,缩短了开发周期。 实时操作系统的优缺点: 在嵌入式实时操作系统环境下开发实时应用程序使程序的设计和扩展变得容易,不需要大的改动就可以增加新的功能。通过将应用程序分割成若干独立的任务模块,使应用程序的设计过程大为简化;而且对实时性要求苛刻的事件都得到了快速、可靠的处理。通过有效的系统服务,嵌入式实时操作系统使得系统资源得到更好的利用。但是,使用嵌入式实时操作系统还需要额外的ROM/RAM 开销,2~5% 的CPU 额外负荷,以及内核的费用。 5 实时系统与非实时系统的根本区别 实时系统与非实时系统的根本区别在于:实时系统具有与外部环境及时交互作用的能力。也就是说实时系统从外部获取信息以及系统得出结论要在很短的限制时间内完成。 它具有嵌入式软件共有的可裁剪、低资源占用、低功耗等特点;实时任务之间可能还会有一些复杂的关联和同步关系,如执行顺序限制、共享资源的互斥访问要求等。 实时操作系统所遵循的最重要的设计原则是:采用各种算法和策略,始终保证系统行为的可预测性(predictability)。可预测性是指在系统运行的任何时刻,在任何情况下,实时操作系统的资源调配策略都能为争夺资源(包括CPU、内存、网络带宽等)的多个实时任务合理地分配资源,使每个实时任务的实时性要求都能得到满足。与通用操作系统不同,实时操作系统注重的不是系统的平均表现,而是要求每个实时任务在最坏情况下都要满足其实时性要求,也就是说,实时操作系统注重的是个体表现。

PCM嵌入式软件概要设计V1.0

分布式能源箱变测控装置规约转换模块项目软件(系统/概要)设计说明书 项目令号: 承担部门:微网所 编制:亮 E-mail/Tel: 审核: 会审: 批准:

国电自动化股份

软件系统/概要设计文档修改记录

摘要 本文对分布式能源箱变测控装置规约转换模块(简称规约转换模块,PCM)的嵌入式软件的总体架构设计进行描述。PCM配套的配置工具主要牵涉到数据库设计和界面设计,不包含在本文档的叙述围。 PCM以数据采集、转发为核心功能,嵌入式软件在架构设计上采用了数据中心模式。为保证数据转发效率,采用共享存方式的实时数据库设计。 为减小系统模块的耦合,给系统扩展留有足够空间,系统采用多进程方式独立实现各子功能。各子功能模块通过进程访问接口(PAI)进行通信,通信方式包括信号量和共享存两种。 为提高软件的兼容性,系统设计了硬件抽象层(HAL)模块和数据库访问接口(DAI)模块,将硬件平台和数据库的操作进行了统一封装。 为提高系统的稳定性,设计了守护进程模块。守护进程通过信号量握手来监控实时数据库进程、通信规约进程等其他进程的运行状况,可以在被监视的进程发生异常时对其及时修复。

目录 第1篇概述 (3) 1.1 围 (3) 1.2 设计依据 (3) 1.3 术语、定义和缩略语 (3) 1.3.1 术语、定义 (3) 1.3.2 缩略语 (4) 第2篇系统总体设计 (4) 2.1 体系结构概述 (4) 2.2 系统体系结构 (5) 2.3 标准化设计 (6) 2.3.1 模块标准化设计 (6) 2.3.2 接口标准化设计 (6) 2.3.3 界面格式 (6) 2.3.4 编码约定 (7) 2.3.5 注释约定 (7) 2.4 系统版本规划 (8) 2.5 系统处理流程 (9) 2.6 子系统说明 (10) 2.6.1 实时数据库RDB (10) 2.6.2 历史数据库HDB (10) 2.6.3 通信规约模块 (11) 2.6.4 辅助模块 (11) 2.6.5 守护进程模块 (11) 2.6.6 网关模块 (12) 2.7 系统数据结构设计 (12) 2.7.1 逻辑结构设计要点 (12) 2.7.2 物理结构设计要点 (12) 2.7.3 数据与子系统关系 (12) 2.8 开发和运行环境 (12) 2.8.1 硬件环境 (12) 2.8.2 软件环境 (13) 2.8.3 外购件分析 (13) 2.9 可靠性设计 (13) 2.10 可测试性设计 (13) 2.11 安全性设计 (14) 2.12 出错处理设计 (14) 2.13 设计依据与需求跟踪 (14) 第3篇系统运行说明 (15) 3.1 配置说明 (16) 3.2 系统应用方式 (16) 3.3 代码目录说明 (16)

基于STM32的嵌入式语音识别模块设计实现

基于STM32的嵌入式语音识别模块设计实现 介绍了一种以ARM 为核心的嵌入式语音识别模块的设计与实现。模块的 核心处理单元选用ST 公司的基于ARM Cortex-M3 内核的32 位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320 芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II 来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。 服务机器人以服务为目的,因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互,而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而,由于统计模型训练算法复杂,运算量大,一般由工控机、PC 机或笔记 本来完成,这无疑限制了它的运用。嵌入式语音交互已成为目前研究的热门课题。 嵌入式语音识别系统和PC 机的语音识别系统相比,虽然其运算速度和内存容量有一定限制,但它具有体积小、功耗低、可靠性高、投入小、安装灵活等优点,特别适用于智能家居、机器人及消费电子等领域。 模块整体方案及架构 语音识别的基本原理如图1 所示。语音识别包括两个阶段:训练和识别。不管是训练还是识别,都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是通过用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参数,最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较,然后把相似性最高的输入特征矢量作为识别结果输出。这

语音识别实验2

关于语音识别的研究 网络工程专业网络C071班贾鸿姗 076040 摘要:语音识别技术的广泛应用 1前言: 语音识别技术也被称为自动语音识别 (ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。 早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T 贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。。到1950年代末,伦敦学院(Colledge of London)的Denes 已经将语法概率加入语音识别中。 1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC),及动态时间弯折Dynamic Time Warp技术。 语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理,经过Labiner等人的研究,卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。。此后严格来说语音识别技术并没有脱离HMM框架。 尽管多年来研究人员一直尝试将“听写机”推广,语音识别技术在目前还无法支持无限领域,无限说话人的听写机应用。 2 正文 2.1应用领域 2.1.1.电话通信的语音拨号 特别是在中、高档移动电话上,现已普遍的具有语音拨号的功能。随着语音识别芯片的价格降低,普通电话上也将具备语音拨号的功能。 2.1.2.汽车的语音控制 由于在汽车的行驶过程中,驾驶员的手必须放在方向盘上,因此在汽车上拨打电话,需要使用具有语音拨号功能的免提电话通信方式。此外,对汽车的卫星导航定位系统(GPS)的操作,汽车空调、照明以及音响等设备的操作,同样也可以由语音来方便的控制。 工业控制及医疗领域。当操作人员的眼或手已经被占用的情况下,在增加控制操作时,最好的办法就是增加人与机器的语音交互界面。由语音对机器发出命令,机器用语音做出应答。 2.1.3数字助理 个人数字助理(Personal Digital Assistant,PDA)的语音交互界面。PDA的体积很小,人机界面一直是其应用和技术的瓶颈之一。由于在PDA上使用键盘非常不便,因此,现多采用手写体识别的方法输入和查询信息。但是,这种方法仍然让用户感到很不方便。现在业界一致认为,PDA的最佳人机交互界面是以语音作为传输介质的交互方法,并且已有少量应用。随着语音识别技术的提高,可以预见,在不久的将来,语音将成为PDA主要的人机交互界面。 智能玩具 通过语音识别技术,我们可以与智能娃娃对话,可以用语音对玩具发出命令,让其完成一些简单的任务,甚至可以制造具有语音锁功能的电子看门狗。智能玩具有很大的市场潜力,而其关键在

嵌入式软件开发流程图

嵌入式软件开发流程 一、嵌入式软件开发流程 1.1 嵌入式系统开发概述 由嵌入式系统本身的特性所影响,嵌入式系统开发与通用系统的开发有很大的区别。嵌入式系统的开发主要分为系统总体开发、嵌入式硬件开发和嵌入式软件开发3大部分,其总体流程图如图1.1所示。 图1.1 嵌入式系统开发流程图 在系统总体开发中,由于嵌入式系统与硬件依赖非常紧密,往往某些需求只能通过特定的硬件才能实现,因此需要进行处理器选型,以更好地满足产品的需求。另外,对于有些硬件和软件都可以实现的功能,就需要在成本和性能上做出抉择。往往通过硬件实现会增加产品的成本,但能大大提高产品的性能和可靠性。 再次,开发环境的选择对于嵌入式系统的开发也有很大的影响。这里的开发环境包括嵌入式操作系统的选择以及开发工具的选择等。比如,对开发成本和进度限制较大的产品可以选择嵌入式Linux,对实时性要求非常高的产品可以选择Vxworks等。

1.2 嵌入式软件开发概述 嵌入式软件开发总体流程为图4.15中“软件设计实现”部分所示,它同通用计算机软件开发一样,分为需求分析、软件概要设计、软件详细设计、软件实现和软件测试。其中嵌入式软件需求分析与硬件的需求分析合二为一,故没有分开画出。 由于在嵌入式软件开发的工具非常多,为了更好地帮助读者选择开发工具,下面首先对嵌入式软件开发过程中所使用的工具做一简单归纳。 嵌入式软件的开发工具根据不同的开发过程而划分,比如在需求分析阶段,可以选择IBM的Rational Rose等软件,而在程序开发阶段可以采用CodeWarrior(下面要介绍的ADS 的一个工具)等,在调试阶段所用的Multi-ICE等。同时,不同的嵌入式操作系统往往会有配套的开发工具,比如Vxworks有集成开发环境Tornado,WindowsCE的集成开发环境WindowsCE Platform等。此外,不同的处理器可能还有对应的开发工具,比如ARM的常用集成开发工具ADS、IAR和RealView等。在这里,大多数软件都有比较高的使用费用,但也可以大大加快产品的开发进度,用户可以根据需求自行选择。图4.16是嵌入式开发的不同阶段的常用软件。 图1.2 嵌入式开发不同阶段的常用软件 嵌入式系统的软件开发与通常软件开发的区别主要在于软件实现部分,其中又可以分为编译和调试两部分,下面分别对这两部分进行讲解。 1.交叉编译 嵌入式软件开发所采用的编译为交叉编译。所谓交叉编译就是在一个平台上生成可以在另一个平台上执行的代码。在第3章中已经提到,编译的最主要的工作就在将程序转化成运行该程序的CPU所能识别的机器代码,由于不同的体系结构有不同的指令系统。因此,不同的CPU需要有相应的编译器,而交叉编译就如同翻译一样,把相同的程序代码翻译成不同CPU的对应可执行二进制文件。要注意的是,编译器本身也是程序,也要在与之对应的某一个CPU平台上运行。嵌入式系统交叉编译环境如图4.17所示。

基于STM32单片机的嵌入式语音识别系统设计

基于STM32单片机的嵌入式语音识别系统设计 陈心灵1,钱宁博2,胡佳辉1,王战中1 (1.石家庄铁道大学机械工程学院,河北石家庄050043;2.石家庄铁道大学电气与电子工程学院,河北石家庄 050043) 摘要:设计了一款以STM32F103为核心的自然语言识别系统,为满足实时语音识别系统对内存资源和运算速度的要求,基于硬件资源合理 设计语音处理算法,在嵌入式平台上实现了对孤立词语的语音识别。首先根据背景噪声和语音信号的时域特征差异设定相应门限值,从而实现了对语音信号的端点检测。然后针对语音识别中传统梅尔倒谱系数对语音的高频信息敏感度较低,对语音信号分别提取梅尔倒谱系数(MFCC)与翻转梅尔倒谱系数(IMFCC),结合Fisher 准则构造混合特征参数。最后采用动态时间规整算法实现语音识别。因系统体积小、便携性好等特点,易于实现对不同设备的语音控制,有一定的市场前景。关键词:语音识别;梅尔倒谱系数;翻转梅尔倒谱系数;Fisher 准则;动态时间规整算法;STM32F103 中图分类号:TP391.4 文献标识码:A 文章编号:1009-9492(2019)06-0135-03 Embedded Speech Recognition System Design Based on STM32F103 CHEN Xin-ling 1,QIAN Ning-bo 2,HU Jia-hui 1,WANG Zhan-zhong 1 (1.College of Mechanical Engineering ,Shijiazhuang Tiedao University ,Shijiazhuang 050043,China ; 2.College of Electrical and Electronic Engineering ,Shijiazhuang Tiedao University ,Shijiazhuang 050043,China ) Abstract:A natural language recognition system is designed based on STM32F103.To meet the requirements of real-time speech recognition system for memory resources and computing speed ,the speech processing algorithm is designed based on hardware resources and speech recognition of isolated words is implemented on the embedded platform.Firstly ,the corresponding threshold is set according to the time domain characteristic difference of the speech signal and the background noise and thereby realizing the endpoint detection of the speech signal.Concerning the traditional Mel Frequency Cepstral Coefficient (MFCC)in speech recognition is less sensitive to high frequency signals of speech ,MFCC and IMFCC (Inverted MFCC)are extracted respectively for the speech signal and the Fisher criterion is used to construct the mixed feature parameters.Dynamic time warping algorithm is used in speech recognition process.Due to the small size of the system and good portability ,it is easy to implement voice control for different devices and has much marker potential. Key words:speech recognition ;MFCC ;IMFCC ;Fisher criterion ;DTW ;STM32F103 收稿日期:2018-12-22 DOI:10.3969/j.issn.1009-9492.2019.06.045 0引言 语音识别是人机交互很重要的模块,应用领域相当广阔。集成电路的快速发展使得将具有先进功能的语音识别系统固化到更加微小的芯片或模块上成为可能[1],更便于语音识别系统的推广与使用,嵌入式语音识别技术开发变得更加有价值。 本文设计一个基于STM32F103单片机的嵌入式语音识别系统,包括硬件设计和软件设计 [2-3] 。语音特征提取在传 统梅尔倒谱系数基础上,运用Fisher 比结合梅尔倒谱系数与翻转梅尔倒谱系数,构建了混合特征参数[4],识别算法采用动态时间规整算法。硬件设计上实现了语音信号采集、语音信号处理、语音信息存储、语音识别结果的显示等功能。 1系统硬件设计 本系统主要由电源部分(LDO )、主控(STM32F103)、语音采样电路、LCD 显示模块等组成,如图1所示。 1.1MCU 选择 STM32F103开发板基于Cortex-M3处理器,内置2个 12位模数转换器,2个DMA 控制器,共12个DMA 通道,其可以满足本系统中的语音处理需求。1.2采样电路 采样电路选用差分放大电路,抑制共模干扰,放大有用信号,有效地解决采样噪声硬件预处理的问题。其原理图如图2。 在设计过程中,其输出端(即Q1\Q2的C 极)静态工作点为1/2Vcc 最为适宜,能保障其最大动态输出范围。电路设计尽可能使Q1、Q2的静态工作参数一致,构成对 称电路。 图1系统硬件框图 Fig.1The system hardware block diagram · ·135

嵌入式控制系统平时作业

1、什么是嵌入式系统? 答:嵌入式系统(Embedded system),是一种“完全嵌入受控器件内部,为特定应用而设计的专用计算机系统”,根据英国电气工程师协会(U.K. Institution of Electrical Engineer)的定义,嵌入式系统为控制、监视或辅助设备、机器或用于工厂运作的设备。与个人计算机这样的通用计算机系统不同,嵌入式系统通常执行的是带有特定要求的预先定义的任务。由于嵌入式系统只针对一项特殊的任务,设计人员能够对它进行优化,减小尺寸降低成本。嵌入式系统通常进行大量生产,所以单个的成本节约,能够随着产量进行成百上千的放大。 2、举例说明嵌入式的应用。 答: 工业控制 基于嵌入式芯片的工业自动化设备将获得长足的发展,目前已经有大量的8、16、32 位嵌入式微控制器在应用中,网络化是提高生产效率和产品质量、减少人力资源主要途径,如工业过程控制、数字机床、电力系统、电网安全、电网设备监测、石油化工系统。就传统的工业控制产品而言,低端型采用的往往是8位单片机。但是随着技术的发展,32位、64位的处理器逐渐成为工业控制设备的核心,在未来几年内必将获得长足的发展。 交通管理 在车辆导航、流量控制、信息监测与汽车服务方面,嵌入式系统技术已经获得了广泛的应用,内嵌GPS模块,GSM模块的移动定位终端已经在各种运输行业获得了成功的使用。目前GPS设备已经从尖端产品进入了普通百姓的家庭,只需要几千元,就可以随时随地找到你的位置。

信息家电 这将称为嵌入式系统最大的应用领域,冰箱、空调等的网络化、智能化将引领人们的生活步入一个崭新的空间。即使你不在家里,也可以通过电话线、网络进行远程控制。在这些设备中,嵌入式系统将大有用武之地。 家庭智能管理 水、电、煤气表的远程自动抄表,安全防火、防盗系统,其中嵌有的专用控制芯片将代替传统的人工检查,并实现更高,更准确和更安全的性能。目前在服务领域,如远程点菜器等已经体现了嵌入式系统的优势。 POS网络 公共交通无接触智能卡(Contactless Smartcard, CSC)发行系统,公共电话卡发行系统,自动售货机,各种智能ATM终端将全面走入人们的生活,到时手持一卡就可以行遍天下。 环境工程 水文资料实时监测,防洪体系及水土质量监测、堤坝安全,地震监测网,实时气象信息网,水源和空气污染监测。在很多环境恶劣,地况复杂的地区,嵌入式系统将实现无人监测。 3、嵌入式操作系统的作用是什么? 答:嵌入式操作系统的主要好处就是屏蔽了底层硬件的差别,给上层应用提供统一的接口,并管理进程调度和资源(如CPU时间、内存)分配等。就跟windows操作系统一样,不管你是用华硕的电脑还是戴尔的电脑,只要装了windows操作系统,你都可以用office、词霸之类的软件。人机界面(MMI)是上层应用show出来的。 简单的嵌入式应用不需要嵌入式操作系统的支持,如单片机,直接用汇编程序就能实现特定的功能。要跑的应用多了,就需要操作系统来进行管理。

宝马中文声控语音识别控制系统

BMW中文声控系统 声控启动语音控制支持方言专车专用 宝马中文声控系统市场前景 在庞大的汽车销量的基础上,车载语音系统已成为现代汽车的重要亮点之一,但是由于技术的局限性,国内车载语音系统的发展始终比较缓慢,在国外广泛发展的车载语音控制系统在国内却处于技术空白阶段。现在,Qdis-isods让这种情况得到了根本性的改变。 qdis品牌联合众多院校精英,由多名各领域资深人士参与研发,根据中国市场特点以及中国用户使用习惯进行特殊定制,成功推出Qdis-isods系列产品,为广大车主提供车载语音控制的解决方案和专业服务。加载Qdis-isods车载语音系统后,用户用自己的声音即可完成相关操作,而不再只是使用传统的指定命令。 Qdis-isods系列产品支持中国多种方言,声音识别准确率高并支持多人识别,一举攻克了之前的技术难题,让车载语音系统全面进入中国市场。以前需要手动操作的控制,现在您和爱车直接对话就能实现,而且还能语音识别并控制后装增配的产品,满足客户多种智能语音操作的需求。随着车联网技术的发展,汽车的互联性会越来越强,我们可以把语音技术扩展到除终端和嵌入式系统以外的所有设备上,从而完成更复杂的识别控制任务。我们依然在不断创新实践,以谋求更多的成功案例。 Qdis-isods车载语音系统可以完美支持各类车型,金鼓德达将以一贯优秀的无损加装技术,让您在驾驶生活中发现更多乐趣。QDIS-ISODS系列,爱车从此智能! 一、BMW中文声控系统主要功能 1.语音识别启动引擎 语音指令随时学习,支持所有方言,指令内容可以自由定义; 不影响原车启动键启动功能; 可以同时利用方向盘按键组合为密码启动; 语言指令和方向盘密码可以任意修改; 2.语音指令控制原车 语音指令随时学习,支持所有方言,指令内容可以自由定义;

用于智能家居语音识别系统设计

仪器科学与电气工程学院 本科毕业论文(设计)开题报告题目:用于智能家居的语音识别系统设计 学生姓名:学号: 专业:电气工程及其自动化 指导教师:讲师 2015年1月3日

1. 选题依据 1.1选题背景 语言作为人类信息交流中最重要的和最方便的方式,人与机器的交流能否像人与人一样自如,是人们研究的问题。控制论创始人维纳在1950年就曾指出:“通常,我们把语言仅仅看作人与人之间的通信手段,但是,要使人向机器,机器向人以及机器向机器讲话,那也是完全办得到的”。 随着现代科学技术的进一步发展和人民生活水平不断的提高,人们对家庭住宅需求的概念也发生了彻底的改变。人们正在从以往追求房屋空间的宽阔和装饰的亮丽、豪华,向着追求品味、安全、舒适、便捷和智能方向发展。现在的家庭不仅要满足人们生活、工作、娱乐和交流的需要,同时还可以提供充分的安全防护、物业管理等手段。智能家居是建筑艺术、生活理念与信息技术、电子技术等现代高科技手段完美结合的产物,它的出现满足了人们对住宅高性能、智能化的要求21世纪信息时代的到来,IT产业的发展和人们生活水平的提高,“智能家居”、“家庭自动化”、“网络家电”、“家庭网络”等技术的推动,智能家居的生活已经近在咫尺。 在智能家居中传统的家用电器的控制,无外乎两种控制方式:手动或遥控。随着家用电器的增多,开关和遥控越来越多,使用极不方便。这时,我们可以釆用语音识别的方式控制,例如,在观看电视频道时,我们可以很方便地直接说出“中央一套”来,所以语音识别及控制在智能家居中尤其重要。 1.2国内外研究现况 1、语音识别技术的发展 就技术而言,目前国内外对语音识别理论及各种实用算法的研究是一热点。人们普遍关心的问题是不断提高语音识别的识别率、识别更多的词汇量、扩大语音识别的应用等研究。语音识别技术发展到今天,PC 机的语音识别系统己经趋于成熟,而且还出现了一些具有实用价值和市场语音识别前景的语音识别芯片。近几年来,个人消费类电子产品的广泛使用,使大量的识别系统从实验室 PC 平台转移到嵌入式平台设备中,现在嵌入式对特定人语音识别系统的识别精度己经达到 98%以上。嵌入式语音识别系统和 PC 机的语音识别系统相比,虽然其运算速度和内存容量有一些限制,但是它也有各自的特点。嵌入式系统体积小、可靠性高、耗电低、投入小、便于移动等优点,是嵌入式语音识别系统和 PC 机的语音识别系统相比的最大优势。而且嵌入式语音识别系统多为实时系统,当用户讲话后,系统能够立即完成词条识别并作出反应。这些特点决定了嵌入式语音识别系统的应用十分广泛。可以预测在近几年内,嵌入式语音识别系统的应用将更加广泛。各种语音识别系统将出现在市场上。根据美国专家预测,具有语音识别功能的产品可达 50 亿美元。在短期内还不可能具

嵌入式Linux应用软件开发流程

从软件工程的角度来说,嵌入式应用软件也有一定的生命周期,如要进行需求分析、系统设计、代码编写、调试和维护等工作,软件工程的许多理论对它也是适用的。 但和其他通用软件相比,它的开发有许多独特之处: ·在需求分析时,必须考虑硬件性能的影响,具体功能必须考虑由何种硬件实现。 ·在系统设计阶段,重点考虑的是任务的划分及其接口,而不是模块的划分。模块划分则放在了任务的设计阶段。 ·在调试时采用交叉调试方式。 ·软件调试完毕固化到嵌入式系统中后,它的后期维护工作较少。 下面主要介绍分析和设计阶段的步骤与原则: 1、需求分析 对需求加以分析产生需求说明,需求说明过程给出系统功能需求,它包括:·系统所有实现的功能 ·系统的输入、输出 ·系统的外部接口需求(如用户界面) ·它的性能以及诸如文件/数据库安全等其他要求 在实时系统中,常用状态变迁图来描述系统。在设计状态图时,应对系统运行过程进行详细考虑,尽量在状态图中列出所有系统状态,包括许多用户无需知道的内部状态,对许多异常也应有相应处理。 此外,应清楚地说明人机接口,即操作员与系统间地相互作用。对于比较复杂地系统,形成一本操作手册是必要的,为用户提供使用该系统的操作步骤。为使系统说明更清楚,可以将状态变迁图与操作手册脚本结合起来。

在对需求进行分析,了解系统所要实现的功能的基础上,系统开发选用何种硬件、软件平台就可以确定了。 对于硬件平台,要考虑的是微处理器的处理速度、内存空间的大小、外部扩展设备是否满足功能要求等。如微处理器对外部事件的响应速度是否满足系统的实时性要求,它的稳定性如何,内存空间是否满足操作系统及应用软件的运行要求,对于要求网络功能的系统,是否扩展有以太网接口等。 对于软件平台而言,操作系统是否支持实时性及支持的程度、对多任务的管理能力是否支持前面选中的微处理器、网络功能是否满足系统要求以及开发环境是否完善等都是必须考虑的。 当然,不管选用何种软硬件平台,成本因素都是要考虑的,嵌入式Linux 正是在这方面具有突出的优势。 2、任务和模块划分 在进行需求分析和明确系统功能后,就可以对系统进行任务划分。任务是代码运行的一个映象,是无限循环的一段代码。从系统的角度来看,任务是嵌入式系统中竞争系统资源的最小运行单元,任务可以使用或等待CPU、I/O设备和内存空间等系统资源。 在设计一个较为复杂的多任务应用系统时,进行合理的任务划分对系统的运行效率、实时性和吞吐量影响都极大。任务分解过细会不断地在各任务之间切换,而任务之间的通信量也会很大,这样将会大大地增加系统的开销,影响系统的效率。而任务分解过粗、不够彻底又会造成原本可以并行的操作只能按顺序串行执行,从而影响系统的吞吐量。为了达到系统效率和吞吐量之间的平衡折中,在划分任务时应在数据流图的基础上,遵循下列步骤和原则:

常见的四种嵌入式操作系统

(一)VxWorks VxWorks操作系统是美国WindRiver公司于1983年设计开发的一种嵌入式实时操作系统(RTOS),是Tornado嵌入式开发环境的关键组成部分。良好的持续发展能力、高性能的内核以及友好的用户开发环境,在嵌人式实时操作系统领域逐渐占据一席之地。 VxWorks具有可裁剪微内核结构;高效的任务管理;灵活的任务间通讯;微秒级的中断处理;支持POSIX 1003.1b实时扩展标准;支持多种物理介质及标准的、完整的TCP/IP网络协议等。 然而其价格昂贵。由于操作系统本身以及开发环境都是专有的,价格一般都比较高,通常需花费10万元人民币以上才能建起一个可用的开发环境,对每一个应用一般还要另外收取版税。一般不通供源代码,只提供二进制代码。由于它们都是专用操作系统,需要专门的技术人员掌握开发技术和维护,所以软件的开发和维护成本都非常高。支持的硬件数量有限。 (二)Windows CE Windows CE与Windows系列有较好的兼容性,无疑是Windows CE推广的一大优势。其中WinCE3.0是一种针对小容量、移动式、智能化、32位、了解设备的模块化实时嵌人式操作系统。为建立针对掌上设备、无线设备的动态应用程序和服务提供了一种功能丰富的操作系统平台,它能在多种处理器体系结构上运行,并且通常适用于那些对内存占用空间具有一定限制的设备。它是从整体上为有限资源的平台设计的多线程、完整优先权、多任务的操作系统。它的模块化设计允许它对从掌上电脑到专用的工业控制器的用户电子设备进行定制。操作系统的基本内核需要至少200KB的ROM。由于嵌入式产品的体积、成本等方面有较严格的要求,所以处理器部分占用空间应尽可能的小。系统的可用内存和外存数量也要受限制,而嵌入式操作系统就运行在有限的内存(一般在ROM或快闪存储器)中,因此就对操作系统的规模、效率等提出了较高的要求。从技术角度上讲,Windows CE作为嵌入式操作系统有很多的缺陷:没有开放源代码,使应用开发人员很难实现产品的定制;在效率、功耗方面的表现并不出色,而且和Windows一样占用过的系统内存,运用程序庞大;版权许可费也是厂商不得不考虑的因素。 (三)嵌入式Linux 这是嵌入式操作系统的一个新成员,其最大的特点是源代码公开并且遵循GPL协议,在近一年多以来成为研究热点,据IDG预测嵌入式Linux将占未来两年的嵌入式操作系统份额的50%。 由于其源代码公开,人们可以任意修改,以满足自己的应用,并且查错也很容易。遵从GPL,无须为每例应用交纳许可证费。有大量的应用软件可用。其中大部分都遵从GPL,是开放源代

基于语音识别技术的智能家居控制系统的设计

基于语音识别技术的智能家居控制系统的 设计 基于语音辨认技术的智能家居控制系统的设计摘要 21 世纪经济快速发展,人们对物资文化的需求也愈来愈高。在信息科技的支持下,事物在朝着简单化、便捷化、智能化的方向发展。在此背景下应运而生而生的智能家居,正是信息时期的典型产物。 本文设计了1套基于语音辨认技术的智能家居控制系统,能够在客户端输入语音信号,完成对家居装备的控制,使得家居装备更加智能化。本文首先对语音辨认的相干理论知识进行了详细的论述,利用麻省理工学院(Massachusetts Institute of Technology, MIT)语音服务器完成对语音信号的特点提取和辨认进程,并且该服务器内有自动的高频噪声滤波器,避免声音信号产生失真现象。其次Zigbee模块完成了数据传输的功能,能够在网络拓扑较为稳定的家 居环境中实现对数据的传输,消耗的功率下降,本钱也较低。最后基于安卓手机到达控制家具的目的,在手机客户端输入语音信号以后,服务器将翻译出来的语音信息传递给后台,由手机通过无线网络传递给家居装备,从而到达传递控制指令的目的。最后本文在测试阶段对本文设计的基于语音辨认技术的智能家居控制系统进行了性能测试,测试结果良好,能够到达预期的目标。 关键词:智能家居;语音辨认;控制系统 Abstract With the rapid development of the economy in the 21st century, people's demand for material culture is also increasing. With the support of information technology, things are developing in the direction of simplification, convenience and intelligence. The smart home that emerged in this context is

设计和实现一个嵌入式自动语音识别

设计和实现一个嵌入式自动语音识别 系统 sujay Phadke Rhishikesh Limaye亚洲时报Siddharth维尔马 Kavitha Subramanian 孟买印度技术研究所 电机工程学系 个人所得税孟买Powai,孟买,400076,印度。 {sujay,rhishi,亚洲时报Siddharth kavitha}@ ee.iitb.ac.in 摘要 我们提出了一个新的嵌入式语音识别系统的设计。它结合了硬件和软件设计等方面实现依赖扬声器,孤立词,小词汇量语音识别系统。是基于规模的修正Mel频率倒谱系数(MFCC)特征提取和模板匹配采用动态时间规整(DTW)的。一种新的算法已经被用来改善一个字开始检测。围绕行业标准TMS320LF2407A的DSP硬件。作为一个通用的DSP24X系列的TI DSP 开发板电路板设计。据载,除了从DSP,外部SRAM,闪存,ADC接口的I / O接口模块和JTAG 接口。无论是硬件和软件已设计的同时,最小功率最大精度和便携式设备,以便实现高速识别。建议的解决方案是一个低成本,高性能,可伸缩的替代现有的其他产品。 1.介绍 语音识别一直是一个活跃的研究领域多年。随着超大规模集成电路技术,高性的 编译器的进步,它已成为可能纳入这些算法在硬件。在过去的几年中,各系统已开发,以满足各种应用。有许多的ASIC解决方案,提供小型,高性能系统。然而,这些患有低的灵活性和较长的设计周期。一个完整的基于软件的解决方案是为桌面应用程序的吸引力,但未能提供一个便携式,嵌入式解决方案。高端的公司如TI,ADI公司的数字信号处理器(DSP)的,提供一个理想的平台,在硬件的开发和测试算法。 C编译器,模拟器和调试器之类的先进的软件工具提供了一种简单的方法,优化算法和减少市场的时间。然而,为了获得最大的优势,硬件和软件都必须设计在手。语音识别是任何扬声器独立或依赖[1]。独立扬声器模式涉及提取讲话是在口语中所固有的那些特点。这一类的算法一般比较复杂,并利用统计模型和语言模型。另一方面,扬声器依赖模式涉及讲话中提取用户特定的功能。必须为每个用户创建一个词提取系数的模板进行匹配,以确定口语。此外,使用孤立的单词,而不是一个复杂连续的话,有助于提高准确性承认。我们的工作涉及扬声器依赖性,孤立词语音识别系统的发展。该系统是能够认识到口语词,从10-15字的模板。它具有较高的识别精度和适度抑制比。本文组织如下。第二节处理软件的一部分。它解释了背后的梅尔倒频谱系数提取和动态时间规整技术,应用的基础上形成的理论。第三节介绍了定制硬件开发此应用程序设计有关的各种问题。 C代码的DSP平台的软件优化和移植在第四节进行了讨论。结果和比较在部分解释五,最后,我们的结论第六节系统的应用潜力。 2。软件 本节介绍软件方面使用的语音识别引擎。 MFCC的理论是解释其实施。还提出了由作 者开发的一种新的开始检测和错一个字抑制算法。它的结论与动态规整(DTW),确认使用的模板匹配算法。 2.1。特征提取 - 梅尔规模的频率倒谱系数(MFCC)

相关文档