文档库 最新最全的文档下载
当前位置:文档库 › 线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究
线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究?

段进伟, 史元春, 陈孝杰

(清华大学计算机科学与技术系,北京市海淀区, 100084)

Study on the Directing Performance of the Linear Microphone Array

Duan Jin-wei, Shi Yuan-chun, Chen Xiao-jie

(Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China)

+ Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@https://www.wendangku.net/doc/4510733999.html,

Received 2007-07-31; Accepted 2007-08-31

Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak.

Key words: linear microphone array; speech source directing; theoretic error; directing performance

摘 要: 麦克风阵列在人机交互中有着重要的研究和应用价值。而线性均匀麦克风阵列最简单,其基本功能是声源的定向。本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。使用SRP-PHAT算法定向声源。我们分析了声源定向时各种可能的理论误差,对实验结果进行了误差分析,并与可能的理论误差做了对比。通过理论分析和对比实验,本文提出了线性麦克风阵列系统的性能评价指标,并给出了综合性能最优时的麦克风阵列系统参数配置。

关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能

中图法分类号: ****文献标识码: A

?Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198;

作者简介: 段进伟(1985-),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;

2 1 研究背景

语音是人机交互的一个重要方式,而如何得到高质量的语音信号一直是一个值得深入研究的课题。麦克风是最常见的语音采集工具,但单个孤立的麦克风的使用要求说话人必须在物理上接近麦克风,以减少环境噪声的影响,这种使用方式限制了人的活动,十分不便。为提高语音质量,解脱人们手持、或佩戴麦克风的束缚,基于麦克风阵列的语音处理技术逐渐成为一个新的研究热点。麦克风阵列是利用多个麦克风排列成的一定形状的阵列,用阵列信号处理的方法,确定声源的位置、进而定向采音,提高信噪比,以获得高质量的语音信号,实现说话人方向的实时跟踪,相当于在一定范围内为每个人生成了一个虚拟的麦克风。麦克风阵列在智能空间、新型人机交互、机器人导航等领域都有着广泛的应用。

本文研究的主要目的是分析各种参数变化对线性麦克风阵列定向性能的影响,获得线性麦克风阵列系统的性能评价指标,以及小型房间环境内综合性能最优时的麦克风阵列系统参数配置。

2 相关研究

目前,在麦克风阵列的研究与实践领域中,研究的主要方向集中在麦克风阵列设计和阵列信号的处理方法上。麦克风阵列设计主要包括硬件和拓扑结构的设计;麦克风阵列的拓扑结构中常见的有线性阵列,如ICRC 麦克风阵列[1],NIST 的Mark-III 麦克风阵列[2]等;T 形阵列,如CHIL 的T 型麦克风阵列[3];圆形阵列,如Yuki TAMAI 等人制作的32通道圆形麦克风阵列[4];平面阵列,如MIT 的LOUD 超大平面麦克风阵列[5]等。其中,线性均匀麦克风阵列的结构最简单,也是组成其他拓扑结构阵列的基础,其基本功能是声源的定向。而阵列的处理方法主要是声源定向定位技术,声源定向定位技术主要分为三大类:(1)基于最大输出功率可控波束方法(Steered Beamformers)[6];(2)基于高分辨率谱估计定向方法(High-resolution Techniques)[7];(3)基于到达时间差的两步定向方法(Time Difference of Arrival Procedures)。声源定向算法可以参考实现的有GCC 、SRP 、GCC-PHAT 、SRP-PHAT [10]等声源定向算法。

然而麦克风阵列的部署依据,即麦克风阵列的组成与性能的关系,尚无可参考的模型;本文采用理论与实践相结合的研究方法,采用拓扑结构最简单的线性麦克风阵列,在两个实验系统上分析了麦克风数量、麦克风间距、系统数据采样率、声源音量等参数不同时对线性麦克风阵列系统定向性能的影响,获得了具有参考价值的性能评价指标和系统参数配置,对于麦克风阵列的研究与应用均具有基础性的意义。

3 麦克风阵列系统

这一节中,我们将介绍本文实验系统的构成和麦克风阵列系统的基本实现原理。

3.1 实验系统的构成

表1. 两套麦克风阵列系统的硬件对比 DAR 麦克风阵列 NI 麦克风阵列

麦克风型号

LD2450 BSWA MPA 416 麦克风灵敏度

0.14V/Pa 50mV/Pa 采集卡型号 恒通DAR2000

NI PCI 4472 采集频率

16k / 32k 1.0k~102.4k 采样精度

16bit 24bit 本底噪声 高 低

本文主要研究的是测试麦克风间距、麦克风数量、组成阵列的元件(主要是麦克风和多路音频采集卡)性能的改变对线性麦克风阵列定向性能的影响,为此,我们搭建了两套线性麦克风阵列系统,为方便表述,根据两套系统采集卡型号的不同,我们分别将两套系统命名为DAR 系统和NI 系统,这两套系统都主要由一块多路音频采集卡和一个由8个麦克风组成的阵列组成。为保证两套系统录音的同步性,我们使用了我们实验室开发的分布式软件平台Smart Platform [9]来控制两套系统同步录音。组成两套麦克风系统的元件型号及参数

段进伟史元春陈孝杰: 线性麦克风阵列定向性能的研究 3

对比如表1所示,可以看出,NI系统的元件性能整体高于DAR系统。

实验环境是一个约650×550cm大小的房间,如图1所示。由于我们此次实验的目的是测量线性麦克风阵列在水平面上的定向性能,因此将麦克风阵列的高度设置为150cm,和一般成人站立时嘴巴的高度差不多;两套线性麦克风阵列放置在房间中的同一位置,以使实验对比具有可信度,放置位置见图1。为了便于测量,我们按照房间地面上方砖的布置,选择了57个点作为测试声源点,图1中的四个着色点由于有障碍物的存在而无法进行测试,则实际有53个测试点。

3.2 麦克风阵列系统的实现原理

麦克风阵列系统可以分为两层,一个是负责同步声音采集的硬件层,另一个是语音信号处理的软件层。线性麦克风阵列系统从声音采集到最终的高质量语音输出一共需要经过六个步骤,分别是声音采集、信号预放大、模数转换、信号同步、声源方向计算和语音增强输出,硬件层包含前面四步,而软件层包含后面两步。

图1 实验麦克风阵列和测试点的布局图2 误差与α、r/b的函数关系示意图硬件层主要由多个麦克风和一个多路音频采集卡组成,麦克风完成声音采集和信号预放大;多路音频采集卡则完成模数转换和多路信号的同步。软件层的作用是对采集到的声音信号进行处理以估计声源的方向,然后根据结果,调整各通道的延迟和增益来增强语音信号,实现定向采音的功能。声源方向估计是进行语音增强的前提,方向估计的精度直接影响到采音的质量。在实验中,我们对所有数据均使用SRP-PHAT[10]算法处理采集到的语音数据估计声源方向。

实际的声音传播很复杂,为了简化,我们使用了声音传播远场模型假设。声源一般情况下是一个点声源,从声源到麦克风的距离决定了声音的传播时间,这是声音近场模型。但当声源与麦克风阵列的距离远大于麦克风之间的间距时,就可以用远场模型近似,即声音从声源到所有麦克风的传播向量都是平行的。此时会引入误差[11],设α是声源与麦克风阵列中心连线与麦克风阵列平面的夹角,r是声源到麦克风阵列中心的距离,b是麦克风的间距;误差Error与α和r/b的函数关系如图2所示,,可以证明,当r/b>3时,角度误差小于0.4度,这个约束在实际中是很容易实现的。

4 定向性能测试实验分析

在这一节中我们将分析实验中可能存在的各种理论误差以及各类参数对麦克风阵列定向性能的影响。

在实验中,我们使用的线性麦克风阵列系统的默认配置为:由NI系统的3个麦克风、麦克风间距为24cm、系统采样率为32kHz组成的麦克风阵列。

4.1 声源定向的理论误差分析

第2节指出使用远场假设模型会带来一定的误差,不过只要保证声源与麦克风阵列距离足够远,这个误差即可忽略不计,在我们的实验中,最近的测试点距离阵列88cm,而我们使用的麦克风阵列麦克风之间间距

4

最大为24cm,满足r/b>3的约束。另外,由于我们使用的麦克风不能实现真正意义上的全向性,因此与麦克风阵列夹角越小的测试点(如西南角的点49,见图1)误差将会越大,这将在后面的实验结果中看出来。

图3 声源高度偏差24cm的误差图图4 声源偏离测试点10cm引起的角度误差实验环境中,还有两个因素可能带来定向误差。一是声源的高度偏差带来的误差,房间中用户嘴巴的高度不可能都是准确的150cm,因为每个人的身高不同,即使是同一个人,每次说话时嘴巴高度也不完全一样,由此带来的误差如图3(图3、图4是误差在实际房间坐标中的映射)所示,可以看出,即使是24cm这么大的偏差,带来的误差也还可以接受,所以高度偏差带来的误差暂可忽略不计。另一个是声源水平位置的偏差带来的误差,由于我们大多数实验都使用真人测试,一般来说,测试者不可能准确的站到测试点上,即使使用音箱等固定设备测试也无法保证位置的完全准确,所以这将引入误差。图4示意了当声源水平位置偏差10cm 时带来的误差,可以看出,这个引起的理论误差比其它的大很多,可以看作是主要的理论误差。

4.2 实验结果分析

在对实验结果的分析中,我们发现声速对定向结果的影响很大,但由于我们没有精密仪器来测量得到实验时的声速,只有靠对结果的拟和来得到最优声速,即定向结果最优时的声速,为355m/s,这即使不是实际声速,但如果得到实际声速数据,我们就可以用一个修正公式来得到最优声速来定向声源。

后面将使用到的误差阈值图的含义为:纵坐标表示了当把误差上限值控制在横坐标表示的范围内时的误差发生率,即定向错误率。

4.2.1 麦克风间距对定向性能的影响

由于NI系统的性能较好,因此我们主要针对它做性能分析。我们首先分析麦克风间距对定向性能的影响,使用间距分别为8cm、16cm、24cm时的三通道麦克风子阵列做声源方向估计。从图5中可以看出,间距为24cm时定向性能最好,16cm次之,8cm最差。为什么会这样呢?我们做一个简单分析:麦克风间距越小,则声音到达两个通道的时间差即信号偏移量就越小;例如间距为8cm,则两个麦克风通道在信号采样点上出现的最大信号偏移是(8*32000)/35500,约为7个采样点,即声源方向从0变化到180度时,麦克风对上出现的采样点偏差为-7到7之间,仅仅是量化误差就会达到3度左右,再加上时间延迟估计不准确等因素,误差就更大了,因此麦克风间距不能太小。但是根据远场假设约束,麦克风间距也不能过大;我们的测试点距离麦克风阵列最近为88cm,根据前面的分析,麦克风间距不能大于30cm,因此间距24cm是一个较优的选择。

4.2.2 麦克风数量对定向性能的影响

从图6中可以看出,当麦克风间距固定为24cm,麦克风数量分别为3、5、7时声源定向的误差都很相近,使用多个麦克风时优势不明显,表明使用3个麦克风组成间距为24cm的麦克风阵列已经能够比较准确地估计出声源的方向,用更多的麦克风通道只会增加算法计算复杂度。但在后续的采集高质量语音研究中使用多

段进伟史元春陈孝杰: 线性麦克风阵列定向性能的研究 5 个麦克风则能带来语音质量的很大提升[5]。

图5 麦克风间距对定向性能的影响图6 麦克风数量对定向性能的影响

4.2.3 麦克风阵列的系统采样率对定向性能的影响

图7显示了改变麦克风阵列系统的数据采样率对定向性能的影响;当数据采样率为8kHz时,麦克风阵列的定向结果远远落后于其它三种数据采样率下的定向结果;而当数据采样率分别为32kHz、64kHz、96kHz 时定向性能都较好,而且结果很接近,数据采样率为96kHz时的定向结果略好于其它两种情况,但不明显;表明数据采样率会很大程度上影响到对麦克风阵列的定向性能,但增大到一定数值之后,继续增大数据采样率不能有效地提高系统的定向性能,而更高的数据采样率意味着需要分析更多的数据点,增加了计算的复杂度。因此,选择数据采样率为32kHz是合理的。

图7 数据采样率对声源定向性能的影响图8 声源音量大小对定向性能的影响

4.2.4 声源音量大小对定向性能的影响

为了比较声源音量大小对定向性能的影响,我们分析了当声源音量大小分别为很大、中等、很小时麦克风阵列的定向性能,为了保证实验结果具有可信度,即在每一组的声音都是同样大小的,我们使用了单声源音箱而不是真人测试者作为这组实验的声源;使用计算机中的音量控制面板来控制音量大小,以确保可信度。图8显示了声源声音不同的情况下对NI麦克风阵列系统和DAR麦克风阵列系统定向性能的影响。可以发现,声源的声音大小对NI麦克风阵列的定向性能几乎没有影响,三条曲线几乎重合;但对DAR麦克风阵列系统的定向性能影响就很明显。为什么会出现这样的情况呢?我们发现,DAR系统对声音功率几乎是线性放大的,于是,只要声源音量过大,DAR系统纪录的声音由于截止而失真;而NI系统对声音功率就不是线性放大的,声源声音越大,放大倍数越小,因此在NI系统没有失真的情况发生,即它的定向性能在三组测试中性能是一致的;而这是硬件性能优越的NI系统优势所在。

6

4.2.5 不同麦克风阵列的定向性能的对比

图9显示了两套系统在所有测试点上的定向误差阈值对比图,声源音量。从图中可以看出,NI系统的总体定向性能好于DAR系统,但优势不算太大,表明麦克风和多路音频采集卡等硬件设备的性能对声源定向这类型的应用的影响不大。另一方面,DAR系统在某几个点上定向误差很大,可以认为是定向错误,这一点和上一小节的结果均表明,NI系统的稳定性要好于DAR系统,更加能适应实际的应用;不过如果DAR系统包含多个独立麦克风阵列的话,利用多个麦克风阵列的定向结果做再定向,则可以提高麦克风阵列的定向性能和增强定向的稳定性。

图10示意了在实际房间坐标中NI系统的定向误差和理论误差(主要考虑声源水平偏差)的对比,除少数点(如49)之外,其它点的定向结果都还不错,系统性能较好,能适应实际的声源定向应用。而像49这样与麦克风阵列夹角较小的点,其误差大可由麦克风的非全向性解释,在对这些点的误差做统计之后,可以使用修正公式来进一步减小系统定向误差。

图9 两套系统的定向误差统计对比图10 NI系统定向误差与理论误差对比图

5 总结

我们利用两套硬件组成不同的线性均匀麦克风阵列系统进行对比实验,分析了当麦克风间距、麦克风数量、数据采样率、声源音量等参数不同时对声源定向性能的影响,获得了具有参考价值的性能评价指标。我们使用SRP-PHAT算法处理数据,估计声源方向。我们详细分析了可能的理论误差,并对实验结果进行了误差分析,在对比定向误差与理论误差后,客观评价了系统的定向性能,最后得到了在一个类似我们实验环境的小型房间内能准确定向声源的最低代价的麦克风系统参数配置模型:包含3个麦克风,麦克风间距24cm,数据采样率为32kHz,硬件性能优良或硬件性能一般但包含多个独立麦克风阵列的线性麦克风阵列系统。本文中对线性麦克风阵列系统定向性能的研究成果具有基础性的意义,对我们后续的声源定位和麦克风阵列采集高质量语音的研究工作奠定了良好的基础。

致谢

本研究得到了国家863项目“面向普适计算的自适应软件集成环境”[项目号:2006AA01Z198]的资助,得到了美国国家仪器(NI)有限公司和中国北京声望声电技术有限公司的仪器设备支持,在此表示感谢。

References:

[1] ICRC Microphone Array. https://www.wendangku.net/doc/4510733999.html,/cd/corporate/icrc/apac/zho/167066.htm

[2] NIST Mark-III Microphone Array. https://www.wendangku.net/doc/4510733999.html,/smartspace/cmaiii.html

[3] CHIL(Computers In the Human Interaction Loop). http://chil.server.de/servlet/is/101/

段进伟史元春陈孝杰: 线性麦克风阵列定向性能的研究7

[4] [20] Yuki TAMAI, Satoshi KAGAMI, Yutaka AMEMIYA, Yoko SASAKI, Hiroshi MIZOGUCHI, Tachio TAKANO. Circular

Microphone Array for Robot’s Audition. Proceedings of IEEE Sensors. 2003. Vol.2. pp. 1100-1105

[5] Eugene Weinstein, Kenneth Steele, Anant Agarwal, James Glass. LOUD: A 1020-Node Modular Microphone Array and

Beamformer for Intelligent Computing Spaces. MIT/LCS Technical Memo MIT-LCS-TM-642. 2004.

[6] G Clifford Carter. Variance bounds for passively locating an acoustic source with a symmetric line array. Journal of Acoustical

Society of America. 1977. Vol.62(4). pp. 922-926

[7] S Haykin. Adaptive Filter Theory (3rd ed). Prentice Hall. 1996

[8] Julius O. Smith, Jonathan S. Abel. Closed-form least-squares source location estimation from range-difference measurements. IEEE

Transactions on Acoustics, Speech and Signal Processing. 1987. Vol.35(12). pp. 1661-1669

[9] Xie W.K., Shi Y.C., Xu G.Y., Mao Y.H.. Smart Platform - A Software Infrastructure for Smart Space (SISS). Proceedings of 4th

IEEE International Conference Multimodal Interfaces. Pittsburgh, USA. 2002. pp. 429-434

[10] Joseph Hector DiBiase. A high-accuracy, low-latency technique for talker localization in reverberant environments using

microphone Arrays. PhD Thesis at Brown University. 2000

[11] Hui Liu. Acoustic Positioning Using Multiple Microphone Arrays. Master Thesis at Dalhousie University. 2003

线性麦克风阵列定向性能的研究

线性麦克风阵列定向性能的研究? 段进伟, 史元春, 陈孝杰 (清华大学计算机科学与技术系,北京市海淀区, 100084) Study on the Directing Performance of the Linear Microphone Array Duan Jin-wei, Shi Yuan-chun, Chen Xiao-jie (Department of Computer Science and Technology, Tsinghua University, Beijing, 100084, China) + Corresponding author: Phn: +86-010-********-805, E-mail: saundradjw945@https://www.wendangku.net/doc/4510733999.html, Received 2007-07-31; Accepted 2007-08-31 Abstract: Speech source localization technology, using microphone array, plays an important role in the area of human-computer interaction, especially that in smart space. The information of source position provided by the microphone array can be used in many place, such as dynamically adjust the parameters of the array in order to acquire high-quality speech audio, etc. Therefore, speech source localization has become a hot topic in both research and application areas. The objective of this paper is to analyze the affection on the symmetrical linear microphone array directing performance caused by the changes of microphone numbers, the spacing between microphones, the sampling frequency and so on. In order to accomplish this, we set up two linear microphone arrays with different hardware and designed comparative experiments. After the speech data was captured, an algorithm called SRP-PHAT was used to estimate the speech source direction. We analyzed the possible theoretic errors existed in the experiments carefully, and after the experiments, we analyzed the directing results, and compared the actual directing errors with the possible theoretic errors. At last, we summarized the performance of the two linear microphone arrays, and educed the configuration of the linear microphone array system when its integrative performance achieves the peak. Key words: linear microphone array; speech source directing; theoretic error; directing performance 摘 要: 麦克风阵列在人机交互中有着重要的研究和应用价值。而线性均匀麦克风阵列最简单,其基本功能是声源的定向。本文通过实验分析各种参数变化对线性麦克风阵列定向性能的影响。我们搭建了硬件参数不同的两套线性麦克风阵列并设计了对比实验。使用SRP-PHAT算法定向声源。我们分析了声源定向时各种可能的理论误差,对实验结果进行了误差分析,并与可能的理论误差做了对比。通过理论分析和对比实验,本文提出了线性麦克风阵列系统的性能评价指标,并给出了综合性能最优时的麦克风阵列系统参数配置。 关键词: 线性麦克风阵列; 声源定向; 理论误差; 定向性能 中图法分类号: ****文献标识码: A ?Supported by National High-Tech Research and Development Plan of China under Grant No. 2006AA01Z198; 作者简介: 段进伟(1985-),男,云南昆明人,大学本科,主要研究领域为人机交互与普适计算;

基于麦克风阵列的语音增强方法

基于麦克风阵列的语音增强方法 概述:在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的是被噪声污染过的带噪声语音,严重影响了双方之间的交流。应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。本文将介绍各种麦克风阵列语音增强方法,并总结各个方法的优劣。最终得出更好的、能够去噪的基于麦克风阵列的语音增强方法。 1麦克风阵列 麦克风阵列是将两个麦克风的信号耦合为一个信号。在频率响应中也可以根据时域中波束形成与空间滤波器相仿的应用,分析出接收到语音信号音源的方向以及其变化。采用该技术,能利用两个麦克风接收到声波的相位之间的差异对声波进行过滤,能最大限度将环境背景声音滤掉,只剩下需要的声波。对于在嘈杂的环境下使用采用了这种配置的设备,在嘈杂的环境下能使听者听起来很清晰,没杂音。 2基于麦克风阵列的语音增强方法 2.1基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法,其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982 年Griffiths 和Jim 提出了广义旁瓣消除器成为了许多算法的基本框架。 广义旁瓣消除器(GSC)的工作原理是带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 麦克风阵列的自适应算法通过迭代运算获取波束形成的最优权矢量时,噪声模型的估计是一个非常关键的因素。它的好坏直接影响着系统波束形成的性能。系统地分析了最小均方( LMS) 自适应语音增强算法,并针对阻塞矩阵在估计噪声时存在的缺陷,在该算法的基础上提出了一种利用最小值控制递归平均( MCRA) 来估计噪声的方法。将此方法应用于波束形成,MCRA 估计出的噪声使LMS 自适应语音增强的效果更好和抗噪性更强。 2.2基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985 年美国学者Flanagan 提出采用延时-相加波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列、超方向麦克风阵列和固定频率波束形成技术也属于固定波束形成。 采用可调波束形成器的GSC麦克风阵列语言增强算法,其实质在GSC结构中的固定波束形成器前端引入各通道可调时延补偿,构造可调波束形成器进行声源方位估计,从而在目标声源方位获取阶段即可利用阵列的空间增益来提高方位估计性能。延迟求和波束形成器主要目的是增强主瓣方向目标信号,而抑制其他方向的噪声信号。

基于麦克风阵列的语音增强算法概述

- 29 - 基于麦克风阵列的语音增强算法概述 丁 猛 (海军医学研究所,上海 200433) 【摘 要】麦克风阵列语音增强技术是将阵列信号处理与语音信号处理相结合,利用语音信号的空间相位信息对语音信号进行增强的一种技术。文章介绍了各种基于麦克风阵列的语音增强基本算法,概述了各算法的基本原理,并总结了各算法的特点及其所适用的声学环境特性。 【关键词】麦克风阵列;阵列信号处理;语音增强 【中图分类号】TN911.7 【文献标识码】A 【文章编号】1008-1151(2011)03-0029-02 (一)引言 在日常生活和工作中,语音通信是人与人之间互相传递信息沟通不可缺少的方式。近年来,虽然数据通信得到了迅速发展,但是语音通信仍然是现阶段的主流,并在通信行业中占主导地位。在语音通信中,语音信号不可避免地会受到来自周围环境和传输媒介的外部噪声、通信设备的内部噪声及其他讲话者的干扰。这些干扰共同作用,最终使听者获得的语音不是纯净的原始语音,而是被噪声污染过的带噪声语音,严重影响了双方之间的交流。 应用阵列信号处理技术的麦克风阵列能够充分利用语音信号的空时信息,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,逐渐成为强噪声环境中语音增强的研究热点。美国、德国、法国、意大利、日本、香港等国家和地区许多科学家都在开展这方面的研究工作,并且已经应用到一些实际的麦克风阵列系统中,这些应用包括视频会议、语音识别、车载声控系统、大型场所的记录会议和助听装置等。 文章将介绍各种麦克风阵列语音增强算法的基本原理,并总结各个算法的特点及存在的局限性。 (二)常见麦克风阵列语音增强方法 1.基于固定波束形成的麦克风阵列语音增强 固定波束形成技术是最简单最成熟的一种波束形成技术。1985年美国学者Flanagan 提出采用延时-相加(Delay-and-Sum)波束形成方法进行麦克风阵列语音增强,该方法通过对各路麦克风接收到的信号添加合适的延时补偿,使得各路输出信号在某一方向上保持同步,并在该方向的入射信号获得最大增益。此方法易于实现,但要想获取较高的噪声抑制能力则需要增加麦克风数目,然而对非相干噪声没有抑制能力,环境适应性差,因此实际中很少单独使用。后来出现的微分麦克风阵列(Differential Microphone Arrays)、超方向麦克风阵列(Superairective Microphone Arrays )和固定频率波束形成(Frequency-Invariant Beamformers) 技术也属于固定波束形成。 2.基于自适应波束形成器的麦克风阵列语音增强 自适应波束形成是现在广泛使用的一类麦克风阵列语音增强方法。最早出现的自适应波束形成算法是1972年由Frost 提出的线性约束最小方差(Linearly Constrained Minimum Variance,LCMV)自适应波束形成器。其基本思想是在某方向有用信号的增益一定的前提下,使阵列输出信号的功率最小。在线性约束最小方差自适应波束形成器的基础上,1982年Griffiths 和Jim 提出了广义旁瓣消除器(Generalized Sidelobe Canceller, GSC),成为了许多算法的基本框架(图1)。 图1 广义旁瓣消除器的基本结构 广义旁瓣消除器是麦克风阵列语音增强应用最广泛的技术,即带噪声的语音信号同时通过自适应通道和非自适应通道,自适应通道中的阻塞矩阵将有用信号滤除后产生仅包含多通道噪声参考信号,自适应滤波器根据这个参考信号得到噪声估计,最后由这个被估计的噪声抵消非自适应通道中的噪声分量,从而得到有用的纯净语音信号。 如果噪声源的数目比麦克风数目少,自适应波束法能得到很好的性能。但是随着干扰数目的增加和混响的增强,自适应滤波器的降噪性能会逐渐降低。 3.基于后置滤波的麦克风阵列语音增强 1988年Zelinski 将维纳滤波器应用在麦克风阵列延时—相加波束形成的输出端,进一步提高了语音信号的降噪效果,提出了基于后置滤波的麦克风阵列语音增强方法(图2)。基于后置滤波的方法在对非相干噪声抑制方面,不仅具有良好的效果,还能够在一定程度上适应时变的声学环境。它的基本原理是:假设各麦克风接收到的目标信号相同,接收到的噪声信号独立同分布,信号和噪声不相关,根据噪声特性, 【收稿日期】2010-12-30 【作者简介】丁猛(1983-),男,海军医学研究所研究实习员。

麦克风阵列模组设计方案

麦克风阵列模组设计方案 一、麦克风阵列基本原理 二、麦克风阵列的应用 三、麦克风阵列模组的设计 一、麦克风阵列基本原理 阵列(Array): 数学定义--有限个相同资料形态之元素组成之集合 麦克风阵列是指按一定距离排列放置的一组麦克风,通过声波抵达阵列中每个麦克风之间的微小时差的相互作用,麦克风阵列可以得到比单个的麦克风更好地指向性。在麦克风阵列的设计中首要的改进是引入了波束成形、阵列指向性与波束宽度的概念。 波束的形成 通过对所有麦克风信号的综合处理,麦克风阵列可以组合成为所要求的强指向性麦克风,形成被称为“波束”的指向特性。麦克风阵列的波束可以经由特殊电路或程序算法软件控制使其指向声源方向而加强音频采集效果。 阵列算法处理后的指向性波束形成技术能精确的形成一个锥状窄波束,只接受说话人的声音同时抑制环境中的噪音与干扰。

图一使用单麦克风与采用波束形成技术麦克风阵列接收讲话者声音效果的对比

阵列指向性 由于麦克风阵列的输出信号中包含比单只麦克风更低的噪声和回声成份, 。麦克风阵列在1000Hz的典型指所以其固有噪声抑制能力要远高于单只麦克风。 所以其固有噪声抑制能力要远高于单只麦克风 向性波束图型如图二所示。其指向性图形要远好于任一款价格昂贵的高性能超心形麦克风。 图二麦克风阵列在1000Hz的典型指向性波束图型

指向性指数 另一个表证波束的参数是指向性指数。 波束轴线))检测到指向性指数D表征的是麦克风阵列主响应轴(波束轴线 的声源信号与需要屏蔽的各种噪声与回声信号的比值

二麦克风阵列的应用 正确的麦克风阵列几何排列(数量,类型及麦克风的位置)关系到最后的声学效果。为了保证成功的设计和用户满意度,双元件麦克风阵列适用于在较安静的办公场所及室内的条件使用。这种阵列形成的是水平方向压缩后的较窄波束,使用时应将两个麦克风连线中点指向讲话者。其几何排布如图三、图四所示 图三小型双麦克风阵列图四大型双麦克风阵列 四元件麦克风阵列适用于在一般的办公场或较嘈杂的环境使用,当讲话者到麦克风的距离达到3-5M距离时,仍有很好的录音效果,见图五、图六 图五4麦克风阵列图六L-形状的4麦克风阵列

麦克风阵列结构设计建议和方案参考

麦克风阵列结构设计建议和方案参考 1. 目的 本文档主要用于指导麦克风阵列的在产品应用中的麦克结构设计参考和建议。 2. 麦克风结构总体设计要求 1) 麦克风阵列需要减震密封处理,为保证麦克风的声音采集效果,能够满足语音识别和算法要求,通常采用将麦克风固定于硅胶套内(硅胶软硬度可根据实际结构形式进行匹配验证),且麦克风和硅胶之间有腔体存在; 2) 麦克风阵列的数量、间距及安装位置要满足算法要求; 3) 根据产品结构型式和产品需求,通常麦克风阵列的结构设计有两种型式:面壳安装方式和非面壳安装方式,两种方式的结构设计要求和建议参照下述方案说明。 3. 不同结构型式麦克风阵列结构设计方案介绍和说明 3.1 面壳安装方式方案 该结构方案麦克风阵列和硅胶套装配后固定于面壳上,通过面壳上的拾音孔进行录音采集。 a) 3D 截面效果图 b) 设计说明 (1) 麦克风阵列的数量、间距和安装位置满足算法要求; (2) 麦克风固定于硅胶套内,且注意麦克风和硅胶套及硅胶套上端和面壳内表面一定不能 有空腔存在(避免腔体反射对麦克风录音效果影响); (3) 麦克风拾音端面和面壳拾音孔外表面之间距离越短越好,最长不要超过3mm ; (4) 根据应用场景情况,可在麦克风表面增加防风棉(类似车载空调风直吹场景) 和防尘

棉等零件。 3.2 非面壳安装方式: 该结构形式通常麦克风阵列固定于密封减震硅胶套内,然后整个麦克风单元固定于PCB 上。 a) 3D 效果图 b) 设计说明 (1) 设计说明麦克风阵列的数量、间距和安装位置满足算法要求 (2) 麦克风阵列之间应保证通透性,麦克风相互之间不能有隔板等障碍物阻挡 (3) 麦克风单元上部(例如图1中的上方主板外壳B )和麦克风拾音端面至少留5mm 的通透空间,如果是指向性麦克风,注意麦克风器件下方要留麦克风器件背面拾 音孔空间和距离。

一文带你全面熟悉智能语音之麦克风阵列技术的原理

一文带你全面熟悉智能语音之麦克风阵列技术的原理 麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。 早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。 麦克风阵列能干什么? 任何一项技术的发生发展都伴随着问题的提出及解决,麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能! ◆【噪声环境怎么破?】——语音增强(Speech Enhancement) 语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。通过麦克风阵列波束形成进行语音增强示意图 从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。 但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。 目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。 2013年科大讯飞车载降噪产品和国际竞争对手效果对比 ◆【说话人老是变幻位置怎么破?】——声源定位(Source Localization)

基于麦克风阵列的声源定位技术

目录 一、绪论 (1) 1.1 课题研究背景和意义 (1) 1.2 国内外研究现状和发展趋势 (2) 1.2.1研究历史和现状 (2) 1.2.2发展趋势 (2) 1.3本文所要研究的内容 (2) 二、麦克风阵列的处理模型和方法介绍 (4) 2.1麦克风阵列信号处理模型 (4) 2.1.1远场模型 (4) 2.1.2远场麦克风阵列均匀线阵模型 (5) 2.2基于时延估计声源定位方法的介绍 (6) 2.2.1广义互相关时延估计法 (6) 2.2.2互功率谱相位时延估计法 (7) 2.2.3基于基音加权的时延估计法 (7) 2.2.4基于声门脉冲激励的时延估计法 (7) 2.2.5 基于LMS 的自适应时延估计法[8] (8) 2.2.6 基于子空间分解的时延估计法 (9) 2.2.7基于声学传递函数比的时延估计法 (9) 三、麦克风声源定位的研究与设计 (11) 3.1广义互相关时延估计设计流程 (11) 3.2 时延估计定位算法实验研究 (12) 3.3互相关延时估计方法 (12) 3.4互相关延时估计加权函数性能分析 (15) 3.5声源定位的模型分析 (16) 3.6时延估计的测量与计算 (17) 四、总结 (20) 4.1 本文研究的问题与难点 (20) 4. 2课题研究总结 (20) 参考文献 (22) 致谢 (24) 摘要 随着科技的进步和发展,麦克风阵列的声源定位技术已经成为人们研究的重要课题之一。用麦克风阵列接受语音信号就是声源定位技术的一种,接受到的语音技术再输出到计算机,经过计算机技术的分析和处理,然后可以确定声源是从

哪个方位传过来的。声源定位技术的广泛应用在许多领域,如定位技术,在军事上的语音识别,视频会议的定位技术。麦克风阵列对于噪声、声源定位、跟踪这些方面都比单个麦克风要好,从而大大提高语音信号处理质量。 本文主要是用麦克风阵和时延估计声源定位方法对于声源的定位。首先介绍了几种常见的声源定位方法和各自的优缺点,在此基础上研究基于时延估计的声源定位方法(GCC),比较远场定位和近场定位的差别,确定本文研究的方法远场定位法。由于远场定位时,只需要测出声音信号到达各个麦克风阵列的时延(TDOA),剩下的就是简单的数学公式推导。由于该方法计算量小,易于实现的优点,实际应用比较广泛。 关键词:麦克风阵列,声源定位,时延估计,GCC

麦克风波束成形的基本原理

启拓专业手拉手会议,矩阵切换厂商-全球抗干扰专家 麦克风波束成形的基本原理 麦克风波束成形是一个丰富而复杂的课题。所有MEMS麦克风都具有全向拾音响应,也就是能够均等地响应来自四面八方的声音。多个麦克风可以配置成阵列,形成定向响应或波束场型。经过设计,波束成形麦克风阵列可以对来自一个或多个特定方向的声音更敏感。本应用笔记仅讨论基本概念和阵列配置,包括宽边求和阵列和差分端射阵列,内容涵盖设计考虑、空间和频率响应以及差分阵列配置的优缺点。 阵列和差分端射阵列,内容涵盖设计考虑、空间和频率响应以及差分阵列配置的优缺点。 空气中声波的频率与波长的关系 方向性和极坐标图 方向性描述麦克风或阵列的输出电平随消声空间中声源位置的改变而变化的模式。ADI 公司的所有MEMS麦克风都是全向麦克风,即它们对来自所有方向的声音都同样敏感,与麦克风所处的方位无关。图2所示为全向麦克风响应的2轴极坐标图。无论麦克风的收音孔位于

x-y平面、x-z平面还是y-z平面,此图看起来都相同。 全向麦克风响应图 本应用笔记中,阵列的“前方”称为轴上方向,指拾取目标音频的方向,在极坐标图上标为0°;“后方”为180°方向;“侧边”指前后方之间的空间,中心方向分别位于90°和270°。本应用笔记中的所有极坐标图均归一化到0°响应水平。 涉及声音频率和波长的所有公式都使用以下关系式:c = f ×λ,其中c为343 m/s,即声音在20℃的空气中的传播速度。图1显示了这些条件下声波的频率与波长的关系。本应用笔记末尾的“设计参数计算公式”列出了本文所用阵列设计参数的计算公式。 宽边阵列 宽边麦克风阵列是指一系列麦克风的排列方向与要拾取的声波方向垂直(见图3)。图中,d是阵列中两个麦克风元件的间距。来自阵列宽边的声音通常就是要拾取的声音。

麦克风波束成形的基本原理

麦克风波束成形的基本原理 2012/04/06 简介 所有MEMS麦克风都具有全向拾音响应,也就是能够均等地响应来自四面八方的声音。多个麦克风可以配置成阵列,形成定向响应或波束场型。经过设计,波束成形麦克风阵列可以对来自一个或多个特定方向的声音更敏感。 麦克风波束成形是一个丰富而复杂的课题。本应用笔记仅讨论基本概念和阵列配置,包括宽边求和阵列和差分端射阵列,内容涵盖设计考虑、空间和频率响应以及差分阵列配置的优缺点。 图1:空气中声波的频率与波长的关系 方向性和极坐标图 方向性描述麦克风或阵列的输出电平随消声空间中声源位置的改变而变化的模式。ADI公司的所有MEMS麦克风都是全向麦克风,即它们对来自所有方向的声音都同样敏感,与麦克风所处的方位无关。图2所示为全向麦克风响应的2轴极坐标图。无论麦克风的收音孔位于x-y平面、x-z平面还是y-z平面,此图看起来都相同。 图2:全向麦克风响应图本应用笔记中,阵列的"前方"称为轴上方向,指拾取目标音频的方向,在极坐标图上标为0°;"后方"为180°方向;"侧边"指前后方之间的空间,中心方向分别位于90°和270°。本应用笔记中的所有极坐标图均归一化到0°响应水平。 涉及声音频率和波长的所有公式都使用以下关系式:c = f × λ,其中c为343 m/s,即声音在20℃的空气中的传播速度。图1显示了这些条件下声波的频率与波长的关系。本应用笔记末尾的"设计参数计算公式"列出了本文所用阵列设计参数的计算公式。 宽边阵列 宽边麦克风阵列是指一系列麦克风的排列方向与要拾取的声波方向垂直(见图3)。图中,d是阵列中两个麦克风元件的间距。来自阵列宽边的声音通常就是要拾取的声音。

麦克风阵列模块XFM10211数据手册V0.3

科大讯飞麦克风阵列模块XFM10211 数据手册 科大讯飞股份有限公司 安徽省合肥市望江西路666号国家科技创新型试点市示范区科大讯飞语音产业基地

版本历史 声明 本手册由科大讯飞股份有限公司版权所有,未经许可,任何单位和个人都不得以电子的、机械的、磁性的、光学的、化学的、手工的等形式复制、传播、转录和保存该出版物,或翻译成其他语言版本。一经发现,将追究其法律责任。 科大讯飞保证本手册提供信息的准确性和可靠性,但并不对文本中可能出现的文字错误或疏漏负责。讯飞数码保留更改本手册的权利,如有修改,恕不相告。请在订购时联系我们以获得产品最新信息。对任何用户使用我们产品时侵犯第三方版权或其他权利的行为本公司概不负责。另外,在科大讯飞未明确表示产品有该项用途时,对于产品使用在极端条件下导致一些失灵或损毁而造成的损失概不负责。

目录 1产品概述 (1) 2订货信息 (1) 3功能描述 (1) 4系统连接方式参考 (2) 5模块尺寸图 (2) 6硬件接口定义 (2) 7电路设计参考 (3) 7.1音频输出信号与上位机连接方法 (3) 7.2参考信号接入方法 (4) 8参数列表 (4) 8.1电气特性参数 (4) 8.2极限值 (5) 8.3音频输出特性 (5) 9麦克风设计和型号参考 (5) 9.1设计方案参考 (5) 9.2麦克风选型参考 (6)

1产品概述 科大讯飞麦克风阵列模块XFM10211是一款基于2麦克风阵列的语音硬件方案。采用2麦克风录音,再经过麦克风阵列模块进行语音降噪、回声消除、语音唤醒后,输出数字音频信号、模拟音频信号、唤醒触发信号等。 产品特点主要表现在: ●2麦克风阵列 ●语音唤醒 ●回声消除 2订货信息 表格 1 订货信息 3 功能描述 ●2麦克风阵列 支持远场录音、去混响、降噪。 ●语音唤醒 模块预定的语音唤醒词是“打开语音助手”,唤醒后通过模块的W AKEUP接口输出高电平给用户上位机。 ●回声消除 模块可利用参考信号进行回声消除。回声是设备扬声器播放的声音又被麦克风拾取,形成对设备操控信号的干扰,一般在手机、音箱、电视机等产品中回声比较严重。

MIC电路

数字麦克风和阵列拾音技术的应用 随着数字信号处理技术的发展,使用数字音频技术的电子产品越来越多。数字音频接口成为发展的潮流,采用脉冲密度调制(PDM)接口的ECM和MEMS数字麦克风也孕育而生。目前,ECM和MEMS数字麦克风已经成为便携式笔记本电脑拾音设备的主流。 数字ECM或MEMS麦克风和传统的ECM麦克风相比,有着不可取代的优势。首先,移动设备向小型化数字化发展,急需数字拾音器件和技术;第二,设备包含的功能单元越来越多,如笔记本电脑,集成了蓝牙和WiFi无线功能,麦克风距离这些干扰源很近,设备对抗扰要求越来越高;第三,三网合一的发展,需要上网,视频和语音通信可以同时进行,这在移动设备中通常会遇到环境噪声和回声的影响;第四,从提高生产效率角度,希望对麦克风采用SMT焊接。数字麦克风适合SMT焊接,可以解决系统各种射频干扰对语音通信产生的噪声,富迪科技的数字阵列麦克风拾音技术可以抑制和消除通话时的回声和环境噪声,数字接口方便同数字系统的连接。 模拟麦克风和数字麦克风 麦克风结构:ECM模拟麦克风通常是由振膜,背极板,结型场效应管(JFET)和屏蔽外壳组成。振膜是涂有金属的薄膜。背极板由驻极体材料做成,经过高压极化以后带有电荷,两者形成平板电容。当声音引起振膜振动,使两者距离产生变化,从而引起电压的变化,完成声电转换。利用结型场效应管用来阻抗变换和放大信号,有些高灵敏度麦克风采用运放来提高麦克风灵敏度(见图1a)。ECM数字麦克风通常是由振膜,背极板,数字麦克风芯片和屏蔽外壳组成,数字麦克风芯片主要由缓冲级,放大级,低通滤波器,抗模数转换组成。缓冲级完成阻抗变换,放大级放大信号,低通滤波滤除高频信号,防止模数转换时产生混叠,模数转换将放大的模拟信号转换成脉冲密度调制(PDM)信号,通常采用过采样的1位Δ-Σ模数转换(见图1b)。MEMS模拟麦克风主要由MEMS传感器,充电泵,缓冲放大器,屏蔽外壳组成。参照图1c,MEMS传感器由半导体工艺制成的振膜,背极板和支架构成,通过充电泵给背极板加上适当的极化偏压。缓冲放大器完成阻抗变换,放大信号。MEMS数字麦克风主要由MEMS传感器,充电泵,数字麦克风芯片和屏蔽外壳组成,参照图1d。为了提高麦克风抗干扰能力,麦克风内部电源和地之间都增加了小的滤波电容,通常是10pF和33pF并联。

麦克风阵列信号处理的研究现状与应用

麦克风阵列信号处理的研究现状与应用 罗金玉等:麦克风阵列信号处理的研究现状与应用 麦克风阵列信号处理的研究现状与应用 (1.武警工程学院研究生大队,陕西西安710086;2.武警工程学院通信工程系,陕西西安710086) 摘要:在回顾麦克风阵列信号处理研究历程的基础上,对麦克风阵列信号处理的特点进行分析,总结了目前的研究热 点问题及现有算法并对各算法的优缺点进行比较,重点阐述了使用最为广泛的声源定位算法,最后介绍几个有价值的应用 领域,为进一步研究麦克风阵列信号处理奠定基础. 关键词:麦克风阵列信号处理;声源定位;TD0A;应用, 中图分类号:TN911-34文献标识码:A文章编号:1004—373X(2010)23—0080—05 StudyStatusandApplicationofMicrophoneArraySignalProcessing LUOJin-yu,LIUJian-ping,ZHANGYi—wen (1.Post—graduateManagingBrigade,EngineeringCollegeofArmedPoliceForce,Xi'an710086,Chi na; 2.DepartmentofC0mmunlcationEngineering,EngineeringCollegeofArmedPoliceForce, Xi'art710086.China) Abstract:Theeharacteristicofthemicrophonearraysignalprocessingisanalyzedbasedonth ereviewfortheprogressof microphonearraysignalprocessing.Thehotissuebeingstudiedrecentlyandtheexistingalgo rithmscorrespondingtoitare summerized.Themeritsanddemeritsofthealgorithmsarecompared.Thewidely-usedsoun dsourcelocalizationalgerithmis elaboratedemphatically.Somevaluableapplicationfieldsareintroduced. Keywords:microphonearraysignalprocessing;soundsourcelocalization;TDOA;applicati

基于麦克风阵列的声源定位技术毕业设计

毕业设计说明书基于麦克风阵列的声源定位技术 学生姓名:学号: 学院: 专业: 指导教师: 2012年 6 月

基于麦克风阵列的声源定位技术 摘要 声源定位技术是利用麦克风拾取语音信号,并用数字信号处理技术对其进行分析和处理,继而确定和跟踪声源的空间位置。声源定位技术在视频会议、语音识别和说话人识别、目标定位和助听装置等领域有着重要的应用。传统的单个麦克风的拾音范围很有限,拾取信号的质量不高,继而提出了用麦克风阵列进行语音处理的方法,它可以以电子瞄准的方式对准声源而不需要人为的移动麦克风,弥补单个麦克风在噪声处理和声源定位等方面的不足,麦克风阵列还具有去噪、声源定位和跟踪等功能,从而大大提高语音信号处理质量。 本文主要对基于多麦克风阵列的声源定位技术领域中的基于时延的定位理论进行了研究,在此基础上研究了四元阵列、五元阵列以及多元阵列的定位算法,并且分别对其定位精度进行了分析,推导出了影响四元、五元阵列目标方位角、俯仰角及目标距离的定位精度的一些因素及相关定位方程,并通过matlab仿真软件对其定位精度进行了仿真;最后在四元、五元阵列的基础上,采用最小二乘法对多元阵列定位进行了计算;通过目标计算值和设定值对比,对多元阵列的定位精度进行了分析,并得出了多元阵列的目标定位的均方根误差。 关键词:麦克风阵列,声源定位,时延,定位精度,均方根误差

Based on Microphone Array for Sound Source Localization Research Abstract Sound source positioning technology is to use the microphone to pick up voice signals, and digital signal processing technology used for their analysis and processing , Then identify and track the spatial location of sound source. Acoustic source localization techniques have a variety of important uses in videoconferencing, speech recognition and speaker identification, targets’ direction finding, and biomedical devices for the hearing impaired. The pick up range of traditional single microphone is limited, the signal quality picked up is not high, then a voice processing methods with the microphone array has been proposed . It may be electronically aimed to provide a high-quality signal from desired source localization and doe s not require physical movement to alter these microphones’ direction of reception. Microphone array has the functions of de-noising, sound source localization and tracking functions, which greatly improved the quality of voice signal processing. The article discusses some issues of sound source localization based on microphone array, On the basis ,it studies a four element array,five element array and an multiple array positioning algorithm, then the positioning precision is analyzed. Derived some factors of the azimuth and elevation angle targets the target range of the estimation precision affected and positioning equation. And through MATLAB simulation software for its positioning accuracy of simulation. finally ,based on four yuan, five yuan of array, using the least square method ,the multiple array localization were calculated. Through the contrast of the target value and set value, multiple array positioning accuracy is analyzed, and the of diverse array target positioning. Keywords: Microphone Array, Sound Source Localization, Time Delay, Positioning precision, root mean square error

SoundAI智能音箱产品麦克风阵列结构设计指导文档

SoundAI 智能音箱产品麦克风阵列结构设计 指导文档 北京声智科技有限公司北京市海淀区北四环西路67号中关村创新科技大厦308

版本历史: 版本日期修改记录 V0.22018-08-23基于V0.1版本进行更新

一、麦克风阵列构型 1)六麦克环型阵列 6MIC环型阵列总体呈圆形,各mic在圆周上等距摆放,偏差小于1mm。圆周直径推荐70mm(若无法满足此要求,建议按照60mm<=圆周直径D<=8 0mm进行设计)。麦克风所在圆平面为水平面,如无法满足可以和水平面存在小于15°的夹角,基本如下图所示: 2)四麦克环型阵列 4MIC环型阵列总体呈圆形,各mic在圆周上等距摆放,圆周直径推荐7 0mm(若无法满足此要求,建议按照60mm<=圆周直径D<=80mm进行设计)。麦克风所在圆平面为水平面,如无法满足可以和水平面存在小于15°的夹角,基本如下图所示: 3)四麦克线型阵列 4MIC线型阵列总体呈直线,如果总体长度小于120mm,建议各mic在直线

上等距摆放,偏差<1mm,各麦克朝向相同,间距35mm(若无法满足此要求,建议按照30mm<=麦克间距D<=40mm进行设计),如下图: 4)三麦克环型阵列 3MIC环型阵列总体呈圆形,各mic在圆周上等距摆放,圆周直径推荐70m m(若无法满足此要求,建议按照60mm<=圆周直径D<=80mm进行设计)。麦克风所在圆平面为水平面,如无法满足可以和水平面存在小于15°的夹角,基本如下图所示: 5)双麦克线型阵列 2MIC线型阵列要求各麦克朝向相同,推荐间距55mm(若无法满足此要求,建议按照40mm<=麦克间距D<=70mm进行设计)。 二、麦克风选型要求 声智麦克风阵列方案,可选用数字麦克和模拟麦克都可以,麦克风参数指标如下: ●灵敏度(Sensitivity):>-40dBV@94dB1KHz, ●信噪比SNR>64dB ●声学过载点(AOP):>=120dB SPL

麦克风阵列原理

麦克风阵列原理 1 麦克风阵列 麦克风阵列,是一组位于空间不同位置的全向麦克风按一定的形状规则布置形成的阵列,是对空间传播声音信号进行空间采样的一种装置,采集到的信号包含了其空间位置信息。根据声源和麦克风阵列之间距离的远近,可将阵列分为近场模型和远场模型。根据麦克风阵列的拓扑结构,则可分为线性阵列、平面阵列、体阵列等。 (1) 近场模型和远场模型 声波是纵波,即媒质中质点沿传播方向运动的波。声波是一种振动波,声源发声振动后,声源四周的媒质跟着振动,声波随着媒质向四周扩散,所以是球面波。 根据声源和麦克风阵列距离的远近,可将声场模型分为两种:近场模型和远场模型。近场模型将声波看成球面波,它考虑麦克风阵元接收信号间的幅度差;远场模型则将声波看成平面波,它忽略各阵元接收信号间的幅度差,近似认为各接收信号之间是简单的时延关系。显然远场模型是对实际模型的简化,极大地简化了处理难度。一般语音增强方法就是基于远场模型。 近场模型和远场模型的划分没有绝对的标准,一般认为声源离麦克风阵列中心参考点的距离远大于信号波长时为远场;反之,则为近场。设均匀线性阵列相邻阵元之间的距离(又称阵列孔径)为d,声源最高频率语音的波长(即声源的最小波长)为λmin,如果声源到阵列中心的距离大于2d2/λmin,则为远场模型,否则为近场模型,如图1所示。 图1 近场模型和远场模型 (2) 麦克风阵列拓扑结构 按麦克风阵列的维数,可分为一维、二维和三维麦克风阵列。这里只讨论有一定形状规则的麦克风阵列。 一维麦克风阵列,即线性麦克风阵列,其阵元中心位于同一条直线上。根据相邻阵元间距是否相同,又可分为均匀线性阵列(Uniform Linear Array,ULA)和嵌套线性阵列,如图2所示。均匀线性阵列是最简单的阵列拓扑结构,其阵元之间距离相等、相位及灵敏度一直。嵌套线性阵列则可看成几组均匀线性阵列的叠加,是一类特殊的非均匀阵。线性阵列只能得到信号的水平方向角信息。

相关文档