文档库 最新最全的文档下载
当前位置:文档库 › 声纹识别介绍

声纹识别介绍

声纹识别介绍
声纹识别介绍

声纹识别背景介绍

1 声纹识别技术

声纹是指语音中所蕴含的、能表征和标识说话人的语音特征,以及基于这些特征(参数)所建立的语音模型的总称,而声纹识别是根据待识别语音的声纹特征识别该段语音所对应的说话人的过程。随着科学技术的发展,人机交互应运而生,语音凭借简单易获取具有特定性和稳定性等特点,其中不仅包含了内容信息还包含了说话人的特征信息,成为人机交互的重要方式之一。声纹识别技术在军事、国防、政府、金融医疗、家用、银行和保密等领域都有很大的需求,很多学者和企业也一定程度上推动了声纹识别技术的发展,但是在现实生活中,声纹识别技术并没有被广泛应用,因为该技术还面临着一些难以攻克的问题。

声纹识别系统可以分为前端和后端两部分,前端主要包括数据准备(标注、增强等),为了保证系统的鲁棒性,需要准备多种多样的数据。后端主要包括网络模型的搭建、训练、测试等。

2 声纹识别技术面临的问题

目前,声纹识别主要面临的问题的有环境噪音、信道失配、语言失配、说话人自身、假冒闯入和短语音。具体问题如下图所示:

多说话人

语速跨语言

情绪

身体状况

3 解决办法

针对上述问题,一些学者提出了相应的解决办法:

环境噪音:例如频谱减法(Spectral Subtraction)用于解决固定环境噪音;RASTA滤波法用以消除信道缓慢变化的噪音;也有许多算法用以提高特征鲁棒性,如主成分分析法、线性判别法和异方差线性判别分析等。针对模型的噪音鲁棒性,其通常采用模型补偿算法来减少测试和训练之间的噪音失配程度。

信道失配:解决信道失配问题的方法也有很多,如传统GMM-UBM框架下的特征变换(feature transformation)、模型补偿(model compensation)、分数归一化(score normalization);JFA/i-vector模型与区分性方法(如WCCN[43],LDA,NAP,PLDA等)的结合;在基于神经网络的说话人识别系统中通过消除一些网络隐藏节点等。

假冒闯入:活体检测法。活体检测通俗地讲就是判断系统输入是预先处理得到的语音(如合成语音、转换语音、录音重放语音)还是真实的活体人声。

短语音:针对短语音目前还没有较好的解决办法。现有的优化方法有从语音中筛选更具有区分性的数据;融合不同声学特征获得更鲁棒的特征参数;结合语音识别的先验知识构建更精细的声纹模型;更合理准确的双边似然分计算方式等。

说话人自身:基于F-ratio准则的频带区分性特征算法和基于性能驱动的频带弯折算法,其强调说话人个性信息的同时弱化时变信息,提取了时变鲁棒的声纹特征。基于特征和模型联合优化的方法,将情感特征投影到中性特征空间,进而弱化情感信息的影响。针对跨语言声纹识别已经有了一些成果,如在声纹建模时采用多种语言的语音,训练一个多语言说话人模型,提高模型的语言鲁棒性;提取更加鲁棒的声纹特征,削弱语言信息的影响。

4 声纹识别发展趋势

相关文档