文档库 最新最全的文档下载
当前位置:文档库 › 基于语音分析的智能质检关键词提取方法设计

基于语音分析的智能质检关键词提取方法设计

基于语音分析的智能质检关键词提取方法设计
基于语音分析的智能质检关键词提取方法设计

? 174

?

ELECTRONICS WORLD ?技术交流

基于语音分析的智能质检关键词提取方法设计

深圳供电局有限公司信息中心 王旭勇

随着我国经济发展水平的不断提高,智能质检系统的研究日趋深入,使之不断进步与发展,语言质检深入研究之下,大大将呼叫中心质检抽样准确率提高了,工作效率也大幅度提高。纵向分析智能质检系统当前备受关注,人们开始普遍对智能质检自动关键词发现功能开展研究,系统整合后可以快速将预设好的关键词提取到,将语音转换为文本后,提取录音文本关键词,还可以通过TextRank 对文本录音中关键词提取,匹配、融合与预设的质检关键词库,最终将文本录音中出现频率最高的目标关键词提取出来。本文将具体对智能质检关键词基于语音分析的提取方法的设计进行论述。

基于语音分析的智能质检关键词提取意义有以下几方面:语音文本表述口语化更严重并且存在一些不规范表述,关键词提取可准确锁定有价值信息,有效去除冗余;质检人员要对检测重点信息有所了解,并获取信息权重值,关键词提取可将重点质检问题及时发现并处理好。还有就是快速识别关键词并提取,可以帮助质检人员对语音信息全面了解。

1.研究背景

为了更好的应对新一轮电力改革带来的巨大挑战,增强供电企业与用户间的交流,进一步将服务质量与效率提高,就必须对语音服务质量相关智能质检系统当前得到广泛关注,更深层次的研究及应用语音分析技术,转换为文本的语音信息,为进一步检测语音服务质量创造了条件。在实际检测中,固有主题的检测仍是语音文本信息检测的重点,为帮助质检人员获取更多有价值信息,就必须快速将关键词检索出来,精炼文本信息,将关键的、能够反映原文主旨思想的词语反映出来。已经具备非常强的实用性对于关键词提取来说,同时也称为信息处理基本工作之一。为此,对于提升质检工作质量及效率来说,高效、准确提取关键词非常有必要,也是智能化质检系统核心内容。自然语言处理(NLP )是指用自然语言对录音文本处理,并抽取文本关键词的方法,作为人工智能的重要研究领域,该方法中体现语音识别、文本分类、文本校对等基本功能,还可

以体现机器翻译、自动分词等智能化功能。信息抽取(IE ),可快速提取关键信息。

2.设计总体方案

语音质检系统与原有电销管理系统之间是相互关联的,输入语音分析系统将录音管理中的语音,借助语音识别功能,可以将文本转换完成,随后就可以检索关键词,并进行建模等。基于语音质检系统,首先进行信息转化,即将录音信息转变为文本信息,然后使用TextRank 算法将文本录音中关键词自动提取出来,做详细匹配与预设好的质检关键词,并实现两者融合,最终将实际文本录音中出现次数最多的目标关键词提取出来。整个设计方案流程见图1

图1 基于语音分析的智能质检关键词提取方案

3.使用TextRank算法提取关键词

3.1 TextRank算法

由Page Rank 算法衍生出来的一种算法,TextRank 基于排序算法原理使用,不单单依靠局部某点信息进行节点排序,而是依据全局信息递归计算,对文本分割,由分割出的若干个单元组建出一个完整的图像模型,排序对文本中重要成分,提取算法针对单一文档中关键词。可用一个有向权图G=(V ,E )表示TextRank 模型,词语构成权图中的V ,V ×V 的子集就是E 。任意两点v i 由W ji 表示,图中指向该点的其他集合表示为In (V i )入度,vi 指向其他点集合,称为出度,表示为Out (v i ),Vi

得分计算公式为:

图中表示某一点都有1-d 的概率指向其他任意点为d ,即阻尼系数,d ∈[0,1],0.85为d 的默认系数。每个点进行打分时,应用Tex-tRank 算法,每个点必须为指定任意的初值,计算采用迭代计算方式并收敛。鉴于图有着一定连贯性,收敛需经过较少次数迭代实现。3.2 TextRank算法下关键词提取

从一段文本中将众多有价值的语句提取出来就是TextRank 算法下关键词提取的基本方法。利用一定窗口内的词汇间关系排序后续关键词,关键词从文本中直接抽取出来,也就是指在图中随机游走的过程,关键词的选择最终依据投票得分高低而定。具体方法为:

获取到录音集合文本T ,通过接口,对完整的语句进行分割。各个分割的片段表示为[S 1、S 2、S 3、S 4.....,S n ]。先分词、确定词性对每个文本,然后进行词性标注,并集中处理,最终将与主题无关或者冗余的文字去除,比如“的”、“而且”、“但是”,剩下的定性词作为备选关键词,这些备选词表示为[t i,1,、t i,2、t i,r ,.....t i,n ]。构建出备选关键词图,即G=(V ,E ),依据指定共现窗口K 大小进行构造,任意两点间的边由共同关系构造出来。然后依据特定公式进行计算,最终将迭代传播计算各节点权重得分值计算

出,直到将收敛完成。对各节点权重进行排列,按照倒序排列方式,关键词提取的结果为得到的最重要的T 个单词。

4.自定义词库关键词提取

4.1 将关键词库建立起来

因属于一种无监督的提取方法,Tex-tRank 算法对文本整体结构综合考虑后进行提取,受业务规范流程影响,会出现关键词提取数目过大的情况,在使用TextRank 算法提取关键词时,并且有较多的礼貌用语,包括“您好”、“谢谢”等,会影响到目标关键词的提取效果。

为将语音质检关键词日趋的针对性增强并提高准确性,就必须总结过去呼叫中心语音质检关键词提取相关经验,将语音出现频率最高的关键词提取出来,同时提取出出现次数最多的专业词语。对重点关键词构建自定义词库,依据语音质检工作实际要求及标

相关文档