文档库

最新最全的文档下载
当前位置:文档库 > 基于依存语义分析的答案抽取系统

基于依存语义分析的答案抽取系统

基于依存语义分析的答案抽取系统

罗强于洪霜

(1. 中国工商银行软件开发中心510630)

(2. 广东岭南职业技术学院510663)

摘要:在答案抽取应用中,通过分析查询条件和备选答案间的逻辑关系,能否有效估计两者的逻辑相似度,为提高备选答案的精度提供语义支撑。本文介绍了一种基于依存语义检测的答案抽取系统(DIAES,Dependency Inspection based AE System),该系统将句子的逻辑结构表示成基于依存语义关系的最小逻辑形式,具有复杂度低,处理效率高等优点,其研究成果为基于依存语义分析的实践应用提供了新的线索。

关键词:逻辑检测;信息检索;最小逻辑式;依存关系;谓词

AN ANSWER EXTRACTION SYSTEM based on Dependency

Semantic Analysis

Qiang Luo,Hongshuang YU

(1.Software Development Center of ICBC, Guangzhou ,510630)

(2.Guangdong Lingnan V ocational College, 510663)

【Abstract】In Answer Extraction, comparing semantic similarity between query and returned documents is a NLP method that removes irrelevant retrieval results from output of generic information retrieval system. For the limitations of semantic overload and similarity algorithm between predicates, however, semantic inspection does not work well on AE applications. This paper proposes an efficient method to perform Semantic Inspection on AE system that bases on Minimal Logical Forms (MLF), with incorporating Chinese concept expansion and quantifying predicate similarity computation. In practice, the method has successfully adopted by Dependency Inspection Answer Extraction System (DIAES), and shown satisfying performance in experiments.

【Key words】Semantic Inspection; Information Retrieval; MLF; Dependency Relation; Predicates

1引言

在答案抽取应用中,通过分析自然语言句子的语义结构,有助于估计问题和备选答案之间的语义相似度,从而提高检索系统的精确度。由于语义信息广泛存在于句子与句子,句子与段落,段落与段落之间,对诸如机器翻译、自动问答、抄袭检测等自然语言信息处理程度较高的应用产生重要的影响,因此该技术已经成为当今信息技术的研究热点,具有广阔的应用前景。

语义分析是一项包含词法分析、句法分析、语法分析和词义分析等处理环节的系统工程。在这个复杂的系统工程中,任一个处理环节的效率问题都可能成为整个系统的短板。事实上,大多数的研究成果表明,对所有处理流程进行的叠加并不能够产生预期的高质量处理效果。近年来,在普遍采用语义分析的答案抽取应用领域,大规模词法和句法分析的技术已逐渐融入经典语言模型中,一定程度解决了不同文本信息处理的效率问题。答案抽取应用采用的语义分析技术无外乎两种:1)统计模型,包括n元语言模型方法和词共现语言模型方法,其基本原理是通过词共现概率推断自然语言中的潜在语义关系[3];2)经验模型,利用庞大的语义知识库,通过分析词语之间语义联系的语义分析模型和基于句

法分析的语义分析模型等等[1,4-5]。由于语料规模的局限性和数据平滑的需要,近年来这两类语义分析模型已呈现逐步融合的趋势,产生了建立在传统语言模型的基础上的应用系统[6]。遗憾的是,无论基于大规模语料

基金项目:国家"十五"科技攻关计划重点项目

(A3480266);广东省自然科学基金项目(B6480598)作者简介:罗强(1974-),男,博士,主要研究方向为统计语言处理、信息检索;于洪霜(1979-),女,讲师,主要研究领域为法律知识管理、智能信息检索等;奚建清(1963-),男,教授,博士生导师,主要研究领域为知识管理、智能信息检索等。

E-mail:qluo163@http://www.wendangku.net/doc/cd7dfec377232f60ddcca1a2.html

的统计模型,还是基于语义知识库的经验模型,在处理词语之间语义关系的时候都将词与词之间的语义关系狭隘地理解为孤立的词之间的联系,而并未置于特定的语言上下文环境中,这就造成部分语义信息在处理过程中产生缺失,一定程度影响了语义分析效果和答案抽取的准确性。

本文介绍了一种基于依存语义检测的答案抽取系统DIAES (Dependency Inspection based IR System)[7],该系统是一种建立在依存语义分析基础上的统计语言模型,与传统的语言模型不同的是DIAES并不是孤立的处理词与词之间的依存语义联系,而是将整个句子中词之间的依存关系联结成一元逻辑关系式,同时对其中的主次依存关系进行筛选,进一步转换成最小逻辑式(MLF, Minimum Logical Form),这些处理流程有效避免了语义分析中的语义信息丢失,同时简化了语义分析的处理流程。在答案抽取试验中,DIAES系统定性地判断符合查询逻辑的候选文本,还通过语义扩展定量地计算逻辑关系的相关度,较好解决了语义超载问题,为语义分析技术在答案抽取系统的应用提供了新的思路。2系统概述

DIAES系统的基本原理是在文本信息检索处理基础上,对候选答案集合进行语义分析和语义检测,以挖掘出最适合提问问题的答案。为了满足语义分析的入口条件,系统初始化的处理对象,包括提问问题和候选答案集合,按照一元逻辑式标准在应用系统中实现依存分析、最小逻辑式构建和语义逻辑检测等处理。控制流程包含四个信息处理模块:文本信息检索、依存结构分析、最小逻辑构造和逻辑检测,它们之间存在着单向控制关系,每个模块配备下一个模块的标准接口:感应器和反感应器,感应器提供“GET”函数,反感应器提供“SET”函数。基于依存语义检测的答案抽取系统的实现方法是将控制流程的模块实现为自主运算构件,这些构件一方面通过感应器向下层接口输出信息,另一方面,通过反感应器接收上层接口提供的参数和信息。

基于依存语义分析的答案抽取系统

图1 DIAES系统架构图DIAES的系统架构如图1所示,其中依存分析构件(Dependence Parser)接收由文本检索系统Lucence预查找返回的候选文本(Candates)和自然语言问句,经过依存句法解析,分别输出对应的依存关系式,作为最小逻辑处理构件(Minimal Logic Form Proc)的输入参数;逻辑转换器接收一个包含多条依存关系的集合,经过逻辑转换器处理后,将部分次要的依存关系剔除,从而进一步形成最小逻辑式(MLF,Minimal Logical Forms)。MLF是由基本语义单元组成的一元逻辑关系,它支持以原依存语义关系为基础,通过词扩展模块(Word Expansion)进行语义扩展,以增加逻辑检测的容错性。最后,逻辑检测单元(Logical Inspection)根据提问问题和备选答案的MLF进行逻辑比较,并最终定位确切的答案。在整个处理流程中,生成MLF和语义检测是语义处理的关键所在,下面首先给出最小逻辑式的定义,然后着重介绍基于最小逻辑式的谓词相关度算法。3最小逻辑式

平逻辑式(FLF,Flat Logical Forms)是结构上非嵌套的一元平逻辑形式。根据依存句法理论,句子中词与词之间的依存关系构成结构唯一二元语义关系树,称为依存树。不妨将依存树视为一种平逻辑式。在一个句子中,称基本语义结构构成的平逻辑式为最小逻辑式(MLF)[1],其定义如下:

定义1平逻辑式(FLF)是五元组初等谓词EP(E,T,H,X,R),其中:

E={evt(事件类型),obj(实体类型),prop(修饰成分),at (专有类型)}是谓词类型集合,Prop表示evt和obj 的修饰成份,at的主要作用是用于联结状语;

T是中文分词;

H={e(i) | 0≤i≤n, e∈E}是谓词变量集,e(i)表示第i个谓词类型变量;

X={x(i) | 0≤i≤n }是实体变量集,通常只限于描述实体类型obj;

R={r(x) |r∈H∪r∈X}是参考变量集,表示和宿主谓词有逻辑联系的谓词变量。

定义2 最小逻辑式(MLF) 是由E组成的FLF。它是一个句子基本语义结构的最小单位。

MLF与FLF不同之处在于将自然语言的描述对象抽象为:1)obj:描述名词对象,例如:“obj(图片, o2 , x2 )”表示o2是一个x2为“图片”的谓词对象;2)evt:描述行为动词,例如:短语“附/v图片/n”中,“evt( 附, e2 , [x2 ] )”表示e2(“附”)是x2(“图片”)的谓词对象;3)prop:obj或evt的修饰成份,例如:短语“一/m 张/q 图片/n”中,“prop( 张, p2 , [x2 ] )”表示量词

p2(“张”)修饰x2(“图片”)。

定义3 关联谓词 设a ,b ∈E 是两个谓词对象,r(a)和r(b)分别表示a 和b 的参考谓词队列,构成关联谓词 iff b ∈r(a),或a ∈r(a)。设e(i) ∈E(a)和e(j) ∈E(b)分别为a 和b 的谓词变量,若a ∈r(a),那么a 与b 的谓词关联记为:EPA: h(a)→h(b),表示a 的核心词依存于b 的核心词。

4基于最小逻辑式的谓词相关度计算

基于依存语义分析的答案抽取系统

面向语义检测的谓词相关度算法包括两方面内容:(1)谓词对象的相似度计算,主要进行词汇语义扩展和谓词对象的词语/词性相关度计算任务;(2)谓词对象参照性比较,主要进行谓词关联性相似度计算任务。语义相似度评分由(1)和(2)两部分结果共同构成,下面是谓词相关度算法的具体步骤: 输入:Φ,Ψ

输出:Sim(Φ,Ψ)=∑p ∈Ψ,q ∈Φ linkscore (p ,q) 1、初始化:对每一个q ∈Φ,建立关联谓词队列Mpsq 和关联映射表AMapq

2、谓词之间的词义相关度:对于每一对p ∈Ψ,q ∈Φ,设Tp =wp,Tq=wq ,计算p,q 的词义相关度:

Sim(p,q) = Sim(wp,wq) = Maxi=1..n, j=1..m Sim(spi,sqi),其中,spi,..,spn 是wp 的义项,sqj,..,sqj 是wq 的义项。 3、谓词关联度:对于每一对p ∈Ψ,q ∈Φ,按照以下步骤计算linkscore(p,q):

(1)令p=arg Max p ,∈Ψ Sim (p ,,q )

(2)IF Sim(p,q) ≤ 0.8 THEN linkscore(p,q) = 0, 返回。 (3)FOR EACH q ,∈Mpsq FOR EACH p ,∈Mpsq

IF Sim (p ,,q ,) ≥ 0.8 AND p →ref p linkscore(p,q) += Sim(p,q)* Sim (p ,,q ,) ELSE IF Sim (p ,,q ,) ≥ 0.8 AND ?(p →ref p ,) linkscore(p,q) += 0.5*Sim(p,q)* Sim (p ,,q ,) END FOR END FOR

4、Φ和Ψ的语义相关度评分: For Each p ∈Ψ,q ∈Φ

Sim(Φ,Ψ)=∑p ∈Ψ,q ∈Φ linkscore (p ,q) End For

5、输出Sim(Φ,Ψ) 5实验结果

实验是在华南理工大学信息处理实验室的SCUTQA 数据集上进行的,该数据集共有测试问题747条,随机取其中的100条进行答案抽取试验,问题类型包括数字、

地点、人物、机构、定义和其它六类,表1

各问题类型的分布情况。实验中问题和备选答案的依存分析处理在基于SVM 学习的产生式依存分析器[11]实现,依存分析所采用的语义信息语料来自哈工大依存树库[10],该树库含中文句子10000条,共21万词,内容涉及政治、经济、文化等领域,其中的所有句子都经过分词、词性标注和依存分析处理,可以直接用于最小逻辑式转换和相似度计算。

评价答案抽取的性能。

定义10 精度 PREC = 返回的正确结果数 / 返回结果总数

定义11 召回率 Recall = 返回的正确结果数 / 正确结果总数 定义12

N

i=11

MRR=∑标准答案在系统给出的排序结果中的位置

定义13

N

i=11

ERR=∑第一个错误答案在系统给出的排序结果中的位置

表2是DIAES 和基于词共现的语义分析模型TAES 的答案抽取基本检索性能比较,TAES 采用三元语言模型进行词共现语义分析。两系统同时发布在B/S 网络环境下,评比的信息检索性能指标包括检索精度和系统响应时间两部分:

1)在检索精度方面,DIAES 在PREC 、MRR 和ERR 各方面指标均优于采用基本语言模型的TAES 系统,其中PREC 和MRR 分别提高了45.4%和11.6%,ERR 则降低了30.3%。这表明DIAES 得益于更为深入的语义分析处理,过滤掉部分不符合逻辑约束的检索结果,另外,由于词义扩展和最小逻辑式的应用,进一步改善了谓词相关度计算性能,减少了语义信息缺失造成的影响。

2)在响应时间方面,TAES 的CPU 时间耗费只有0.667s/每百条,显著低于DIAES 系统的0.994/每百条,可见进行依存语义分析牺牲了一定程度的时间代价。尽管如此,考虑到本地I/O 操作和语料数据训练的影响,DIAES 的整体响应速度仍然是可以接受的。

基于依存语义分析的答案抽取系统

基于依存语义分析的答案抽取系统

表3是不同问题类型的分类答案抽取性能比较结果。表中所示数据可见,问题类型对答案抽取系统的影响比较大。其中,以时间、地点、人物和数字等为代表的事实类型问题的查询性能较好,两系统均达到了60%以上的精度。在这类问题中,除了数字类型的精度外,DIAES 系统的其他性能均均优于TAES;此外,在以定义类型问题为代表的非事实问题的性能差异比较中,两系统的差异不明显,且测试精度不如事实问题,可能的原因是事实周围的上下文更易于形成语义检测的环境。在以依存语法为基础的逻辑转换中,事实的上下文体现事实与其他词构成的语义联系,这种联系在以说明和叙述为主非事实问题中并不容易体现出来。

通过以上实验可知,DIAES系统由于采用依存语义分析和基于最小逻辑式的逻辑检测处理技术,在整体性能上优于传统的基于词共现技术的TAES系统。尽管如此,由于DIAES在语义分析和转换处理牺牲预期的CPU时间,因此其响应速度上低于DIAES系统。

基于依存语义分析的答案抽取系统

6 结论

本文的主要贡献在于:(1)提出了基于最小逻辑式的语义检测算法,该算法有效结合了扩展词义和语义关联计算,是一种较为实用的语义分析在答案抽取的应用方法。(2)在(1)基础上,实现了基于依存语义检测的信息检索系统DIAES,实验证明了语义分析算法在该系统性能的可行性和有效性。

目前,语义分析在答案抽取领域的应用仍存在许多亟待改进的问题,今后工作着重解决如下三个问题:(1)如何提高语义分析系统的性能;(2)如何提供甄别主次依存关系的算法效率;(3)针对自然语言处理非常有限的现状,语言模型如何利用包含噪音的语言学信息,尽可能减少语义分析中的噪音影响。

参考文献

D. Mollá, G. Schneider, R. Schwitter, and M. Hess.

Extraction Using a Dependency Grammar in

Traitement Automatique de Langues (T.A.L.),

Issue on Dependency Grammars, pages 145-178, November 2000.

[2] HAYS David, Dependency theory: A formalism and some observations, Language,vol. 40, pp. 511-525, 1964.

[3] 余正涛, 樊孝忠,等, 基于潜在语义分析的汉语问答系统答案提取, <<计算机学报>>2006年第29卷第10期.

[4] Diego Molla and Ben Hutchinson. Dependency-based semantic interpretation. for answer extraction. In Proc. 2002 Aus-. tralasian NLP Workshop, 2002.

[5] Diego MolláAliod, Rolf Schwitter, Fabio Rinaldi, James Dowdall, Michael Hess. ExtrAns: Extracting Answers from Technical Texts. IEEE Intelligent Systems 18(4): 12-17 ,2003.

[6] 胡宝顺, 王大玲, 于戈, 马婷. 基于句法结构特征分析及分类技术的答案提取算法,<<计算机学报>>2008年第31卷第04期.

[7] 罗强. 中文语义依存分析技术及其答案抽取应用的研究. 华南理工大学博士学位论文,2007.

董振东,董强. 知网.

,李素建.基于《知网》的词汇语义相似度计算.

,2002

.哈工大信息检索研究室汉(HIT IR-Lab Chinese Dependency Treebank).

SVM学习的产生式依存分<<中文信息学报>> 2007年第21卷第04期