文档库 最新最全的文档下载
当前位置:文档库 › 汉语比较句识别研究

汉语比较句识别研究

第22卷 第5期2008年9月

中文信息学报

JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G

V ol.22,No.5Sep.,2008

文章编号:1003 0077(2008)05 0030 09

汉语比较句识别研究

黄小江,万小军,杨建武,肖建国

(北京大学计算机科学技术研究所,北京100871)

摘 要:比较是常见的表达方式,提取事物之间的比较关系是一项新颖而有实用价值的研究。识别自然语言中的比较句,是提取比较关系的一个重要步骤。目前还没有针对汉语比较句的自动识别研究,语言学上比较句的哪些特征能够应用到自动识别上来是一个亟待研究的问题。该文讨论了汉语比较句的范畴、外延和特征,定义了汉语比较句识别的任务,并提出用SV M 分类器将汉语句子分为 比较 和 非比较 两类。该文比较了比较句的语言学特征和统计特征,包括特征词、序列模式等在分类中的作用。实验结果表明:基于类序列规则的SV M 分类器能够有效地识别汉语比较句,效果优于传统基于词的文本分类。

关键词:计算机应用;中文信息处理;汉语比较句识别;比较挖掘;文本分类;序列模式中图分类号:T P391 文献标识码:A

Learning to Identify C hinese C omparative Sentences

HU A NG Xiao jiang,WAN Xiao jun,YA NG Jian wu,XIA O Jian guo

(I nstit ute o f Co mputer Science and T echno log y of Peking U niversit y,Beijing 100871,China)

Abstract:Compariso n is a co mmo n kind of expressio n,and it is no vel and subst antial research to ex tract comparativ e relat ions betw een o bject s.Identifying comparat ive sentences in natur al lang uag e is an impo rtant step in ex tracting co mpar ativ e relat ions.T o o ur kno wledg e,t her e is no research on identify ing Chinese comparative sentences auto matically.T his paper f irst defines the pr oblem of Chinese comparat ive sentence identification,and then pr oposes to use SV M to classify a Chinese sentence into either comparative or not.V ar ious linguistic and stat istical features hav e been ex plo red,such as keyw or ds and sequential patterns.Ex perimental r esult s demo nstr ate the effectiv eness o f the sequential patter ns,i.e.the classifier w ith sequential patterns can sig nificant ly o ut perfo rm the tradit ional ter m based classifier.We also empirically investig ate the impo rtant facto rs that affect classification perfo rmance.Key words:comput er application;Chinese informat ion pro cessing ;Chinese comparativ e sentences identificatio n;co mpar ativ e m ining ;t ex t classif ication;sequential patter n

收稿日期:2008 04 03 定稿日期:2008 06 27

基金项目:国家863计划资助项目(2008AA 01Z421);国家自然科学基金资助项目(60703064);教育部高等学校博士点新教师基金资助项目(20070001059)

1 引言

比较是一种我们常用的阐述方式。提取事物之间的比较关系对于很多应用都具有非常大的价值。例如,我们可以发掘同类产品之间的异同和优劣,以便消费者决定购买意向;可以为决策者们提供以往的相似案例,以便推测当前方案的前景;可以找出人

物之间的共同兴趣、爱好、经历,方便人们交友等等。

比较关系的挖掘是一个新颖的任务,目前在这方面的工作较少。Jindal 等研究了如何判定英文的比较句[1]

,以及从比较句中抽取比较的元素[2]

。除

直接对句子做分析外,还有从其他角度分析和挖掘事物之间的比较关系。Zhai 等通过Cross Collection Mix ture M odel 挖掘若干文档集之间的共性与差别[3,4];Sun [5]、Luo [6]等通过W eb 搜索来

5期黄小江等:汉语比较句识别研究

比较两个对象,揭示它们之间的关系;Feldman等从论坛上抽取产品的比较等[7]。

对汉语的比较关系研究主要集中在语言学领域,包括比较的范畴[8~10]、典型的比较句式[11,12]、比较的语义[13]以及比较的共时和历时研究等。这些工作对比较关系的挖掘有着指导意义,但并不能直接运用到计算机的自动挖掘上来。国内从计算语言学、W eb数据挖掘等领域对汉语比较的研究尚没有开展。

自然语言中的比较句是专门叙述事物间比较的一种句式,识别文本中的比较句是一种挖掘比较关系的手段。本文中,我们尝试使用数据挖掘技术来自动识别汉语比较句。我们分析了汉语比较句的内涵和外延,对一些存在争议的句式作了澄清,并讨论了比较句在词汇和语序上存在的一些特征。我们使用SVM分类器综合这些特征,将汉语句子划分为 比较和 非比较两类。我们还讨论了一些影响分类器的因素。实验显示,基于序列模式的分类器和基于词汇特征的分类器相比,尽管在召回率上略有下降,但在准确率上具有明显的优势。同时,通过在分句上抽取短的序列模式,基于序列模式的分类器能够达到最好的效果。

本文如下组织:第2节从自然语言的角度定义汉语比较句,并讨论它的一些特征;第3节叙述自动识别比较句的方法;第4节给出实验和结果;最后是结论和展望。

2 汉语比较句

2.1 比较的内涵

比较句在各种语言中广泛存在,对它的研究无论在西方还是东方都是由来已久。Lerner等将比较定义为某个度上的普遍数量[14],而Stassen认为比较结构是具有在某个谓词量级上赋予两个物体分级位置功能的结构[15]。将汉语中的比较作为一个语法范畴进行研究,从1898年?马氏文通#创建汉语语法系统之初就已经存在,其后又有多人论述,总体思路 基本上都是先从语义概念上划定类别,再将相应的语法形式按语义归类[10]。

从语义上来说,汉语比较句描述了两个或多个事物在某个属性(维度)上(相同或不同)的位置关

中国的国土面积比美国大。

在上述例子中, 中国为比较主体, 美国为比较基准, 国土面积为比较点,即主体和基准之间比较的共同属性,而比较结果是 大。

依照比较所描述的位置关系,可以将比较进一步划分成几个次范畴。具体的划分方法,语言学界尚存在一些争议,主要分歧在差比和极比的关系,以及差比的细分等方面。考虑比较的语义,我们将比较划分为以下几个次范畴:

表1 比较的次范畴

次范畴语 义例 句

平比

被比较对象的属性相同

或近似

我和他一样高

高下

两者之间有顺序上的差

我比他高一些不同

两者存在差异,但没有

高低之分

大陆和香港的政治制

度不同

极比多者之间的极值

各门功课之中,数学

最难

2.2 比较的外延

尽管学术界对比较的语义范畴争议不大,但对比较句的具体外延,即哪些句子是比较句,并没有统一的意见。一般来说,形如 X比Y R?、 X不如Y R、 X有/没有Y R、 X跟Y一样R等的句子,大家公认为比较句。但对 越%%越%%、 越来越R、 连Y都/也R、 X比较R、 与其Y,不如X 等形式的句子,意见不一。对于这个问题,我们认为应当从句子的语义出发,看其中心语义是否是一个比较。

&形如 越%%越%%、 越来越R的 递比句不是比较句,因为这些句子中难以确定比较主体和比较基准。

&形如 连Y都/也R的句子不是比较句。这样的句子实际是一个三段论的小前提。这个表述中隐含的大前提是 X比Y R,其结论是 X也R。然而,这个比较并非基于显式的表达,而是基于人们的认知。同时,比较的主体也没有在句中出现。

& X比较R不是比较句。 比较一词兼有相对程度和绝对程度的含义,语义模糊。

31

中文信息学报2008年

&如果一个句子的主干不是比较句,那么这个句子不是比较句。例如: 最终我们获得了成功。在这个句子中,虽然 最终表述了时间维度上的尤最,但它只是一个修饰成分,并不是句子的主要含义。

& 与其Y,不如X是比较句。虽然这些句子在语义上表达一种选择或建议,但比较的主体和基准是明确的,而且确实表述了一种高下关系,符合比较句的定义。

&对比句是比较句。对比指把两种不同的事物或者同一事物的两个方面放在一起相互比较的一种辞格[16]。例如: 这张桌子新,那张桌子旧。尽管对比句有自身特殊的句法形式,但它确实描述了两个事物之间相同或不同的关系,仍然符合比较句的定义。

2.3 比较的特征

2.3.1 相对程度副词

比较句中有一大部分是就属性(形容词)来做比较。英文中,形容词和副词的比较是通过变化词的形态(比较级、最高级)来体现。汉语中没有词的形态变化,但存在一些修饰的副词。例如,相对程度副词中的 最类(最、极、顶),相当于英文的最高级,而 更类(更/更加、越发/愈发),相当于英文的比较级。

2.3.2 比较词

在比较句中,有一些成分可以随机变化,例如比较主体,比较基准等。还有一些词在相似的句子中固定不变,充当引导比较基准的角色,我们称之为比较词。例如:

我比他高10cm。

文学源于生活,高于生活。

地上的土有个铜钱厚。

明确比较词的出现,以及比较词的虚化,是比较句语法化的重要标志。甚至有学者认为,包含语法化的比较词的句子,才能够称为比较句。虽然这样的定义过于狭隘,但也从另一方面强调了比较词对指示比较句的重要作用。

2.3.3 比较实词

汉语中存在一类比较句,通过实词的语义而非虚词或形态来表示[17],如:

一号楼的高度超过二号楼。 2.3.4 句法模式

随着汉语的发展,逐渐形成了一些比较固定的比较句的句法格式。车竞总结了现代汉语常用的一些句法形式[12],例如 X像Y一样(R)、 X R于Y、 X赶得上/赶上Y(R)等等。

刘丹青所提到的 纯语序型比较,也存在典型句子的模式[17]:

主语+形容词+基准

他进一步指出,在两种情况下,纯语序型比较句比较常见,一是带度量成分,如 他高我一头,二是时间维度上的递比句。在前面已经对递比句做过说明,不属于我们所说的比较范畴之内。

对比句有其特殊的句法模式。对比句通常包含两个分句,分句的谓语由反义词、某一语句的肯定、否定形式或者类义词构成[13]。

2.3.5 其他特征

上述的比较特征,并不是一个完备的特征集。例如,存在句法模式的一些变体。此外,除词汇、语序等特征外,还有一些更深层的特征,包括特定搭配、要素省略和语义约束等等。这些丰富而复杂的特征,使得比较句的准确识别是一个十分困难的问题。

3 比较句识别

3.1 比较句识别的任务

比较句识别的任务,是对任意给定的一个句子:

a)判断其是否属于比较句。

b)进一步的,判断其属于哪个次范畴。

形式上,即寻找一个从句子到类别的函数f: S?C,其中,S是所有句子的集合,C是类别集合。对于子任务a,C={非比较,比较};而对于子任务b,C={非比较,平比,高下,不同,极比}。本文工作围绕子任务a,即将句子划分为比较句和非比较句。进一步的分类工作留待后续研究。

比较句识别实质是分类问题,找到一种能够区分比较句与非比较句的特征是识别的关键。从比较句的语言特征来看,比较句和非比较句一方面存在词汇上的差异,这就使得应用传统的文本分类技术成为一种可能;另一方面,还存在着语序差异,序列模式匹配也是一种识别的方法。

3.2 SVM分类器

32

5期黄小江等:汉语比较句识别研究

最早由Boser等提出[18],它通过一个能够区分两类

数据,并且与数据具有最大间隔的超平面来分类。

具体的,超平面形如w&x+b=0,其与两类数

据之间的间隔为2/(w(。对于一个线性可分的训

练集:

D=x i,c i|x i)R p,c i)-1,1,

参数w、b满足以下约束:

c i x i&w+b-1?0, i

为了最大化间隔,SVM选择参数w、b以最小化

(w(2。

在分类阶段,对于一个未标注数据x,SVM分

类器按如下公式预测类别:

f(x)=sg n(w&x+b)=+1 if w&x+b>0 -1 otherw ise

当数据集线性不可分时,SVM使用一个核函数将数据映射到一个更高维的线性可分的空间中再做分类。

由于SVM具有很强的理论基础和出色的实际表现,它被广泛引用在文本分类[19]、句法分析[20,21]、图像识别[22]等诸多领域,取得了良好的效果。

3.3 基于特征词的比较句识别

由2.3节中的讨论,我们直觉上认为可以根据一些特征词(包括相对程度副词、比较词、比较实词等)的有无来判定一个句子是不是比较句。为了获得这个特征词集,我们收集了车竞[12]给出的比较句模式中的比较词、我们在标注数据的过程中发现的特征词,以及我们可以想到的其他一些特征词。附录A给出了最终的比较词集。

基于特征词方法的一个困难在于,一个词往往具有多重含义。词性能够部分指示词的语义。例如, 和作为连词时,并不具有比较的意义。因此,我们将词本身和它的词性结合起来作为一个特征。在这个特征集上,句子用一个二值的向量表示,再用SVM进行训练和分类。

3.4 基于序列模式的比较句识别

尽管存在一些特征词能够指示比较句,但有很多比较句的用词与非比较句的差异并不明显。从前述比较句的结构特征来看,大部分汉语比较句符合某种序列上的模式。如果我们能够抽取出这些模 3.4.1 类序列规则

序列模式挖掘是数据挖掘中的一个重要任务,它的目标是找出所有满足用户指定的最小支持度的序列模式。由于我们希望能够区分比较句和非比较句,我们需要挖掘每类中特有的模式。通过将模式和类别绑定,类序列规则挖掘的目标是找出与类别具有高相关性的序列模式。

形式化的,I={i1,i2,%,i n}是一个项的集合,项集X是一个非空的项的集合。一个序列s是项集的有序表,记为+a1a2%a r,。其中,a i是一个项集,也称为s的一个元素。序列的长度是序列中项的个数。给定序列s1=+a1a2%a r,和s2=+b1b2%b m,,如果存在1?j1

在类序列规则挖掘中,输入数据D是一个二元组的集合,D={(s1,c1),(s2,c2),%,(s n,c n)},其中s i是一个序列,c i)C是数据所属的类别标注。类序列规则(Class Sequential Rule,CSR)是一个蕴涵式X?c,其前件X是一个序列模式,后件c)C是一个类别标注。

对于D中的一个数据实例d=(s i,c i)和CSR:X?c,如果X是s i的子序列,则称d覆盖CSR;如果d覆盖CSR,且c=c i,则称d满足CSR。规则的支持度(Support)是数据集合D中满足该规则的实例所占的比例。规则的置信度(Confidence)是数据集D中满足该规则的实例与覆盖该规则的实例的比值。

3.4.2 序列数据集生成

在挖掘序列规则之前,我们需要将句子集变换为序列集。最简单的方法是把每个句子当作一个序列,每个词当作一个元素。但这样的做法会导致严重的数据稀疏问题。Jindal认为对于比较句中可以替换的部分(主体、基准等),应该具有类似的语法结构和词性信息[1]。他的做法是对特征词,将词和词性组合起来作为一个元素,而对于句子的其他词,则只用词性作为序列的一个元素。其缺陷是抽取的CSR依赖于特征词的选取。我们尝试了另一种方案,将句子的每个词和它的词性作为序列元素的两个项,但实验表明该方法在小规模数据集上的效果较差。因此本文中元素的生成沿用Jindal的策略。

序列的长度是生成序列集的另一个重要因素。直觉上,我们希望序列具有足够判定类别的最小长

33

中文信息学报2008年

项。例如:

珠穆朗玛峰/n高/a8848/q米/m,位/v 于/p中国/n西藏/n

该句作为一个序列,符合规则 */a于/p?C,而易与比较句混淆。

Jindal等通过窗口策略,取特征词前后3个,共7个词作为一个序列。但汉语的比较句不像英文那样结构紧凑。例如:

核心/n方面/n与/p目前/t65/m nm/q 双核/n炫龙/n64/m位/q处理器/n完全/d 相同/a

这个句子的比较基准很长,造成了两个特征词 与和 相同之间的间隔较大。而英文中相似的 same as几乎总是出现在一起的, as%as中也只隔一个词。这个语言特征使得在汉语语料上,难以确定一个合适的窗口大小。如果选择一个较大的窗口,实际上已经近似于将整个句子作为一个序列了。

从对数据的观察来看,多数非对比性的比较结构,或者比较结构的主要部分出现在一个分句之中。判断分句是不是包含比较结构,就能够判断一个句子是不是比较句。因此,我们选择每一个分句作为一个序列。然而,这样的方法对于一些意会式和对比式的比较会有副作用。考虑到人们通常使用的比较中,语法化的比较句占有多数,总体上这种策略有助于比较句的判定。

3.4.3 CSR挖掘

给定一个已标注类别的序列数据集、最小支持度阈值和最小置信度阈值,CSR挖掘算法找出数据集中所有满足这些约束的CSR。常用的序列模式挖掘算法,例如GSP[23]、PrefixSpan[24]等都可以被移植到CSR挖掘上来。本文采用了Prefix Span的变形算法,限于篇幅,详细算法步骤并未给出,可参考文献[25]。

Jindal提出,一个统一的置信度阈值难以适应元素频率差异较大的数据集。为此,他提出了采用多个支持度阈值的方法,每条规则必须满足如下约束:

sup(r)> &m in(f i)

其中,f i是规则r中第i个项在数据集中出现的频率, 是一个(0,1)之间的阈值。该方法能够有效地挖掘包含低频项的规则,但缺点是导致计算量量急剧增长。为此,本文使用如下支持度约束:

sup(r)>max( &min(f i),s)

其中,s是一个大于1/N的支持度阈值。本文中, =0.1,s=2/N,置信度阈值为0.65。附录B给出了一些类序列规则的例子。

3.4.4 基于CSR的比较句识别

在挖掘出序列规则集R之后,每个序列s都与R中的所有规则匹配。匹配的结果指示s是否覆盖该规则。我们用这些结果组成的向量表示s。形式化的给定规则集R={r1,r2,%,r m},序列s表示为+f1,f2,%,f m,,其中,

f i=

1 if s覆盖r i

0 otherw ise

, 1?i?m

我们在这些特征向量上训练SVM分类器,然后用这个分类器来对测试集中句子生成的序列进行分类。

当一个句子只生成一个序列时,序列的类别就是句子的类别。当一个句子生成多个序列时(例如,每个分句生成一个序列),我们采用以下方法预测句子的类别:

C(sent)=

.C/, if !s eq(seq)S0C(seq)=.C/)

.NC/, otherw ise

, 其中,S是句子sent所生成的序列集,.C/表示比较句,.N C/表示非比较句。

4 实验与结果

4.1 数据集

汉语比较句的判定是一个新颖的问题,目前没有公开的评测数据集可以使用。因此,我们自己收集了一些数据实例。数据来自 中关村产品论坛?上用户对笔记本电脑的评论,并人工标注出比较句。数据集的样本情况如表2所示:

表2 数据集样本情况

非比较句比较句数量1297458

4.2 评价方法

我们采用传统的正确率、准确率、召回率和F 测度来评价系统。对于表3所示的分类结果矩阵,

34

5期黄小江等:汉语比较句识别研究

正确率=tp +tn tp +f p +tn +f n ,准确率=tp

tp +f p ,

召回率=

tp tp +f n ,F 测度=2tp

2

2tp 2

+tp 1f p +tp 1f n

表3 分类结果矩阵

实际比较句

实际非比较句

判定比较句 t p fp 判定非比较句

fn

tn

由于数据集的数量较小,在实验中我们使用5份交叉验证的方法。具体的,我们将数据分为5份,每次用4份作为训练集,1份作为测试集,最终的结果是5次实验的平均指标。4.3 实验结果

4.3.1 比较句识别

实验中,我们比较了使用不同特征的SVM 分类器识别比较句的效果。SVM 的实现选用SVM Light ?,并采用线性核函数。结果如表4所示。其中,Baseline 为基准系统,基于传统的词袋(Bag of w o rds)模型,将每个词作为一个特征;KW 只保留特征词作为特征;WP 将词和词性结合作为特征;KWP 只保留特征词和词性的结合;CSR 则用挖掘出的序列规则作为特征。

表4 基于词的分类结果正确率

准确率召回率F 测度Baseline 90.1%96.7%64.2%0.772KW 89.9%91.7%67.5%0.778WP 90.5%98.7%64.7%0.781KW P 91.2%95.7%69.9%0.806CSR

92.7%

91.4%

79.6%

0.850

总体上,分类的准确率很高,但召回率较低。通过去除句中的非特征词,KW 方法在召回率上有所提升,但准确率有所下降。通过将词和词性组合成为一个特征项,能够进一步提高准确率和召回

率(WP 相对Baseline,KWP 相对KW)。在这些方法中,基于CSR 的方法虽然在准确率上略有降低,但在召回率和F 测度上均明显高于其他方法。与Baseline 相比,CSR 的召回率提高了23.9%,F 测度提高了10.1%,而准确率仅降低了5.5%。

响最终分类的效果。本实验中我们比较了不同的策略,包括整个句子作为一个序列(WS)、特征词的上下文作为一个序列(Cn,n 为窗口半径)和每个分句

作为一个序列(SS)。在WS 策略中,因内存限制,我们限定规则的最大长度为4个元素。在之后的实验中我们将看到,规则过长时分类效果反而下降,因此我们认为这样的设定不会对结果产生非常大的影响。对于Cn 和SS 策略,我们都不限制规则的长度。实验结果如图1所示。

图1 不同序列生成策略的效果对比

从结果上看,Cn 策略要优于WS 策略,当窗口

半径为5时,达到最好的分类效果。这也证实了汉语的比较结构没有英文中的紧凑。同时,我们看到,SS 策略的效果略优于Cn 策略和WS 策略。 4.3.3 规则长度的影响

我们已经知道序列长度对提取规则存在影响,同时我们发现汉语的比较结构跨度较大。由此,一个有趣的问题是,规则的长度对分类是否存在影响?或者说,多长的序列能够有效地指示一个比较呢?

本实验中,我们比较了限制规则最大长度下分类效果。实验中,序列数据集由SS 策略生成。结果如图2所示。

图2 限制规则长度的分类效果对比

35

中文信息学报2008年

从结果中看到,当规则长度为1时,准确率最高,而召回率最低,实际上,此时规则已经退化为对特征词的选择。规则长度为2和3时,识别的效果最好,而当长度更大时,因为召回率的下降,导致F 测度略有下降。尽管识别效果的差异并不明显,但随着规则最大长度的增加,规则的数量呈现快速增长,如图3所示。综合考虑,将规则的最大长度限制在2至3

个元素是一个合理的选择。

图3 规则数量对比

4.3.4 实例分析

例1.拿笔记本来玩游戏的人没有拿笔记本来办公的人多。(比较句)

这个句子在语言学角度来看,符合 X 没有Y R 的模式。但基于特征词的分类器将它判断为一个非比较句,因为特征词 没有 在非比较句中也十分常见。基于CSR 的方法正确地识别了这个比较句,其中,满足的规则包括:

a)*/u 没有/d ?NC b)*/v 没有/d ?NC c)*/n 没有/d ?N C d)没有/d ?NC e)没有/d*/a ?C f)没有/d*/v ?NC g)没有/d*/n ?N C

我们看到,规则e 是句法模式的一个简化形式,并且在这次分类中起了决定性作用。

例2. 属性 中的数值大于剪切下来的图片。(比较句)

这个比较句在语言学上符合的模式是 X R 于Y 。同样,由于特征词 于 在两个类别中出现都很频繁,基于特征词的SVM 将其判定为一个非比较句。CSR 的方法正确地识别了这个句子,依据的规则为:

a)*/a 于/p ?C

b)*/v 于/p ?NC 其中,规则a 对识别起了决定作用。

例3.此双核解决方案有利于提高系统性能。(非比较句)

对于这个句子,基于CSR 的分类器根据以下规则将其错误地识别为一个比较句:

a)*/m 于/p ?NC b)*/r 于/p ?NC c)*/a 于/p ?C d)*/v 于/p ?NC e)于/p */v ?N C

f)于/p */n ?NC

然而,这个句子的特别之处在于,虽然它满足 X R 于Y 的模式,但充当R 的形容词 有利 不是一个性质形容词,并不表达一个比较的含义。类似的还有 便于 、 安于 等。但由于生成序列时词汇的差别被丢弃了,因而导致了识别的错误。一种解决的方法是把这些特别的形容词收录到特征词表中,但这个工作是巨大而困难的。如何有效地解决这样的错误,有待于进一步的研究工作。

5 结论和展望

本文定义了汉语比较句的范畴和汉语比较句自动识别的任务,并提出了用SVM 分类器将汉语句子分为 比较 和 非比较 两类。本文比较了汉语比较句的语言学和统计特征,包括词汇和语序模式等在自动分类中的作用。此外,本文还讨论了一些影响基于类序列规则分类器的因素,包括序列生成策略和规则长度等。实验显示,本文的方法能够有效地识别汉语比较句。

然而,我们也看到,无论是基于特征词的分类方法,还是基于类序列规则的方法,都有自身的局限性。汉语比较句所具有的特征远远超过词汇差别和语序差别,还包括特定搭配、语义约束等等。如何发掘新的特征,提高识别的准确率和召回率是一个值得研究的方向。就序列规则本身,也有改进的可能。例如,通过提取句子的主干,能够去除比较主体和基准的复杂定语对规则的干扰。另一方面,在语料库的建设上,收集一个更大规模的比较句集合也是一个迫切的需求。

参考文献:

36

5期黄小江等:汉语比较句识别研究

Sent ences in T ext Do cument s[C]//P roceedings o f t he

29th A nnual International ACM SIGIR Conference on

Research and Development in Infor mation Retr ieval.

A CM:2006:244 251.

[2] N.JIN DA L, B.LIU.M ining Com par ative Sentences

and Relatio ns[C]//Pro ceedings of the21st National

Conference o n Ar tificial Intelligence(A A AI 06).

2006.

[3] C.ZH AI, A.V EL IV EL LI, B.Y U.A Cro ss

Collectio n M ixtur e M odel for Comparative T ex t

M ining[C]//Pr oceeding s of the10th A CM SIGK DD

Internatio nal Co nfer ence on K now ledge Discover y and

Data M ining.A CM:2004:743 748.

[4] P.ZA NG, C.ZH AI.CT M S:a comparativ e t ex t

mining sy stem[D].Champaign:U niv ersity o f Illinois

at U rbana Champaig n Co mputer Science Depa rtment,

2004.

[5] J. T.SU N,X.W AN G, D.SH EN,H. J.ZENG,

Z.CH EN.CWS:A Co mpar ativ e Web Search System

[C]//Pr oceeding s o f the15th International Conference

on Wo rld W ide Web.A CM:2006:467 476.

[6] G.L U O, C.T A N G,Y. L.T IA N.A nswer ing

r elatio nship queries on the w eb[C]//P ro ceedings of

the16th international co nfer ence on W or ld Wide Web.

A CM:2007:561 570.

[7] R.FEL DM A N,M.F RESKO,J.G OL DEN BERG,

O.N ET ZER,L.U NG A R.Ex tracting Pr oduct

Compariso ns fr om Discussio n Boards[C]//Pro ceedings

of the Seventh IEEE Inter national Co nfer ence o n Data

M ining.2007:469 474.

[8] 马建忠.马氏文通[M].上海:商务印书馆,1898.

[9] 吕叔湘.中国文法要略[M].上海:商务印书馆,

1942.

[10] 许国萍.现代汉语差比范畴研究[M].上海:学林出

版社,2007.

[11] 吕叔湘.现代汉语八百词[M].上海:商务印书馆,

1980.

[12] 车竞.现代汉语比较句论略[J].湖北师范学院学报,

2005,25(3):60 63.

[13] 刘焱.现代汉语比较范畴的语义认知基础[M].上

海:学林出版社,2004.

[14] J. Y.L ERN ER,M.PI NK A https://www.wendangku.net/doc/fc4200538.html,parat ives and

Nested Q uant ificatio ns[M].Semantics:Crit ical

Co ncepts in L ing uist ics.2004:70 87.

[15] L.ST https://www.wendangku.net/doc/fc4200538.html,pariso n and U niver sal Gr ammar

[M].Basil Blackwell,1985.

[16] 朱德熙.语法讲义[M].上海:商务印书馆,1982.

[17] 刘丹青.差比句的调查框架与研究思路[C]//戴庆

厦.中国民族语言文学论集4.民族出版社:2004:1

T r aining Algo rithm f or Optimal M arg in Classifier s

[C]//Pr oceeding s o f the fifth annual w orkshop on

Computat ional learning theor y.A CM:1992:144

152.

[19] T.JO ACH IM S.T ex t catego rizatio n with Suppor t

V ect or M achines:L earning w ith many relevant

features[C]//P roceeding s of the ECM L 98,10th

European Co nfer ence on M achine L earning.

Spring er:1998:137 142.

[20] 李珩,朱靖波,姚天顺.基于SVM中文组块分析

[J].中文信息学报,2004,18(2):1 7.

[21] 黄德根,王莹莹.基于SV M的组块识别及其错误驱

动学习方法[J].中文信息学报,2006,20(6):17

24.

[22] 田盛丰,黄厚宽,李洪波.基于支持向量机的手写体

相似字识别[J].中文信息学报,2000,14(3):37

41.

[23] R.SRI KA N T,R.AG RA WA L.M ining Sequential

Pat terns:Generalizat ions and Per formance

Impro vements[C]//Pro ceeding s of the5th

Internatio nal Conference on Ex tending Database

T echno lo gy:Advances in Database T echnolog y.

Spring er V erlag:1996:3 17.

[24] J.PEI,J.H AN, B.M ORT AZ AV I A SL,J.

W AN G,H.PI NT O,Q.CHEN,U.DA YA L,M.

C.H SU.M ining Sequential P at terns by Pat tern

Gr ow th:T he P refix Span A ppr oach[J].IEEE

T r ansactio ns on K no wledg e and Data Eng ineer ing,

2004,16.

[25] B.L IU.Web Data M ining:Explo ring H yperlinks,

Contents,and U sage Data[M].Spring er,2006.

附录A 比较特征词

比 相比 于

超超过同

像相同不同

一样一模一样差不多

似似的相似

近相近而

都也最

顶更差

差别区别有

没有没不如

不及如和

跟与较

相提并论逊色那样

37

中文信息学报2008年

附录B 类序列规则(举例)

与/p天渊之别/a?C 同/a相同/a?C

跟/p一模一样/a?C*/q相同/a?C

和/p相近/a?C不及/v*/a?C

与/p相近/a?C不及/v*/n?C

*/n相似/a?C*/u不及/v?C

*/r差别/n?C和/p区别/n?C

和/p差别/n?C*/d超过/v?C

*/n差不多/a?C像/p*/a?C

和/p差不多/a?C不/d像/p?C

没有/d区别/n?C*/n跟/p?C

*/nt不及/v?C较/p有/v?C

*/n不及/v?C没有/d那么/r?C 和/p比/v?C不如/v*/nt?C

*/n比/p?C不如/v*/n?C

比/p*/d?C不如/v*/a?C

比/p*/a?C*/n不如/v?C

*/n比/n?NC与/p*/d?C

比/p减少/v?C与/p*/a?C

相比/v*/n?C没有/d*/a?C

与/p相比/v?C跟/p一样/a?C

*/n最/d?C*/r一样/a?C

最/d?C*/a于/p?C

最/d*/a?C*/v于/p?N C

注1:规则前件的每个元素为一个词和词性的组合, *表示任意一个词。

注2:词性集包括:名词n、处所s、时间t、动词v、形容词a、量词q、代词r、介词p、副词d、连词c、助词u、方位词f、感叹词e、拟声词o、成语、习语i、简称j、状态词z、语气词y、机构名nt、人名nr、地名ns、其他专有名词nz、数词m、标点符号w。

注3:规则后件C表示比较句,N C表示非比较句。

(上接第29页)

参考文献:

[1] 俞士汶,朱学锋,王惠,等.现代汉语语法信息词典详

解(第二版)[M].北京:清华大学出版社,2003年2月.

[2] 俞士汶,段慧明,朱学锋.汉语词的概率语法属性描述

[J].语言文字应用,2001,(3):21 26.

[3] 俞士汶.词的概率语法属性描述研究及其成果[C]//

中文信息处理现代汉语词汇研究.广州:广东教育出

版社,2006年9月第1版,227 283.

[4] 俞士汶,段慧明,朱学锋,孙斌,常宝宝.北大语料库加

工规范:切分&词性标注&注音[J].汉语语言与计算

学报,13(2):122 158.

[5] 朱德熙.语法讲义[M].北京:商务印书馆,1982年9

月.

[6] Y u Jiangsheng,Jin Z huihui,Wen Zhenshan.

A ut omatic detection o f collocation[C]//H ong K ong:

P roceeding s of t he4th Chinese L ex ica Semantics

Wo rkshop,2003.

[7] 俞士汶,段慧明,朱学锋,孙斌.北京大学现代汉语语

料库基本加工规范[J].中文信息学报,2002,16(5):

49 64,(6):58 65.

[8] 俞士汶,段慧明,朱学锋,张化瑞.综合型语言知识库

的建设与利用[J].中文信息学报,2004,18(5):1 10.

[9] 陆俭明.现代汉语语法研究教程(第三版)[M].北京:

北京大学出版社,2005年2月.

[10] 俞士汶,朱学锋,段慧明,张化瑞.以词义为主轴的综

合型语言知识库[C]//第六届汉语词汇语义学研讨

会论文集.厦门:厦门大学.2005年4月,214 221. [11] 俞士汶,段慧明,朱学锋.词语兼类暨动词向名词漂

移现象的计量分析[C]//自然语言理解与大规模内

容计算.北京:清华大学出版社,2005:70 76. [12] 方芳,李斌.基于语料库的数量名短语识别[C]//第

三届学生计算语言学研讨会论文集.沈阳,2006年8

月.

[13] 苏新春,等.汉语词汇计量研究[M].厦门:厦门大学

出版,2001.

[14] 何杰.现代汉语量词研究[M].北京:民族出版社,

2001.

[15] 俞士汶.建设综合型语言知识库的理念与成果的价

值[J].中文信息学报,2007,21(6):3 12.

38

相关文档
相关文档 最新文档