文档库 最新最全的文档下载
当前位置:文档库 › 基于大规模语料库的汉语词义相似度计算方法

基于大规模语料库的汉语词义相似度计算方法

基于大规模语料库的汉语词义相似度计算方法

石静1, 吴云芳1, 邱立坤2, 吕学强3

【摘要】词义相似度的计算是自然语言处理领域的关键问题之一,它在信息检索中的查询扩展、机器翻译中的模块识别,以及句法分析、词义消歧等任务中都发挥着重要的作用。该文研究了基于大规模语料库的汉语词义相似度计算方法,系统地比较分析了上下文特征权值的选择、向量相似度计算方法、基于窗口和基于依存关系的表征形式、新闻语体和网络语体的差异。实验结果表明,在网络语言语料上,基于窗口选取上下文特征,用互信息PMI来计算权值,采用cosine来计算相似度,取得了最好的词义相似度结果。

【期刊名称】中文信息学报

【年(卷),期】2013(027)001

【总页数】7

【关键词】词义相似度;上下文特征;权值选择;依存关系

1 引言

词汇语义信息是自然语言处理中很重要的资源,是进一步进行句法和语义分析的基础。在信息检索中的查询扩展、机器翻译中的模块识别等方面,相似词都是不可或缺的知识资源;在句法分析、词义消歧等信息处理任务中,词语相似度也发挥着重要的作用。而相似度词典的手工构建是一项费时费力的浩大工程,存在着不易更新、覆盖度不全等诸多缺陷。自动地获取相似词并得到相似度,使自动构建词典成为可能,不仅减少了工作量,还使词典资源能够定时更新和扩展。

词义相似度的计算可分为两大类方法:基于大规模语料库和基于词典。基于词

相关文档