文档库 最新最全的文档下载
当前位置:文档库 › 浅谈自然语言处理

浅谈自然语言处理

浅谈自然语言处理
浅谈自然语言处理

浅谈自然语言处理

摘要

主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。

关键词

自然语言处理

Abstract

The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced.

Key Words:

Natural Language Processing(NLP)

0.引言

早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。

人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。

1.什么是然语言处理

美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。

简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。

互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

2.自然语言处理的发展历史

自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。

●萌芽期(1956年以前)

1956年以前,可以看作自然语言处理的基础研究阶段。一方面,人类文明经过了几千年的发展,积累了大量的数学、语言学和物理学知识。这些知识不仅是计算机诞生的必要条件,同时也是自然语言处理的理论基础。另一方面,阿兰·图灵在1936年首次提出了“图灵机”的概念。“图灵机”作为计算机的理论基础,促使了1946年电子计算机的诞生。而电子计算机的诞生又为机器翻译和随后的自然语言处理提供了物质基础。

由于来自机器翻译的社会需求,这一时期也进行了许多自然语言处理的基础研究。1948年Shannon把离散马尔可夫过程的概率模型应用于描述语言的自动机。接着,他又把热力学中“熵”(entropy)的概念引用于语言处理的概率算法中。上世纪50年代初,Kleene研究了有限自动机和正则表达式。1956年,Chomsky 又提出了上下文无关语法,并把它运用到自然语言处理中。他们的工作直接引起了基于规则和基于概率这两种不同的自然语言处理技术的产生。而这两种不同的自然语言处理方法,又引发了数十年有关基于规则方法和基于概率方法孰优孰劣的争执。

另外,这一时期还取得了一些令人瞩目的研究成果。比如,1946年K?enig 进行了关于声谱的研究。1952年Bell实验室语音识别系统的研究。1956年人工智能的诞生为自然语言处理翻开了新的篇章。这些研究成果在后来的数十年中逐步与自然语言处理中的其他技术相结合。这种结合既丰富了自然语言处理的技术手段,同时也拓宽了自然语言处理的社会应用面。

●快速发展期(1957-1970)

自然语言处理在这一时期很快融入了人工智能的研究领域中。由于有基于规则和基于概率这两种不同方法的存在,自然语言处理的研究在这一时期分为了两大阵营。一个是基于规则方法的符号派(symbolic),另一个是采用概率方法的随机派(stochastic)。

这一时期,两种方法的研究都取得了长足的发展。从50年代中期开始到60年代中期,以Chomsky为代表的符号派学者开始了形式语言理论和生成句法的研究,60年代末又进行了形式逻辑系统的研究。而随机派学者采用基于贝叶斯方法的统计学研究方法,在这一时期也取得了很大的进步。但由于在人工智能领域中,这一时期多数学者注重研究推理和逻辑问题,只有少数来自统计学专业和电子专业的学者在研究基于概率的统计方法和神经网络,所以,在这一时期中,基于规则方法的研究势头明显强于基于概率方法的研究势头。这一时期的重要研究成果包括1959年宾夕法尼亚大学研制成功的TDAP系统,布朗美国英语语料库的建立等。1967年美国心理学家Neisser提出认知心理学的概念,直接把自然语言处理与人类的认知联系起来了。

●低速的发展期(1971 -1993)

随着研究的深入,由于人们看到基于自然语言处理的应用并不能在短时间内得到解决,而一连串的新问题又不断地涌现,于是,许多人对自然语言处理的研究丧失了信心。从70年代开始,自然语言处理的研究进入了低谷时期。

但尽管如此,一些发达国家的研究人员依旧不依不挠地继续着他们的研究。由于他们的出色工作,自然语言处理在这一低谷时期同样取得了一些成果。70年代,基于隐马尔可夫模型(Hidden Markov Model, HMM)的统计方法在语音识别领域获得成功。80年代初,话语分析(Discourse Analysis)也取得了重大进展。之后,由于自然语言处理研究者对于过去的研究进行了反思,有限状态模型和经验主义研究方法也开始复苏。

●复苏融合期(1994年至今)

90年代中期以后,有两件事从根本上促进了自然语言处理研究的复苏与发展。一件事是90年代中期以来,计算机的速度和存储量大幅增加,为自然语言处理改善了物质基础,使得语音和语言处理的商品化开发成为可能;另一件事是1994年Internet商业化和同期网络技术的发展使得基于自然语言的信息检索和信息抽取的需求变得更加突出。这样,自然语言处理的社会需求更加迫切,自然语言处理的应用面也更加宽广,自然语言处理不再局限于机器翻译、语音控制等早期研究领域了。

3.自然语言处理的研究内容

自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向:

●语言学方向

本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。

●数据处理方向

是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。

●人工智能和认知科学方向

在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。

●语言工程方向

主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。

4.自然语言处理的应用

以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是:

(一)口语输入: 语音识别、信号表征(语音信号分析) 、鲁棒的语音识别( Robust Speech Recognition) 、语音识别中的隐马尔可夫模型方法、语言表征理论(语言模型) 、说话人识别、口语理解;

(二)书面语输入: 文献格式识别、光学字符识别(印刷体及手写体) 、手写界面(如用笔输入的计算机) 、手写文字分析(如签名验证) ;

(三)语言分析和理解: 小于句子单位的处理(形态分析, 形态排歧) 、语法的形式化(如上下文无关语法、词汇功能语法、功能合一语法、中心语驱动的短语结构语法) 、基于约束语法的词表(Lexicons for Constraint2Based Grammars) 、计算语义学、句子建模与剖析技术、鲁棒的剖析技术(Robust Parsing) ;

(四)语言生成: 句法生成、深层生成;

(五)口语输出技术: 合成语音生成、用于文本—语音合成的文本解释( Text Interp retation forText2to2Speech Synthesis) 、口语生成(从概念到语音) ( Spoken Language Generation: Concep tion toSpeech) ;

(六)话语分析与对话: 话语建模(Discourse Modeling) 、对话建模、口语对话系统;

(七)文献自动处理: 文献检索、文本解释:信息抽取、本文内容的自动归纳(如自动文摘) 、文本写作和编辑的计算机支持、工业和企业中使用的受限语言( Controlled Languages in Industry andCompany) ;

(八)多语问题的计算机处理: 机器翻译、人助机译、机助人译、多语言信息检索、多语言语音识别、自动语种验证;

(九)多模态的计算机处理: 空间和时间的表征方法(从文本中抽取空间和时间的信息) 、文本与图像处理、口语与手势的模态结合(使用数据手套) 、口语与面部信息的模态结合: 面部运动与语音识别、口语与面部信息的模态结合: 面部运动与语音合成;

(十)信息传输与信息存储: 语音编码(语音压缩) 、语音品质提升;

(十一)自然语言处理中的数学方法: 统计建模与分类的数学理论、DSP (数字信号处理) 技术、剖析算法的数学基础研究、连接主义的技术(如神经网络) 、有限状态分析技术、语音和语言处理中的最优化技术和搜索技术;

(十二)语言资源: 书面语料库、口语语料库、机器词典与词网的建设、术语编纂与术语数据库、网络数据挖掘与信息提取;

(十三) 自然语言处理系统的评测: 面向任务的文本分析评测、机器翻译系统和翻译工具的评测、大覆盖面的自然语言剖析器的评测、人的因素与用户的可

接受性、语音识别: 评估与评测、语音合成评测、系统的可用性和界面的评测、语音通信质量的评测、文字识别系统的评测。

这13项内容都涉及语言学。这些研究都要对语言进行形式化的描述, 建立合适的算法, 并在计算机上实现这些算法, 因此, 要涉及数学、计算机科学和逻辑学。口语输入、书面语输入、口语输出、信息传输与信息存储都需要电子工程的技术。由自然语言的应用领域更加进一步说明,自然语言处理都是一个多边缘的交叉学科。由于它的对象是语言, 因此, 它基本上是一个语言学科, 但它还涉及众多的学科, 特别是计算机科学和数学。

5.自然语言处理研究的发展趋势

21世纪以来, 由于国际互联网的普及, 自然语言的计算机处理成为了从互联网上获取知识的重要手段, 生活在信息网络时代的现代人, 几乎都要与互联网打交道, 都要或多或少地使用自然语言处理的研究成果来获取或挖掘在广阔无边的互联网上的各种知识和信息, 因此, 世界各国都非常重视有关的研究, 投入了大量的人力、物力和财力。

自然语言处理研究的历史虽不很长,但就目前已有的成果足以显示它的重要性和应用前景。在美、英、日、法等发达国家,自然语言处理如今不仅作为人工智能的核心课题来研究.而且也作为新一代计算机的核心课题来研究。从知识产业的角度来看.自然语言处理的软件也占重要地位,专家系统,数据库、知识库.计算机辅助设计系统(CAD)、计算机辅助教学系统(CAl)、计算机辅助决策系统,办公室自动化管理系统、智能机器人等,无一不需要用自然语言做人一机界面。从长远看.具有篇章理解能力的自然语言理解系统可用于机器自动翻译、情报检索、自动标引,自动文摘.自动写故事小说等领域,具有广阔的应用领域和令人鼓舞

的应用前景。

当前国外自然语言处理研究有三个显著的特点:

第一, 随着语料库建设和语料库语言学的崛起, 大规模真实文本的处理成为自然语言处理的主要战略目标。

随着人们对大规模真实文本处理的日益关注, 越来越多的学者认识到, 基于语料库的分析方法(即经验主义的方法) 至少是对基于规则的分析方法(即理

性主义的方法) 的一个重要补充。因为从“大规模”和“真实”这两个因素来考察, 语料库才是最理想的语言知识资源。

第二, 自然语言处理中越来越多地使用机器自动学习的方法来获取语言知识。

传统语言学基本上是通过语言学家归纳总结语言现象的手工方法来获取语言知识的, 由于人的记忆能力有限, 任何语言学家,都不可能记忆和处理浩如烟海的全部的语言数据, 因此, 使用传统的手工方法来获取语言知识是不可行的而带有很大的主观性。当前的自然语言处理研究提倡建立语料库, 使用机器学习的方法, 让计算机自动地从浩如烟海的语料库中获取准确的语言知识。机器词典和大规模语料库的建设, 成为了当前这个领域的热点。

第三, 自然语言处理中越来越多地使用统计数学方法来分析语言数据。

使用人工观察和内省的方法, 显然不可能从浩如烟海的语料库中获取精确可靠的语言知识, 必须使用统计数学的方法。目前,自然语言处理中的统计数学方法已经相当成熟, 如果我们认真地学会了统计数学, 努力地掌握了统计数学, 就会使我们在获取语言知识的过程中如虎添翼。

目前,我国的自然语言处理研究虽然已经取得不少成绩, 但是与国际水平相比, 差距还很大。我国的自然语言处理研究, 无论在理论上还是在应用系统的开发上, 基本上还没有重大的创新与值得称道的突破。我们的研究基本上还是跟踪性的研究, 很少有创造性的研究, 当然更谈不上具有原创思想的研究了。因此, 我们不能夜郎自大, 不能坐井观天,我们只有努力学习国外的先进成果, 赶上并超过国际先进水平, 使我国的自然语言处理在国际先进行列中占有一席之地,掌握国际先进的成果与技术用于国家和社会的进一步发展。

参考文献:

[ 1 ] 辛日华. 计算机自然语言处理.呼伦贝尔学院学报,2003,11(1)

[ 2 ] 冯志伟. 自然语言处理的学科地位.解放军外国语学院学报,2005,28(3) [ 3 ] 冯志伟. 自然语言处理的历史与现状,2008

创新教育实验报告

创新教育实习报告 学院名称管理学院 专业(班级)XXXXXXX 姓名(学号)XXXX 指导教师XXXXXX

经过我们专业老师的一个星期的努力,五天时间,虽然不能够完全了解创新教育的本质内涵,但是给力我们创新动力,老师都分别针对专业内的方向向我们介绍了运筹学,物流学等相关知识,另一部分被老师给我们讲到了一些生活中的案例以及人工智能的观念,大大激发了我们的创新意识,下面是我在课堂中所感受的重要的观点。 一.现代物流与物流信息化 1.现代物流的概念:现代物流不仅单纯的考虑从生产者到消费者的货物配送问题,而且还考虑从供应商到生产者对原材料的采购,以及生产者本身在产品制造过程中的运输、保管和信息等各个方面,全面地、综合性地提高经济效益和效率的问题。 现代物流基本功能: (1)运输 运输是对物资进行较长距离的空间移动,包括人和物的载运及输送。它的目的是通过运输手段使货物在物流节点之间流动,实现物的空间位移。 (2)储存 储存是指对物品、货物进行保存及对其数量、质量进行管理控制的活动,它是包含库存和储备在内的一种广泛的经济现象,以改变物的时间状态为目的。 (3)装卸搬运 装卸是指物品在指定地点以人力或机械装入运输设备或卸下;搬运是指在同一场所内,对物品进行以水平移动为主的活动。 (4)包装 包装是指在流通过程中为保护产品、方便储运及促进销售,而按一定技术方法所采用的容器、材料及辅助物等的总称。 (5)流通加工 在流通过程中辅助性的加工活动称为流通加工。流通与加工的概念属于不同范畴。加工是改变物质的形状和性质,形成一定产品的活动,而流通则是改变物质的空间状态与时间状态。流通加工则是为了弥补生产过程加工不足,更有效地满足用户或本企业的需要,使产需双方更好地衔接,将这些加工活动放在物流过程中完成,而成为物流的一个组成部分,流通加工是生产加工在流通领域中的延伸。 (6)配送 配送是指在经济合理区域范围内,根据客户要求,对物品进行挑选、加工、包装、分类、组配的作业,并按时送达指定地点的物流活动。配送的本质也是物品的位移,但与运输功能相比,配送又具有其自身的特点,它是面向城区、区域内、短距离、多频率的商品送达服务。 (7)信息处理 物流信息是指与物流活动相关的信息。所谓信息是指能够反映事物内涵的知识、资料、情报、图像、数据、文件、语言、声音等。信息是事物的内容、形式及其发展变化的反映。 2.物流系统 是指在一定的时间和空间里,对其所从事的物流事务和过程作为一个整体来处理,以系统的观点、系统工程的理论和方法,进行分析研究,以实现其时间和空间的经济效益。物流系统是社会经济大系统中的一个子系统或组成部分。(1)物流系统子系统包括:输入,处理,输出

浅谈自然语言处理

浅谈自然语言处理 摘要 主要阐述了自然语言处理的定义,发展历史,并对其研究内容,以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词 自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

基于某某BP神经网络地手写数字识别实验报告材料

基于BP神经网络的手写体数字图像识别 PT1700105 宁崇宇 PT1700106 陈玉磊 PT1700104 安传旭 摘要 在信息化飞速发展的时代,光学字符识别是一个重要的信息录入与信息转化的手段,其中手写体数字的识别有着广泛地应用,如:邮政编码、统计报表、银行票据等等,因其广泛地应用范围,能带来巨大的经济与社会效益。 本文结合深度学习理论,利用BP神经网络对手写体数字数据集MNIST进行分析,作为机器学习课程的一次实践,熟悉了目前广泛使用的Matlab工具,深入理解了神经网络的训练过程,作为非计算机专业的学生,结合该课题掌握了用神经网络处理实际问题的方法,为今后将深度学习与自身领域相结合打下了基础。

1 引言 从计算机发明之初,人们就希望它能够帮助甚至代替人类完成重复性劳作。利用巨大的存储空间和超高的运算速度,计算机已经可以非常轻易地完成一些对于人类非常困难的工作,然而,一些人类通过直觉可以很快解决的问题,却很难通过计算机解决,这些问题包括自然语言处理、图像识别、语音识别等等,它们就是人工智能需要解决的问题。 计算机要想人类一样完成更多的智能工作,就需要掌握关于这个世界的海量知识,很多早期的人工智能系统只能成功应用于相对特定的环境,在这些特定环

境下,计算机需要了解的知识很容易被严格完整地定义。 为了使计算机更多地掌握开放环境下的知识,研究人员进行了很多的尝试。其中影响力很大的一个领域就是知识图库(Ontology),WordNet是在开放环境中建立的一个较大且有影响力的知识图库,也有不少研究人员尝试将Wikipedia中的知识整理成知识图库,但是建立知识图库一方面需要花费大量的人力和物力,另一方面知识图库方式明确定义的知识有限,不是所有的知识都可以明确地定义成计算机可以理解的固定格式。很大一部分无法明确定义的知识,就是人类的经验,如何让计算机跟人类一样从历史的经验中获取新的知识,这就是机器学习需要解决的问题。 卡内基梅隆大学的Tom Michael Mitchell教授在1997年出版的书籍中将机器学习定义为“如果一个程序可以在任务T上,随着经验E的增加,效果P 也可以随之增加,则称这个程序可以从经验中学习”。逻辑提取算法可以从训练数据中计算出每个特征和预测结果的相关度,在大部分情况下,在训练数据达到一定数量之前,越多的训练数据可以使逻辑回归算法的判断越精确,但是逻辑回归算法有可能无法从数据中学习到好的特征表达,这也是很多传统机器学习算法的共同问题。 对机器学习问题来说,特征提取不是一件简单的事情。在一些复杂问题上,要通过人工的方式设计有效的特征集合,需要很多的时间和精力,甚至需要整个领域数十年的研究投入。既然人工无法很好地抽取实体中的特征,那么是否有自动的方式呢?深度学习解决的核心问题就是自动地将简单的特征组合成更加复杂的特征,并使用这些特征解决问题。 因为深度学习的通用性,深度学习的研究者往往可以跨越多个研究方向,甚至同时活跃于数个研究方向。虽然深度学习受到了大脑工作原理的启发,但现代深度学习研究的发展并不拘泥于模拟人脑神经元和人脑的工作原理,各种广泛应用的机器学习框架也不是由神经网络启发而来的。 MATLAB是美国MathWorks公司出品的商业数学软件,用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境,主要包括MATLAB和Simulink两大部分。 MNIST是一个非常有名的手写体数字识别数据集,被广泛用作机器学习的入门样例,它包含了60000张图片作为训练数据,10000张图片作为测试数据,每一张图片代表了0~9中的一个数字,图片的大小为28x28,且数字会出现在图片的正中间。本文以该数据集为例,基于Matlab来分析BP神经网络的性能。 2 运行环境 本设计在Windows 10 下进行设计、主要利用Matlab工具环境,进行模拟演示。

自然语言处理

《自然语言处理》课程教学大纲 一、课程基本信息 1、课号:CS229 2、课程名称(中/英文):自然语言处理/Natural Language Processing 3、学时/学分:32/2 4、先修课程:程序设计语言 5、面向对象:本科三\四年级(ACM班) 7、教材、教学参考书: ?James Allen. Natural Language Understanding (The Second Ver.) The Benjamin / Cummings Publishing Company, Inc., 1995. ?Christopher D. Manning and Hinrich Schütze. Foundations of Statistical Natural Language Processing. The MIT Press. Springer-Verlag, 1999 二、本课程的性质和任务 自然语言处理是计算机科学与技术专业的一门专业选修课。它的主要任务是使学生了解自然语言处理的主要研究内容及关键技术,并介绍自然语言处理方面的研究成果,为学生从事自然语言处理研究和开发做准备。此外,通过指导学生阅读计算语言学专业会议的论文,进行摘要和评价,并进行介绍、提问和讨论,使他们对所学课程的有关概念与目前的流行方法和技术的关系有更深入地了解。在此基础上,要求学生完成一篇有关自然语言处理主题的课程项目,使他们能用所学的知识发挥自身的能力查找有关资料和概括某一研究领域的国内外最新理 论和技术并最终加以实践。 三、本课程教学内容和基本要求 1. Overview (4)

自然语言处理

自然语言处理 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、 计算机科学、数学于一体的科学。 因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄 文、日文、德文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。 自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机 系统,特别是其中的软件系统。因而它是计算机科学的一部分。 语言是人类区别其他动物的本质特性。在所有生物中,只有人类才具有语言能力。人类 的多种智能都与语言有着密切的关系。人类的逻辑思维以语言为形式,人类的绝大部分知识 也是以语言文字的形式记载和流传下来的。因而,它也是人工智能的一个重要,甚至核心部 分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明显的实际意 义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机,而无需再花大

量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类 的语言能力和智能的机制。 实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义,也能以自然 语言文本来表达给定的意图、思想等。前者称为自然语言理解,后者称为自然语言生成。因 此,自然语言处理大体包括了自然语言理解和自然语言生成两个部分。历史上对自然语言理 解研究得较多,而对自然语言生成研究得较少。但这种状况近年来已有所改变。 无论实现自然语言理解,还是自然语言生成,都远不如人们原来想象的那么简单,而是 十分困难的。从目前的理论和技术现状看,通用的、高质量的自然语言处理系统,仍然是较 长期的努力目标,但是针对一定应用,具有相当自然语言处理能力的实用系统已经出现,有 些已商品化,甚至开始产业化。典型的例子有:多语种数据库和专家系统的自然语言接口、 各种机器翻译系统、全文信息检索系统、自动文摘系统等。 自然语言处理,即实现人机间自然语言通信,或实现自然语言理解和自然语言生成是十 分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的

基于自然语言处理的主观题智能阅卷技术

龙源期刊网 https://www.wendangku.net/doc/053839926.html, 基于自然语言处理的主观题智能阅卷技术 作者:柏雪 来源:《计算机光盘软件与应用》2013年第07期 摘要:本文主要探讨使用自然语言处理技术来实现主观题智能阅卷的方法,使用到的关键技术包括分词、句法分析、词语相似度计算以及句子相似度计算。文章对如何使用这些关键技术来实现主观题智能阅卷系统进行了详细的阐述。 关键词:智能阅卷;分词;词语相似度计算;句子相似度计算 中图分类号:TP391.7文献标识码:A文章编号:1007-9599 (2013) 07-0000-02 随着计算机技术和通信技术的高速发展,计算机已经应用到人们生活中的各个领域。在教育领域中,计算机实现试卷自动评阅是教育系统智能化必备的功能。一方面,计算机智能阅卷能避免人为的误差,能够更客观的反映出评阅结果,保证了阅卷的客观公正性。另一方面,电脑阅卷省去了老师在传统阅卷模式中主观题阅卷的体力劳动,让老师省出更多时间和精力用在教学工作中。 主观题智能阅卷主要采用的技术路线是自然语言处理技术。按照主观题的评分流程,阅卷系统主要分为五个部分:分句、分词、句法分析、词语相似度计算以及句子的相似度计算。 1分句 将答案分句是评分的第一个步骤,分句的粒度大小也将影响评分结果。本文将根据特定的标点符号(句号、问号、分号、感叹号)作为句子的分隔符,将句子分为若干子句。在对参考答案进行分句的时候,需要将之前录入的权值赋值给对应的每个子句。最后题目的得分应该是各子句相似度的加权求和,用S具体计算如式(1): (1) Simi表示第i句的相似度,?i表示第i句的权值,i取值范围为[0,n],n为子句的个数。值得注意的是,参考答案每句话的权重是根据句子结束的标点符号来分配的,因此参考答案录入和学生答题的时候每句话的标点符号必须正确填写。 2分词 由于分词及词性标注对准确率要求较高,如果这两个步骤出现错误,将会对后续步骤产生严重影响。因此本文初步考虑使用已经相对成熟得分词工具来进行分词和词性标注。本文选择的分词工具是中科院计算机研究所开发的ICTCLAS系统,它是最早的中文开源分词项目之一。ICTCLAS提供了无词典分词及词性标注接口。它的分词速度单机可达966KB/S,分词精

自然语言处理的关键技术

自然语言处理的关键技术 自然语言处理技术是所有与自然语言的计算机处理有关的技术的统称,其目的是使计算机理解和接受人类用自然语言输入的指令,完成从一种语言到另一种语言的翻译功能。自然语言处理技术的研究,可以丰富计算机知识处理的研究内容,推动人工智能技术的发展。下面我们就来了解和分析自然语言处理的关键技术。 一、常用技术分类 1、模式匹配技术 模式匹配技术主要是计算机将输入的语言内容与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。但是不能总是保证用户输入的问题能得到相应的回答,于是很快这种简单匹配式答疑系统有了改进。答疑库中增加了同义词和反义词,当用户输入关键词的同义词或反义词时,计算机同样能完成答疑,这种改进后的系统被称为模糊匹配式答疑系统。 2、语法驱动的分析技术

语法驱动的分析技术是指通过语法规则,如词形词性、句子成分等规则,将输入的自然语言转化为相应的语法结构的一种技术。这种分析技术可分为上下文无关文法、转换文法、ATN文法。上下文无关文法是最简单并且应用最为广泛的语法,其规则产生的语法分析树可以翻译大多数自然语言,但由于其处理的词句无关上下文,所以对于某些自然语言的分析是不合适的。转换文法克服了上下文无关文法中存在的一些缺点,其能够利用转换规则重新安排分析树的结构,即能形成句子的表层结构,又能分析句子的深层结构。但其具有较大的不确定性。ATN文法扩充了转移网络,比其他语法加入了测试集合和寄存器,它比转移文法更能准确地分析输入的自然语言,但也具有复杂性、脆弱性、低效性等缺点。3、语义文法 语义文法的分析原理与语法驱动相似,但其具有更大的优越性。语义文法中是对句子的语法和语义的共同分析,能够解决语法驱动分析中单一对语法分析带来的不足。它能够根据句子的语义,将输入的自然语言更通顺地表达出来,除去一些语法正确但不合语义的翻译。但是语义文法分析仍然有不容忽视的缺点,其分析的语句中有时会出现不合语法的现象,并且这类分析较为复杂,语义类难以确定,语义的规则太多……因此,语义文法技术仍需要改进措施。 4、格框架约束分析技术

自然语言处理论文:国内自然语言处理研究热点分析

自然语言处理论文:国内自然语言处理研究热点分析[摘要]在确定国内自然语言处理领域使用频率最高的61个关键词的基础上,运用共词分析法,以SPSS 软件为工具,通过因子分析和聚类分析的方法,井借鉴相关研究结果,探讨国内自然语言处理研究现状及研究热点。 [关键词]自然语言处理共词分析法聚类分析因子分析 1引言 最早的自然语言处理方面的研究工作是机器翻译。1949年,美国人威弗首先提出了机器翻译设计方案。从20世纪40年代算起,自然语言处理的研究已经有印多年的历史了,随着信息网络时代的到来,它已经成为了现代语言学中一个颇为引人注目的学科。美国计算机科学家Bill Manaris(马纳利斯)在1999年出版的《计算机进展》(Advances in Computers)第47卷的《从人一机交互的角度看自然语言处理》一文中,曾经给自然语言处理提出了如下的定义: “自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(Linguistic Compe-tence)和语言应用(Linguistic Performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术”。 这个定义比较全面地说明了自然语言处理的性质和学科定位,国内外学者普遍认同这个定义。 在自然语言处理研究发展的60多年间,国外该领域经历了萌芽期、发展期和繁荣期三个时期,并取得了丰富的研究成果。相比之下,国内在该领域较为系统的研究成果则为数不多,主要是由于早期受到汉语信息处理一些预处理技术的制约(如汉字编码、汉语分词等),到真正开始汉语自然语言理解研究时,已经比国外晚了20多年。但是,经过20多年的发展,汉语自然语言处理技术也获得了长足的进步,在机器翻译、语料库、语篇理解、概念层次网络等领域取得了一些重要成果。 本文拟采用共词分析方法,通过对国内自然语言处理领域文献中高频关键词共同出现频率规律的分析,深入揭示其研究热点以及研究现状,为其他从事自然语言处理研究的学者提供参考。 2研究方法 共词分析法(Co-term Analysis)在图书情报界的应用非常广泛,是文献计量学的一种重要方法,也是内容分析法的常用方法之一。最先提出共词分析方法的是Callon等人,其后这种方法被广泛使用。共词方法的思想来源于文献计量学的引文耦合与共被引概念,即当两个能够表达某一学科领域研究主题或研究方向的专业术语(一般为主题词或关键词)在同一篇文献中出现时,表明这两个词之间具有一定的内在关系,并且出现的次数越多,表明它们的关系越密切、距离越近。利用现代统计技术如因子分析、聚类分析和多维尺度分析等多元分析方法,可以进一步按这种“距离”将一个学科内的重要关键词加以分类,从而归纳出该学科的研究现状、热点和内容。不仅如此。利用现代信息技术和统计软件图形显示功能,还能够将分析结果直观形象地显现出来,进而达到可视化的效果。 用共词分析法分析国内自然语言处理领域的研究热点。需要通过四个步骤完成:①,确定国内该研究领域主要关键词;②建立关键词共词矩阵;③选取多元统计方法对所建矩阵进行统计分析;④对所获得的数据进行分析。 3数据来源与关键词获取 3.1数据来源 在中国期刊网(CNKi)上,以“自然语言处理”为关键词,检索时间范围为CNKI默认的年限。选择了四个数据库,分别是中国学术期刊网络出版总库、中国博士学位论文全文数据库、中国优秀硕士学位论文全文数据库、中国重要会议论文全文数据库等,并以关键词为检索字段,采用精确检索的方式检索出2233篇文献,然后从CNKI上下载这些文献的题录数据。

检索报告格式

专业(班级)档案学20141781 姓名练洪妹学号2014178126 检索报告(综合作业) 一、检索课题:大数据时代下科技情报的发展与创新 二、检索数据库(选中外文数据库至少4个,至少有2个外文数据库,其中外文数据库必须 有一个二次文献数据库) 可选数据库(请在你选择的数据库号码上打钩或将检索的留下,检索时间尽量近几年):华工购买的数据库: 1、CNKI 中国知网2002-2016 2、维普中文科技期刊全文数据库1989-2016 3、Calis馆际互借与文献传递2012-2015 4、英国科学文摘Inspec 1969-2016 5、美国专利全文数据库1976-2016 三、关键词 中文外文 情报intelligence 大数据big data 科技情报技术工作science and technology information technology work 科技创新science and technology innovation 数据环境data environment 四、检索结果(每库不得少于1篇。每篇至少要显示题目、文献出处、文摘) 例: 1、CNKI 中国知网(2002-2016)

或:主题检索 选2篇文献如下: 科技情报技术发展现状与对策研究 【作者】何葳; 【Author】HE Wei;Beijing Institute of science and Technology Information; 【机构】北京市科学技术情报研究所; 【摘要】随着技术的飞速发展,科技创新手段不断进步,科技创新的周期不断缩短,新知识、新技术、新工艺和新产品层出不穷,重复低效的科研开发不仅浪费宝贵的资源,而且也会丧失或错过良好的发展机遇。面对海量信息和科技创新周期不断缩短的挑战,从新的角度对科技创新的科技情报技术需求进行分析,积极探索面向科技创新全过程的科技情报服务能力建设是十分必要的。本文首先从情报的定义出发,论述了我国的科技情报技术工作现状分析了我国的科技情报技术工作中存在的问题,结合科技创新对科技情报的需求分析,文章最后提 出了创建新时期的科技情报技术工作的具体措施。更多还原

人工智能动物识别系统JAVA

精品文档 工作存储器解释器 用户界面 实验报告 课程名称人工智能与专家系统实验名称动物分类专家系统设计 系别电子信息科学学院专业班级指导教师 学号____________姓名____________实验日期2016.4.1 实验成绩___________ 一、实验目的 1、加深理解专家系统的结构原理与实际应用。 2、初步掌握知识获取的基本方法。 3、掌握产生式规则知识表示方法及其编程实现方法。 4、初步掌握知识库的组建方法。 5、加深理解推理机的算法原理并初步掌握其编程实现方法。 二、实验环境 1 、硬件环境:微机 2 、编程语言不限 三、实验原理 一个基于规则专家系统的完整结构示于图 1 。其中,知识库、推理机和工作存储器是构成专家系统的核心。系统的主要部分是知识库和推理引擎。知识库由谓词演算事实和有关讨论主题的规则构成。推理引擎由所有操纵知识库来演绎用户要求的信息的过程构成-如消解、前向链或反向链。用户接口可能包括某种自然语言处理系统,它允许用户用一个有限的自然语言形式与系统交互;也可能用带有菜单的图形接口界面。解释子系统分析被系统执行的推理结构,并把它解释给用户。 推理机 知识库 用户知识工程师 图1 一个基于规则专家系统的完整结构 开发界面 外部程序

三、实验内容 运用下列规则,设计并实现一个小型动物分类专家系统。 规则 1 : 如果:动物有毛发 则:该动物是哺乳动物 规则 2 : 如果:动物有奶 则:该单位是哺乳动物 规则 3 : 如果:该动物有羽毛 则:该动物是鸟 规则 4 : 如果:动物会飞,且会下蛋 则:该动物是鸟 规则 5 : 如果:动物吃肉 则:该动物是肉食动物 规则 6 : 如果:动物有犬齿,且有爪,且眼盯前方 则:该动物是食肉动物 规则 7 : 如果:动物是哺乳动物,且有蹄 则:该动物是有蹄动物 规则 8 : 如果:动物是哺乳动物,且是反刍动物 则:该动物是有蹄动物 规则 9 : 如果:动物是哺乳动物,且是食肉动物,且是黄褐色的,且有暗斑点 则:该动物是豹 规则 10 : 如果:如果:动物是黄褐色的,且是哺乳动物,且是食肉,且有黑条纹 则:该动物是虎 规则 11 : 如果:动物有暗斑点,且有长腿,且有长脖子,且是有蹄类 则:该动物是长颈鹿 规则 12 : 如果:动物有黑条纹,且是有蹄类动物 则:该动物是斑马 规则 13 : 如果:动物有长腿,且有长脖子,且是黑色的,且是鸟,且不会飞 则:该动物是鸵鸟 规则 14 : 如果:动物是鸟,且不会飞,且会游泳,且是黑色的 则:该动物是企鹅 规则 15 : 如果:动物是鸟,且善飞 则:该动物是信天翁 利用上述15 条规则,可区分7 种动物。 ( 2 )推理机设计:采用正向推理。

人工智能动物识别系统JAVA

经典文档下载后可编辑复制 工 作存储器 用户界面 实验报告 课程名称人工智能与专家系统实验名称动物分类专家系统设计 系别电子信息科学学院专业班级指导教师 学号____________姓名____________实验日期2016.4.1 实验成绩___________ 一、实验目的 1、加深理解专家系统的结构原理与实际应用。 2、初步掌握知识获取的基本方法。 3、掌握产生式规则知识表示方法及其编程实现方法。 4、初步掌握知识库的组建方法。 5、加深理解推理机的算法原理并初步掌握其编程实现方法。 二、实验环境 1 、硬件环境:微机 2 、编程语言不限 三、实验原理 一个基于规则专家系统的完整结构示于图 1 。其中,知识库、推理机和工作存储器是构成专家系统的核心。系统的主要部分是知识库和推理引擎。知识库由谓词演算事实和有关讨论主题的规则构成。推理引擎由所有操纵知识库来演绎用户要求的信息的过程构成-如消解、前向链或反向链。用户接口可能包括某种自然语言处理系统,它允许用户用一个有限的自然语言形式与系统交互;也可能用带有菜单的图形接口界面。解释子系统分析被系统执行的推理结构,并把它解释给用户。 用户知识工程师 图1 一个基于规则专家系统的完整结构 发 外部程序

三、实验内容 运用下列规则,设计并实现一个小型动物分类专家系统。 规则 1 : 如果:动物有毛发 则:该动物是哺乳动物 规则 2 : 如果:动物有奶 则:该单位是哺乳动物 规则 3 : 如果:该动物有羽毛 则:该动物是鸟 规则 4 : 如果:动物会飞,且会下蛋 则:该动物是鸟 规则 5 : 如果:动物吃肉 则:该动物是肉食动物 规则 6 : 如果:动物有犬齿,且有爪,且眼盯前方 则:该动物是食肉动物 规则 7 : 如果:动物是哺乳动物,且有蹄 则:该动物是有蹄动物 规则 8 : 如果:动物是哺乳动物,且是反刍动物 则:该动物是有蹄动物 规则 9 : 如果:动物是哺乳动物,且是食肉动物,且是黄褐色的,且有暗斑点 则:该动物是豹 规则 10 : 如果:如果:动物是黄褐色的,且是哺乳动物,且是食肉,且有黑条纹 则:该动物是虎 规则 11 : 如果:动物有暗斑点,且有长腿,且有长脖子,且是有蹄类 则:该动物是长颈鹿 规则 12 : 如果:动物有黑条纹,且是有蹄类动物 则:该动物是斑马 规则 13 : 如果:动物有长腿,且有长脖子,且是黑色的,且是鸟,且不会飞 则:该动物是鸵鸟 规则 14 : 如果:动物是鸟,且不会飞,且会游泳,且是黑色的 则:该动物是企鹅 规则 15 : 如果:动物是鸟,且善飞 则:该动物是信天翁 利用上述15 条规则,可区分7 种动物。 ( 2 )推理机设计:采用正向推理。

自然语言处理NLP论文

自然语言处理NLP论文1.引言 做为人工智能(AI)的一个研究主题,自然语言处理(NLP)已经在一些系统中得到应用。人类使用自然语言(如汉语、英语)进行交流是一种智能活动。AI研究者们一直在尝试形式化处理自然语言所需要的过程机制,如把自然语言概念化为一种知识库系统以处理人与计算机的自然语言对话,并建立计算机软件来模型化这个处理过程。一种比较成熟和有效的方法并不使用显式的领域模型而是利用关键字或模式(Pattern)来处理自然语言。这种方法利用预先设计的结构存储有限的语言学和领域知识,输入的自然语言句子由预定义的含有指示已知对象或关系的关键字或模式的软件来扫描处理。这种方法也即做为一种自然语言接口与数据库系统或专家系统等进行连接,以检索其中的信息。通过学习国外相关应用案例,分析一个英语自然语言处理的模型系统,从而研究并实现基于WEB与汉语自然语言处理的地理信息查询系统模型。 2.基于英语自然语言处理的系统模型Geobase 2.1 Geobase模型简介 Geobase是针对一个地理信息系统的查询而研制的,其中用自然语言英语来查询地理信息数据库(Visual Prolog可装入的一个文本文件)。通过输入查询的英语句子,Geobase

分析并转换这些英语句子为Visual Prolog能够理解的形式,然后给出查询的答案。Geobase把数据库看做是由联系而联接起来的实体联系网络。实体是存储在数据库中的数据项,联系是联接查询句子中实体的词或词组,如句子Cities in the state California,这里的两个实体Cities和state 是由联系in 联接的,词the在这里被忽略,而California被看做是state 实体的一个实例。Geobase通过将用户的查询与实体联系网络进行匹配来分析查询句子。如查询句子:which rivers run through states that border the state with the capital Austin? 首先忽略某些词:which、that、the、?,其结果查询句子为:rivers run through states border state with capital Austin,其次找出实体与联系的内部名,实体可能有同义词、复数,联系也有同义词并可能由几个词组成等,经过转换后,查询句子为:river in state border state with capital Aaustin,通过查找state with capital Austin的state,Geobase再找出与这个state相邻接的所有的states,最后找出run through(由assoc("in",["run","through"])转义为in)states的rivers。2.2 数据库及实体联系网络 数据库谓词举例如下: state(Name,Abbreviation,Capitol,Area,Admit,Population,City,C ity,City,City) city(State,Abbreviation,Name,Population)

人工智能实训室建设方案

人工智能实验室 2021年1月 武汉唯众智创科技有限公司

人工智能实验室建设方案 一、专业背景 人工智能(Artificial Intelligence),它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。 人工智能的实际应用有:机器视觉,指纹识别,人脸识别,视网膜识别,虹膜识别,掌纹识别,专家系统,自动规划,智能搜索,定理证明,博弈,自动程序设计,智能控制,机器人学,语言和图像理解,遗传编程等。 如今处于风口上的人工智能产业界,受到了众多企业的追捧。截至2019年6月,中国人工智能企业超过1200家,位居全球第二。但我国人工智能行业并未摆脱人才稀缺的发展短板,专业人才稀缺严重。根据猎聘发布的《猎聘2019年中国AI&大数据人才就业趋势报告》,中国人工智能人才缺口超过500万。为了满足人工智能产业界对人才的迫切需求,国家相继出台了多项政策方针,引导高校尽快设置人工智能相关专业,加大人工智能人才培养力度。2019年3月,35所高校获批建设人工智能本科专业。2019年10月18日在教育部发布的《普通高等学校高等职业教育(专科)专业目录》2019年增补专业中,增补了人工智能技术服务专科专业。 根据教育部《普通高等学校高等职业教育(专科)专业设置管理办法》,在相关学校和行业提交增补专业建议的基础上,教育部组织研究确定了2019年度增补专业共9个,自2020年起执行。在高等职业教育行业目录中,正式宣布人工智能技术服务专业诞生,专业代码610217。 该专业建设以人工智能技术与应用素质培养为基础,以人工智能技术与应用能力为培养主线,将人工智能技术服务专业技能知识和职业资格认证相结合,构建专业的理论教学体系和实践能力培养体系。采取多种形式,通过实施“双证书”和“多证书”制,培养社会所需的实用型人才。2018年4月2日,教育部印发了《高等学校人工智能创新行动计划》,行动计划中要求各大高校加快人工智能科技创新基地。因此,在高职院校设立人工智能专业迫在眉睫。

自然语言处理技术在中文全文检索中的应用

3本文为国家社会科学基金项目“基于中文X ML 文档的全文检索研究”的成果之一,项目编号:04CT Q005。 ●熊回香,夏立新(华中师范大学 信息管理系,湖北 武汉 430079) 自然语言处理技术在中文全文检索中的应用 3 摘 要:自然语言处理技术是中文全文检索的基础。首先介绍了全文检索技术及自然语言处理技术,接着详细地阐述了自然语言处理技术在中文全文检索中的应用,并对目前基于自然语言处理技术的中文全 文检索技术的局限性进行了分析,探讨了中文全文检索技术的未来发展方向。 关键词:自然语言处理;全文检索;智能检索 Abstract:Natural language p r ocessing technol ogy is the basis of Chinese full 2text retrieval .This paper firstly intr oduces the full 2text retrieval technol ogy and natural language p r ocessing technol ogy .Then,it gives a detailed 2descri p ti on of the app licati on of natural language p r ocessing technol ogy in Chinese full 2text retrieval .The p resent li m itati ons of the Chinese full 2text retrieval system based on natural language p r ocessing technol ogy is als o ana 2lyzed .Finally,the paper exp l ores the devel opment trend of Chinese full 2text retrieval technol ogy in future . Keywords:natural language p r ocessing;full text retrieval;intelligent retrieval 随着社会网络化、信息化程度的日益提高,网上信息呈指数级剧增,人们越来越强烈地希望用自然语言同计算机交流,并能方便、快捷、准确地从互联网上获得有价值的信息,因此,自然语言处理技术和中文全文检索技术成为当今计算机科界、语言学界、情报学界共同关注的课题,并共同致力于将自然语言处理技术的研究成果充分运用到全文检索中,从而促进了全文检索技术的发展。 1 全文检索技术 全文检索是一种面向全文和提供全文的检索技术,其核心技术是将文档中所有基本元素的出现信息记录到索引库中,检索时允许用户采用自然语言表达其检索需求,并借助截词、邻词等匹配方法直接查阅文献原文信息,最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是全文检索系统实现的基础,它以特定的结构存储了数据资源的全文信息,从而为全文检索系统提供可检索的数据对象。在中文全文检索系统中,建立索引库的前提是运用自然语言处理技术对中文信息进行基于词(字)、句、段落等更深层次的处理。 2 自然语言处理技术 自然语言是指作者所使用的书面用语,在信息检索中包括关键词、自由词和出现在文献题名、摘要、正文或参 考文献中的具有一定实质意义的词语[1]。自然语言处理 (Natural Language Pr ocessing,NLP )是语言信息处理的一 个重要分支,在我国就是中文信息处理。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,具体来说就是用计算机对包括汉语(字)的形、音、义等信息及词、句子、篇章的输入、输出、存储和识别、分析、理解、生成等多方面的加工处理[2]。由于自然语言处理侧重于词、句子、篇章,因而词法分析、句法分析、语义分析、语用分析、语境分析便构成了自然语言处理研究内容的基础部分。 211 词法分析 词法分析包括词形和词汇两个层次,其中词形主要是对各种词形和词的可识别部分的处理。如前缀、后缀及复合词的分析;词汇的重点在于复合对词操作和词汇系统的控制。其主要目的是有助于确认词性以及做到部分理解词与词、词与文档之间的关系,提高检索的效率。由于计算机内部存储的中文信息没有明显的词与词之间的分隔符,因此,在中文全文检索系统中,词法分析首要任务之一是对文本信息进行词语切分,即汉语自动分词,汉语自动分词是中文信息处理中的关键技术,也是中文全文检索的瓶颈,只有对汉语词进行正确的切分后,才能准确地提取文献的特征信息,对文献进行正确标引,才能正确分析用户的查询意图,为用户提供准确的信息服务。 212 句法分析 句法分析是对句子中词汇短语进行分析以便揭示句子的语法结构。目的是通过对句型结构的分析,自动抽取复

自然语言处理的应用及发展趋势

自然语言处理的应用及发展趋势 摘要本文主要阐述了自然语言处理的研究内容,以及对目前相关领域的应用加以讨论。自然语言处理的研究内容主要有四大块[1-2]:语言学方向、数据处理方向、人工智能和认知科学方向、语言工程方向。最后对自然语言处理的未来发展趋势做简单的介绍。 关键词自然语言处理应用发展趋势 一.自然语言处理的研究内容 自然语言处理的范围涉及众多方面,如语音的自动识别与合成,机器翻译,自然语言理解,人机对话,信息检索,文本分类,自动文摘,等等。我们认为,这些部门可以归纳为如下四个大的方向: (1)语言学方向 本方向是把自然语言处理作为语言学的分时来研究,它之研究语言及语言处理与计算相关的方面,而不管其在计算机上的具体实现。这个方向最重要的研究领域是语法形式化理论和数学理论。 (2)数据处理方向 是把自然语言处理作为开发语言研究相关程序以及语言数据处理的学科来研究。这一方向早起的研究有属于数据库的建设、各种机器可读的电子词典的开发,近些年来则有大规模的语料库的涌现。 (3)人工智能和认知科学方向 在这个方向中,自然语言处理被作为在计算机上实现自然语言能力的学科来研究,探索自然语言理解的只能机制和认知机制。这一方向的研究与人工智能以及认知科学关系密切。 (4)语言工程方向 主要是把自然语言处理作为面向实践的、工程化的语言软件开发来研究,这一方向的研究一般称为“人类语言技术”或者“语言工程”。 二.自然语言处理的应用 以上所提及的自然语言处理的四大研究方向基本上涵盖了当今自然语言处理研究的内容,更加细致的说,自然语言处理可以进一步细化为以下13项研究内容,也即为自然语言处理的应用方向,这13个应用方向分别是[3]:口语输入、

自然语言处理两千字

自然语言处理 信计1101 郭东旭 20111399 早在计算机还未出现之前,英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出,在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。 人类的逻辑思维以语言为形式,人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 一.什么是然语言处理 美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》(Advances Computers)第47卷的《从人—机交互的角度看自然语言处理》一文中,曾经给自然与然处理提出了如下定义:“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”这个定义被广泛的接受,它比较全面的地表达了计算机对自然语言的研究和处理。 简单来说,自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科,它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术,通过可计算的方法对自然语言处理的各级语言单位(字,词,语句,篇章等)进行转换,传输,存储,分析等加工处理的学科,是一门融合了语言学,计算机学,数学等学科于一体的交叉性学科。 互联网技术的发展,极大地推动了信息处理技术的发展,也为信息处理技术不断提出新的需求,语言作为信息的载体,语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。 二.自然语言处理的发展历史 自然语言处理的发展大致经历了4个阶段:1956年以前的萌芽期;1957-1970年的快速发展期;1971 -1993年的低谷的发展期和1994年至今的复苏融合期。 萌芽期(1956年以前) 1956年以前,可以看作自然语言处理的基础研究阶段。一方面,人类文明经过了几千

相关文档