文档库 最新最全的文档下载
当前位置:文档库 › 国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述
国内外文本分类研究计量分析与综述

国内外文本分类研究计量分析与综述一

发表于《图书情报工作》2011年第55卷第6期:78-142,欢迎大家下载、参考和交流

胡泽文王效岳白如江

山东理工大学科技信息研究所淄博255049

[摘要]运用文献计量分析方法、计算机统计分析技术、社会网络分析软件对文本分类领域的历史文献进行计量分析及可视化,通过绘制文献数量分布图、核心关键词的共现网络,挖掘文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势等信息,并对文本分类领域研究热点和未来研究趋势进行综述。

[关键词]文本分类计量分析社会网络分析可视化图谱

[分类号]G250TP391

Q uantitative A nalysis and Review of Text Classification Research at Home and Abroad

Hu Zewen Wang Xiaoyue Bai Rujiang

Institute of Scientific and Technical Information,Shandong University of Technology,Zibo255049,China

[Abstract]This paper carries out the quantitative analysis and visualization to the historical literatures of text classification domain by using the bibliometric analysis method,the computer statistic analysis technology and the social network analysis software.By drawing the literature quantity distribution map and co-occurrence network of the core keywords,excavates the development trends,the current research situations,hotspots and the future research trends etc in text classification domain,and makes a review on the research hotspots and future research trends.

[Keywords]text classification quantitative analysis social network analysis visualizing map

1引言

随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。传统向量空间模型表征文本的方法逐渐呈现出一些问题,比如忽视词间语义关系,不能解决同义词、多义词、词间上下位关系等问题,为解决这些问题,国内外学者开始从概念或语义层次上对文本自动分类方法展开广泛的研究,出现一些新的文本分类方法,如基于词典或概念的文本分类、基于本体或语义的文本分类等。随着文本分类领域的快速发展,文本分类领域的总体发展趋势、研究概况、热点及未来发展趋势如何,将是我们关注的焦点。因此关于文本分类领域文献信息的计量分析与综述具有重要的理论、现实和指导意义。

2样本与方法

样本数据检索情况如表1所示,共检索到1851篇国内外相关文献。在方法运用上,利用文献数量分析方法对国内外文本分类领域的发展趋势进行对比分析;利用Excel2007、SQL语句的数据处理与统计分析功能、社会网络分析软件Ucinet和NetDraw[1]的数据分析及可视化功能等,对文本分类文献中的关键词进行词频统计与分析、共现频次统计与分析,绘制国内外文本分类领域研究概况和热点的可视化图谱。据此可以解读国内外文本分类领域的发展趋势、研究概况、热点等信息。

表1样本数据的检索情况

数据库检索入口检索词时间范围文献数量

一本文系国家社科基金项目“海量网络学术文献自动分类研究”(项目编号:10BTQ047)和教育部人文社会科学研究项目“基于本体集成的文本分类关键技术研究”(项目编号:09YJA870019)的研究成果之一。

Compendex Title"text classification"OR

"text categorization"1969-2009954

ScienceDirect1969-Present去重:60

中国期刊全文数据库(CNKI)篇名文本分类(精确匹配)1999-2009615

中国硕博学位论文数据库(CNKI)题名文本分类(精确匹配)1999-2009222

3分析与结果

3.1文献数量分析

对表1中1980-2009年30年间的国内外文本分类文献数量进行分析(5年一个区间,30年共计6个区间),具体如图1所示。从图1可以看出,国外在文本分类方面的研究存在如下特点:①起步较早。德国学者Giere,W.和Dettmer,H.在1986年就提出基于词典的文本分类与检索[2]。国内在1999年才出现文本分类方面的研究文献,比国外晚了13年;②实际应用成果多,不过理论落后于实践。国外自动分类技术早在1975年就进入实用化阶段,而理论研究从1986才开始,落后于实践11年;③发展速度快。国外从1995年开始进入快速增长期,而国内从2000年才开始进入快速增长期,比国外晚了5年。国内在文本分类方面的研究虽然起步较晚,应用成果少,但是发表的文献数量较多。国外在快速增长期(1995-2009)内共发表文献510篇,而国内在快速增长期(2000-2009)内发表文献1338篇,比国外多出828篇。

图11980-2009年国内外文本分类文献数量分布图

3.2词频分析

利用作者提出的词频统计分析方法[3]对检索到的文献关键词进行统计分析,获得文本分类领域高频关键词86个。对86个高频关键词进行词频分析,发现国内外对文本分类领域的研究主要集中在以下几个部分(词汇后括号中的数字为词频):

⑴文本分类过程。主要对分词(18)、词汇处理(27)、文本表示(27)、向量空间模型(200)等进行研究。最常用的文本表示方法是向量空间模型,到目前为止,国内外学者重点研究的向量空间模型主要有词向量空间模型、语义向量空间模型。词向量空间模型存在向量空间维度过高、词项之间缺乏语义关系等问题,针对这些问题,国内外学者提出语义向量空间模型,尝试利用潜在语义索引(32)技术或本体(28)的概念语义关系挖掘词项之间的语义关系,构建低维的语义向量空间模型。

⑵文本分类算法。目前国内外学者重点研究的文本分类算法有支持向量机算法(257)、K-近邻(102)算法、神经网络算法(90)、朴素贝叶斯(56)算法、决策树算法(28)和遗传算法(24)。未来研究趋势将是各类算法的融合、改进和提高。

⑶文本分类降维技术。文本分类的一个核心难题就是特征空间的高维性,因此文本分类降维技术是国内外学者研究的重中之重。降维技术主要分为两大类:特征选择(475)和特征重构(85)。特征选择是去除文档中信息量少的项以提高分类的效率,目前流行的特征选择方法有TF×IDF方法(11)、主分量分析(6)、互信息(27)、信息增益(20)和信息熵(6)。特征重构是将原有特征集T加以联系和转化以构建新特征集T’的过程,从而使得降维的效果最大化。目前主要有两种特征重构方法:项聚类(25)、潜在语义索引(32)。

⑷文本分类应用领域。主要对文本分类在信息检索(216)、学习系统(205)、数据挖掘(115)、文本挖掘(39)、模式识别(35)、数字图书馆(13)等领域的应用方法、原理和模型进行研究。

3.3共现频次分析

利用程序统计“文本分类”与3.2节中获得的86个高频关键词在文本分类文献标题中共现的频次,根据词汇之间的共现频次,利用Ucinet6的矩阵编辑功能构建文本分类与其领域关键词汇的共现矩阵,再利用NetDraw绘制文本分类与其领域关键词汇的共现网络如图2所示。从图2可以看出,文本分类领域的研究

热点主要有文本分类特征选择方法、文本分类方法如传统的支持向量机分类算法、K-近邻分类算法和目前基于语义的文本分类方法。

图2文本分类与其领域关键词汇的共现网络

4文本分类研究热点综述

4.1文本分类特征选择方法

目前常用特征选择方法有TFIDF方法、互信息、信息增益等,其主要利用特征权重统计方法统计文档集中特征项的权重,然后设定阈值,选择特征权重大于等于阈值的特征项构建文档特征空间进行文本分类模型的训练。不过在特征选择过程中,由于没有考虑词间语义关系如同义关系、多义关系、上下位关系等造成特征空间维度较高,文本分类性能无法提高到一个更高水平。针对此问题,国内外学者对传统特征选择方法进行改进和提高,将特征选择方法与特征重构方法如聚类、潜在语义索引等进行融合。如国内学者刘海峰等人将TFIDF和互信息特征选择方法分别进行改进,并重新组合,形成一种新的特征选择方法[4]。季铎、郑伟、蔡东风等人提出融合文档频率和潜在语义索引的文档特征优化方法,首先利用文档频率对文档集合进行特征选择,然后利用潜在语义索引技术挖掘特征之间语义关联,形成低维语义向量空间[5]。4.2文本分类方法

4.2.1支持向量机分类算法

支持向量机算法是以结构风险最小化原则为基础,通过构造分类超平面进行无序文本的分类,具有很强的学习能力和较好的泛化性能,只需较少的样本就可以迅速训练出具有较高性能指标的分类器,在解决小样本、非线形及高维模式识别问题中表现出许多特有优势[6]。不过,其对于大规模数据集,训练速度异常缓慢,并且需要占用很多内存。针对此问题,一些学者提出相应的解决方案如利用数据集分解算法如Bagging 算法[7]、Google的Map/Reduce算法[8]等将大数据集分解成小的数据集分别进行支持向量机的训练,然后通过合并算法将各支持向量机进行两两合并,形成最终的支持向量机分类模型[9]。

4.2.2K-近邻分类算法

KNN算法的基本思想是在训练样本中找到测试样本的K个最近邻,然后根据这K个最近邻的类别来决定测试样本的类别,具有很好的鲁棒性,简单易用,对于大规模数据非常有效。但是,它存在如下缺点:①计算量巨大,要求计算未知文本与所有训练样本间的相似度进而得到K个最近邻样本。针对此问题,吴春颖和王士同提出融合Rocchio和KNN的文本分类方法,其先通过Rocchio分类算法快速得到k0个最有可能的候选类别,然后在k0个类别训练文档中抽取部分代表样本采用KNN算法[10]。②在决定测试样本的类别时,把测试样本的K个最近邻等同对待,没有考虑这K个最近邻在所属类别中的重要程度。针对此问题,江涛、陈小莉等学者提出利用聚类算法,求出训练样本集合中每个训练样本的隶属度,利用隶属度来区别对待测试样本的K个最近邻[11]。

4.2.3基于语义的文本分类方法

该方法主要借助本体、项聚类、潜在语义索引等挖掘词间语义关系,将原文档词项之间相互独立的高维特征空间转换为低维的语义特征空间或概念特征空间进行文本分类模型的训练。本体具有丰富的概念语义关系如同义关系、多义关系、上下位关系等和清晰的层次结构,利用本体可以将原文档高维特征向量中词性不同而语义相同的特征映射成相同的特征即本体同义词集,将具体的特征映射成通用特征即本体通用概念,从而建立低维的概念或语义向量空间模型[12]。项聚类就是试图将在语义方面具有高关联性的项分组,以该分组的表示代替这些项成为向量空间中的维度[13]。潜在语义索引是一个通过词共现产生语义向量模型的文本分类和文档索引技术,主要通过词—文本矩阵的奇异值分解技术解决文档向量维度过高的问题[14]。

5文本分类未来研究趋势

5.1特征选择方法与特征重构方法之间的融合

特征选择方法在进行特征选择时认为各个特征维度之间是相互独立的,没有考虑特征维度之间的语义关联,从而降低了分类的精度[15]。目前加强语义信息的特征选择方法如主分量分析或特征重构建方法如项聚类、潜在语义分析等利用统计信息方法来发现文档特征间的关联,这些方法虽然在挖掘特征之间语义关系上占有优势,但它们在特征选择上存在很大的局限性。因此,文本分类特征选择方法的未来研究趋势是传统特征选择方法的改进和提高、特征选择方法与特征重构方法之间的融合,如融合互信息和聚类的特征选择[16-17],即通过互信息最大化从原始特征空间中选择次优特征子集,借助特征空间的聚类来剔除冗余特征,从而实现特征空间的再次降维。

5.2文本分类算法之间的融合、改进和提高

目前已经出现很多有效的文本分类算法,这些算法各有优缺点。因此未来研究趋势是如何将这些算法进行融合、改进和提高,利用它们的优势,摒弃它们的劣势,取长补短,从而有效提高文本分类算法的性能。比如:李蓉、叶世伟等人针对支持向量机(Support Vector Machine,SVM)在对分类超平面附近样本进行分类时,容易将其误分,而KNN很容易将其分开的现象,提出基于SVM和KNN融合的分类方法。该方法对样本在空间中的不同分布使用不同的分类方法,即样本离分界面较远时,用SVM分类,反之用KNN分类[18];美国学者Mitra,Vikramjit等人针对支持向量机在进行大规模样本数据分类时,效率和分类性能非常低,而神经网络具有大规模并行、分布式存储和处理、自组织和自学习的能力,提出一种融合递归神经网络和最小二乘支持向量机的文本分类模型,从而提高SVM训练效率和分类性能,实验显示分类准确率达到99.66%[19]。

5.3语义或概念向量空间模型文本分类方法

传统词向量空间模型文本分类方法没有考虑词间语义关系,造成文档向量空间维度高,不能解决同义词和多义词对分类的干扰,因此语义或概念向量空间模型文本分类方法开始成为国内外学者研究的热点和方向。目前已出现很多语义或概念向量空间模型的构建方法,其中比较流行的有潜在语义分析法、本体语义映射法、概念格构建法、规范化概念分析法等。如Deerwester,Scott在1990年提出的潜在语义索引模型,通过奇异值分解技术将原文档词向量空间分解成低维的语义向量空间[20]。芬兰学者Filip Ginter等人在2004年提出利用本体的概念语义关系将原文档高维特征向量转换成低维语义特征向量[21]。意大利学者Carpineto, Claudio等人在2009年提出基于概念格的支持向量机文本分类方法,通过规范化概念分析挖掘文档特征之间关系,构建概念格进行文本分类模型的训练[22]。

6结语

文章从文献计量分析的角度,对文本分类领域的发展趋势、目前研究概况、热点及未来研究趋势进行综述,使读者对该领域有一个直观、清晰的认识,为以后的研究工作提供指引。

参考文献:

[1]2008NIPS UCINET&NetDraw Workshop.[2009-08-20].https://www.wendangku.net/doc/9f416357.html,/netgov/files /NIPS/Halgin_NIPS_2008.pdf.

[2]Giere W,Dettmer H.Free text classification and retrieval based on a thesaurus:Eight years of experience at the johann-wolfgang-goethe university,medical school//Proceedings-The Tenth Annual

Symposium on Computer Applications in Medical Care.New York:IEEE,1986:85-88.

[3]胡泽文,王效岳.1998-2008年国内外本体应用研究计量分析及可视化.现代图书情报技术,2009(12):25-30.

[4]刘海峰,王元元,刘守生.一种组合型中文文本分类特征选择方法.广西师范大学学报:自然科学版,2007,25(4):208-211.

[5]季铎,郑伟,蔡东风.潜在语义索引中特征优化技术的研究.中文信息学报,2009,23(2):69-76.

[6]Joachims T.Training linear SVMs in linear time//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM,2006:217-226.

[7]Leo B.Bagging predictors.Machine Learning,1996,24(2):123-140.

[8]Jeffrey D,Sanjay G.MapReduce:Simplified Data Processing on Large https://www.wendangku.net/doc/9f416357.html,munications of the ACM,2008,51(1):107-113.

[9]叶菲,罗景青,俞志富.一种改进的并行处理SVM学习算法.微电子学与计算机,2009,26(2):40-43.

[10]吴春颖,王士同.一种改进的KNN Web文本分类方法.计算机应用研究,2008,25(11):3275-3277.[11]江涛,陈小莉,张玉芳,熊忠阳.基于聚类算法的KNN文本分类算法研究.计算机工程与应用,2009,45(7):153-158.

[12]Filip G,Sampo P,Jorma B,et al.Ontology-Based Feature Transformations:A Data-Driven Approach//LNCS3230:Proceedings of the4th International Conference,EsTAL2004-Advances in

Natural Language Processing.Berlin:Springer,2004:279-290.

[13]Lewis D.D.,Croft W.B..Term clustering of syntactic phrases//Proceedings of the13th International Conference on Research and Development in Information Retrieval-SIGIR'90.New York:ACM,

1990:385-404.

[14]Abdelwahab A,Sekiya H,Matsuba I,et al.An efficient collaborative filtering algorithm using SVD-free latent semantic indexing and particle swarm optimization//2009International Conference on

Natural Language Processing and Knowledge Engineering,NLP-KE2009.Piscataway:IEEE

Computer Society,2009.

[15]Yiming Y,Jan O.P..A Comparative Study on Feature Selection in Text Categorization//Proceedings of the14th International Conference on Machine Learning,ICML1997.San Francisco:Morgan

Kaufmann,1997:412-420.

[16]Martínez S.J.,Pla F.Supervised feature selection by clustering using conditional mutual information-based distances.Pattern Recognition,2010,43(6):2068-2081.

[17]张成彬,唐建.基于互信息最大化和特征聚类的特征选择.现代计算机(专业版),2009:31-33.[18]李蓉,叶世伟,史忠植.SVM_KNN分类器—一种提高SVM分类精度的新方法.电子学报,2002,30(5):745-748.

[19]Mitra V,Wang C,Banerjee S.A neuro-SVM model for text classification using latent semantic indexing//Proceedings of the International Joint Conference on Neural Networks.New York:IEEE,

2005:564-569.

[20]Scott D,Susan T.D,George W.F,et al.Indexing by latent semantic analysis.Journal of the American Society for Information Science.1990,41(6):391.

[21]Filip G,Sampo P,Jorma B,et al.Ontology-Based Feature Transformations:A Data-Driven Approach//LNCS3230:Proceedings of the4th International Conference,EsTAL2004-Advances in

Natural Language Processing.Berlin:Springer,2004:279-290.

[22]Carpineto C,Michini C,Nicolussi R.A concept lattice-based kernel for svm text classification//LNAI 5548:Proceedings of the7th International Conference,ICFCA2009-Formal Concept Analysis.Berlin:

Springer,2009:237-250.

[作者简介]胡泽文,男,1985年生,硕士研究生,发表论文6篇;王效岳,男,1961年生,馆长,教授,发表论文70余篇,主编及参编学术著作6部;白如江,男,1979年生,馆员,发表论文18篇,被EI、ISTP 索引7篇。

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

文献综述的类型

文献综述是"一种在分析、比较、整理、归纳一定时空范围内有关特 定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告"。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的 内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深 入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。

叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映与评价,并提出发展对策、趋势预测。"是一种现实性、政策性和针对性很强的情报分析研究成果"。其最显著的特点是预测性,它在对各类事实或数据、理论分别介绍描述后,进行论证、预测的推演,最后提出对今后发展目标和方向的预测及规划。专题研究报告对于科研部门确定研究重点和学科发展方向,领导部门制定各项决策,有效实施管理起着参考和依据的作用。这一类综述主

关于产业技术创新的研究综述

经济研究导刊 ECONOMIC RESEARCH GUIDE 总第166期2012年第20期Serial No .166 No .20,2012一、技术创新的概念 经济学家约瑟夫·熊彼特在1912年出版的《经济发展理论》中第一次提出“创新”的概念:“创新是企业家对生产要素 的新的组合。” [1] 弗里曼(1973)认为,技术创新是技术、工艺商业化的过程,导致新产品的市场实现和首次商业性转化[2]。Bessant (2001)认为,技术创新是技术变革过程中发明之后的阶段[3]。美国国家科学基金会在1969年的研究报告中将创新定义为技术变革的集合;在1976年的报告中把模仿和不需要引入新技术的改进视为低层次的两种创新,划入技术创新的范畴[4]。傅家骥(1995)认为,技术创新是:从研究开发(R&D )到企业家抓住市场潜在机会,重新组合生产条件和生产要素,建立生产费用更低、能效更强、效率更高的生产经营的系统活动过程[5]。 曹萍等(2008)认为,技术创新是指企业根据市场需求、 竞争状况及自身条件,进行技术研究开发以满足市场需求的能力[6]。廖媛红(2009)指出,技术创新是对新产品、 新工艺、新服务以及上述各项改进的构想从闪现、研究到生产、销售,实现市场价值的全过程[7]。 综合上述观点,技术创新是技术和经济相结合的过程,是包括新构想的产生、研究开发到成果引入市场、商业化和应用扩散的一系列科学、技术和经营活动的全过程。 二、技术创新模式 自20世纪60年代至今,先后出现了五种具有代表性的技术创新模式。 1.技术推动的技术创新过程模式,是指创新主体通过研究开发得到新技术、新产品来开展技术创新活动,并通过生产和销售把新技术、新产品引入市场。在这种模式中,科技进 步或研究开发是技术创新的主要来源,市场只是被动的接受创新成果[8]。 2.需求拉动的技术创新过程模式,认为多数的技术创新是由社会和市场需求拉动的渐进性的过程,而不是技术推动的直接结果[9]。 3.技术推动与市场需求相互作用的模式,强调技术和市场的有机结合共同推动技术创新,把单一的技术创新模式视为科学、技术和市场交互作用的特例[10]。 4.技术创新一体化模式,认为技术创新过程包括构思、研究开发、生产以及营销等行为,强调研发和制造的一体化,以及企业和供应商之间的沟通联系[11]。 5.技术创新的网络模式是一体化模型的发展,强调合作企业之间更密切的联系和信息交换。随着技术的进步,技术创新过程的网络化已成为创新过程发展的趋势。 三、我国产业技术创新的现状 按照划分对象的层次不同,技术创新可划分为企业技术创新、产业技术创新和国家技术创新。产业技术创新是以企业技术创新为基础,推动整个产业进步,提高产业竞争力的过程[12]。国务院发展研究中心课题组(2007)指出,随经济社会发展,我国企业技术条件发展较快,部分企业已具备较好的创新基础和研发能力,但仍然缺乏技术型人才和核心技术[13]。肖虹(2007)通过对37个产业1999—2004年技术创新统计数据的研究,指出当前中国产业技术转化能力较弱,高新技术产业与非高科技产业对技术的转化能力不强[14]。 王健(2007)结合我国高新技术产业2000—2004年的指标值,认为我国高新技术产业在R&D 投入和产品占世界出口份额上与发达国家存在一定差距,对技术引进的消化吸收再创新能力也较为薄弱[15]。董瑜等(2011)的研究表明:我国的产业技术创新 收稿日期:2012-05-30 作者简介:王璐(1988-),女,安徽合肥人,硕士研究生,从事产业经济学研究。关于产业技术创新的研究综述 王 璐 (安徽大学,合肥230601) 摘要:我国技术创新能力同发达国家相比仍然存在一定的差距, 因此,在创新过程中,要注重培育企业主体创新意识,引进和培养技术创新人才,提高研发人员比重,创建学习型组织。政府要加大研发资金投入力度,选择正确的技术创新战略,加强对科研成果的保护力度,加大产业政策扶持,营造良好的技术创新氛围和政策环境,从而提升产业整体的技术创新能力,促进我国经济持续健康的发展。 关键词:技术创新;产业技术创新;创新能力中图分类号:F273 文献标志码:A 文章编号:1673-291X (2012)20-0020-02 20——

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

文本情感分类研究综述

Web文本情感分类研究综述 王洪伟/刘勰/尹裴/廖雅国 2012-9-27 14:55:59 来源:《情报学报》(京)2010年5期【英文标题】Review of Sentiment Classification on Web Text 【作者简介】王洪伟,男,1973年生,博士,副教授/博士生导师,研究方向:本体建模和情感计算,E-mail:hwwang@https://www.wendangku.net/doc/9f416357.html,。同济大学经济与管理学院,上海200092; 刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。同济大学经济与管理学院,上海200092; 尹裴,女,1986年生,硕士研究生,研究方向:商务智能。同济大学经济与管理学院,上海200092; 廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。香港理工大学电子计算学系,香港 【内容提要】对用户发表在Web上的评论进行分析,能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。

Analyzing the users' reviews on the Web can help us to identify users' implicit sentiments and find the evolution laws of their emotion. To this end, this paper is a survey about the sentiment classification on the Web text. We divided the process of classification into three categories:subjective and objective classification,polarity identification and intensity identification and respectively summarize the resent research achievements in these fields. We also sorted the methods of polarity identification into two types: one is based on the emotional words with semantic characteristics, while the other statistic methods of natural language processing. What is more, the choice of corpus and potential research problems are discussed. At last, this paper summarized the status quo of application and pointed out the direction of future research. 【关键词】Web文本/情感分类/综述/主观性文本Web texts/Sentiment classification/Survey/Subjective text 随着互联网的流行,Web文本成为我们获取信息、发表观点和交流情感的重要来源。特别是随着Web2.0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如对某部大片的影评,对某款手机的用户体验等,其中蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentiment analysis),就是确定说话人或作者对某个特定主题的态度。其中,态度可以是他们的判断或者评估,他们(演说、写作时)的情绪状态,或者有意(向受众)传递的情感信息。因此,情感分

文本分类综述1

文本分类综述 1. 引言 1.1 文本分类的定义 文本分类用电脑对文本集按照一定的分类体系或标准进行自动分类标记,与文本分类相近的概念是文本聚类。文本聚类是指,由机器将相似的文档归在一起。与文本分类的区别在于,文本分类是监督学习,类别是事先规定好的,文本聚类是无监督学习,由计算机把类似文本归在一起,事先并不划定好类别。 基于统计的文本分类算法进行文本分类就是由计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据。 文本分类的基本步骤是:文本表示->特征降维->分类器训练>文本分类 1.2 文本分类的基本思路 文本分类基本方法可以归结为根据待分类数据的某些特征来进行匹配,选择最优的匹配结果,从而实现分类。 计算机并不认识文档,因此首先就要设法如何转化一篇文档为计算机所接受,转化方法要与文本有对应关系。对于计算机文本分类而言,这是最重要的步骤。 其次要制定出一定的评判标准,根据文档表示结果对文本进行分类 1.3 文本分类目前的研究热点 2. 文本表示 利用计算机来解决问题,首先就是要找到一种使计算机能够理解方法来表述问题,对文本分类问题来说,就是要建立一个文档表示模型。 一般来说,利用文档中的语义信息来表示文档比较困难,因此直接采用词频来表示文档,不过也出现了许多利用语义的文档表示方法。 2.1 向量空间模型(VSM) VSM模型是目前所用的较多的文本表示模型,这种模型把文本看作是一个特征项的集合。特征项可以是词,也可以是人为所构造的合理的特征。

2.2 词袋模型 词袋模型是VSM 模型在文本分类问题中的一个最简单的应用。对于一篇文档,最直观的方法就是使用词和短语作为表示文本的特征。对于英文文章来说,各个单词之间己经用空格分开,可以直接获取特征词,不过由于英语中存在词形的变化,如:名词的单复数、动词的时态变化、词的前缀和后缀变化等,所以会需要一个抽取词干的过程。对于中文来说,因为词和词之间没有停顿,所以需要借助于词典来统计特征词。对于文本分类来说,常用的方法为TF 即词频法。 具体操作为: 对文本,北京理工大学计算机专业创建于1958年,是中国最早设立的计算机专业的大学之一。对于该文档,词袋为{北京、理工、大学、计算机、专业、创建、1958、中国、最早、设立}相应的向量为{1,1,2,2,2,1,1,1,1},这种统计特征词词频当作文档特征的方法也称为TF 法,为了防止这种方法统计出的特征使得文本长度影响到分类结果,要把它做归一化处理,最容易想到的归一化做法是除以文本长度。 另外还有另一个指标IDF 指标,衡量词的重要性,一个词在一篇文本中出现的频率越高,同时在总的训练文本中出现的频率越低,那么这个词的IDF 值越高。 操作: 总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式表示为 ,idf 衡量了一个词的重要程度,因此tf ×idf 可以更好的来表示文本。 2.3 其他模型 3. 特征降维 文本所形成的不加处理的特征向量维数很高,以词袋模型为例,一方面,很多文章只有几千词,而一个分词词典所包含的词有数万个,如果不加处理,把所有词都表示出来,是极大的浪费,另一方面,若依照分词词典建立向量,事实上是无法使用的,因此需要对文档特征进行降维处理。把不用的特征去掉,保留区分度高的词语。特侦降维可以有两种思路,特征选择和特征提取,其中,特征选择是指在原有特征的基础上,选择一部分特征来表示文本,特征性质不变,例如||log()|:| i j D idf j t d =∈

文本分类中的特征提取和分类算法综述

文本分类中的特征提取和分类算法综述 摘要:文本分类是信息检索和过滤过程中的一项关键技术,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。本文主要对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 采用kNN和Naive Bayes分类算法对已有的经典征选择方法的性能作了测试,并将分类结果进行对比,使用查全率、查准率、F1值等多项评估指标对实验结果进行综合性评价分析.最终,揭示特征选择方法的选择对分类速度及分类精度的影响。 关键字:文本分类特征选择分类算法 A Review For Feature Selection And Classification Algorithm In Text Categorization Abstract:Text categorization is a key technology in the process of information retrieval and filtering,whose task is to process automatically the unknown categories of documents and distinguish the labels they belong to in the set of predefined categories. This paper mainly discuss the feature selection and classification algorithm in text categorization, and make deep research via experiment. kNN and Native Bayes classification algorithm have been applied to test the performance of classical feature detection methods, and the classification results based on classical feature detection methods have been made a comparison. The results have been made a comprehensive evaluation analysis by assessment indicators, such as precision, recall, F1. In the end, the influence feature selection methods have made on classification speed and accuracy have been revealed. Keywords:Text categorization Feature selection Classification algorithm

文本分类概述教学教材

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的 159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。

文献综述的类型

一、文献综述的类型、特点及作用 文献综述是“一种在分析、比较、整理、归纳一定时空范围内有关特定课题研究的全部或大部情报的基础上,简明的类述其中的最重要部分,并标引出处的情报研究报告”。文献综述的定义包含三个基本要素:首先,文献综述反映原始文献有一定的时间和空间范围,它反映一定时期内或是某一时期一定空间范围的原始文献的内容。其次,文献综述集中反映一批相关文献的内容。其它二次文献如题录、索引、文摘、提要等一条只能揭示一篇原始文献的外表信息或内容信息,且各条目之间没有联系,而综述一篇可集中一批相关文献,且将这批文献作为一个有机整体予以揭示,信息含量比二次文献多得多。第三,文献综述是信息分析的高级产物。书目、索引等是对原始文献的外表特征进行客观描述,不涉及文献内容,编写人员不需了解原始文献的内容,也不需具备相关学科的基础知识;提要、文摘是对原始文献的内容作简要介绍和评价,编写人员需要具有相关学科的一些基础知识,以识别和评价原始文献;文献综述则要求编写人员对综述的主题有深入的了解,全面、系统、准确、客观地概述某一主题的内容。运用分析、比较、整理、归纳等方法对一定范围的文献进行深度加工,对于读者具有深度的引导功能,是创造性的研究活动。 1.文献综述的类型可以从不同的角度对文献综述进行划分,最常见的方法是根据文献综述反映内容深度的不同即信息含量的不同划分 按照文献综述信息含量的不同,可将文献综述分为叙述性综述、评论性综述和专题研究报告三类。 叙述性综述是围绕某一问题或专题,广泛搜集相关的文献资料,对其内容进行分析、整理和综合,并以精炼、概括的语言对有关的理论、观点、数据、方法、发展概况等作综合、客观的描述的信息分析产品。叙述性综述最主要特点是客观,即必须客观地介绍和描述原始文献中的各种观点和方法。一般不提出撰写者的评论、褒贬,只是系统地罗列。叙述性综述的特点使得读者可以在短时间内,花费较少的精力了解到本学科、专业或课题中的各种观点、方法、理论、数据,把握全局,获取资料。 评论性综述是在对某一问题或专题进行综合描述的基础上,从纵向或横向上作对比、分析和评论,提出作者自己的观点和见解,明确取舍的一种信息分析报告。评论性综述的主要特点是分析和评价,因此有人也将其称为分析性综述。评论性综述在综述各种观点、理论或方法的同时,还要对每种意见、每类数据、每种技术做出分析和评价,表明撰写者自己的看法,提出最终的评论结果。可以启发思路,引导读者寻找新的研究方向。 专题研究报告是就某一专题,一般是涉及国家经济、科研发展方向的重大课题,进行反映

Web文本情感分类研究综述

情报学报  ISSN1000-0135 第29卷第5期931-938,2010年10月 JOURNALOFTHECHINASOCIETYFORSCIENTIFIC ANDTECHNICALINFORMATIONISSN1000-0135Vol.29 No.5,931-938October 2010 收稿日期:2009年6月29日 作者简介:王洪伟,男,1973年生,博士,副教授桙博导,研究方向:本体建模和情感计算,E-mail:hwwang@tongji.edu.cn。刘勰,男,1985年生,硕士研究生,研究方向:数据挖掘与情感计算。尹裴,女,1986年生,硕士研究生,研究方向:商务智能。廖雅国,男,1954年生,博士,教授,研究方向:人工智能与电子商务。 1) 本文得到国家自然科学基金项目(70501024,70971099);教育部人文社会科学资助项目(05JC870013);上海市重点学科建设项目(B310);香港研究资助局项目(polyU5237桙08E)资助。 doi:10.3772桙j.issn.1000-0135.2010.05.023 Web文本情感分类研究综述 1) 王洪伟1  刘 勰1  尹 裴1  廖雅国 2 (1畅同济大学经济与管理学院,上海200092;2畅香港理工大学电子计算学系,香港) 摘要 对用户发表在Web上的评论进行分析, 能够识别出隐含在其中的情感信息,并发现用户情感的演变规律。为此,本文对Web文本情感分类的研究进行综述。将情感分类划分为三类任务:主客观分类、极性判别和强度判别,对各自的研究进展进行总结。其中将情感极性判别的方法分为基于情感词汇语义特性的识别和基于统计自然语言处理的识别方法。分析了情感分类中的语料库选择和研究难点。最后总结了情感分类的应用现状,并指出今后的研究方向。 关键词 Web文本 情感分类 综述 主观性文本 LiteratureReviewofSentimentClassificationonWebText WangHongwei1 ,LiuXie1 ,YinPei1 andLiuN.K.James 2 (1畅SchoolofEconomicsandManagement,TongjiUniversity,Shanghai200092;2畅DepartmentofComputing,HongKongPolytechnicUniversity,HongKong) Abstract Analyzingtheusers’reviewsontheWebcanhelpustoidentifyusers’implicitsentimentsandfindtheevolution lawsoftheiremotion.Tothisend,thispaperisasurveyaboutthesentimentclassificationontheWebtext.Wedividedtheprocessofclassificationintothreecategories:subjectiveandobjectiveclassification,polarityidentificationandintensity identificationandrespectivelysummarizetheresentresearchachievementsinthesefields.Wealsosortedthemethodsofpolarityidentificationintotwotypes:oneisbasedontheemotionalwordswithsemanticcharacteristics,whiletheotherstatisticmethodsof naturallanguageprocessing.Whatismore,thechoiceofcorpusandpotentialresearchproblemsarediscussed.Atlast,thispaper summarizedthestatusquoofapplicationandpointedoutthedirectionoffutureresearch. Keywords Webtexts,sentimentclassification,survey,subjectivetext 随着互联网的流行,Web文本成为我们获取信 息、发表观点和交流情感的重要来源。特别是随着Web2畅0技术的发展,网络社区、博客和论坛给网络用户提供了更宽广的平台来交流信息和表达意见。这些文章和言论往往包含有丰富的个人情感,比如 对某部大片的影评,对某款手机的用户体验等,其中 蕴含着巨大的商业价值。如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。所谓情感分析(sentimentanalysis),就是确定说话人或作者对某个特定主题的 — 139—

绿色技术创新研究综述

龙源期刊网 https://www.wendangku.net/doc/9f416357.html, 绿色技术创新研究综述 作者:李杰中 来源:《创新科技》2015年第10期 [摘要] 回顾绿色技术创新研究的演进历程,梳理理论研究的热点和主要成果,从评价模型、评价指标体系和评价方法等方面探讨绿色技术创新评价研究,评析研究现状与指出存在问题,探讨进一步研究的重点和方向。 [关键词] 绿色技术创新;理论;评价研究 [中图分类号] F204 ; ; [文献标识码] A ; 文章编号:1671-0037(2015)10-32-3 Research Review on the Green Technology Innovation Li Jiezhong (Department of Economics and Management,Ningde Normal University,Ningde Fujian 352100) Abstract:This paper reviewed the evolution of green technology innovation research,combed the hot and main achievements of theoretical research,discussed the evaluation research of green technology innovation in terms of the evaluation model,evaluation index system and evaluation methods,assessed the research status and pointed out the problems,to explore the direction and focus of further research. Keywords:Green technology innovation;Theory;Evaluation research 绿色技术创新是生态文明建设的有效途径。随着资源与环境约束的加剧,绿色技术创新成为创新领域研究的热点议题,学者们对此进行了诸多研究和探讨,取得了不少积极的研究成果。 1 国外绿色技术创新理论研究综述 国外对绿色技术创新研究随着绿色意识的增强和对环境保护的关注而逐渐展开。从时间维度看,绿色技术创新本身历经了几个明显的发展阶段,从末端技术到无废工艺(20世纪60年代至70年代),从废弃物最少化技术到清洁生产技术(1984年至1989年),直到对污染预防技术的关注(1990年),绿色技术不断演进,不断向前渗透,目标和关注重点历经了污染的 去处与资源化、资源的合理利用、零排放、节能减排与源头消减,更加强调全过程的绿色技术创新,更加强调防患于未然,更加强调与经济社会发展的需求互动。

文本分类概述

第一章绪论 1.1研究背景 当今的时代,是一个信息技术飞速发展的时代。随着信息技术的飞速发展,科学知识也在短时间内发生了急剧的、爆炸性的增长。 据1998年的资料显示[1],70年代以来,全世界每年出版图书50万种,每一分钟就有一种新书出版。80年代每年全世界发表的科学论文大约500万篇,平均每天发表包含新知识的论文为1.3万-1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。近二十年来,每年形成的文献资料的页数,美国约1,750亿页。另据联合国教科文组织所隶属的“世界科学技术情报系统”曾做的统计显示,科学知识每年的增长率,60年代以来已从9.5%增长到10.6%,到80年代每年增长率达12.5%。据说,一位化学家每周阅读40小时,光是浏览世界上一年内发表的有关化学方面的论文和著作就要读48年。而2005年的资料显示[2],进入20世纪后全世界图书品种平均20年增加一倍,册数增加两倍。期刊出版物,平均10年增加一倍。科技文献年均增长率估计为13%,其中某些学科的文献量每10年左右翻一番,尖

端科技文献的增长则更快,约2-3年翻一番。 同时,伴随着Internet的迅猛发展,网站和网页数也在迅速增长,大约每年翻一番。据估计,目前全世界网页数已高达2000亿,而Google宣称其已索引250亿网页。在我国,中国互联网络信息中心从2001年起每年都对中文网页总数作统计调查,统计结果显示,中文网页总数已由2001年4月30日的159,460,056个发展到2005年12月31日的24亿个,增长之快可见一斑[3,4]。 从这些统计数字可以看出,我们被淹没在一个多么浩大的信息海洋里!然而信息的极大丰富并没有提高人们对知识的吸收能力,面对如此浩瀚的信息,人们越来越感觉无法快速找到需要的知识。这就是所谓的“信息是丰富的,知识是贫乏的”。 如何在这样一个巨大的信息海洋中更加有效的发现和使用信息以及如何利用这个信息宝库为人们提供更高质量和智能化的信息服务,一直是当前信息科学和技术领域面临的一大挑战。尽管用户对图像、音频和视频等信息资源的需求也在急剧增加,但文本仍然是最主要的非结构化和半结构化的信息资源。针对目前的出版物和网络信息大部分都以文本形式存在的状况,自动文本分类技术作为处理和组织大量文本数据

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.wendangku.net/doc/9f416357.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.wendangku.net/doc/9f416357.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.wendangku.net/doc/9f416357.html,/p-030716713857.html TF-IDF的线性图解:https://www.wendangku.net/doc/9f416357.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.wendangku.net/doc/9f416357.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

分类目录用户研究综述

分类目录用户研究综述 1.分类目录研究现状 1.1分类目录的功能和优势 网络分类目录是应用分类的方法对巨大的网络资源进行组织和揭示的有效 手段。它可以提供浏览方式的信息查询途径,具有直观、易检的优点。分类目录的使用,可以使得用户更易查找到所需信息。 分类检索是以分类目录浏览方式提供信息查询途径, 一般称为网络分类目录。由专家选取一些网页, 以某种分类方法进行组织, 建立主题树分层目录, 并将采集、筛选后的信息分门别类地放人各大类或子类下面, 用户通过层层点击, 随着范围的缩小与查询专指度的提高, 最终满足用户的查询需求。网络分类目录在检索方面有以下优势: 1.分类浏览方式直观。在检索目的不明确、检索词不确定时, 分类浏览方式更有效率, 适合网络新手。 2.检准率高。网络分类目录由人工抓取、标引, 网页学术性强, 检索效果好。另一方面用户参与程度高, 在分类目录的指导下, 逐步明确用户的检索需求, 检索目的性更强更明确, 检索效率提高。尽管网络分类目录较检索法具有一定的优势, 但是, 要提高检全率、检准率, 采用科学的分类方法是至关重要的。分类标准是提供优质检索服务的重要保障。 1.2 中文搜索引擎分类目录状况 目前中文搜索引擎有70多种。其中, 只有“网络指南针”是采用《中图法》建立网络目录的。目前也只有两级类目的框架、内容不够丰富, 其他的中文搜索引擎都是自编的网络分类目录。由于缺乏统一的网络信息分类标准, 各搜索引擎的分类体系无法兼容, 用户检索需要适应各个搜索引擎不同的网络分类方法。例如, 搜狐的分类目录包括18个大类. 从这些搜索引擎网站分类目录状况可以得出以下结论: 1.网上搜索引擎应用的分类方法较文献分类法检索有其优越性。 2.在分类体系上, 采用以主题、事物为主的聚类方法, 替代了以学科为中心的聚类方法。即围绕某一主题、某一事物集中关于这一主题、这一事物的相关信息。例如, 在“雅虎”分类目录中查找“因特网”方面的信息,进人“电脑与因特网”

相关文档