当前位置：文档库 › 网页信息抽取及其自动文本分类的实现

网页信息抽取及其自动文本分类的实现

[日期：2009-07-23] 来源：作者：[字体：大中小] 赵金仿1,赵艳1,缪建明2

(1. 江苏科技大学电子信息学院,江苏镇江,212003; 2.中国科学院声学研究所,北京100080)

摘要:Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML 自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。

Extraction of Homepage Text Information and Realizationof Text Automatic Categorization

ZHAO Jin-fang1,ZHAO Yan1,MIAO Jian-ming2

(1.School of Electronics and Information,Jiangsu Univ. of Sci. and Tech.,Zhenjia ng 212003,China;

2.Institute of Acoustics, Chinese Academy of Science,Beijing 100080,China)

Abstract:The non-subject information is often contained in the Web homepage. The useless information must be rejected in the process of forming the usef ul text information. The text classification is very important to the text infor mation further processing. It has become another research topic in the infor mation search field.Proposed a method of extracting the text information bas ed on the HTML unique feature, simultaneously, and unified the article title i

nformation, and realized the text automatic categorization. The method is pro ved to feasible and realizable to enhance the homepage extraction and text categorization through the detailed demonstration.

0引言

随着互联网技术的不断发展,Web网已经成为一个巨大的信息源,数据量急剧地膨胀,Web网也成为人们获取信息的重要来源[1]。然而Web页面中存在着大量的HTML格式的无结构数据和少量XML格式的半结构数据[2]。网页抽取也成为信息搜索(Infor-mation Search)、数据挖掘(Data Mining)、机器翻译(Machine Translation)和文本摘要(Text Digest)等Web信息处理的基础。从而使得Web信息抽取成为了互联网信息搜索领域中一个重要的研究课题[3]。

文本分类是指在一定的分类体系下,根据文本的

内容自动确定文本类别的过程[4]。目前,众多的统计方法和机器学习方法被广泛应用于自动文本分类中, 极大地加快了文本分类的速度。这些文本分类的过程可概括为:网页信息抽取-正文信息切分-分类算法计算-形成各类文本四个步骤,其中正文信息的切分又涉及到编码转换、分词、歧义切分、新词发现等一系列中文信息处理的核心问题,同时这种切分的效率又随着词库和正文信息的容量大小而变化。这些因素都对文本分类的结果起到重要的影响,成为影响分类效果的重要因素。

文中采取一种利用文章标题信息简单进行文本自动分类的方法,首先利用HTML结构自身的标记特点对网页的主题信息实现抽取,其后对文章的标题信息进行分类,实验结果表明这种简易的文本分类方法取得了较高的分类准确率,同时又提高了文本分类的效率。

1网页信息抽取

互联网上的信息主要是以HTML页面的形式出现的,HTML语言具有自身的结构特点。用HTML语言写成的源文本由不同含义的标记(例如、<Content>等),各种超链、导航条等非主题信息,和文章的正文文本组成。虽然网页数据属于一种半结构化的数据,但从本质上来看,它们依然是文本文件。通过对HTML不同含义标记的分析,可以得到网页中一些对页面分类有用的信息,但由于不同的人有不同的网页编写风格,导致了网页格式的千差万别,所以要找出一种处理所有网页结构的算法几乎是不可能的。虽然网页信息的提取存在上述困难,但是,通过对大量的网页观察,发现一个网站所属的网页类型变动不大,一般采用统一的标记对来包含网页固定的显示内容,这就使得网页抽取形式在网站内部具有一定的稳定性和相似性。一篇有主题网页中的正文的开始和结束通常都具有特定的标记(例如:<! -正文开始>和<! -正文内容结束>)来指出,中间用固定的标记对(例如:和)来显示成段的文章正文信息,而在标记正文开始和正文信息之间还会用特定的标记(例如:<title>和或

和

)显示文章的标题信息。因此可以将HTML网页的信息部分划分为三个部分,具体如图1所示。

根据网页的不同区域标记特点,在网页信息提取过程中,可采用如下三步来完成正文信息的提取:

①提取所有处于标签和之间的信息;

②提取和或

和

之间的信息;

③提取

和

之间的信息,进行合并,获得含有杂质的正文信息;

④将

和

之间的信息进行进一步的分析,剔除其中的广告超链、字体大小等冗余信息,获得纯净的正文信息。

2标题信息分类

在浏览一个Web网页时,一般浏览器顶端的显示条出现的信息就是“网页标题”。在网页HTML代码中,网页标题通常位于标签之间。网页标题

是对一个网页的高度概括,一般来说,网站首页的标题就是网站的正式名称,而网站中文章内容页面的标题就是文章的题目,栏目首页的标题通常是栏目名称。当然这种一般原则并不是固定不变的,在实际工作中可能会有一定的变化,但无论如何变化,总体上仍然会遵照这种规律。

标题蕴涵了大量的分类信息,是对网页内容的一个高度概括,同时,标题往往言简意赅,分析标题远比分析整个正文效率更高。笔者曾经以人民日报2003年的文本语料进行测试,发现从标题中发现的特征词中具有大量的分类信息,能够给出类别信息的标题高达93.7%,这充分说明:标题在文本分类中具有显著的类别代表性。

分类算法是分类技术的核心,目前存在多种基于向量空间模型的分类算法[5],例如,支持向量机算法、向量距离分类法和贝叶斯方法等等,向量距离分类法的分类思路十分简单,根据算术平均值为每类文本集生成一个代表该类的中心向量,然后在新文本到来时,确定新文本的向量,计算该向量与每类中心向量间的距离(相似度),最后判定文本属于那个与文本距离最近的类;贝叶斯算法的基本思路是计算文本属于类别的几率。文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式;支持向量机(SVM)法的基本思想是:对于一个给定的具有有限数量训练样本的学习任务,如何在准确性(对于给定训练集)和机器容量(机器可无错误地学习任意训练集的能力)中进行折衷,以得到最佳的推广性能。它采用结构风险最小化(Structural Risk Minimization)原则。SVM算法不仅具有扎实的理论基础,而且在应用到文本分类时取得了很好的结果。由于文中仅使用标题信息中的特征词作为分类特征,标题内容则明显少于整个正文的内容,故采用贝叶斯算法来实现类别判断,具体步骤如下:

(1)首先人工选取一定的、带有明确类别的训练集。在此基础上,根据各类选定的不同,采用目前较为流行的最大熵方法,选取带有一定分类信息的特征词;

(2)在网页标题信息抽取完成的基础上,对标题信息进行词语切分;

(3)对标题信息中包含的特征词计算其属于每一个类别的几率,具体算法如下:

其中,P(w k| C j)为单词w k在C j中出现的比重, C j为第j个类别,| D|为该类中已标记的特征词的数目,N(w k,d i)表示单词w k在该类文档d i中出现的次数, | V

|表示该类中的词汇数量,

为该类所有词的数目和。

4)计算整个标题信息输入类Cj的几率,公式:

|θ)为相似含义, | C |为类的总数,n为特征词总数。

P(C

(5)给出对应文本属于各类别的概率大小,将文本确定为概率最大的那个类别。

3实验分析

中文网页数据集是实现中文网页自动分类的前提和基础,但是到目前为止还没有出现标准的中文网页数据集。为了考查提出方法的可行性,从新浪网、人民网和新华网这三大网站上采集了中文网页(共计1000篇)作为数据测试集。分类体系则采用门户网站的一般类别,分为政治、财经、娱乐、军事、体育、教育、饮食、卫生、环保、法治等10类,在此基础上,信息抽取准确率的实验结果如表1所示。

在信息抽取准确的基础上,进行了分类实验,实验结果如表2所示。

在观察实验结果后发现,这种方法对于少部分未含有标题信息的文本无效,同时,在部分标题中带有特征分属多个类别的特征词时,效果还有待提高。但从总的分类效果来看,分类准确率的平均数达到了84%以上应该说分类结果可行而这种方法显然比整个文本信息进行SVM计算简单,复杂性降低。

4结束语

网页的正文信息的提取和文本的自动分类在信息检索领域中均占有十分重要的意义,文中结合了传统的文本文类贝叶斯算法,在HTML自身特点的基础上,对网页文本信息实现了正文信息提取和文本自动分类,在此基础上进行了实验,取得了较好的分类结果。

中文网页不同于普通的文本文件,它包含大量的网页标记信息,这些一般成对出现的标记对为正文的信息抽取提供了可供使用的含义,文中正是在对这些标记对信息研究的基础上实现正文信息的抽取的。而所采用的方法同一般采用的S VM分类算法相比,复杂度明显降低,分类效率明显提高。

参考文献:

[1] 郭庚麒.Web文本挖掘技术[J].计算机技术与发展,2004, 14(1):114-116.

[2] 冯伟华,苗长芬.基于Web的网页信息抽取方法的研究 [J].洛阳工业高等专科学校学报,2005,15(3):30-31.

[3] 许文,都云程,李渝勤,等.一种通用HTML网页主题信息提取方法[J].现代图书情报技术,2007(1):40-43.

[4] 程传鹏.中文网页分类的研究与实现[J].中原工学院学报,2007,18(1): 61-64.

[5] 王晓霞,尹四清.网页分类技术的研究[J].机械工程与自动化,2007(1): 75-77.