文档库 最新最全的文档下载
当前位置:文档库 › 基于平板型Web论坛的信息抽取研究

基于平板型Web论坛的信息抽取研究

第”卷第1期2009年2月

成都信息工程学院学报

JOURNALOFCHENGDUUNIVERSITYOFINFORMATIONTECHNOI..OGY

VoI.24No.1

Feb.2(109

文章编号:1671.1742(2D09}01—0001.04

基于平板型Web论坛的信息抽取研究

陈挺1,刘嘉勇1,夏天1,范刚2

(1.四川大学电子信息学院,四川成都610064;2.成都空军后勤部,9)11成都610041)

摘要:web论坛信息抽取是Web论坛分析的预处理步骤。在舆情分析研究中,论坛帖子的各种属性是分析舆论话题演变的重要数据;由于平板型网络论坛页面的结构,使帖子的回复对象属性抽取较难实现。通过对平板型

网络论坛结构及论坛用户网络发帖习惯的研究,针对平板结构网络论坛提出了一个抽取方案,实现了对帖子的各

种属性的信息抽取。

关键词:信息抽取;平板型论坛;帖子回复对象;抽取规则

中图分类号:TP391.1文献标识码:A

1引言

自网上论坛诞生以来,随着Web技术的发展,BBs(BulletinBoardSyst口n)论坛站点已成为Web信息库的重要组成部分。在对网络论坛分析研究时需要用到论坛帖子的各种属性参数,Web论坛系统通常使用CGI(‰nGate.wayInterface)模块接收用户在线发布的信息,保存在后台数据库中,并根据浏览请求从数据库中取回相应的消息并使用mMI.格式化后动态返回给终端用户,所以需要对ftTML格式的论坛页面进行必要的信息抽取。

信启抽取是把文本里包含的信息进行结构化处理,使其按一定的格式组织。输入信息抽取系统的是原始文本,输出的是固定格式的信息点,信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起¨J。大部分Web信息文本都是半结构化的,这类文本在格式上没有严格的格式,所以对于半结构化文本抽取模式经常是基于标记和分解符的【2J。不论何种抽取方式,程序都是根据抽取规则来进行,抽取规则是进行信息抽取的基础,也是整个抽取设计的核心。

文献[3]实现了一个面向网上论坛的信息抽取系统,采用了基于DOM(DocumentObjectModel)树和HTML页面结构的方法,对网上论坛进行信息抽取。抽取出论坛帖子的“消息、发信人、发布时间、标题、内容”等属性,但忽略了帖子另外两个重要属性——帖子回复对象和帖子在整个主题发帖中的位置(楼层号pos)。在舆情分析中,要分析舆论的演变趋势需要对发帖人的影响力和帖子的感情倾向进行分析。确定发帖者影响力的一个重要因素就是此人的帖子被回复的次数,次数越多在一定程度上就表明此人的影响力越大。帖子感情倾向与回复帖子感情倾向有很大关系,所以帖子的回复对象和楼层属性非常重要。.网上论坛从结构来划分大致可以分为两种:回复关系明确由网页记录下来的树型论坛和按帖子发表时间进行顺序显示的平板型论坛。用户在对一个话题跟帖时往往有一个回复对象,树型结构论坛网页上记录了这种回复关系,根据HTML标记可页面映射为一棵树T(每个帖子为一个结点,主帖为根结点),若某个帖子为子结点则与它直接相连的父结点为它的回复对象。不幸的是平板结构丢失了这种回复关系,那么对平板结构BBS论坛帖子的回复对象分析就不能从页面结构分析,使得平板型结构论坛的信息提取工作比较困难。

提出一个针对平板型BBS论坛信息抽取的技术方案,对于“消息、发信人、发布时间、标题、内容”等属性采用较简单易实现的基于样本的抽取方法,对帖子回复对象和帖子的楼层属性进行提取,重点分析研究了帖子回复对象的提取算法。

2平板型论坛信息抽取方案设计

2.1平板型论坛信息抽取框图

信息抽取工作主要分为两部分:帖子基本属性的抽取和帖子回复对象的判别。抽取规则的设计包括:基本届收稿日期:2008.07-01

2成都信息工程学院学报第24卷

性的抽取规则和回复对象的判别规则。帖子基本属性的抽取只涉9.至tJ本帖,而帖子回复对象的抽取却可能涉及到本帖之前的所有发帖。先抽取一个主题所有帖子的各项基本属性,利用后台存储数据库把每条帖子以记录的方式进行存储,然后调用判别器模块判别各帖的回复对象。论坛信息抽取方案框图如图1所示。

抽取规则由人工分析样本页面制定,由于人工

的参与(尤其是回复对象的判定,有很大的主观性),使系统的准确率有较大的提高。对于整个大型的web论坛来说用的大都是同一模板,对一个或几个相似的大型Web论坛,只需要做一次或少量次数的规则输入就可以了;如果论坛结构发生变化或需要增添新的论坛时,重新修改、添加规则就可实现。一………墨蔓县隹塑里i一回墓舅皇型型….…..

第1期陈挺等:基于平板型Web欲et云ej4-2息抽取研究3

(3)帖子中出现“楼上、LS、Ls、1S、Is”关键词则回复对象为当前帖子的上一层帖子;

(4)帖子中引用了当前帖子之前发帖的作者信息则回复对象为被引用作者的发帖;

(5)帖子中引用了当前帖子之前帖子的内容则回复对象为被引用帖子。

从系统的效率考虑,帖子A引用其他帖子的信息,那么在对A进行回复对象判断时,就必须由A开始进行一层一层的回溯查找,直到所引用的帖子。如果回溯量巨大,效率就成了瓶颈问题,若帖子A的处理只涉及到本帖则效率高,若首先实现规则(1)、(2),这样可使无引用其他帖子信息的帖子的处理效率提高,在一定程度上提高算法效率,但这又可能影响到算法的准确率。例如:如果帖子C引用了帖子B的内容,则C的回复对象本应该判断为B,但如果B又引用了A的信息,则就会造成误判C的回复对象为A,所以应该首先保证算法的准确率。

从回复习惯分析发现,一个发帖的引用对象总体上有一定的范围,一般为主题靠前的帖子或与本帖相邻发帖,可以利用这个规律减少回溯的次数从而提高算法效率。

设帖子为E,楼层号为pOS=i,PID为回复对象的pos值,text表示帖子内容。

回复对象判定的算法:

(1)-N断当前帖子兄的text是否有引用帖子Fi(0<口<i)的内容。是则PID=i,结束。‘。

回溯范围的计算:

①若口≤T(T为一个页面显示的帖子数目),则回溯范围为i<n的帖子。

,'

②若T<口<2T,则回溯范围为0<i<等和笔<i<口的帖子。

③若口>2T,则回溯范围为0<i<T和(日一T)<=i<口的帖子。

(2)判断当前帖子F口的text中是否引用了帖子R的作者信息(回溯范围与(1)同)。是则PID=i,结束。

(3)判断当前帖子的text中是否有“楼主”,“XX楼”等关键词。有则赋予PID相对应的楼层号,结束。

(4)判断当前帖子的text中是否出现“楼上”等关键词,有则赋值PID为当前楼号减1,否则结束整个程序,PID=0。

3工作流程

(1)在整个系统开始自动运行前,需要人工干预对样本页面进行分析,制定基本属性的提取规则和回复对象属性的判定规则。然后输入待处理页面,启动提取信息模块工作,系统开始自动提取Web论坛页面的信息。。

(2)输入同主题的待处理页面,抽取器由基本属性抽取规则指导,在页面源代码中搜索各种属性的起始与终止字符串,抽取出帖子属性,然后继续进行以上抽取操作,直至处理完一个主题的全部页面,按时间顺序把所有帖子属性存储人数据库,并按顺序确定各帖的楼层号pos。

(3)N另J器根据回复对象判别规则,依次读取后台存储数据库中的帖子,按以上抽取算法对各帖子的回复对象进行分析判别,然后将结果记录到后台存储数据库标志回复对象的PID字段中。

(4)重复(1)、(2),直到所有数据分析处理完成。

4实验结果

利用Java语言在Eclipse环境下进行上述算法的程序实现。实验采用来自国内访问量巨大的“天涯社区”论坛的5个主题为数据来源,每个主题各自包含约200—250个帖子。

从实验结果看,帖子基本属性和楼层属性的抽取结果与所要抽取的内容完全一致。人工参与规则的制定,大大提高了信息抽取的准确度。

图2是对各帖子的回复对象进行人为分析的结果,图3是对各帖子的回复对象进行程序分析的结果。横坐标为帖子pos值,纵坐标为帖子回复对象pos值。对比图2、图3可以看出,程序判断结果与人为判断结果基本一致,表明以上算法的可行性与正确性。

4成都信息工程学院学报第24卷

图2人工判断回复对象结果图图3程序判断回复对象结果图

表l是对程序判断结果的统计,这里的准确率是以人工判断为基准的。从表1可以看出回复对象判定算法的准确率比较高,而且速度也比较快,与人工相比,该算法极大地提高了工作效率。

表I回复对象判断结果

5结束语

提出一个针对平板型Web论坛进行帖子信息抽取的方案设计,通过人工分析论坛网页源代码来制定、修改和添加抽取规则,然后再让程序根据抽取规则进行信息的抽取工作。系统可以根据需要对新添加的论坛进行抽取规则的配置,还可对已有的抽取规则进行调整以适应论坛的变化。实验结果证明,方案能正确的完成抽取的工作。下一步的主要任务是如何保证准确率的前提下提高抽取规则制定的自动化程度。

参考文献:

[1]李洋.Web信息抽取研究[J].大众科学(科学研究与实践),2007,(24):67.

[2]李晶,陈恩红.Web信息抽取[J].计算机科学,2003,(6):78—81.

[3]奚伟鹏,李昕,蒋凯.面向网上论坛的信息抽取技术[J].计算机工程,2005,(4):66—68.

Extraction‰ls[J].S1GMODRecord,2002,(2).

[4]LaenderA,RibeiroNetoB.BriefSurveyofWebData

Informationextractionresearchbasedonpanel-structuredWebBBS

CHENTin91,LIUJia—yon91,XIATian‘,FA.NGan92

(1.CollegeofElectronicInformation,SCU,Chengdu610064,China;2.1.xgisticDepartmentofChengduMilitaryCommandAirForce,Chengdu610041,China)

Abstract:Theinformationextractiontechnologyisapre-processedmeasureintheWebBBSanalysis.scheme.Proper.tiesofapostinforumsplayanimportantreferenceroleinpublicopinionanalysis.Theinformationextractionforthepropertiesofthereviewedpostspublishedinapanel—structuredBBSisdifficulttorealizedduetoitsstructuraltrait.Aninformationextractionmethodispm删throughstudyofthepanel.structuredBBSandpostingCUStOIT塔ofitsUsets.

Keywords:informationextraction;panel—structuredBBS;reviewedpost;extractionrule

相关文档