文档库

最新最全的文档下载
当前位置:文档库 > 基于Web数据挖掘的网络舆情监测与分析系统研究

基于Web数据挖掘的网络舆情监测与分析系统研究

基于Web数据挖掘的网络舆情监测与分析系统研究
◆张 亮 武汉科技学院计算机科学学院
◆张斯民 郧阳师范高等专科学校
  一、引言
随着网络信息技术的日益发展和人们利益诉求的日趋多元化,人
们特别是广大网民越来越多地通过网络发表评论、表达诉求、寻求声援
乃至组织行动,这对社会的和谐发展和稳定提出了新的挑战。因此,以
Web数据挖掘为工具、以网络舆情为视角来探究社会群体性事件的发
生、预防对增强社会群体性事件的预警和应急能力都具有极大的现实
意义。
  二、网络舆情的概念
舆情是在一定时期、一定范围的民众对社会现实的主观反映,是群
体性的思想、心理、情绪、意见和要求的综合表现。随着网络作为“第四
媒体”的出现,网络传播为网民发表意见提供了一个“公共空间”,网民
根据自己对社会现象的理解,可以在网上自主发表对社会事件的看法。
在网络上,当越来越多的网民对同一事物或现象呼应或发表不同看法,
各种意见在“公共空间”内彼此较量、修正、融合后就逐渐形成了一种新
的舆情类型———网络舆情。因此,网络舆情可以认为是公众对互联网
上传播的“热点”和“焦点”所表现的具有一定影响力和倾向性的意见
或言论的状态。网络舆情的产生不仅打破了传统媒介对社会舆论的相
对垄断,改变了传统的舆论形态,而且还迅速显现出其强势,越来越深
刻地改变着我们的生存环境与生活空间。
  三、Web数据挖掘概述
Web数据挖掘(Web DataMining),是数据挖掘技术在Web环境下的
应用,它从www的资源(即Web文档)和行为(即Web服务)中自动发现
并提取感兴趣的、有用的模式和隐含的信息。所涉及的技术覆盖了数据
库技术、信息获取技术、统计学、机器学习、神经网络等多个领域。
Web数据挖掘与传统的数据和数据仓库不同的是,Web上的信息
是非结构化或半结构化的、动态的、并且是容易造成混淆的,所以很难
直接以Web网页上的数据进行数据挖掘,而必须经过必要的数据处理。
典型Web数据挖掘的处理流程如图1所示,包括如下四个过程:
1.数据采集:根据挖掘目的,从Web资源中提取相关数据,构成目
标数据集。其任务是从目标Web数据(包括Web文档、电子邮件、电子
文档、新闻组、网站日志、网络数据库中的数据等)中得到和挖掘目的相
关的数据。
2.数据预处理:在进行Web数据挖掘之前对“杂质”数据进行过
滤,例如消除数据的不一致性;将多个数据源中的数据统一为一个数据
存储等。预处理数据的效果直接影响到挖掘算法产生的规则和模式。
数据预处理主要包括站点识别、数据选择、数据净化、用