文档库

最新最全的文档下载
当前位置:文档库 > 基于Web数据挖掘的网络舆情监测与分析系统研究

基于Web数据挖掘的网络舆情监测与分析系统研究

户识别和会话
识别等。
3.模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的
及最终可以理解的信息和知识。常用的模式发现技术包括:路径分析、
关联规则挖掘、时序模式发现、聚类和分类等技术。
4.模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、
解释、可视化,把发现的规则模式转换为知识。
图1 Web数据挖掘的基本过程
  四、Web数据挖掘在网络舆情监测与分析系统中
的应用
Web数据挖掘一直是国内外信息工作者所关注的领域。其中最成
功的、最有影响的应用是搜索引擎,现在流行的搜索引擎在静态数据中
表现很优秀,但是在动态数据如论坛信息等方面的表现有待加强。为
了加强对网络信息的控制能力,特别是动态信息的监测,所以有必要利
用Web数据挖掘技术建立一套网络舆情监测与分析系统来监测和分析
网络舆情。这个系统至少应包括如下功能:
1.网络信息的自动和人工采集。数据的收集是这个系统的源头,
是最关键的部分,收集的数据的广度和深度往往决定了系统的性能。
现有的信息采集技术下要是通过网络页面之间的链接关系,从网上自
动获取页面信息,并目随着链接不断向整个网络扩展,这是现在的搜索
引擎所使用的方法。舆情监控与分析系统不但需要能自动收集信息,
还应能根据用户信息需求,设定主题目标,使用人工参与和自动信息采
集结合的方法完成信息收集任务。在信息采集过程中,可以采用Web
数据挖掘的一些技术,对于静态数据可以采用路径分析技术,采用图的
方法来分析Web页面之间的路径关系。G=(V, E),其中:V是页面的
集合,E是页面之间的超链接集合,页面定义为图中的顶点,而页面间
的超链接定义为图中的有向边。顶点v的入边表示对v的引用,出边
表示v引用了其他的页面,这样形成网站的结构图,从图中可以确定最
频繁的访问路径,这个路径所指向的信息极有可能就是互联网上的“热
点”和“焦点”。对于动态信息,如用户访问日志等信息可采用关联规则
挖掘技术,这种技术主要用于从用户访问序列数据库的序列项中挖掘
出相关的规则,即挖掘出用户在一个访问期限(Session),从服务器上访
问的页面文件之间的联系,即使这些页面之间并不存在页面上的直接
参引关系。例如:某信息A和B,同时被很多用户浏览,则说明A和B
有可能相关。同时点击的用户越多,其相关度就可能越高。系统可以利
用这种思想可以收集到与同一主题相关的网络信息。
2.数据处理。能对收集到的网络信息进行预处理,如格式转换、数
据清理、数据统计。对于新闻评论,需要过滤无关信息,保存新闻的标
题、出