文档库 最新最全的文档下载
当前位置:文档库 › 基于Web日志挖掘的自适应网站构建方法研究

基于Web日志挖掘的自适应网站构建方法研究

基于Web日志挖掘的自适应网站构建方法研究
基于Web日志挖掘的自适应网站构建方法研究

计算机与现代化 2010年第3期

JIS UAN JI YU X IAN DA I H UA

总第175期

文章编号:1006 2475(2010)03 0144 04

收稿日期:2009 07 31

作者简介:母俐丽(1980 ),女,河北乐亭人,兰州交通大学电子与信息工程学院硕士研究生,研究方向:W eb 数据挖掘,计算机网络。

基于W eb 日志挖掘的自适应网站构建方法研究

母俐丽

(兰州交通大学电子与信息工程学院,甘肃兰州730070)

摘要:自适应网站能够提高网站对用户的服务质量。本文首先给出自适应网站的总体框架,对框架中主要模块做详细的分析,包括数据预处理、数据挖掘、页面推荐和站点调整。在数据挖掘模块给出一种有效的识别用户访问模式的算法,该算法利用数据库查询简化频繁最大前向访问路径集的查找,并在此基础上形成频繁访问路径图,为页面推荐和站点调整做好准备。最后给出自适应网站的设计原则。

关键词:自适应网站;频繁访问路径图;页面推荐;站点调整;数据挖掘;W eb 日志中图分类号:T P311 文献标识码:A do:i 10.3969/.j i ssn .1006 2475.2010.03.041

Approach of AdaptiveW eb Site Construction Based on W eb LogsM ining

MU Li li

(Instit ute o f E lectron ics and In f o r m ati on Eng i neer i ng,L anz hou Ji ao t ong U n i ve rsity ,L anzhou 730070,Ch i na)

Ab stract :A dapti ve W eb site construc tion based on W eb m i n i ng cou l d i m prove the se rv ice quality for users .T he adapti ve W eb site genera l fram e w ork is proposed .A deta iled ana lysis is m ade f o r m a i n m odu l es of t he fra m e w ork ,

i nclud i ng data pre process

i ng,data m i n i ng ,pag e recomm enda ti on and site ad j ust m en t .A n eff ec ti ve a l gor it hm of use r access patte rns i dentifi cation is pro posed i n data m i n i ng modu le .The algorith m utilizes database query to si m plif y t he fi nd of t he m ost frequent access pa t hs set ,and then f o r m s a frequency access pa tterns m ap prepar i ng f o r page reco mm enda tion and site ad j ust m en t .F ina lly ,the adapti ve W eb site desi gn pri nc i ples are proposed .

K ey w ords :adapti ve W eb s ite ;frequency access pa t hs m ap ;page recomm endati on ;s ite ad j ust m en t ;data m i ng ;W eb l ogs

0 引 言

自适应网站作为W eb 数据挖掘的重要研究方向之一,日益受到关注,是未来网站的一个发展方向。

其目的是通过分析用户的访问日志,利用数据挖掘的方法得到用户不同的访问兴趣,并将符合用户兴趣的页面以链接列表等形式推荐给用户,为用户提供智能化的服务。

1 总体框架

一个实用的自适应网站,可以分为离线部分和在线部分,其总体框架如图1所示。

(1)离线部分:进行数据的收集、预处理,完成发现关联规则、频繁项集等频繁访问模式的挖掘。分为

数据预处理和数据挖掘两个模块。数据预处理模块

图1 自适应网站框架

主要是对所收集的数据进行预处理,预处理后的数据存入用户事务库,数据预处理的质量与挖掘的效率和

2010年第3期母俐丽:基于W eb日志挖掘的自适应网站构建方法研究145

结果紧密相关;数据挖掘模块主要是使用数据挖掘技术如统计分析、聚类分析、关联规则、序列模式等,来识别用户浏览模式,存入模式库。

(2)在线部分:推荐引擎根据挖掘出来的规则和当前用户访问操作计算生成推荐集,然后在用户最新请求的页面上添加推荐页面,再通过W eb服务器传递到用户端的浏览器,为用户提供自适应的在线服务,同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。

总之,在自适应网站中运用数据挖掘技术可以分为离线规则学习和在线模式应用两个阶段。在数据挖掘模块中,通过具体的挖掘算法对W eb日志进行模式识别和模式分析,离线获取用户访问特征和规则,存入规则模式库。当用户访问网站时,用户访问信息也会传到推荐引擎,推荐引擎根据用户的标识,向挖掘模块提取相应的挖掘结果和推荐集,将其可视化地反馈给用户,进行在线服务。

2 离线用户访问模式挖掘过程

2.1W eb日志数据预处理

将W eb日志文件导入数据库中,则进入对W eb 日志进行预处理阶段。由于服务器日志记录的数据并不完整,直接在其上进行挖掘非常困难。数据预处理是对W eb日志文件中的数据进行提取、分解、合并,最后整理成为便于挖掘算法所使用的数据格式,并保存到数据库中,以供数据挖掘阶段使用。主要包括数据清洗、用户识别、会话识别、路径补充、事务识别5个步骤。

(1)数据清洗,是指根据需求,对日志文件进行处理,包括删除无关紧要的数据,合并某些记录,对用户请求页面时发生错误的记录进行适当的处理等。

用户在浏览网页时,这个网页包含的图片、音频等信息也会作为单独的记录添加到日志中。而通常情况下这些文件并不是用户直接访问的,它们通常是浏览器根据HTML的超文本引用标记自动下载的。因而可认为它们与用户的浏览行为无关,需要消除这些无关的项来达到数据净化的目的。所以可以将日志中文件的后缀名为g if、jpeg、jpg、css和m ap的项删除,后缀名为cg i的脚本文件也应被删除。此外,用户请求访问失败的记录,如500、301、404及用户请求方法中不是GET的记录等,都可以删除。

当挖掘的目的是为了进行网络流量分析或为页面缓冲与预取提供依据时,这些信息又会显得格外重要,所以在删除这些记录的时候一定要把相关信息记录下来。当然对一个主要包含图像文件的站点,也不宜简单地采用上面的方法将所有的图形文件删除。

(2)识别用户,是对用户的唯一性的识别。由于缓存、代理服务器和防火墙的使用,使得识别用户这一步变得很复杂,因为不同的用户可以在同一时间通过一个简单的代理访问W eb服务器;同一个用户可能在不同的机器上访问W eb服务器;一个用户可能在同一台机器上使用不同的浏览器访问W eb服务器;而当不同的用户使用同一台机器浏览某一站点时也会造成混淆。因此,可以用如下的启发式规则来识别用户:

不同的I P地址代表着不同的用户;

当I P地址相同时,默认不同的操作系统或浏览器代表不同的用户;

!在I P地址相同,用户使用的操作系统和浏览器也相同,则判断每一个请求访问的页面与访问过的页面之间是否有链接,如果一个请求访问的页面与上一个已经访问过的所有页面之间并没有直接的链接,则假设在访问W eb站点的机器上同时存在多个用户。

(3)会话识别,是在对用户识别的基础上,将每个用户的访问信息划分为若干个独立的会话进程。

当日志文件中的记录信息跨越了一个较长范围的时间时,用户在这期间就可能对W eb站点进行了多次访问,而每次访问应视为一次独立的不同的会话。一个用户会话是用户对服务器的一次有效访问,通过其连续请求的页面,可以获得用户在网站中的访问行为和浏览兴趣。人们常用基于时间、基于站点结构的算法划分会话。

(4)路径补充,主要是将这些由于浏览器本地缓存技术和代理服务缓存技术的广泛使用而漏掉的请求补充到用户会话中去。

路径补充的方法是按顺序扫描每一个用户的会话,若会话中相邻两页之间没有超链接,则说明用户很可能使用了缓存中的页面,则检查日志,确定当前请求来自的页面,若在用户的历史记录上多次出现引用页,则将请求的时间最接近当前请求页的页面当作当前请求的来源,并将该来源页补充进用户会话之中。若引用的日志不完整,则可以使用站点的拓扑结构进行补充。

(5)事务识别,经过以上步骤得到用户访问操作序列,从理论上讲己经可以进行数据挖掘了,但它粒度太粗,需要充分利用分割算法将其转化为更小的事务模式。事务识别就是将用户会话分割为更小的事务,也就是从用户会话中的每一次前进浏览的第一页

146 计 算 机 与 现 代 化

2010年第3期

到回退前一页组成的路径(最大前向路径M FP),所以可以结合网站的拓扑结构来分割事务,分割好的事务构成事务数据库,可以在此基础上挖掘模式规则。

执行完上面5步操作后,就生成了用户事务文件,文件中包含访问W eb 站点的用户、访问的页面序列、每一页访问的时间等。2.2改进的频繁访问路径图算法

在离线状态下,挖掘的目的是要从用户事务访问集中形成频繁访问路径图,为在线阶段计算推荐集做准备。

文献[3]给出频繁访问路径图的定义。频繁访问路径图为一有向图G =(V,W (V ),E ,P(V )),其中V 为顶点集,表示页面URL 集;E 为图的有向边,表示两个W eb 页之间的超链接指向关系;W (V )为图顶点的权值,表示对应顶点的W eb 页面被访问的次数;P(V )为图中对应顶点的属性值,表示对应的W eb 页是内容页(设为1)还是导航页(设为0)。

文献[3]通过发现MFP ,将用户会话分割成一系列事务,然后采用与关联规则相似的方法挖掘频繁的浏览路径,在此基础上生成频繁访问路径图。在文献[4]中给出一种改进的挖掘频繁访问路径的算法,本文集合两算法的优点,给出一种改进的生成频繁访问路径图的算法。

前提:在数据库中创建一个能存入最大M FP 的数据表M FPS {UR I1,UR I 2,...,URIn},然后把所有的最大前向访问路径MFP 都存入表M FPS 中,从UR I1开始,若MFP 的长度小于n ,则把后面的字段置为?NULL #。

输入:最小支持度P m in ,最大前向访问频繁路径长度m 。

输出:频繁访问路径图G 。

//生成频繁访问路径集。对事务数据表MFPS 按条件进行查询,得到的每组长度为m 的向前路径,如果Counts 值大于P m in ,保存此路径。否则不保存。

fi e l ds=??;

for(i=1;i<=m ;i++){//确定最大向前频繁路径长度m ;fi e l ds+=?UR I ?+i+?,?;}

if(fields 包含?,?)去掉fi e l ds 最后一个逗号;

sql=?select ?+fi e l ds+?count(1)as Counts from M FPS group by ?+fie l ds+?hav i ng count(1)>P m in o rder by ?+fie l ds ;

保存的结果及为最大向前频繁路径集F M FPS ;//生成频繁访问路径图foreach(M FP i n F M FPS){

foreach(uri i n M FP ){//ur:i M FP 中各页面

if(ur.i 用户停留时间ti>=TX ){ur.i 属性值=1;}else{

ur.i 属性值=0;}

if(uri 在G 中没有对应顶点出现){建立M FP 中各对应顶点;根据顺序关系建立G 中有向边;

在顶点上标记相应的访问次数和属性1或0;}else{

对相应点的次数累加;

i f(ur.i 用户停留时间ti>=TX and ur.i 属性值==0)ur.i 属性值=1;}}

}//endforeach

举例如下:

首先确定要挖掘的最大向前频繁路径的长度4。

对事务识别后的数据表MFPS 按条件排序,得到频繁最大前向访问路径集F MFPS 如表1所示。只需扫描一次数据库,无须保存中间结果,只保存大于支持度3长度小于等于4的向前路径。

表1 数据库中F M FP S 记录

UR I 1URI2UR I 3URI4Coun ts A B C K 9A E C K 6A E F G 4A E H I 3A

D

H

I

3

由最大向前频繁路径集F MFPS ,生成该用户频繁访问路径图如图2所示。

图2 频繁访问路径图

图2中每个节点的字母代表访问页面,第一个数字是权值代表访问次数,第二个数字1代表是内容

2010年第3期母俐丽:基于W eb日志挖掘的自适应网站构建方法研究147

页,0代表是导航页。

此算法借助文献[4]的挖掘频繁访问路径的思想,时间复杂度和空间复杂度得到了大大的提高,只需扫描一次数据库,无须保存中间结果,没有I/O性能瓶颈。并借助文献[3]的图结构,得到了更优化的频繁访问路径图算法,为在线推荐做好准备。

3 在线自适应站点调整

自适应网站框架设计中的在线自适应站点调整主要通过页面推荐和链接结构调整实现。

3.1页面推荐

把当前浏览者的会话窗口和挖掘出的频繁路径图进行匹配,得出推荐的潜在项。在用户浏览网站时,动态地为用户推荐用户可能感兴趣的网页链接。

假设用户最近访问的页面序列是PS,在推荐窗口中设定固定的推荐W eb页面个数N,再设定一个?推荐深度#H,即从用户当前访问页面起遍历的拓扑深度。推荐原则是从小于等于推荐深度H的后继?内容页#中选择概率高的N个页面构成候选页面推荐集,再将候选页面推荐集中大于最小置信度的页面定为推荐项。推荐项以链接的形式在当前的网页中给出,以达到动态提供相关网页链接的目的。

例如,设推荐窗口中推荐W eb页面个数为3,推荐深度为2。当前用户访问的页面是A,根据推荐窗口的需求由图2可知页面A的后继?内容页#集是:A {C,E,D,H,I,G,K},小于等于推荐深度H的后继?内容页#集A为{B,E,C,H}。推荐W eb页面个数3,所以页面推荐候选集为A{C,E,B}。设定最小置信度 m in,分别计算 (A,E), (A,C), (A,B),将大于最小置信度的页面推荐给用户。

3.2链接结构调整

用户访问站点一般都是通过导航页找到自己感兴趣的内容页,有时用户为了找到自己想浏览的内容页不得不走一些弯路。站点调整模块的功能是根据数据挖掘模块分析得出的用户使用模式信息,人工或动态调整站点组织结构和显示方式等。

通过对W eb日志的挖掘,W eb管理员可以充分了解到用户和站点的交互情况。一方面可以由W eb 管理员利用挖掘出的用户访问信息对站点的结构作出调整和改进;另一方面也可以通过执行动态的服务器脚本,由W eb站点自身来对原先的设计结构作进一步的优化。

(1)链接提升和下沉。链接提升使一个页面或链接更容易被用户找到并访问。比如可将一个访问频率很高的页面或认为比较重要的链接放到能够更加方便地被用户访问到的位置或者提高该页面在站点逻辑结构中的层次,文献[6]给出了这种改善的算法。

(2)突出显示。突出显示是通过改变在页面上己经存在的链接的显示字体、颜色或图片等方式来吸引访问者的注意力。突出显示与链接提升和下沉不同,这里只是对链接进行修饰,对原来的页面并不会产生破坏。

(3)链接添加和删除。链接就是在两个没有关系的页面之间增加一个超级链接,以使用户可以通过一个页面上的链接访问另一个页面。比如通过模式挖掘发现用户访问页面X后经常访问Y,则应该考虑在页面X上增加一个到Y的超级链接。与此相反,删除链接主要是观察存在链接的页面,如果用户很少或几乎没有用户去按着这种预定的链接去访问页面,则认为这种链接是效率低下的应该删除。

文献[4]中的算法,链接添加和删除思想是先发现回溯点和目标页序偶对,然后根据用户给出的支持度取舍,对大于和等于支持度的每对回溯点和目标页,在回溯点添加到目标页的链接,从而调整站点,方便用户访问。

4 设计原则

自适应网站的实现目标有两个:一类是服务个性化,一种是性能最优化。为了实现自适应站点的主体目标,在对一个站点进行设计时,需要基于以下原则:

(1)离线挖掘算法具有高效性。部分特殊的需要较长时间运算的工作是离线定时执行,或由W eb 管理员主动发起。比如对新生成的W eb日志预处理,更新系统数据库;更新模式库;网站页面的增删改,目录、链接结构的变化等。增强离线挖掘算法的高效性可以节省人力、减少资源成本。

(2)在线内容调整具有实时性。比如检测用户正在访问的页面;根据用户当前访问页面查找推荐站点结构集;更新页面中推荐页面区域;链接结构调整等。提高检索效率、缓解网络拥塞,提高服务器响应速度,有助于提高网站吸引力。

(3)规则模式具有时效性。模式库要定期更新,确保挖掘的准确性。

(4)结构调整要明朗,易于用户的理解。网站结构的改善与调整应本着方便用户访问的原则,而不能适得其反给用户造成一定的困惑,找不到自己在网站中的准确位置。

(下转第150页)

150 计 算 机 与 现 代 化2010年第3

图3

实测伏安曲线

图4 实测功率曲线

参考文献:

[1] H olstroe m n I R .太阳能电池与太阳能电池电子线路

[M ].上海:上海科学技术文献出版社,1986.

[2] H ovelH J .太阳能电池[M ].黑龙江:黑龙江科学技术出

版社,1984.

[3] 童诗白.模拟电子技术基础(第3版)[M ].北京:高等

教育出版社,2001.

[4] 李晓明.电路与电子技术(第2版)[M ].北京:高等教

育出版社,2009.

[5] 李东生.P ro te l 99SE 电力设计技术入门与应用[M ].北

京:电子工业出版社,2002.

[6] Steve T e i xe ira .D e l ph i 5开发人员指南[M ].北京:机械工

业出版社,2003.

[7] 孟祥文.D e l ph i 5数据库开发技术[M ].北京:机械工业

出版社,2000.

[8] 商广伟.A ccess 查询及其应用技巧[J].计算机与现代

化,2008(5):124 126.

[9] K ip R Irv i ne .Inte l 汇编语言程序设计(第4版)[M ].北

京:电子工业出版社,2004.

[10]潘涛,等.基于虚拟仪器的高性能太阳能电池测试系统

[C]//第六届中国功能材料及其应用学术会议,2007,

38(A 04):1474 1476.

[11]赵秀田.太阳能电池伏安特性测试装置的设计[J].中国

建设动态:阳光能源,2005(12):40 42.

[12]刘丹.一种基于TL 494的P WM 控制技术[J].通信电源

技术,2007,24(6):39 41.

[13]王亚君.电压驱动型脉宽调制器件T L494特性研究[J].

沈阳师范大学学报(自然科学版),2003,21(4):266 269.

[14]毕向阳.空间矢量脉宽调制在有源滤波器中的应用[J].

通信电源技术,2008,25(5):37 40.

(上接第147页)

(5)结构的改善要适度,不破坏原站点结构。从安全考虑,不能使现有的结构完全被破坏,确保网站设计者的意图不被扰乱。

5 结束语

基于充分利用W eb 数据资源的渴望和应用的驱动,多种网站优化方法应运而生。自适应网站是一个

很好的优化策略,其应用范围涉及金融、政府、新闻、教育、商务等诸多领域。随着W eb 数据挖掘技术的发展,更加成熟的自适应网站必将使人们对互联网的应用达到一个新的高度。

参考文献:

[1] 刘滨.W eb 日志挖掘及其实现[D ].哈尔滨:哈尔滨工程

大学硕士学位论文,2007.

[2] 吉海颖.用户访问模式挖掘及自适应W eb 研究[D ].济

南:山东大学硕士学位论文,2005.

[3] 马相华.基于访问日志的自适应站点的研究[D ].大连:

大连海事大学硕士学位论文,2008.

[4] 方成效.基于W eb 挖掘的自适应站点研究[D ].南昌:

华东交通大学硕士学位论文,2006.

[5] 才央拉姆.自适应站点研究技术[D ].南京:河海大学硕

士学位论文,2006.

[6] P erko w itzM,Etzi oni O.A daptive sites :A utom ati ca lly l earn

i ng fro m user access patterns[C ]//P roc .of t he 16th Int .W or l d W i de W eb Con.f Ca lifo m ia ,U S A,1997.

[7] 孙金华.基于关联规则的W eb 日志挖掘研究与实现

[D ].南昌:南昌大学硕士学位论文,2007.

[8] 付国瑜.基于W eb 日志的数据挖掘研究[D ].重庆:重

庆大学硕士学位论文,2007.

[9] 周琪锋.基于W eb 挖掘的站点设计的研究[D ].广州:

广东工业大学硕士学位论文,2007.

[10]刘国光.基于聚类的W eb 使用挖掘研究[D ].济南:山东

大学硕士学位论文,2007.

[11]周世东.W eb 数据挖掘在电子商务中的应用研究[D ].

北京:北京交通大学硕士学位论文,2008.

[12]杨真.数据挖掘技术在商品管理中的应用研究[D ].北

京:北方工业大学硕士学位论文,2008.

[13]刘强,郭景峰.基于用户访问路径分析的页面推荐模型

[J].计算机技术与发展,2007,1(1):151 154.

[14]俞辉.基于W eb 日志挖掘的网页实时推荐算法研究

[J].计算机工程与设计,2008,4(7):1691 1693.

网站日志分析的具体方法和步骤【基础】

网站日志挖掘分析的方法 日志文件的格式及其包含的信息 ①2006-10-17 00:00:00②202、200、44、43 ③218、77、130、24 80 ④GET ⑤/favicon、ico ⑥Mozilla/5、0+(Windows;+U;+Windows+NT+5、1;+zh-CN;+rv:1、8、0、 3)+Gecko/20060426 +Firefox/1、5、0、3。 ①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等); ⑤访问模式;⑥agent,即用户使用的操作系统类型与浏览器软件。 一、日志的简单分析 1、注意那些被频繁访问的资源 2、注意那些您网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等: 3、观察搜索引擎蜘蛛的来访情况 4、观察访客行为 应敌之策: 1、封杀某个IP 2、封杀某个浏览器类型(Agent) 3、封杀某个来源(Referer) 4、防盗链 5、文件重命名 作用: 1、对访问时间进行统计,可以得到服务器在某些时间段的访问情况。 2、对IP进行统计,可以得到用户的分布情况。 3、对请求URL的统计,可以得到网站页面关注情况。 4、对错误请求的统计,可以更正有问题的页面。 二、网站挖掘 根据所挖掘的网站数据的类型,可以将网站数据挖掘分为以下三类:网站内容挖掘(网站Content Mining)、网站结构挖掘(网站Structure Mining)、网站使

用挖掘(网站Usage Mining)(也称为网站日志挖掘)。 ①网站内容挖掘。网站内容挖掘就是指从文档的内容中提取知识。网站内容挖掘又分为文本挖掘与多媒体挖掘。目前多媒体数据的挖掘研究还处于探索阶段,网站文本挖掘已经有了比较实用的功能。网站文本挖掘可以对网站上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用网站文档进行趋势预测等。网站文档中的标记,例如与<Heading>等蕴含了额外的信息,可以利用这些信息来加强网站文本挖掘的作用。 ②网站结构挖掘。网站结构挖掘就是从网站的组织结构与链接关系中推导知识。它不仅仅局限于文档之间的超链接结构,还包括文档内部的结构。文档中的URL目录路径的结构等。网站结构挖掘能够利用网页间的超链接信息对搜索引擎的检索结果进行相关度排序,寻找个人主页与相似网页,提高网站搜索蜘蛛在网上的爬行效率,沿着超链接优先爬行。网站结构挖掘还可以用于对网站页进行分类、预测用户的网站链接使用及网站链接属性的可视化。对各个商业搜索引擎索引用的页数量进行统计分析等。 ③网站使用记录挖掘。网站使用记录挖掘就是指从网站的使用记录中提取感兴趣的模式,目前网站使用记录挖掘方面的研究较多,WWW中的每个服务器都保留了访问日志,记录了关于用户访问与交互的信息,可以通过分析与研究网站日志记录中的规律,来识别网站的潜在用户;可以用基于扩展有向树模型来识别用户浏览序列模式,从而进行网站日志挖掘;可以根据用户访问的网站记录挖掘用户的兴趣关联规则,存放在兴趣关联知识库中,作为对用户行为进行预测的依据,从而为用户预取一些网站页面,加快用户获取页面的速度,分析这些数据还可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。 通过对网站服务器日志中大量的用户访问记录深入分析,发现用户的访问模式与兴趣爱好等有趣、新颖、潜在有用的以及可理解的未知信息与知识,用于分析站点的使用情况,从而辅助管理与支持决策。当前,网站日志挖掘主要被用于个性化服务与定制、改进系统性能与结构、站点修改、商业智能以及网站特征描述等诸多领域。 三、网站日志挖掘的方法 (一)首先,进行数据的预处理。</p><h2>web数据挖掘考试重点</h2><p>填空或简答: 1. 数据、信息和知识是广义数据表现的不同形式。 2. 主要知识模式类型有:广义知识,关联知识,类知识,预测型知识,特异型知识 3. web挖掘研究的主要流派有:Web结构挖掘、Web使用挖掘、Web内容挖掘 4. 一般地说,KDD是一个多步骤的处理过程,一般分为问题定义、数据抽取、数据预处理、.数据挖掘以及模式评估等基本阶段。 5. 数据库中的知识发现处理过程模型有:阶梯处理过程模型,螺旋处理过程模型,以用户为中心的处理结构模型,联机KDD模型,支持多数据源多知识模式的KDD处理模型 6. 粗略地说,知识发现软件或工具的发展经历了独立的知识发现软件、横向的知识发现工具集和纵向的知识发现解决方案三个主要阶段,其中后面两种反映了目前知识发现软件的两个主要发展方向。 7. 决策树分类模型的建立通常分为两个步骤:决策树生成,决策树修剪。 8. 从使用的主要技术上看,可以把分类方法归结为四种类型: a) 基于距离的分类方法 b) 决策树分类方法 c) 贝叶斯分类方法 d) 规则归纳方法 9. 关联规则挖掘问题可以划分成两个子问题: a) 发现频繁项目集:通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。 b) 生成关联规则:通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。 10. 数据挖掘是相关学科充分发展的基础上被提出和发展的。 主要的相关技术: 数据库等信息技术的发展 统计学深入应用 人工智能技术的研究和应用 11. 衡量关联规则挖掘结果的有效性: 应该从多种综合角度来考虑: a准确性:挖掘出的规则必须反映数据的实际情况。 b实用性:挖掘出的规则必须是简洁可用的。 c新颖性:挖掘出的关联规则可以为用户提供新的有价值信息。 12. 约束的常见类型有: 单调性约束; 反单调性约束; 可转变的约束; 简洁性约束. 13. 根据规则中涉及到的层次,多层次关联规则可以分为: 同层关联规则:如果一个关联规则对应的项目是同一个粒度层次,那么它是同层关联规则。层间关联规则:如果在不同的粒度层次上考虑问题,那么可能得到的是层间关联规 14. 按照聚类分析算法的主要思路,聚类方法可以被归纳为如下几种。 划分法:基于一定标准构建数据的划分。 属于该类的聚类方法有:k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。 层次法:对给定数据对象集合进行层次的分解。 密度法:基于数据对象的相连密度评价。 网格法:将数据空间划分成为有限个单元(Cell)的网格结构,基于网格结构进行聚类。 模型法:给每一个簇假定一个模型,然后去寻找能够很好的满足这个模型的数据集。 15. 类间距离的度量主要有: 最短距离法:定义两个类中最靠近的两个元素间的距离为类间距离。 最长距离法:定义两个类中最远的两个元素间的距离为类间距离。 中心法:定义两类的两个中心间的距离为类间距离。</p><h2>谢运洁-浅论Web使用挖掘</h2><p>浅Web使用挖掘 谢运洁 (武汉大学信息管理学院,重庆教育学院图书馆重庆 400067) 摘要:系统介绍了Web使用挖掘的相关概念、基本流程以及各种方法在Web使用挖掘中的应用。 关键词:信息分析数据挖掘 Web使用挖掘 正文: 0引言 随着Internet和网络技术的进一步发展,许多企业机构都拥有了自己的Web站点,向用户提供各种基于Web的信息服务,如电子商务、网上银行、用户反馈、技术支持等等,对他们来讲,如何更好地向用户提供更具有针对性的服务,根据用户的网络行为来推测企业未来的发展策略变得十分重要。同时,Web网页在以惊人的速度增长,新闻、广告、教育、经济等各种信息充斥在用户面前,加上其更新速度也越来越快,使得用户在信息的海洋中无所适从,如何把信息在恰当的时间、恰当的地点以恰当的方式提供给用户更是我们必须解决的问题。Web使用挖掘,其任务是挖掘Web用户的行为模式,根据挖掘结果改进站点结构,减少用户在获取所需信息或产品之前的寻找时间,向特定用户主动提供个性化服务。 1基本概念 1.1Web数据挖掘 Web数据挖掘是指利用数据挖掘技术对Web存取模式、Web结构和规则,以及动态Web内容的查找。一般地,根据挖掘对象的不同,可以将Web数据挖掘分为三大类:Web内容挖掘(Web Content Mining)、Web结构挖掘(Web Structure Mining)和Web使用挖掘(Web Usage Mining),另外web结构挖掘可以被认为是Web内容挖掘的一部分,这样可以简单的把Web挖掘分为Web 内容挖掘和Web使用挖掘。 1.2Web使用挖掘 Web使用挖掘是指利用数据挖掘技术对Web服务器中的日志记录进行分析,发现各种用户使用模式的过程,其目的在于更好的为用户提供各种服务。Web使用挖掘可以挖掘出用户的隐藏信息,根据用户行为趋势确定企业未来的战略方向。Web使用挖掘的基本流程主要包括数据准备、数据预处理、模式发现和模式分析几个步骤。 2数据准备 Web使用挖掘的数据来源大致可分为三大块:服务器端(Server Log File)、中介代理端(Intermediary Data)以及客户端(Client Side Data)。 2.1服务器端数据 2.1.1服务器日志文件(Server Log File) Web服务器日志文件是一个存储用户基本信息、描述用户浏览行为信息的文件。特别是,它可以存储用户浏览网页时沿着网页链接所产生的点击流序列信息,是Web使用挖掘的主要数据来源。Web服务器日志通常以两种格式存储文件:普通日志文件格式(Common Log File Format),它可以存储用户IP、用户名、请求文件名、文件大小及服务器名等最基本的信息;扩展日志格式(Extended Log Format),存储了一些额外的信息,比如主机地址、请求日期和时间、用户名、传输字节数、事务完成时间等。Web使用挖掘把Web服务器日志作为主要</p><h2>WEB日志格式.doc</h2><p>WEB日志格式 轻松看懂WEB日志格式 WEB日志是网站分析和网站数据仓库的数据最基础来源,了解其格式和组成将有利于更好地进行数据的收集、处理和分析。 1、日志格式类型 目前常见的WEB日志格式主要由两类,一类是Apache的NCSA日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,但目前的应用并不广泛,所以这里主要介绍的是NCSA 扩展日志格式(ECLF)。 2、常见日志格式的组成 这是一个最常见的基于NCSA扩展日志格式(ECLF)的Apache日志样例: 58.61.164.141 – – [22/Feb/20xx:09:51:46 +0800] "GET /reference-and-source/weblog-format/ HTTP/1.1″ 206 6326 " ; "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"</p><p>可以看到这个日志主要由以下几个部分组成: 访问主机(remotehost) 显示主机的IP地址或者已解析的域名。 标识符(Ident) 由identd或直接由浏览器返回浏览者的EMAIL或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。 授权用户(authuser) 用于记录浏览者进行身份验证时提供的名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。 日期时间(date) 一般的格式形如[22/Feb/20xx:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟时区],占用的的字符位数也基本固定。 请求(request) 即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括以下三个部分: 请求类型(METHOD) 常见的请求类型主要包括GET/POST/HEAD这三种; 请求资源(RESOURCE) 显示的是相应资源的URL,可以是某个网页的地址,也可</p><h2>web日志分析常用方法及应用</h2><p>Web日志挖掘分析的方法 日志文件的格式及其包含的信息 ①2006-10-17 00:00:00②202.200.44.43 ③218.77.130.24 80 ④GET ⑤/favicon.ico ⑥Mozilla/5.0+(Windows;+U;+Windows+NT+5.1;+zh-CN;+rv: 1.8.0.3)+Gecko/20060426 +Firefox/1.5.0.3。 ①访问时间;②用户IP地址;③访问的URL,端口;④请求方法(“GET”、“POST”等); ⑤访问模式;⑥agent,即用户使用的操作系统类型和浏览器软件。 一、日志的简单分析 1、注意那些被频繁访问的资源 2、注意那些你网站上不存在资源的请求。常见的扫描式攻击还包括传递恶意参数等: 3、观察搜索引擎蜘蛛的来访情况 4、观察访客行为 应敌之策: 1、封杀某个IP 2、封杀某个浏览器类型(Agent) 3、封杀某个来源(Referer) 4、防盗链 5、文件重命名 作用: 1.对访问时间进行统计,可以得到服务器在某些时间段的访问情况。 2.对IP进行统计,可以得到用户的分布情况。 3.对请求URL的统计,可以得到网站页面关注情况。 4.对错误请求的统计,可以更正有问题的页面。 二、Web挖掘 根据所挖掘的Web 数据的类型,可以将Web 数据挖掘分为以下三类:Web 内容挖掘(Web Content Mining)、Web 结构挖掘(Web Structure Mining)、Web 使用挖掘(Web Usage Mining)(也称为Web日志挖掘)。 ①Web内容挖掘。Web内容挖掘是指从文档的内容中提取知识。Web</p><h2>数据挖掘在Web中的应用案例分析</h2><p>[数据挖掘在Web中的应用] 在竞争日益激烈的网络经济中,只有赢得用户才能最终赢得竞争的优势。作为一个网站,你知道用户都在你的网站上干什么吗?你知道你的网站哪些部分最为用户喜爱、哪些让用户感到厌烦?什么地方出了安全漏洞?什么样的改动带来了显著的用户满意度提高、什么样的改动反而丢失了用户?你怎样评价你的网站广告条的效率、你知道什么样的广告条点击率最高吗?“知己知彼,才能百战不殆”,你真的了解自己吗?挑战的背后机会仍存,所有客户行为的电子化(Click Stream),使得大量收集每个用户的每一个行为数据、深入研究客户行为成为可能。如何利用这个机会,从这些“无意义”的繁琐数据中得到大家都看得懂的、有价值的信息和知识是我们面临的问题。 [问题]: 1.根据你所学的知识,思考从网站中所获取的大量数据中,我们能做哪些有意义的数据分 析? 基于WEB 使用的挖掘,也称为WEB 日志挖掘(Web Log Mining)。与前两种挖掘方式以网上的原始数据为挖掘对象不同,基于WEB 使用的挖掘面对的是在用户和网络交互的过程中抽取出来的第二手数据。这些数据包括:网络服务器访问记录、代理服务器日志记录、用户注册信息以及用户访问网站时的行为动作等等。WEB 使用挖掘将这些数据一一纪录到日志文件中,然后对积累起来的日志文件进行挖掘,从而了解用户的网络行为数据所具有的意义。我们前面所举的例子正属于这一种类型。 基于WEB 内容的挖掘:非结构化半结构化\文本文档超文本文档\Bag of words n-grams 词短语概念或实体关系型数据\TFIDF 和变体机器学习统计学(包括自然语言处理)\归类聚类发掘抽取规则发掘文本模式建立模式. 基于WEB 结构的挖掘:半结构化数据库形式的网站链接结构\超文本文档链接\边界标志图OEM 关系型数据图形\Proprietary 算法ILP (修改后)的关联规则\发掘高频的子结构发掘网站体系结构归类聚类. 基于WEB 使用的挖掘:交互形式\服务器日志记录浏览器日志记录\关系型表图形\Proprietary 算法机器学习统计学(修改后的)关联规则\站点建设改进与管理销建立用户模式. 2.根据你所学的数据挖掘知识,谈谈哪些数据挖掘技术可以应用于Web中,以这些数据挖 掘技术可以完成哪些功能? Web Mining 技术已经应用于解决多方面的问题,比如基于WEB 内容和结构的挖掘极大的帮助了我们从浩瀚的网络资源中更加快速而准确的获取所需要的资料,而基于使用的数据挖掘之威力,更是在商业运作上发挥的淋漓尽致,具体表现在: (1)对网站的修改能有目的有依据稳步的提高用户满意度 发现系统性能瓶颈,找到安全漏洞,查看网站流量模式,找到网站最重要的部分,发现用户的需要和兴趣,对需求强烈的地方提供优化,根据用户访问模式修改网页之间的连接,把用户想要的东西以更快且有效的方式提供给用户,在正确的地方正确的时间把正确的信息提供给正确的人。 (2)测定投资回报率 测定广告和促销计划的成功度 找到最有价值的ISP 和搜索引擎 测定合作和结盟网站对自身的价值</p><h2>Web日志挖掘技术的研究与应用</h2><p>面对巨大而复杂的网络系统以及浩如烟海的信息资 源,研究人员将传统的数据挖掘技术和相结合,进行Web 挖掘,从半结构或无结构的页面中,以及使用者的Web Web 活动中,抽取感兴趣的、潜在的模式,分析、研究,并加以利用。 挖掘可分为类:内容挖掘、结构挖掘和 Web 3Web Web 日志挖掘。而日志挖掘作为挖掘的一个重要组 Web Web Web 成部分,有其独特的理论和实践意义。 所谓日志,是指在服务器上有关访问的各种日Web Web 志文件,包括访问日志、引用日志、代理日志、错误日志等文件。这些文件里包含了大量的用户访问信息,如用户的IP 地址、所访问的、访问日期和时间、访问方法或URL (GET 、访问结果功、失败、错误、访问的信息大小等。 POST)()而日志挖掘,就是通过对日志记录的挖掘,发Web Web 现用户访问页面的模式,从而进一步分析和研究日Web Web 志记录中的规律,以期改进站点的性能和组织结构,提Web 高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系,这在电子商务等领域是大有作为的。 日志挖掘技术 1 Web 目前,日志挖掘技术主要分为两大类:基于事Web Web 务的方法和基于数据立方体的方法。基于事务的日志挖掘技术 1.1 Web Web 基于事务的日志挖掘技术最早是由 等人Web Web ,Chen [1]提出的图。他将数据挖掘技术应用于服务器日志文 (1)Web 件,提出最大向前引用算法的概念。他将用户会话分割 MF 成一系列的事务,然后采用与关联规则相类似的方法挖掘频繁访问序列,从而取得用户访问模式。 基于事务的日志挖掘技术的基本流程是:Web 预处理过程服务器日志中的内容非常丰富,(1) Web 但是由于本地缓存、代理服务器、防火墙的存在,使得直接在数据上进行挖掘变得十分困难和不准确。因此, Web log 在实施数据挖掘之前,首先必须对 文件进行数据净Web Log 化、用户识别、会话识别、页面过滤、路径补充等一系列的 工作[9] 。数据净化是指删除日志中与挖掘(Data Cleaning)Web 算法无关的数据,同时将有用的日志记录信息转换为适Web 当的数据格式。用户识别和会话识别是从日志中的每一条记录中识别出相应的用户,并将日志中的多条记录分割为不同的事务。页面过滤是针对页面的帧结构,对Web Web (Frame)日志记录进一步过滤,而路径补充则是考虑到用户可能在浏览器中使用方式而使日志中遗漏了访问信息。 Back Web 序列模式识别事务分割完成以后,接下来就(2) Web 是实施序列模式识别的工作。第一步,通过算法""MF 将日志数据中原始序列,转换为(Maximal Forward Refences)最大向前引用集,其中的每一个访问子序列都代表一个从用户访问点出发的最大向前引用,其目的是过滤掉为了取消访问而产生的回退引用的影响,从而使我们能专注于挖掘有意义的用户访问序列。第二步,从最大向前引用集中找出大"引用序列,也就是频繁出现的 "(Large Reference Sequences)引用序列。其方法和挖掘关联规则[3] 的方法相类似,但不同的是,在挖掘访问模式时,一个引用序列必须是包含在最大向前引用中的连续引用,而在挖掘关联规则时,一个 大项目集仅仅是一个事务中的项目的集合。为了找出大""引用序列,等人提出了和Chen FS(Full Scan)SS(Selective 两种算法。算法从本质上说,是利用了一些和 Scan)FS Hash 日志挖掘技术的研究与应用 Web 肖立英,李建华,谭立球 (中南大学铁道校区信息技术研究中心长沙) , 410075摘要: 介绍了目前世界上两种主要的日志挖掘技术基于事务和基于数据立方体。同时,提出了一个基于日志挖掘技术的应Web (Web )Web 用,即用户自适应的站点,介绍了这一系统的实现方法和主要特色。Web 关键词:数据挖掘;挖掘;日志挖掘;用户自适应的站点 Web Web Web Research and Application of Web Log Mining XIAO Liying, LI Jianhua, TAN Liqiu (Information Technology Research Center, Tiedao Campus,South-Central University, Changsha,410075) 【】 Abstract In this paper, the two methods of Web Log Mining (Web Session and Data Cube) are introduced. And then this paper presents the design of the adaptive site which is an application of the Web Log Mining. 【】;;;Key words Data mining Web mining Web log mining Adaptive Web site 第卷 第期287№ Vol.28 7计 算 机 工 程Computer Engineering 年月 20027 July 2002 ?开发研究与设计技术? 中图分类号: TP182 文章编号:———10003428(2002)07 027602 文献标识码:A —— 276 Web 日志 预处理过程序列模式识别图一 Chen 为代表的基于Web 事务的方法 序列模式分析 图为代表的基于 事务的方法1 Chen Web 日志 Web 预处理过程序列模式识别 序列模式分析</p><h2>WebTracker日志配置的几种常见方法</h2><p>常见Web日志切割方法 本文档就IIS、Apache、Tomcat常见Web服务下的日志切割及发布进行说明。 配置前说明 --------------------------------------------------------- 2 IIS服务器---------------------------------------------------------- 3 1、日志文件切割--------------------------------------------- 3 2、配置网站日志--------------------------------------------- 3 3、日志文件获取方法----------------------------------------- 6 4、Win2003 Server log文件可下载配置------------------------ 8 5、设置虚拟目录IP访问限制--------------------------------- 10 Apache服务器------------------------------------------------------ 11 1、日志分割设置-------------------------------------------- 11 2、设置虚拟目录来发布日志---------------------------------- 12 Tomcat服务器------------------------------------------------------ 14 1、日志分割设置-------------------------------------------- 14 2、设置虚拟目录来发布日志---------------------------------- 15</p><h2>WEB日志格式及分析.doc</h2><p>WEB日志格式及分析 网站日志挖掘分析-WEB日志格式及分析工具 WEB日志是网站分析和网站数据数据整理最基础的数据,了解其格式和组成将有利于更好地进行数据的收集、处理和分析。 一、日志格式类型 目前常见的WEB日志格式主要由两类,一类是Apache的NCSA 日志格式,另一类是IIS的W3C日志格式。NCSA格式又分为NCSA普通日志格式(CLF)和NCSA扩展日志格式(ECLF)两类,目前最常用的是NCSA扩展日志格式(ECLF)及基于自定义类型的Apache日志格式;而W3C扩展日志格式(ExLF)具备了更为丰富的输出信息,但目前的应用并不广泛,所以这里主要介绍的是NCSA扩展日志格式(ECLF)。 二、常见日志格式的组成 这是一个最常见的基于NCSA扩展日志格式(ECLF)的Apache日志样例: 可以看到这个日志主要由以下几个部分组成: 访问主机(remotehost)显示主机的IP地址或者已解析的域名。 标识符(Ident)由identd或直接由浏览器返回浏览者的EMAIL 或其他唯一标示,因为涉及用户邮箱等隐私信息,目前几乎所有的浏览器就取消了这项功能。 授权用户(authuser)用于记录浏览者进行身份验证时提供的</p><p>名字,如果需要身份验证或者访问密码保护的信息则这项不为空,但目前大多数网站的日志这项也都是为空的。 日期时间(date)一般的格式形如[22/Feb/20xx:09:51:46 +0800],即[日期/月份/年份:小时:分钟:秒钟时区],占用的的字符位数也基本固定。 请求(request)即在网站上通过何种方式获取了哪些信息,也是日志中较为重要的一项,主要包括以下三个部分: 请求类型(METHOD)常见的请求类型主要包括GET/POST/HEAD 这三种; 请求资源(RESOURCE)显示的是相应资源的URL,可以是某个网页的地址,也可以是网页上调用的图片、动画、CSS等资源; 协议版本号(PROTOCOL)显示协议及版本信息,通常是HTTP/1.1或HTTP/1.0。 状态码(status)用于表示服务器的响应状态,通常1xx的状态码表示继续消息;2xx表示请求成功;3xx表示请求的重定向;4xx表示客户端错误;5xx表示服务器错误。 传输字节数(bytes)即该次请求中一共传输的字节数。 来源页面(referrer)用于表示浏览者在访问该页面之前所浏览的页面,只有从上一页面链接过来的请求才会有该项输出,如果是新开的页面则该项为空。上例中来源页面是google,即用户从google 搜索的结果中点击进入。 用户代理(agent)用于显示用户的详细信息,包括IP、OS、</p></div> </div> <div> <div>相关文档</div> <div class="relatedtopic"> <div id="tabs-section" class="tabs"> <ul class="tab-head"> <li id="1132715"><a href="/topic/1132715/" target="_blank">web日志挖掘</a></li> <li id="11302513"><a href="/topic/11302513/" target="_blank">web使用挖掘</a></li> <li id="14823801"><a href="/topic/14823801/" target="_blank">web访问日志</a></li> </ul> </div> </div> </div> </div> <div class="category"> <span class="navname">相关文档</span> <ul class="lista"> <li><a href="/doc/406128914.html" target="_blank">Web日志挖掘中的会话识别方法</a></li> <li><a href="/doc/6511046861.html" target="_blank">浅谈Web日志挖掘技术</a></li> <li><a href="/doc/0512849761.html" target="_blank">网站日志分析的具体方法和步骤【基础】</a></li> <li><a href="/doc/8f14979212.html" target="_blank">WEB日志挖掘技术的研究</a></li> <li><a href="/doc/4a18753327.html" target="_blank">基于Hadoop的Web日志挖掘</a></li> <li><a href="/doc/8f4713924.html" target="_blank">Web日志挖掘技术的研究与应用</a></li> <li><a href="/doc/4513075619.html" target="_blank">web日志分析常用方法及应用</a></li> <li><a href="/doc/6416878793.html" target="_blank">Web日志挖掘最新</a></li> </ul> <span class="navname">最新文档</span> <ul class="lista"> <li><a href="/doc/0719509601.html" target="_blank">幼儿园小班科学《小动物过冬》PPT课件教案</a></li> <li><a href="/doc/0e19509602.html" target="_blank">2021年春新青岛版(五四制)科学四年级下册 20.《露和霜》教学课件</a></li> <li><a href="/doc/9319184372.html" target="_blank">自然教育课件</a></li> <li><a href="/doc/3019258759.html" target="_blank">小学语文优质课火烧云教材分析及课件</a></li> <li><a href="/doc/db19211938.html" target="_blank">(超详)高中语文知识点归纳汇总</a></li> <li><a href="/doc/af19240639.html" target="_blank">高中语文基础知识点总结(5篇)</a></li> <li><a href="/doc/9919184371.html" target="_blank">高中语文基础知识点总结(最新)</a></li> <li><a href="/doc/8b19195909.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/8019195910.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/7f19336998.html" target="_blank">高中语文基础知识点总结大全</a></li> <li><a href="/doc/7a19336999.html" target="_blank">超详细的高中语文知识点归纳</a></li> <li><a href="/doc/6719035160.html" target="_blank">高考语文知识点总结高中</a></li> <li><a href="/doc/6a19035161.html" target="_blank">高中语文知识点总结归纳</a></li> <li><a href="/doc/4d19232289.html" target="_blank">高中语文知识点整理总结</a></li> <li><a href="/doc/3a19258758.html" target="_blank">高中语文知识点归纳</a></li> <li><a href="/doc/2519396978.html" target="_blank">高中语文知识点归纳(大全)</a></li> <li><a href="/doc/2419396979.html" target="_blank">高中语文知识点总结归纳(汇总8篇)</a></li> <li><a href="/doc/1f19338136.html" target="_blank">高中语文基础知识点整理</a></li> <li><a href="/doc/ef19066069.html" target="_blank">化工厂应急预案</a></li> <li><a href="/doc/bc19159069.html" target="_blank">化工消防应急预案(精选8篇)</a></li> </ul> </div> </div> <script> var sdocid = "c4e280b02f60ddccdb38a042"; </script> <div class="footer"> <p><a href="/tousu.html" target="_blank">侵权投诉</a>  © 2013-2023 www.wendangku.net  <a href="/sitemap.html">站点地图</a> | <a href="https://m.wendangku.net">手机版</a></p> <p><a href="https://beian.miit.gov.cn" target="_blank">闽ICP备11023808号-7</a>  本站文档均来自互联网及网友上传分享,本站只负责收集和整理,有任何问题可通过上访投诉通道进行反馈</p> </div> <script type="text/javascript">foot();</script> </div> </body> </html>