文档库 最新最全的文档下载
当前位置:文档库 › 数据库中布尔型及广义模糊型加权关联规则的挖掘

数据库中布尔型及广义模糊型加权关联规则的挖掘

数据库中布尔型及广义模糊型加权关联规则的挖掘
数据库中布尔型及广义模糊型加权关联规则的挖掘

 2000年2月系统工程理论与实践第2期 

数据库中布尔型及广义模糊型加权关联规则的挖掘

陆建江

(中国人民解放军通信工程学院数学教研室,江苏南京210016)

摘要: 数据挖掘主要是用来找出隐藏在数据库当中那些有用的而未被发现的知识Λ本文我们引入

布尔型加权关联规则和广义模糊型加权关联规则的概念,并分别给出挖掘这些规则的计算方法Λ

关键词: 数据挖掘;关联规则中图分类号: T P 30116 α

M in ing Bo llean and General Fuzzy W eigh ted

A ssociati on R u les in D atabase

LU J ian 2jiang

(T he In stitu te of Comm un icati on s Engineering ,N an jing 210016)

Abstract : D ata m in ing is the discovery of u sefu l and po ten tial know ledge h iding in

databases

.In th is paper ,w e in troduce the concep ts of boo lean w eigh ted associati on ru les and general fuzzy w eigh ted associati on ru les ,and p resen t the basic idea abou t m in 2

ing these ru les

.Keywords : data m in ing ;associati on ru le

1 简介

大型关系数据库中的数据挖掘是数据库研究的一个新课题,作为数据挖掘的一部分,关联规则的挖掘近年来受到许多人的重视Λ文献[1]首先提出了挖掘关联规则的思想,并表1 样本数据库1

A ge M arried N um ber Cars

24N o 125N o 128N o 035Yes 237Yes 238

Yes

2

讨论了布尔型属性的关联规则的挖掘问题Λ布尔型关联规则试图从大型

超市的数据库中去挖掘满足用户预先给定的最小支持率和最小信任度的某些规则,然后从这些规则中发现消费者的行为规律Λ得到以的规则可以告诉超市经理一些有用的信息,比如“人们在买黄油和牛奶的同时也买面包”,这些规则对于制定超市的进货和销售策略是非常有帮助的Λ

最近,人们又开始研究含有数量属性的关联规则的挖掘,文献[2]中提出的算法通过划分属性的论域,可以把数量属性的关联规则问题转化为布尔型关联规则问题Λ文献[3~6]则对关联规则的挖掘算法和维护进行了讨论Λ下面,首先通过表1来简单地看一下挖掘关联规则的思想方法Λ

由表1可知,数据库的属性集为{A ge ,M arried ,N um ber Cars },分别表示年龄、结婚与否以及拥有汽车的数量Λ数据库中共有记录6条,其中{24,N o ,1}表示24岁未结婚拥有汽车一辆Λ若给定最小支持率Β1

=40?,最小信任度Β2=50?,通过计算可得到表2:

α收稿日期:1998206212

表2 

规则

支持率

信任度

〈age :30~39〉且〈M arried :Yes 〉]〈N um ber Cars :2〉

50%100%〈N um ber Cars:0-1〉]〈M arried:N o 〉

50%

100%

由表2可知〈age :30239〉且〈M arried :Yes 〉]〈N um ber Cars :2〉和〈N um ber Cars :0~1〉]〈M arried :

N o 〉

两条规则满足最小支持率40%,最小信任度50%的要求,因此这两条规则可被采用Λ2 问题的提出

表3

X

1

X

2

X

3

X

4

1111010011000010111011000100100011110

1

表4

规则

支持率信任度

X 1]X 250?83.3?X 1]X

4

20?

33.3?

前面提到的所有文献在对数据库进行关联规则挖掘的时候都暗含了这样一个事实:数据库中各属性之间都是平等的,无重要、次要之分,然后在此基础上再进行规则的挖掘Ζ但实际上,如果从某种角度出发(比如利润的大小),数据库中各属性的重要程度是不一样的Ζ先请看表

{X 1,X 2,X 3,X 4}是属性集,分别表示乒乓球,乒乓球台网、乒乓球

台,数据库有10条记录,其中{1,1,1,1}表示顾客同时买球拍、球、球台网和球台Ζ设最小支持率Β1=40?,最信任度Β2=60?,按照布尔型关联规则的计算方法有表4Ζ

从表4中可以看出X 1]X 2被采用,而X 1]X 4不被采用,这样,利用所挖掘到的规则,商场就可能对乒乓球采取一些促销措施,方便用户的购买Ζ但是,虽然从数据库中可以得到:商场卖出的乒乓球比球台多,而实际上,两张球台的利润要远远大于八个乒乓球的利润Ζ为了达到追求最大利润的目的,商场经理显然会优先考虑如何卖出两张球台,也就是说规则X 1]X 4相对来说更重要一些Ζ因此,如果用布尔型关联规则的计算方法来处理此类问题,就很可能把一些重要的关联规则忽略掉,而这是因为X 1,X 2,X 3,X 4四个属性在人们心目中的重要程度不同所造成的Ζ

3 布尔型加权关联规则问题

为了解决上述问题,需要为每个布尔型的属性定义一个权重,这里属性的权重集不归一,最重要属性的权重取为1,其它属性的权重则可以相应地取为区间[0,1]上的一个数Ζ由此而挖掘出的关联规则就称为“布尔型加权关联规则”Ζ下面提出解决此类问题的一般方法Ζ

设T ={t 1,t 2,…,t n }是一个数据库,t i 表示T 的第i 个元素组或第i 个记录,I ={i 1,i 2,…,i m }表示数据库的属性集,W ={w i 1,w i 2,…,w i m }表示权重集,其中w i j 表示i j 属性的权重,t j [i k ]表示属性i k 在第j 个记录上的值,t j [i k ]取值为0或1Ζ

设X ={x 1,x 2,…,x p },Y ={y 1,y 2,…,y q }均为I 的子集,且X ∩Y = ,记Z =X ∪Y Ζ给定阀值Ε,0<Ε<1,所要讨论的布尔型加权关联规则的形式为“X ]Y ”

Ζ定义1 称S 〈W ,Z 〉=6t i ∈T 7

z k ∈Z

Α(w z k ×t i [z k ])

n

为“X ]Y ”

的加权支持率Ζ其中n 为数据库中元素组的个数,Α(x )=

x ,

x ΕΕ,

0,其它1

定义2 称C 《W ,X 〉,〈W ,Y 》=

S 〈W ,Z 〉

1n 6t i ∈T 7

x j ∈X

Α(t i [x j ])

为“X ]Y ”

的加权信任度Ζ其中n 是数据库中元组的个9

2第2期数据库中布尔型及广义模糊型加权关联规则的挖掘

数,Α(x)=x,xΕΕ,

0,其它1

,用户可以根据预先给出的加权支持率Χ1和加权信任度Χ2来判断规则是否被采

用,当S〈W,Z〉ΕΧ1,C《W,X〉,〈W,Y》ΕΧ2时,则认为规则“X]Y”被采用Ζ

注 从定义1和定义2中可知,加权支持率将偏向于支持权重大的属性;加权信任度将偏向于信任权重大的属性Ζ

现在,再用加权支持率与加权信任度来分析表3Ζ

设W={0.5,0.2,0.4,1},给定阀值Ε=0.1;

最小支持率Β1=40?,最小信任度Β2=60?;

最小加权支持率Χ1=5?,最小加权信任度Χ2=8?;

通过计算可得表5Ζ

表5 

规则支持率信任度加权支持率加权信任度

X1]X250?83.3?5?8.33?

X1]X420?33.3?10?16.7?

从表5中可以看出,若采用布尔型关联规则的方法来分析,规则X1]X2被采用,规则X1]X4不被采用;若采用布尔型加权关联规则的方法,规则X1]X2,X1]X4均被采用,而且第二条规则比第一条规则的加权支持率和加权信任度高Ζ这与实际情况是相符的Ζ因此通过对属性加权来挖掘关联规则对解决此类问题无疑是一种很有效的方法Ζ

4 广义模糊型加权关联规则问题

对于挖掘数量属性的关联规则,正如前面所提到的,常用的方法是将连续数据离散化,从而把数量属性的关联规则的问题转换成布尔型关联规则的问题进行讨论Ζ一种方法是将属性的论域划分为不重叠的区间,再将连续数据映射到这些区间中,由于明显的区间划分会将某些区间附近的一些潜在元素排斥在外,从而导致一些有意义的区间可能被忽略掉Ζ另一种方法是将属性的论域划分成重叠的区间,这时处于边界附近的元素就有可能同时处于两个区间Ζ由于这些元素同时对两个区间都作贡献,就有可能造成过分强调这些元素的作用,从而导致某些区间的意义也被过分地强调了Ζ

上述两种方法的缺点主要是由于边界划分过硬,为了解决这个问题,可用定义在属性论域上的模糊集来软化边界,这是因为模糊集可以在集合元素和非集合元素之间提供非常平滑的变迁Ζ有了平滑的变迁,几乎所有边界附近的元素就不会再被排斥在外Ζ同时,这些边界附近的元素也不会被过分地强调Ζ通常,对于模糊集中的元素,其隶属度用[0,1]中的一个实数来表示,以描述它隶属于模糊集的程度Ζ但是用[0,1]之间一个精确数来客观地描述对象的隶属度其实是很困难的Ζ若采用统计的方法来确定隶属度,往往成本又高得不能接受,或者根本不可能Ζ于是为了解决实际问题,只好借助于主观地取值,这显然因人而异,是靠不住的Ζ所以在现实生活中往往要求隶属度本身只能用一些语义较含糊的语言来描述Ζ例如“可能性很小”、“有可能”、“很可能”等等,这些语言值将采用R上的有界闭的正模糊数和零模糊数来表达Ζ这样,挖掘数量属性的关联规则问题就转换成挖掘广义模糊型加权关联规则问题Ζ定义3[7] 设R为实数域,称区间[a,b]为闭区间数,其中a,b∈R,aΦb.

定义4[7] 设[a,b]、[c,d]为两个闭区间数,有如下定义:

[a,b]+[c,d]=[a+c,b+d]

[a,b]-[c,d]=[a-d,b-c]

[a,b]×[c,d]=[ac∧ad∧bc∧bd,ac∨ad∨bc∨bd]

[a,b]÷[c,d]=[a c∧a d∧b c∧b d,a c∨a d∨b c∨b d],这里0|[c,d]

定义5[7] 设A是实数域R上的模糊集,

1)A称为R上闭凸模糊集当且仅当ΠΚ∈(0,1],AΚ是闭凸集,即AΚ是闭区间;

03系统工程理论与实践2000年2月

2)A称为R上的正则模糊集当且仅当?x0∈R,使A(x0)=1;这时把x0称为A的正则点;

3)若对ΠΚ∈(0,1],AΚ为有界集,则称A为有界模糊集;

4)R上正则凸模糊集A称为一个模糊数;正则闭凸模糊集称为闭模糊数;正则有界闭凸模糊集称为

有界闭模糊数;0~为零模糊数,0~(x)=1, x=0; 0, x≠0

.

5)设A为模糊数,若suppA,则称A为正模糊数,这里suppA={x∈R A(x)>0}是A的支集Ζ记有界闭的正模糊数的全体为GΖ记G~=G∪{0~}.

定义6[7] 在G~中定义“Φ”如下:ΠA,B∈G~,AΦB当且仅当aΚ1ΦbΚ1和aΚ2ΦbΚ2,ΠΚ∈(0,1].其中AΚ= [aΚ1,aΚ2],BΚ=[bΚ1,bΚ2]Ζ易知“Φ”是G~中的一个偏序Ζ

定义7[7] 设A,B∈G~,定义:

(A+B)(z)=∨

x+y=z

(A(x)∧B(y)), Πz∈R;

(A-B)(z)=∨

x-y=z

(A(x)∧B(y)), Πz∈R;

(A×B)(z)=∨

x×y=z

(A(x)∧B(y)), Πz∈R;

(A B)(z)=∨

x y=z

(A(x)∧B(y)), Πz∈R;

(kA)(z)=A z

k

,k≠0.

定理1[7] 设A,B∈G~,则ΠΚ∈(0,1],有

(A±B)Κ=AΚ±BΚ;(A×B)Κ=AΚ×BΚ;

(A B)Κ=AΚ BΚ;B≠0~;(kA)Κ=kAΚ,k≠0.;

注1 由定理1及定义4知ΠA,B∈G~,有A+B∈G~;A×B∈G~;A B∈G~,B≠0~;kA∈G~,k>0.

下面讨论广义模糊型加权关联规则的计算方法Ζ

设T={t1,t2,…,t n}是一个数据库,t i表示T的第i个元素或第i个记录,I={i1,i2,…,i m}表示属性

集,W={w i

1,w i

2

,…,w i

m

}表示权重集,其中w i

j

表示i j属性的权重,t j[i k]表示属性i k在第j个记录上的

值Ζ

设X={x1,x2,…,x p},Y={y1,y2,…,y q}是I的子集,且X∩Y= ,D={f x

1,f x

2

,…,f x

p

},E

={f y

1,f y

2

,…,f y

q

},其中f x

i

(i=1,2,…,p)和f y

j

(j=1,2,…,q)分别是属性x i和y j论域上的模糊集Ζ

这些模糊集中元素的隶属度取为语言值,而语言值用有界闭的正模糊数或零模糊数来表示Ζ给定最小加权支持率Α′,最小加权信任度为Β′,给定阀值为Ε′,这里Α′,Β′,Ε′都是有界闭的正模糊数Ζ所要讨论的广义模糊型加权关联规则的形式为“如果X是D则Y是E”Ζ下面将分两步来讨论此规则Ζ

1)令f x

j (t i[x i])=x′ij,i=1,2,…,n,j=1,2,…,p;f y

j

(t i[y i])=y′ij,i=1,2,…,n,j=1,2,…,q;

这里x′ij与y′ij都是有界闭的正模糊数或零模糊数Ζ取

x′ij=m ax{x∈R x′ij(x)=1},i=1,2,…,n,j=1,2,…,p;

y′ij=m ax{x∈R y′ij(x)=1},i=1,2,…,n,j=1,2,…,q;

Α′=m ax{x∈R Α′(x)=1};Β′=m ax{x∈R Β′(x)=1};

Ε′=m ax{x∈R Ε′(x)=1};M=m ax{x′ij,y′ij,Α′,Β′,Ε′}

令x ij=x ′ij

M ,i=1,2,…,n,j=1,2,…,p;y ij=y

ij

M

,i=1,2,…,n,j=1,2,…,q;Α=

Α′

M

;Β=

Β′

M

;Ε=

Ε′

M

.易

知x ij,y ij,Α,Β,Ε仍都是有界闭的正模糊数或零模糊数,且它们的正则点都落在[0,1]区间上Ζ

2)首先给出两个定义

定义8 广义模糊型加权关联规则“如果X是D则Y是E”的广义加权支持率记为S,这里

S=6n

i=1

7p

j=1

(w x

i

x ij)7q j=1(w y i,y ij)

n

,Α(x)=

x, xΕΕ

0~, 其它Ζ

定义9 广义模糊型加权关联规则“如果X是D则Y是E”的广义加权信任度记为C,这里13

第2期数据库中布尔型及广义模糊型加权关联规则的挖掘

C =

S

1n

6n i =17

p

j =1

Α(x ij )

,Α(x )=

x , x ΕΕ

0~

, 其它Ζ

1

n 6n i =17

p

j =1

(x ij )=0~

时,易知S =0~

,故广义模糊型加权关联规则

“如果X 是D 则Y 是E ”不被采用Ζ不妨设

1

n 6n i =17

p

j =1

(x ij )≠0~

,由注1易知定义8中给出的S 和定义9中给出的C 都是有界闭的正模糊数或

零模糊数Ζ同时,由第一步知x ij 的正则点都落在[0,1]区间上,易知

1n

6n i =17

p

j =1

(x ij )的正则点也落在[0,

1]区间上,故C 的最大正则点不会小于S 的最大正则点,也就是说C 不会小于S Ζ由于S ,C ,Α,Β都是有界闭的正模糊数或零模糊数,故S 和Α,C 和Β都可以比较,当ΑΦS ,C ΦΒ时,则认为规则“若X 是D 则Y 是E ”可被采用Ζ

5 结论

本文中,我们提出了布尔型加权关联规则问题,即属性之间有重要程度之分且属性论域取值为0或1的问题,描述了解决此类问题的主要思想Ζ随后,对于数量属性,通过用定义在属性论域上的模糊集来替代对属性论域的划分,从而克服了划分边界过硬的缺点,在这基础上,我们又提出了广义模糊型加权关联规则问题,这里通过对属性加权,可以使用户发现那些以前被忽视但可能又很重要的规则,同时由于引进了模糊的概念,使得最终得到的规则更容易被人理解Ζ

参考文献:

[1] A graw al R ,I m ielin ske T ,Sw am iA .M in ing associati on ru les betw een sets of item s in large databas 2

es

.P roceedings of the A C M S IG M OD In ternati onal Conference on the M agagem en t of D ata .W ash 2ington D .C ,1993.

[2] Srikan t R ,A graw al R .M in ing quan titative associati on ru les in large relati onal tab les .P roceedings

of the A C M S IG M OD In ternati onal Conference on the M anagem en t of D ata .M on treal ,Canada ,1996.

[3] A rgraw al R ,Srikan t R .Fast algo rithm s fo r m in ing associati on ru les in large databases .20th In ter 2

nati onal Conference on V ery L arge D atabases

.San tiagom Ch ile ,1994.[4] Saraseere A .Om iecin sky E ,N avathe S .A n efficien t algo rithm fo r m in ing associati on ru les in large

databases

.21st In ternati onal Conference on V ary L arge D atabases ,Zu rich ,Sw itzerland ,1995.[5] Cheung D W ,H an J ,N g V ,W ong C Y .M ain tenance of discovered associati on ru les in large

databases :A n increm en tal updating techn ique .P roceeeding of 1996In ternati onal Conference on D ata Engineering .N ew O rlean s ,L ou isiana ,1996.

[6] Park J S ,Chen M S ,Yu P S .A n effective hash 2based algo rithm fo r m in ing associati on ru les .P ro 2

ceedings 1995A C M S IG M OD In ternati onal Conference M anagem en t of D ata ,San Jo se ,CA ,1995:175~186.

[7] 罗承忠1模糊集引论1北京:北京师范大学出版社,19891

[8] 何新贵1模糊数据库系统1清华大学出版社,广西科学技术出版社,19941

2

3系统工程理论与实践

2000年2月

数据挖掘实验三报告

实验三:基于Weka 进行关联规则挖掘 实验步骤 1.利用Weka对数据集contact-lenses.arff进行Apriori关联规则挖掘。要求: 描述数据集;解释Apriori 算法及流程;解释Weka 中有关Apriori 的参数;解释输出结果 Apriori 算法: 1、发现频繁项集,过程为 (1)扫描 (2)计数 (3)比较 (4)产生频繁项集 (5)连接、剪枝,产生候选项集 (6)重复步骤(1)~(5)直到不能发现更大的频集 2、产生关联规则 (1)对于每个频繁项集L,产生L的所有非空子集; (2)对于L的每个非空子集S,如果 P(L)/P(S)≧min_conf(最小置信度阈值) 则输出规则“S=>L-S” Weka 中有关Apriori 的参数:

1. car 如果设为真,则会挖掘类关联规则而不是全局关联规则。 2. classindex 类属性索引。如果设置为-1,最后的属性被当做类属性。 3.delta 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 4. lowerBoundMinSupport 最小支持度下界。 5. metricType 度量类型。设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),杠杆率(leverage),确信度(conviction)。 在Weka中设置了几个类似置信度(confidence)的度量来衡量规则的关联程度,它们分别是: a)Lift :P(A,B)/(P(A)P(B)) Lift=1时表示A和B独立。这个数越大(>1),越表明A和B存在于一个购物篮中不是偶然现象,有较强的关联度. b)Leverage :P(A,B)-P(A)P(B) Leverage=0时A和B独立,Leverage越大A和B的关系越密切

关联规则数据挖掘

关联规则数据挖掘 学习报告

目录 引言 2 案例 2 关联规则 3 (一)关联规则定义 (二)相关概念 (三)关联规则分类 数据 6 (一)小型数据 (二)大型数据 应用软件7 (一)WEKA (二)IBM SPSS Modeler 数据挖掘12 总结27

一、引言 数据库与互联网技术在日益发展壮大,人们每天可以获得的信息量呈指数级增长。如何从这浩如瀚海的数据中找出我们需要的数据显得尤为重要。数据挖掘又为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。 数据挖掘大致分为以下几类:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)。 二、案例 "尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

大数据常用的算法

大数据常用的算法(分类、回归分析、聚类、关联规则) 在大数据时代,数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。其主要基于人工智能,机器学习,模式学习,统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式,可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场,并做出正确的决策。目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中,如淘宝商铺将用户在一段时间内的购买情况划分成不同的类,根据情况向用户推荐关联类的商品,从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性,通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中,回归分析可以被应用到各个方面。如通过对本季度销售的回归分析,对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类,但与分类的目的不同,是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大,但不同类别之间数据的相似性很小,跨类的数据关联性很低。(4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系,即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段:第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求,各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信

最新数据挖掘考试题目——关联分析资料

数据挖掘考试题目——关联分析 一、10个选择 1.以下属于关联分析的是() A.CPU性能预测B.购物篮分析 C.自动判断鸢尾花类别D.股票趋势建模 2.维克托?迈尔-舍恩伯格在《大数据时代:生活、工作与思维的大变革》一书中,持续强调了一个观点:大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下哪个算法直接挖掘() A.K-means B.Bayes Network C.C4.5 D.Apriori 3.置信度(confidence)是衡量兴趣度度量()的指标。 A.简洁性B.确定性 C.实用性D.新颖性 4.Apriori算法的加速过程依赖于以下哪个策略() A.抽样B.剪枝 C.缓冲D.并行 5.以下哪个会降低Apriori算法的挖掘效率() A.支持度阈值增大B.项数减少 C.事务数减少D.减小硬盘读写速率 6.Apriori算法使用到以下哪些东东() A.格结构、有向无环图B.二叉树、哈希树 C.格结构、哈希树D.多叉树、有向无环图 7.非频繁模式() A.其置信度小于阈值B.令人不感兴趣 C.包含负模式和负相关模式D.对异常数据项敏感 8.对频繁项集、频繁闭项集、极大频繁项集的关系描述正确的是()[注:分别以1、2、3代表之] A.3可以还原出无损的1 B.2可以还原出无损的1 C.3与2是完全等价的D.2与1是完全等价的 9.Hash tree在Apriori算法中所起的作用是() A.存储数据B.查找 C.加速查找D.剪枝 10.以下不属于数据挖掘软件的是() A.SPSS Modeler B.Weka C.Apache Spark D.Knime 二、10个填空 1.关联分析中表示关联关系的方法主要有:和。 2.关联规则的评价度量主要有:和。 3.关联规则挖掘的算法主要有:和。 4.购物篮分析中,数据是以的形式呈现。 5.一个项集满足最小支持度,我们称之为。 6.一个关联规则同时满足最小支持度和最小置信度,我们称之为。

数据挖掘关联规则实验报告

实验七关联规则 1. 实验目标 ?使用SSAS进行关联规则挖掘实验 2. 实验要求 (1)按“实验内容”完成操作,并记录实验步骤; (2)回答“问题讨论”中的思考题,并写出本次实验的心得体会; (3)完成实验报告。 3. 实验内容 生成市场篮方案。Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。 4. 实验步骤 (1) 创建市场篮挖掘模型结构 1.在Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘 结构”,再选择“新建挖掘结构”。 此时,系统将打开数据挖掘向导。 2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。 3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。 4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术”下,选中“Microsoft 关联规 则”,再单击“下一步”。 “选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的Adventure Works DW 为选中状态。 5.单击“下一步”。

6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中 vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两 个表之间的关联)。 7.在“指定定型数据”页上,依次清除CustomerKey旁边的“键”复选框和LineNumber旁 边的“键”和“输入”复选框。 8.选中Model列旁边的“键”和“可预测”复选框。然后,系统也将自动选中“输入”复选框。 9.单击“下一步”。 10.在“指定列的内容和数据类型”页上,单击“下一步”。 11.在“完成向导”页的“挖掘结构名称”中,键入Association。 12.在“挖掘模型名称”中,键入Association,再单击“完成”。 (2) 调整关联模型的参数和处理关联模型 在处理上一个任务中与“关联”挖掘结构一起创建的初始挖掘模型之前,必须更改以下两个参数的默认值:Support和Probability。Support定义规则被视为有效前必须存在的事例百分比。Probability定义关联被视为有效前必须存在的可能性。 调整关联模型的参数步骤如下: 1.打开数据挖掘设计器的“挖掘模型”选项卡。 2.右键单击设计器网格中的“关联”列,然后选择“设置算法参数”。 系统将打开“算法参数”对话框。 3.在“算法参数”对话框的“值”列中,设置以下参数: MINIMUM_PROBABILITY = MINIMUM_SUPPORT = 4.单击“确定”。 处理关联模型步骤如下: 1.在Business Intelligence Development Studio 的“挖掘模型”菜单上,选择“处理挖掘结构和 所有模型”。 系统将打开“处理挖掘结构- 关联”对话框。 2.单击“运行”。 系统将打开“处理进度”对话框,以显示有关模型处理的信息。模型处理可能需要一些时间,具体时间取决于您的计算机。 3.处理完成之后,在“处理进度”和“处理挖掘结构- 关联”对话框中,单击“关闭”。

数据挖掘实验报告-关联规则挖掘

数据挖掘实验报告(二)关联规则挖掘 姓名:李圣杰 班级:计算机1304 学号:1311610602

一、实验目的 1. 1.掌握关联规则挖掘的Apriori算法; 2.将Apriori算法用具体的编程语言实现。 二、实验设备 PC一台,dev-c++5.11 三、实验内容 根据下列的Apriori算法进行编程:

四、实验步骤 1.编制程序。 2.调试程序。可采用下面的数据库D作为原始数据调试程序,得到的候选1项集、2项集、3项集分别为C1、C2、C3,得到的频繁1项集、2项集、3项集分别为L1、L2、L3。

代码 #include #include #define D 4 //事务的个数 #define MinSupCount 2 //最小事务支持度数 void main() { char a[4][5]={ {'A','C','D'}, {'B','C','E'}, {'A','B','C','E'}, {'B','E'} }; char b[20],d[100],t,b2[100][10],b21[100 ][10]; int i,j,k,x=0,flag=1,c[20]={0},x1=0,i1 =0,j1,counter=0,c1[100]={0},flag1= 1,j2,u=0,c2[100]={0},n[20],v=1; int count[100],temp; for(i=0;i=MinSupCount) { d[x1]=b[k]; count[x1]=c[k]; x1++; } } //对选出的项集中的元素进行排序 for(i=0;i

数据挖掘关联规则分析报告

关联规则分析报告 2009年7月8日 目录 一前言 (1) 二数据预处理 (1) 三前7710条真实数据分析 (2) 1商品按小类分析 (2) 2商品按中类分析 (4) 3商品按大类分析 (4) 4分析比较 (5) 四后44904条随机数据分析 (5) 1商品按小类分析 (5) 2商品按中类分析 (7) 3商品按大类分析 (8) 4分析比较 (8) 五52614条混合数据分析 (8) 1商品按小类分析 (8) 2商品按中类分析 (11) 3商品按大类分析 (11) 4分析比较 (12) 六总结 (12)

一前言 使用关联规则挖掘算法分析购物清单时,会产生不止“啤酒→尿布”的单一关联规则,而将出现涉及多种商品的“纵横交错”的多条关联规则。针对这一实际问题,本文利用学生日常购物记录数据进行关联分析,通过概念分层从不同粒度上分析商品之间的关联性,从而找到商品之间的关联规则,实现优化超市货物摆放次序的目的。 二数据预处理 1)在SQL server 2000 查询分析器里执行下面的SQL语句 declare @sql varchar(8000) set @sql = 'select zid ,xh' select @sql = @sql + ' , max(case goodsid when ''' + goodsid + ''' then goodsid end) [' + 'n'+ goodsid + ']' from (select distinct goodsid from rcxfjl) as a set @sql = @sql + ' into table_a from rcxfjl group by zid,xh' exec(@sql) 2)在PB里将有购买记录的列改为”yes” for i=1 to dw_1.rowcount() for li_index=1 to long(dw_1.object.datawindow.column.count) if integer(dw_1.getitemstring(i,dw_1.describe('#' + string(li_index) + ".name")))>0 then dw_1.setitem(i,dw_1.describe('#' + string(li_index) + ".name"),"yes") end if next next 3)将处理好的数据直接导出到Excel中 4)将Excel表中的空格替换成”?”(在weka中?表示缺省值)

聚类分析、数据挖掘、关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题, 聚类分析是无监督的发现数据间的聚簇效应。 关联规则是从统计上发现数据间的潜在联系。 细分就是 聚类分析与关联规则是数据挖掘中的核心技术; 从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。 从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。 聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。 从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。 关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。 关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。 关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

关联规则基本算法

关联规则基本算法及其应用 1.关联规则挖掘 1.1 关联规则提出背景 1993年,Agrawal 等人在首先提出关联规则概念,同时给出了相应的挖掘算法AIS ,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori 算法,至今Apriori 仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。 关联规则最初提出的动机是针对购物篮分析(Market Basket Analysis)问题提出的。假设分店经理想更多的了解顾客的购物习惯(如下图)。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。 1.2 关联规则的基本概念 关联规则定义为:假设12{,,...}m I i i i =是项的集合,给定一个交易数据库 12D ={t ,t ,...,t }m , 其中每个事务(Transaction)t 是I 的非空子集,即t I ∈,每一个交易都与 一个唯一的标识符TID(Transaction ID)对应。关联规则是形如X Y ?的蕴涵式, 其中X ,Y I ∈且X Y φ?=, X 和Y 分别称为关联规则的先导(antecedent 或left-hand-side, LHS)和后继(consequent 或right-hand-side, RHS)。关联规则X Y ?在D 中的支持度(support)是D 中事务包含X Y ?的百分比,即概率()P X Y ?;置信度(confidence)是包含X 的事务中同时包含Y 的百分比,即条件概率(|)P Y X 。如果满足最小支持度阈值和最小置信度阈值,则称关联规则是有趣的。这些阈值由用户或者专家设定。

关联规则最大频繁项目集的快速发现算法

第42卷 第2期 吉林大学学报(理学版) V ol.42 N o.2 2004年4月 JO U RN A L OF JIL IN U N IV ER SIT Y(SCIEN CE EDIT ION)A pr 2004 关联规则最大频繁项目集的快速发现算法 刘大有1,2,刘亚波1,2,尹治东3 (1.吉林大学计算机科学与技术学院,长春130012; 2.吉林大学符号计算与知识工程教育部重点实验室,长春130012; 3.吉林出入境检验检疫局,长春130062) 摘要:提出一种快速发现最大频繁项目集的算法,该算法对集合枚举树进行改进,结合自底向上与自顶向下的搜索策略,利用非频繁项目集对候选最大频繁项目集进行剪枝和降维,减少了不必要候选最大频繁项目集的数量,显著提高了发现的效率. 关键词:关联规则;集合枚举树;最大频繁项目集 中图分类号:T P311 文献标识码:A 文章编号:1671-5489(2004)02-0212-04 Fast algorithm for discovering maximum frequent itemsets of association rules LIU Da-yo u1,2,LIU Ya-bo1,2,YIN Zhi-dong3 (1.College of Comp uter S cience and T echnology,J ilin U niver sity,Changchun130012,China; 2.K ey L abor atory of Sy mbolic Comp utation and K now ledg e E ngineering of M inistry of Education,J ilin U niver sity, Changchun130012,China; 3.J ilin E ntry-Ex it I nsp ection and Quar antine Bureau,Changchun130062,China) Abstract:The present paper presents an efficient alg orithm that improv es set-enumeratio n tr ee and finds maxim um frequent item sets.By co mbining botto m-up and top-dow n searches in set-enumeration tree and making use of the infrequent itemsets to pr une candidates of the m ax imum frequent itemsets, the algorithm reduces the number of candidates of the max imum frequent itemsets g enerated by it so that the efficiency is incr eased. Keywords:association rule;set-enumeration tree;max imum frequent itemset 发现频繁项目集是关联规则等多种数据挖掘的关键问题.在关联规则挖掘中,如果一个项目集的支持度不小于用户定义的最小支持度(以下简记为minsup),则称为频繁项目集;反之则称为非频繁项目集.如果一个频繁项目集的所有超集都是非频繁项目集,则称为最大频繁项目集.目前,多数频繁项目集发现算法都是Apr io ri算法或者其变种[1].这些算法采用自底向上的方法穷举每个频繁项目集,当最大频繁项目集很长时,这将是一个NP问题.任何频繁项目集都是最大频繁项目集的子集,该问题可以转化为发现所有最大频繁项目集.提高发现最大频繁项目集效率的关键是减少生成不必要的候选项目集及对其支持度的计算. 文献[2]中的M ax-Miner算法采用集合枚举树来描述项目集,突破了传统的自底向上的搜索策 收稿日期:2003-09-28. 作者简介:刘大有(1942~),男,教授,博士生导师,从事人工智能、数据挖掘和计算机应用的研究,E-mail:dyliu@https://www.wendangku.net/doc/e03994353.html,. cn.联系人:刘亚波(1975~),女,博士研究生,从事关联规则挖掘和粗糙集理论的研究,E-mail:liu-yabo@https://www.wendangku.net/doc/e03994353.html,. 基金项目:国家自然科学基金(批准号:60173006)、国家高技术研究发展计划项目(批准号:2003AA118020)、吉林省科技发展计划重大项目(批准号:吉科合字20020303-2)和吉林大学符号计算与知识工程教育部重点实验室资助基金.

数据分析与挖掘实验报告

数据分析与挖掘实验报告

《数据挖掘》实验报告 目录 1.关联规则的基本概念和方法 (1) 1.1数据挖掘 (1) 1.1.1数据挖掘的概念 (1) 1.1.2数据挖掘的方法与技术 (2) 1.2关联规则 (5) 1.2.1关联规则的概念 (5) 1.2.2关联规则的实现——Apriori算法 (7) 2.用Matlab实现关联规则 (12) 2.1Matlab概述 (12) 2.2基于Matlab的Apriori算法 (13) 3.用java实现关联规则 (19) 3.1java界面描述 (19) 3.2java关键代码描述 (23) 4、实验总结 (29) 4.1实验的不足和改进 (29) 4.2实验心得 (30)

1.关联规则的基本概念和方法 1.1数据挖掘 1.1.1数据挖掘的概念 计算机技术和通信技术的迅猛发展将人类社会带入到了信息时代。在最近十几年里,数据库中存储的数据急剧增大。数据挖掘就是信息技术自然进化的结果。数据挖掘可以从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的,人们事先不知道的但又是潜在有用的信息和知识的过程。 许多人将数据挖掘视为另一个流行词汇数据中的知识发现(KDD)的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如下: ·数据清理(消除噪声和删除不一致的数据)·数据集成(多种数据源可以组合在一起)·数据转换(从数据库中提取和分析任务相关的数据) ·数据变换(从汇总或聚集操作,把数据变换和统一成适合挖掘的形式) ·数据挖掘(基本步骤,使用智能方法提取数

据模式) ·模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式) ·知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。 1.1.2数据挖掘的方法与技术 数据挖掘吸纳了诸如数据库和数据仓库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成等许多应用领域的大量技术。数据挖掘主要包括以下方法。神经网络方法:神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类:以感知机、bp反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以hopfield 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网络模型;以art 模型、koholon模型为代表的,用于聚类的自组

关联规则

在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述 型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事 务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有 规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。 现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。

有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。在这条规则中,“年龄在40 岁以上”是物品甲,“工作在A 区”是物品乙,“向保险公司索赔过”则是物品丙。可以看出来,A 区可能污染比较严重,环境比较差,导致工作在该区的人健康状况不好,索赔率也相对比较高。 设R= { I1,I2 ……Im} 是一组物品集,W 是一组事务集。W 中的每个事务T 是一组物品,T R。假设有一个物品集A,一个事务T,如果A T,则称事务T 支持物品集A。关联规则是如下形式的一种蕴含:A→B,其中A、B 是两组物品,A I,B I, 且A ∩B= 。一般用四个参数来描述一个关联规则的属性: 1 .可信度(Confidence) 设W 中支持物品集A 的事务中,有c %的事务同时也支持物品集B,c %称为关联 规则A→B 的可信度。简单地说,可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率有多大。如上面所举的铁锤和铁钉的例子,该关联规则的可信 度就回答了这样一个问题:如果一个顾客购买了铁锤,那么他也购买铁钉的可能性有多大呢?在上述例子中,购买铁锤的顾客中有70 %的人购买了铁钉, 所以可信度是70 %。 2 .支持度(Support) 设W 中有s %的事务同时支持物品集A 和B,s %称为关联规则A→B 的支持度。 支持度描述了A 和B 这两个物品集的并集C 在所有的事务中出现的概率有多大。如 果某天共有1000 个顾客到商场购买物品,其中有100 个顾客同时购买了铁锤和铁钉,那么上述的关联规则的支持度就是10 %。 3 .期望可信度(Expected confidence) 设W 中有e %的事务支持物品集B,e %称为关联规则A→B 的期望可信度度。期望可信度描述了在没有任何条件影响时,物品集B 在所有事务中出现的概率有多大。如 果某天共有1000 个顾客到商场购买物品,其中有200 个顾客购买了铁钉,则上述的 关联规则的期望可信度就是20 %。 4 .作用度(Lift)

数据挖掘中关联规则挖掘的应用研究

数据挖掘中关联规则挖掘的应用研究 吴海玲,王志坚,许峰 河海大学计算机及信息工程学院,江苏南京(210098) 摘 要:本文首先介绍关联规则的基本原理,并简单概括其挖掘任务,然后说明关联规则的经典挖掘算法Apriori 算法,通过一个实例分析进一步明确关联规则在CRM 中的应用,最后展望了关联规则挖掘的研究方向。 关键词:数据挖掘,关联规则,Apriori 算法,CRM 引言 关联规则是表示数据库中一组对象之间的某种关联关系的规则,关联规则挖掘的主要对象是交易(Transaction)数据库。这种数据库的一个主要应用是零售业,比如超级市场的销售管理。条形码技术的发展使得数据的收集变得更容易、更完整,从而可以存储大量的交易资料。关联规则就是辨别这些交易项目之间是否存在某种关系。例如:关联规则可以表示“购买了商品A 和B 的顾客中有80%的人又购买了商品C 和D”。这种关联规则提供的信息可以用作商品目录设计、商场货架的布置、生产安排、具有针对性的市场营销等。 [1] 1 关联规则的基本原理 设I={i 1,i 2,……,i m }是项的集合,设任务相关的数据D 是数据库事务的集合,其中每个事务T 是项的集合,使得T I 。每一个事务有一个标识符,称作T ID 。设X 是一个项集,事务T 包含X 当且仅当X T 。关联规则是形如X Y 的蕴涵式,其中X I ,Y ?I ,并且X ∩Y =?。规则X Y 在事务集D 中成立,具有支持度s ,其中s 是D 中事务包含X ∪Y (即X 和Y 二者)的百分比,它是概率P (X ∪Y )。规则X Y 在事务集中具有可信度c ,如果D 中包含X 的事务同时也包含Y 的百分比c 。这是条件概率P (X Y ∣)。即是 ??????support(X ?Y)= P (X Y ∪) confidence(X ?Y)= P (X Y ∣) 同时满足最小支持度(minsup)和最小可信度阈值(minconf )的规则称作强规则[1]。 项的集合称为项集(itemset )。包含k 个项的项集成为k -项集,例如集合{computer, software }是一个2—项集。项集的出现频率是包含项集的事务数,简称为项集的频率。项集满足最小支持度minsup ,如果项集的出现频率大于或者等于minsup 与D 中事务总数的乘积。如果项集满足最小支持度,则称它为频繁项集(frequent itemset) [2]。 2 关联规则的发现任务 关联规则挖掘的问题就是要找出这样的一些规则,它们的支持度或可信度分别大于指定的最小支持度minsup 和最小可信度minconf 。因此,该问题可以分解成如下两个子问题[3]: 1.产生所有支持度大于或等于指定最小支持度的项集,这些项目集称为频繁项目集(frequent itemsets ),而其他的项目集则成为非频繁项目集(non-frequent itemsets ) 2.由频繁项集产生强关联规则。根据定义,这些规则必须满足最小支持度和最小可信度。 关联规则挖掘的问题的主要特征是数据量巨大,因此算法的效率很关键。目前研究的重点在第一步,即发现频繁项目集,因此第二步相对来说是很容易的。

数据挖掘实验(实验三-七)

实验三关联规则 1. 实验目标 ?使用SSAS进行关联规则挖掘实验 2. 实验要求 (1)按“实验内容”完成操作,并记录实验步骤; (2)回答“问题讨论”中的思考题,并写出本次实验的心得体会; (3)完成实验报告。 3. 实验内容 生成市场篮方案。Adventure Works 的市场部希望改进公司的网站以促进越区销售。在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。 4. 实验步骤 (1) 创建市场篮挖掘模型结构 1.在Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖 掘结构”,再选择“新建挖掘结构”。 此时,系统将打开数据挖掘向导。 2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。 3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。 4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规 则”,再单击“下一步”。 “选择数据源视图”页随即显示。默认情况下,“可用数据源视图”下的Adventure Works DW 为选中状态。 5.单击“下一步”。

6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中 vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。如下图所示 视图的内容显示

数据挖掘中的关联规则2

数据挖掘中的关联规则 程晓飞2009306202008 摘要: 近年来,数据挖掘己经引起了信息产业界的极大关注,这是快速增长的数据量和曰益贫乏的信息量之间矛盾运动的必然结果,对数据挖掘技术进行系统、深入、全面、详尽地研究是全球信息化发展的客观需要。本文对数据挖掘技术,尤其是关联规则数据挖掘技术进行了系统、深入、全面、详尽地分析和研究。 关键词:数据挖掘;关联规则;Apriori算法;基于划分的算法 1.什么是关联规则 在描述有关关联规则的一些细节之前,我们先来看一个有趣的故事:"尿布与啤酒"的故事。 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:"跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在"尿布与啤酒"背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。他们的工作包括对原有的算

数据挖掘中的关联规则

关联规则挖掘在商业销售中的应用 戚芸 (班级:数科院08(6)班学号:08213118) [摘要]数据挖掘是近些年企业界相当热门的话题,它利用统计与人工智能的算法,从庞大的企业历史资料中,找出隐藏的规律并简历准确的模型,用以预测未来。其中关联规则的挖掘是数据挖掘的一个重要问题。[关键字]关联规则支持度置信度增益 一、关联规则的概述 关联规则一般用以发现交易数据库中不同商品 (项)之间的联系 ,用这些规则找出顾客的购买行为模式 ,比如购买了某一种商品对购买其他商品的影响 ,这种规则可以应用于超市商品货架设计、货物摆放以及根据购买模式对用户进行分类等。进而引伸至寻找一个变量间不同选择之间的关系,或寻找不同变量间的关系。以交易数据为例描述关联规则 : 给定一个交易集 ,该交易集包含一系列商品 ,则一条关联规则可以表示为 : X → Y 二、关联规则的分类 (1)按关联规则中处理变量的类别,可将关联规则分为布尔型和数值型布尔型关联规则中对应变量都是离散变量或类别变量,它显示的是离散型变量间的关系,比如“买啤酒→买婴儿尿布”;数值型关联规则处理则可以与多维关联或多层关联规则相结合,处理数值型变量,如“月收入5000 元→每月交通费约800 元”。 (2)按关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规则单层关联规则中,所有变量都没有考虑到现实的数据具有多个不同的层次;而多层关联规则中,对数据的多层性已经进行了充分的考虑。比如“买夹克→买慢跑鞋”是一个细节数据上的单层关联规则,而“买外套→慢跑鞋”是一个较高层次和细节层次间的多层关联规则。 (3)按关联规则中涉及到的数据维数可以分为单维关联规则和多维关联规则单维关联规则只涉及数据的一个维度(或一个变量) ,如用户购买的物品;而多维关联规则则要处理多维数据,涉及多个变量,也就是说,单维关联规则处理单一属性中的关系,而多维关联规则则处理多个属性间的某些关系。比如“买啤酒→买婴儿尿布”只涉及用户购买的商品,属于单维关联规则,而“喜欢野外活动→购买慢跑鞋”涉及到两个变量的信息,属于二维关联规则。

数据挖掘算法之关联规则

数据挖掘算法之-关联规则挖掘(Association Rule) (2009-09-20 21:59:23) 转载 标签: 分类:DM dm 在数据挖掘的知识模式中,关联规则模式是比较重要的一种。关联规则的概念由Agrawal、Imielinski、Swami 提出,是数据中一种简单但很实用的规则。关联规则模式属于描述型模式,发现关联规则的算法属于无监督学习的方法。 一、关联规则的定义和属性 考察一些涉及许多物品的事务:事务1 中出现了物品甲,事务2 中出现了物品乙,事务3 中则同时出现了物品甲和乙。那么,物品甲和乙在事务中的出现相互之间是否有规律可循呢?在数据库的知识发现中,关联规则就是描述这种在一个事务中物品之间同时出现的规律的知识模式。更确切的说,关联规则通过量化的数字描述物品甲的出现对物品乙的出现有多大的影响。 现实中,这样的例子很多。例如超级市场利用前端收款机收集存储了大量的售货数据,这些数据是一条条的购买事务记录,每条记录存储了事务处理时间,顾客购买的物品、物品的数量及金额等。这些数据中常常隐含形式如下的关联规则:在购买铁锤的顾客当中,有70 %的人同时购买了铁钉。这些关联规则很有价值,商场管理人员可以根据这些关联规则更好地规划商场,如把铁锤和铁钉这样的商品摆放在一起,能够促进销售。 有些数据不像售货数据那样很容易就能看出一个事务是许多物品的集合,但稍微转换一下思考角度,仍然可以像售货数据一样处理。比如人寿保险,一份保单就是一个事务。保险公司在接受保险前,往往需要记录投保人详尽的信息,有时还要到医院做身体检查。保单上记录有投保人的年龄、性别、健康状况、工作单位、工作地址、工资水平等。这些投保人的个人信息就可以看作事务中的物品。通过分析这些数据,可以得到类似以下这样的关联规则:年龄在40 岁以上,工作在A 区的投保人当中,有45 %的人曾经向保险公司索赔过。在这条规则中,

相关文档
相关文档 最新文档