文档库 最新最全的文档下载
当前位置:文档库 › 属性数据分析资料

属性数据分析资料

属性数据分析资料
属性数据分析资料

属性数据分析

一属性变量和属性数据

通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)和300以上。 “属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。

二属性数据表示形式

属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。

例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以C B A 、、共3种方式陈列(即第一个属性变量是“陈列方式”,取值A 、B 、C ),各门店销售情况分为 “high ”及“low ”两类(即第二个属性变量是“销量”,取值“high ”和“low ”)。这两个属性变量的统计资料4种形式如下:

属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high ”和“B ”,就把“high ”、“B ”排在第一行,见下表

表 超市数据属性变量形式

指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high ”、“low ”、“A ”、“B ”、“C ”;建立5个指示变量:sl ,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超市数据建立5个变量后:sh 表示变量销售额高,sl 表示变量销售额低,ma 表示排列方式是A ,

mb并表示排列方式是B,mc表示排列方式是C。第1次观测中属性变量的值是“high”和“B”,这时观测值就是1,0,0,1,0,…见下表

表超市数据指示变量形式

在做调查时(例如对街道行人作调查),通常要求被调查人在调查表上打勾和叉,整理这些调查表,勾和叉分别改为1和0,得到的就是指示变量形式的样本;大学生舌象体质调查数据就是两种形式数据混合,使用时必须注意。

指示变量形式。

把属性变量形式汇总,同样观测数据只记一次,其相同次数称为频数,得到的就是频数形式数据,超市数据频数形式见下表;例如例1中销量“high”且排列方式是“A”的门店有3个,频数就记为3,汇总观测值记为“high、A、3”,下表中最后一列是频数。

两个属性变量的列联表就是把频数形式数据,写成一个长方形表,其中最左列给出一个属性变量(行变量)的值,最上面的变量名行給出另一个属性变量(列变量)的值,频数填在对应格中,见下表,列联表能直观反映数据特点,经常使用。所以有时频数形式数据也称为列联表。2个属性变量的列联表最常使用;3,4个属性变量的频数形式数据也能排在平面上。属性变量多于2的列联表称为“高维列联表”。

表超市数据的列联表

三对应分析

一般统计书籍只介绍到列联表及其分析,上世纪70年代以来出现了许多分析属性数据的方法:对应分析,logistic回归,广义线性模型,重复测量模型等等。本次重点介绍对应分析。对应分析是研究属性变量的值间关系,带有直观图象展示的一种分析方法。“列联表”分析能解决属性变量间是否有联系的判断问题,但对于它们是怎样联系的却不能给出具体结论。对应分析要研究属性变量的取值之间是怎样联系的,它把属性变量取的各个值投影成一幅“地图”上的点,距离较近的点显示关系较密切。

对应分析分为简单对应分析和多重对应分析。简单对应分析分析两个属性变量间关系;多重对应分析分析多个属性变量间关系。

(一)简单对应分析

简单对应分析的主要步骤。基本步骤是:

1 输入数据对于常用的列联表数据,将列联表数据(连同变量名)拷入工作表后,还要增加一列:列变量名,该列按照表中列水平出现顺序(从左到右),将它们从上到下安放一列中,这列通常按其含义加变量名“列名”。由于列联表中通常已包含行名称,无须另加一列输入“行名”。

2进入简单对应分析对话框从“统计 > 多变量 > 简单对应分析”入口,就能进入“简单对应分析”对话框。选定“列联表的列”,指定列联表的各列。

3 填写对话框在对话框的“列名”处填写列变量名称所在列,在“行名”处填写行变量名称所在列;进入“图形”框后指定显示哪些图(其中“显示行和列的对称图”最重要)。

例2某公司在5个地区销售4种商品(甲、乙、丙、丁),某年销售量汇总表如下表。试问销售量按地区分布有何规律?销售量按商品分布有何规律,二者有何联系?

表某公司5地区销售数据(单位:件)

地区甲乙丙丁

A1 60 20 21 20

A2 100 25 30 30

A3 100 5 80 200

A4 40 1 35 110

A5 90 60 120 20

解1)将表拷入工作表后,为了能在有关图表中显示各列名称,应补充一列。因为商品列C2-C5的变量名从左到右依次为“甲、乙、丙、丁”,将列变量名称“甲、乙、丙、丁”填入C6列,并将此列命名为“商品”。 2)从“统计 > 多变量 > 简单对应分析”入口,进入“简单对应分析”对话框。3)在“输入数据”中,选择“列联表的列”,指定为“甲乙

丙丁”4列数据,将“行名”指定为“地区”,将“列名”指定为“商品”,对于“分量数”仍保留为默认的“2”。4)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”以便得到3幅图。5)各框点击“确定(OK)”,即可以得到计算结果和图形。

行对称图

从行图中可见A1,A2,地区销售情况相似;A3,A4地区销售情况相似。(比例相似)列对称图

从列图中可见甲乙丙丁销量不相似

行列对称图

从图中可见A1,A2两地卖甲商品较多,A3,A4两地卖丁商品较多

例3设已有大学生舌苔色和BMI决定的胖瘦程度二维列联表如下,试做对应分析。分析肥胖程度与苔色对应。

解 将上表考入工作表,最右边添上一列,变量名为“BMI ”,按照从上到下顺序填上 瘦,中,胖。2)从“ 统计 > 多变量 > 简单对应分析”入口,进入“简单对应分析”对话框。3)选定“列联表的列”,将带数值的列选入“列联表的列”空格。4)将“苔色”选入行名空格,“BMI ”选入列名空格5)点击“图形”,弹出“简单对应分析-图形”对话框,选择“只显示行的对称图”,“只显示列的对称图”及“显示行和列的对称图”

,各框点击“确定”,即可以得到行对称图,列对称图,行和列的对称图。 丛行对称图可见:4种苔色无关系。从列的对称图看出胖中瘦间无联系。行和列的对称图如下 行列对称图

从行和列的对称图可见:体型中的人和苔色发白的人联系紧,即苔色发白的人体型中等 (二)多重对应分析

“多重对应分析”用于分析多个属性变量值间的关系,它每次可以同时分析两个或更多个属性变量。“多重对应分析”对话框能够读入两种形式数据:属性变量形式和指示变量形式数据。无论哪种形式的数据,实施多重对应分析时,工作表中都要加一列,列举所有属性变量所取的所有值:读入指示变量形式的数据时,按照属性变量值在工作表 的“变量名”行出现的先后顺序从上到下排列;读入属性变量形式的数据时,先按照这些属性变量在工作表中出现的先后顺序,再对每个属性变量值按照字典序从上到下排列。然后从“ 统计 > 多

变量 >多重对应分析”入口,进入“多重对应分析”对话框,可以实施“多重对应分析”

MINITAB计算“多重对应分析”后输出的结果中,最重要的是列图。列图是一个平面图形,所有属性变量的各个值都作为点安放在列图上,距离较近的点显示关系较紧密。

例4(指示变量形式数据)为了分析人们对某种新家具的看法,请80名顾客对“样式”、“油漆”、“颜色”、“材料”和“价格”评价:分别给出“式样好”、“式样差”、“油漆好”、“油漆差”、“颜色好”、“颜色差”,“材料好”、“材料差”、“价格低”、“价格中”、“价格高”的评价。厂商希望从调查数据分析这5个变量的“值”间的关系。数据如下。试画图分析顾客对式样、油漆、颜色、材料和价格的意见间的联系。

表80名顾客对家具的评价

解1)将表拷入工作表,在右边加上一列,列名为“变量值”,内容为各列的变量名。2)从“统计> 多变量>多重对应分析”入口,进入“多重对应分析”对话框。3)选定“需要指示变量的列”将这含有指示变量的11列选入空格。4)将“变量值”选入“属性名称”空格。5)点击“图形”,弹出“多重对应分析-图形”对话框,在其中选定“显示列图”。6)各框点击确定。

结果分析:由列图可见:漆好、价高、料好、色好、样好距离较近,聚为一类,这表明顾客对这批家具评价较好时,也觉得价格较高;另外漆劣、价低距离较近,聚为一类,这表明认为家具价格低廉的顾客认为漆不好;色劣、样劣聚为一类,也就是说认为这批家具色劣的顾

客认为家具式样低劣;料劣、价中聚为一类,就是说认为价格中等顾客也认为主要问题是材料不好。

例5例1为了分析某种疾病成因,考虑是否饮用某种饮料、吃快餐、上网、患病程度、性别这5个项目,把它们作为5个变量,它们分别取一些值(水平),为了分析这些水平间有何对应关系。统计50名以上病人其资料如下表,试根据这资料作分析,看看哪些水平间关系最密切。

表疾病与生活习惯数据

解1)将数据拷入工作表(C1-C6)。

2)添一列在工作表中(C7),变量名为列名,以下空格顺序填写“不饮,饮用,不吃,吃,女、男,不上网、上网,低,高,中”。

3)从“统计> 多变量 > 多重对应分析”入口,进入“多重对应分析”对话窗,

4)在“属性变量”中指定“饮用否-患病程度”(C2-C6)共5列(描黑后点击“选择”),在“类别名称”中选入“列名”,在“分量数”仍保留为默认的“2”。

5)点击“图形”,弹出“多重对应分析-图形”对话窗,选择“显示列图。

6)各窗点击“确定”,就可以得到计算结果

从图中可见:患病程度高的与饮用该饮料、男性、吃快餐、上网关系密切,女性与不饮用关系密切,也就是说男性希望饮用、吃快餐、上网;女性不希望饮用;不吃快餐的患病程度低;不上网的患病程度中等。

(三)SAS作对应分析

SAS作对应分析的必要性:功能强大可以考虑频数,画图清晰。

1SAS简介

SAS系统可以通过多种方式生成数据集,并通过ASSIST菜单方式和程序方式(执行SAS程序方式)实现人机会话。使用ASSIST模块可实现菜单驱动式人机会话,而无需编程。

但采用程序方式实现人机会话,利于初学者掌握和模仿使用,ASSIST菜单方式和MINITAB 菜单方式相似,但是用到许多英文专业词汇。本次仅介绍程序方式。编写SAS程序要求很高,除字符串外不能有中文,不能有中文标点符号,必须英文符号。

1)SAS窗口

SAS系统实现程序方式人机会话主要通过4个窗口:PROGRAM(编辑器)窗口、LOG (日志)窗口、OUTPUT(输出)窗口和GRAPH(图形)窗口。

(1)PROGRAM(编辑器)窗口用于存放给电脑的命令(一般为SAS程序),点击菜单中跑步的小人为“提交”(submit)的快捷方式。

(2)LOG(日志)窗口用于记录计算过程,当程序有错误时,日志窗口将错误语句用红字标出,往往还给出错误原因和修改建议。

(3)OUTPUT(输出)窗口用于存放电脑计算的结果。SAS计算结果很多,在输出窗口形成许多数表,每个数表用表头区分。

(4)GRAPH(图形)窗口用于输出图形型结果,具有较高分辩率。

为得到这些窗口可在屏幕下方找寻,也可在GLOBALS菜单下点击。

在PROGRAM窗口输入SAS程序,并点击“提交”(submit)快捷键(跑步小人),就可实现人机对话。

2.)DATA步语句

SAS程序由SAS语句组成。

DA TA语句以关联词DATA开头,后跟数据集名。功能是:开始数据步;指示SAS产生数据集;指定产生的数据集名。如语句data wang2;指示SAS生成名为wang2的数据集。

INPUT语句以关联词INPUT开头,后跟变量名。用于指示SAS输入数据时,数据对应的变量。字符串型变量后要加$号,以说明是字符串变量。如果字符串型变量长于八个字母或中有空格,可在变量名后加数字说明在哪些列的符号是字符串。如input no name % x1-x4 z;表示数据体的顺序是:数值型变量no、字符串变量name、数值型变量x1、数值型变量x2、数值型变量x3、数值型变量x4、数值型变量z。变量名只能用英文表示,字符串变量值可为中文。

Datalineshuo或CARDS语句只由关联词datalines或,CARDS组成。表示以下为数据体。

数据体每行写一次观察值,不同变量的值用空格分开不加任何符号,整型数与实型数无区别。

赋值语句由变量+等号+表达式组成,如y=x1+2.5*x2+x3。它的作用是产生新的变量y,其每次观察值由相应x1,x2,x3观察值计算。

空语句只由分号组成,表示数据体结束。

例已知某组学生成绩如下表,计算每个学生总分和平均成绩

可用如下程序

data class1;/建立名为class1的数据集*/

input no name$ shuxuue yuwen waiyu;/*建立名为no 、name(字符串型)、shuxuue、yuwen waiyu*/

zongfen= shuxuue +yuwen +waiyu; /*建立名为zongfen的变量,其值为shuxuue +yuwen +waiyu;*/

pingjun=zongfen/3;/*建立名为pingjun的变量,其值为zongfen/3*/

cards;/*cards语句,以下为数据体*/

001 赵大85 92 87

002 钱二88 77 97

003 孙三92 88 95

004 李四82 86 84

;/*空语句,结束数据步*/

run;

所得数椐集有五个变量,分别给出学生的语文,数学,外语,总分和平均成绩。为显示该数据集,在编辑器(PROGRAM)窗口输入命令

proc print data=class1;

run;

可在输出窗口看到数据集的内容。

3)PROC步语句

PROC步调用过程加工数据集。每个过程由若干句子组成,这些句子根据过程的需要而定。最常用的语句形为PROC语句,一般形式是Proc xxx data=yyy,功能是让SAS调用xxx 过程处理数椐集yyy。其他较常用语句有:V AR语句,以关联词V AR开头,用以规定参与的变量;OUTPUT语句,以关联词V AR开头,用以规定输出某个数据集的内容。

由于不同问题需要调用不同过程,不同过程PROC步所用语句也不相同

4)SAS做对应分析

SAS使用CORESP过程作对应分析,在PROC CORESP语句中使用OUTC=选项输出画图所用数据;再使用宏指令%plotit画出图形。如果不直接输入列联表或BURT表,而是输入原始数据,则要增加TABLE语句,由原始数据获取列联表或BURT表。

2 SAS作简单对应分析可以在数据步把两个变量的列联表直接输入,也可以用原始属性数据输入。列联表直接输入时,代表每一行的符号“行名”排成一列,作为一个字符串变量的值,代表每一列的符号“列名”作为自变量的符号。在原程序加工步中用VAR语句指定列名变量;ID语句指明行名变量。如果输入原始变量,要用TABLES语句生成列联表,不用VAR 语句。

例5经调查大学生舌色和体质列联表如下,做对应分析

解用Co1-co7表示舌头7种颜色;ph1-ph9表示9种体质

程序

Data colorph;/*建立数据集,名为colorph*/

Input color$ ph1-ph9;/建立10个变量,变量名为color(字符串变量),ph1至ph9*/ Cards;/*以下是数据体*/

Co1 1242 429 939 524 183 276 92 233 87

Co2 161 47 147 89 26 42 13 42 14

Co3 4 4 4 1 1 2 2 2 1

Co4 6 2 8 2 2 1 1 3 0

Co5 6 1 4 5 1 0 1 1 0

Co6 35 11 30 10 9 10 3 15 4

Co7 148 56 123 80 22 35 15 34 16

Co8 21 12 16 6 5 6 4 5 3

;/*数据体结束*/

proc corresp outc=wang;/*调用corresp过程,输出数据集为wang*/

var ph1-ph9;/*9个列变量是ph1-ph9*/

id color;/*行变量是color*/

run;/*执行*/

%plotit(data=wang, datatype=corresp, plotvars=Dim1 Dim2) /*宏指令,用数据集wang画对应分析图*/

quit;/*退出画图过程*/

执行后得到图形中舌色1(淡红)和体质1(平和)最接近。Co7和ph3最接近,也就是说舌色尖红的人如果不是平和,就是阳虚。

多重对应分析

3SAS作多重对应分析

为了了解人们对英国政府某项政策的态度,请被调查人对5个问题打勾:性别(男、女),低于30岁?(低于、高于),年收入8000镑?(少于、多于),情绪(悲观、乐观),赞成否?(赞成、反对);得到5个属性变量,每个属性变量各有2个值。整理74人的调查资料为表5-4。对所得数据做多重对应分析。

表5-4 人们对英国政府某项政策的态度

m,f;low,high;less,more;pess,opti;yes,no,分别表示:男、女;低于、高于;少于、多于;悲观、乐观;赞成、反对。

建立程序(程序名“对英国政策的态度”.sas)

data commit;

input sex$ age$ income$ morale$ commit$;

datalines;

m low less opti yes

f low less opti yes

f low less opti yes

f low less opti yes

m high less opti yes

m high less opti yes

m high less opti yes

f high less opti yes

f high less opti yes

m low more opti yes

m low more opti yes

m high more opti yes

m high more opti yes

m high more opti yes

f high more opti yes

m low less press yes

m low less press no

m low more press yes m low less opti no

m low less opti no

m low less opti no

m low less opti no

m low less opti no

f low less opti no

f low less opti no

f low less opti no

f low less opti no

m high less opti no

m high less opti no

f high less opti no

f high less opti no

f high less opti no

f low more opti no

m high more opti no

m high more opti no

m high more opti no

m high more opti no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

m low less press no

f low less press no

f low less press no

f low less press no

f low less press no

f low less press no

f low less press no

f low less press no

f low less press no

f low less press no

m high less press no

m high less press no

m high less press no

m high less press no

m high less press no

f high less press no

f high less press no

f high less press no

f high less press no

f high less press no

f high less press no

m low more press no

m high more press no

m low more opti yes

m low more opti yes

;

proc corresp mca outc=wang;

tables sex age income morale commit; /*由原始属性变量数据算出burt表,以供对应分析使用*/

run;

%plotit(data=wang, datatype=corresp, href=0, vref=0) /*画对应分析图,过原点画纵轴和横轴*/

quit;

执行程序后得到对应分析图。

从图中可见“低于”30岁(low)、“少于8000镑”(less)、“悲观”(pess)、“反对”(no)距离较近,说明年青和收入少者持悲观态度,反对该政策;“赞成”(yes)、“乐观”(optim)、“高于”(high)距离较近,说明收入高的人持乐观态度,赞成该政策;“男”、“女”和“多于”比较孤立,说明对政策的态度与“性别”无关,年龄大的人对政策的态度不明朗。

4 模糊数据的处理

对于每一个个体x属性变量的值应当是唯一确定的,有时出现模糊值现象。例如一个人的舌色既是淡红又是舌尖红。为此常用近似处理方法

原始数据

近似数据

精确数据

用MINITAB的频数选项或SAS的weight语句计算

四logistic回归

当因变量是属性变量时,可以用logistic回归建立预测方程

Logistic回归分析的目的是建立经验公式,以便由自变量预测因变量概率分布。当因变量仅有两个“状态”时的Logistic回归就是“二值Logistic回归”;当因变量的多个“状态”(状态数多于2)没有顺序关系时就是“名义值Logistic回归”。使用MINITAB的二进制Logistic回归对话框、名义Logistic回归对话框,就能分别完成这2种回归分析。Logistic回归的自变量可以是数值变量,也可以是属性变量。当自变量是属性变量时,要把它选入“因子”空格,以向MINITAB说明该自变量是属性变量。实施这些对话框后,得到的结果主要由3张表组成:Logistic回归表,斜率检验表和拟合优度检验表;它门的表头分别是“Logistic回归表”,“检验斜率是否为零”和“拟合优度检验”。Logistic回归表给

出参数的估计值,参数显著性检验的p 值(这两项和线性回归相同)和自变量的优势比;p 值越小,例如小于0.05,自变量越重要,不能删去;斜率检验表给出斜率检验的p 值,p 值越小,例如小于0.05,Logistic 所有自变量的效果越好;拟合优度检验表给出拟合优度检验的p 值,p 值越大,例如大于0.05,Logistic 回归方程的效果越好。对这些表我们将结合例题加以介绍。

(一)二值Logistic 回归

二值Logistic 回归仅考虑因变量是二个状态的情形:当用1表示因变量处于某个状态,用0表示因变量处于另一个状态时,因变量取1事件的概率记为p ;当因变量的值是英文字符时,英文字符排在后面的事件的概率记为p ;当因变量的值是汉字符号时,汉字拼音字母排在后面的事件的概率记为p 。

二值Logistic 回归方程是

m m x b x b x b b p

p ∧∧∧∧++++=-...1ln 22110 其中m b b b b ∧

∧∧∧,...,,210是已估计出的参数。

p

p

-1称为“优势比”。 例 统计1008位顾客购买洗衣粉情况,数据见下表希望了解水质、过去购买否、水温对于购买哪种品牌是否有影响。

数据分析的常见方法

一、描述统计 描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。 1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率\回归法、决策树法。 2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。 二、假设检验 1、参数检验 参数检验是在已知总体分布的条件下(一股要求总体服从正态分布)对一些主要的参数(如均值、百分数、方差、相关系数等)进行的检验。 1)U验使用条件:当样本含量n较大时,样本值符合正态分布 2)T检验使用条件:当样本含量n较小时,样本值符合正态分布 A 单样本t检验:推断该样本来自的总体均数μ与已知的某一总体均数μ0 (常为理论值或标准值)有无差别; B 配对样本t检验:当总体均数未知时,且两个样本可以配对,同对中的两者在可能会影响处理效果的各种条件方面扱为相似; C 两独立样本t检验:无法找到在各方面极为相似的两样本作配对比较时使用。 2、非参数检验 非参数检验则不考虑总体分布是否已知,常常也不是针对总体参数,而是针对总体的某些一股性假设(如总体分布的位罝是否相同,总体分布是否正态)进行检验。 适用情况:顺序类型的数据资料,这类数据的分布形态一般是未知的。

A 虽然是连续数据,但总体分布形态未知或者非正态; B 体分布虽然正态,数据也是连续类型,但样本容量极小,如10以下; 主要方法包括:卡方检验、秩和检验、二项检验、游程检验、K-量检验等。 三、信度分析 检査测量的可信度,例如调查问卷的真实性。 分类: 1、外在信度:不同时间测量时量表的一致性程度,常用方法重测信度 2、内在信度;每个量表是否测量到单一的概念,同时组成两表的内在体项一致性如何,常用方法分半信度。 四、列联表分析 用于分析离散变量或定型变量之间是否存在相关。 对于二维表,可进行卡方检验,对于三维表,可作Mentel-Hanszel分层分析。 列联表分析还包括配对计数资料的卡方检验、行列均为顺序变量的相关检验。 五、相关分析 研究现象之间是否存在某种依存关系,对具体有依存关系的现象探讨相关方向及相关程度。 1、单相关:两个因素之间的相关关系叫单相关,即研究时只涉及一个自变量和一个因变量; 2、复相关:三个或三个以上因素的相关关系叫复相关,即研究时涉及两个或两个以上的

11属性数据分析

技能训练十一属性数据分析 一、训练目的与要求 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、训练准备 1.训练数据:本训练数据保存于文件夹Exercise-11中。 2.预备知识:属性分析的方法。 三、训练步骤与内容 1.数据准备 将训练数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件 执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step3: 选择分类属性字段为小麦,保留属性字段为乡名、水稻、玉米Step4: 设置分类方式为分段方式 Step5: 确定,退出设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL 和LINE.WL四个文件处于关闭状态)。

数据属性

数据属性 数据具有数值属性、物理属性。在数据处理上数据又具有集合性、隶属性、稳定性、方便性、重复性、共同性、指向性以及运算规则及运算约束。我们先看一个命题,求一个苹果和一个梨的和?由于它们的物理属性不同,我们不能求出它们的和。再看命题现在有一个苹果和一个梨,问是否满足3个人,每人一个苹果或梨,由于物理属性转移到“人”概念下的“个”,所以必须先进行加法运算,其结果是分析命题的依据。数据是复杂的,它可以是任何介质上所记录的信息,比如我们可以对文字信息进行拷贝、连接、检索、删除,都是数据概念下的操作。 详细解释 进行各种统计、计算、科学研究或技术设计等所依据的数值。 柯岩《奇异的书简·船长》:“ 贝汉廷分析着各个不同的数据,寻找着规律,终于抓住了矛盾的牛鼻子。”数据(data)是载荷或记录信息的按一定规则排列组合的物理符号。可以是数字、文字、图像,也可以是计算机代码。对信息的接收始于对数据的接收,对信息的获取只能通过对数据背景的解读。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。亦即数据转化为信息,可以用公式“数据+背景=信息”表示。 编辑本段计算机科学中的解释 数据:在计算机系统中,各种字母、数字符号的组合、语音、图形、图像等统称为数据,数据经过加工后就成为信息。 在计算机科学中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量等的通称。是组成地理信息系统的最基本要素,种类很多。 按性质分为 ①定位的,如各种坐标数据;②定性的,如表示事物属性的数据(居民地、河流、道路等);③定量的,反映事物数量特征的数据,如长度、面积、体积等几何量或重量、速度等物理量;④定时的,反映事物时间特性的数据,如年、月、日、时、分、秒等。 按表现形式分为

_商业智能:数据分析基础

第1章 商业智能:数据分析基础 本章目标: ●理解商业智能系统的用途和结构 ●理解多维数据分析的概念 ●学习如何使用数据仓库实现维度数据模型 ●学习如何使用分析服务实现维度数据模型 1.1 商业智能简介 商业智能(Business Intelligence,BI)是从一个公司的运行系统或外部资源所包含的数据中获得的信息。商业智能有助于我们更好更快地做出决策。假设你现在是一家新创公司的总经理,公司名为Adventure Works Cycles(下文简称AWC公司),面向北美、欧洲以及亚洲制造和销售自行车、自行车部件、运动服饰和相关配件。AWC公司需要发展,可目前有限的资源无法支撑其壮大。但是为了公司的发展你必须做出决策,而为了做出合理的决策,你需要一些特殊的信息。你可能会阅读《华尔街日报》来把握最新的商业趋势,或者在收藏夹中保存https://www.wendangku.net/doc/5416718190.html,网站的书签。所有这些信息以及你积累的经验会让你做出一个主观的、凭直觉的(gut-feeling)决策。但事实上,你可能希望自己的决定是客观的、有数据支撑的。需要的数据包括公司的订单处理、会计报表、人力资源以及其他的商业系统。同时还需要一个由第三方提供的市场预测数据和汇率信息。这时,需要一个能将所有这些信息汇总起来供今后使用的工具,这个工具就是商业智能系统。商业智能系统是一种解决方案,它能从多个数据源收集数据,将各种数据进行转化使之一致并能存储在同一个位置,为你进行分析和制定决策提供数据支持。 商业智能系统至多由以下五层组成: (1) 数据源层 (2) 数据转换层 (3) 数据存取层 (4) 分析层 (5) 表示层 数据源层包含的数据有:①维护公司日常运作的系统中的数据,包括文本文件、Excel电子表格文件或Access数据库文件中的数据;②从外部源中获取的数据。由于这些数据从不同的数据源中获得,因此很难直接利用它们创建报表和进行分析。数据转换层用于从不同数

数据分析-分布类别

各种分布 泊松分布 Poisson分布,是一种统计与概率学里常见到的离散概率分布。 泊松分布的概率函数为: 泊松分布的参数λ是单位时间(或单位面积、单位体积)内随机事件的平均发生率。泊松分布适合于描述单位时间内随机事件发生的次数。 泊松分布的期望和方差均为 特征函数为: 泊松分布与二项分布 当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。 事实上,泊松分布正是由二项分布推导而来的。 泊松分布可作为二项分布的极限而得到。一般的说,若 ,其中n很大, p很小,因而不太大时,X的分布接近于泊松分布。这个事实有时可将较难计算的二项分布转化为泊松分布去计算。 应用示例 泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,某放射性物质发射出的粒子,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。 卡方分布 卡方分布( 分布)是概率论与统计学中常用的一种概率分布。n 个独立的标准

正态分布变量的平方和服从自由度为n 的卡方分布。卡方分布常用于假设检验和置信区间的计算。 若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成 一新的随机变量,其分布规律称为卡方分布(chi-square distribution),即分布(chi-square distribution),其中参数n称为自由度。正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个分布。记为或者。 卡方分布与正态分布 卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,分布 近似为正态分布。对于任意正整数x,自由度为 k的卡方分布是一个随机变量X 的机率分布。 期望和方差 分布的均值为自由度n,记为E( ) = n。分布的方差为2倍的自由度(2n),记为D( ) = 2n。 均匀分布 均匀分布(Uniform Distribution)是概率统计中的重要分布之一。 顾名思义,均匀,表示可能性相等的含义。 (1) 如果,则称X服从离散的均匀分布。 (2) 设连续型随机变量X的概率密度函数为,则称随机变

实验十四 属性数据分析

实验十四属性数据分析 一、实验目的 1.掌握属性数据分析方法。 2.掌握属性数据分析图表与原图形的组合。 二、实验准备 1.实验数据:本实验数据保存于文件夹Exercise-14中。 2.预备知识:属性分析的方法。 三、实验步骤与内容 1.数据准备 将实验数据复制,粘贴至各自文件夹内。 启动MAPGIS主程序。在主菜单界面中,点击参数按钮,在弹出的对话框中,设置工作目录最终指向Exercise-14(盘符依据各人具体情况设置)。 2.属性分析 执行如下命令:空间分析?空间分析?文件?装载区文件,加载要进行属性分析的数据文件。 Step1: 加载数据文件中所提供 的REGION.WP区文件执行如下命令:属性分析?单属性分类统计?立体饼图,选择属性分析类型。

Step2: 属性 Step4: 设置分类方 式为分段方 式 Step3: 选择分类属 性字段为小 麦,保留属 性字段为乡 名、水稻、 玉米 Step5: 确定,退出 设置 分类值域按图中所示输 入

分类统计结果图 3.保存文件 执行如下命令:文件?保存当前文件,换名保存属性分析所生成的图形文件,系统生成的表格文件(*.WB)不需要保存。 Step: 将缺省文件名改为“属性分析”,点 击保存按钮。按此方法依次将线、区 文件名均改为“属性分析” 4.文件组合 执行如下命令:图形处理?输入编辑?打开已有工程文件,打开所提供的Exercise-14.MPJ,在工程文件管理窗口,点击鼠标右键,选择“添加项目”选项,将前面生成的属性分析.WT、属性分析.WL、属性分析.WP添加进此工程文件。 关闭REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件。 执行如下命令:其它?整块移动,调整属性分析.WT、属性分析.WL、属性分析.WP三个图形文件的位置,使与主图位置相适应。若此三个图形与主图相比过大的话,执行如下命令:其它?整图变换?键盘输入参数,来进行调整(注意应确定REGION.WP、POINT.WT、RIVER.WL和LINE.WL四个文件处于关闭状态)。 完成后,保存此工程文件。

数据分析 数学基础

数据分析数学基础 统计学:科学方法收集、整理、汇总、描述和分析数据资料,并在此基础上进行推断和决策的科学; 归纳统计学/统计推断:通过样本分析来给总体下结论 描述性统计学/演绎统计学:值描述和分析特定对象而不下结论或推断 变量、常量、连续变量、离散变量、连续数据、离散数据 自变量、因变量、函数、单值函数、多值函数 数组阵列:原始数据按照数量大小升序或者降序排列,最大值与最小值的差为全距; 组距、组限、组界、组中值、直方图与频率多边形 频率分布=某一组频数/总频数 累计频数分布/累计频数表,累计频数多边形/卵形线 累计频率分布/百分率累计频数=累计频数/总频数 1、平均值/集中趋势的度量:趋向落在根据数值大小排列的数据的中心 算术平均: 加权算术平均: 2、中位数:一组数根据数量大小排列后的做兼职或者两个中间值的算术平均值 3、众数:一组数出现次数最多的那个数,众数不一定存在,也不唯一 均值、中位数和众数之间的关系: 4、几何平均G 5、调和平均H 算术平均、几何平均和平均之间的关系 6、均方根RMS 离差/变差:数值数据围绕其平均值分布的分数与集中程度,常用的有全距、平均偏差、半内四分位数间距,10-90百分位数间距、标准差; 1、全距:最大值-最小值 2、平均偏差 3、半内四分位数间距 4、10-90百分位数间距 5、标准差 6、方差:标准差的平方 离差度量间的关系 1、矩 2、r阶中心矩 3、偏度:分布不对称程度或偏离对称程度的反映 4、峰度:分布的陡峭程度,尖峰、扁峰、常峰态 1、概率 2、条件概率,独立和不独立事件 3、互不相容事件:两个或多个事件中,任意两个事件都不能同时发生 4、概率分布 离散型:离散型概率分布 连续型:概率密度函数、连续型概率分布 5、数学期望 如果一个人活得S美元的概率为p,则他的数学期望=pS

数据挖掘中客户的特征化及其划分(一)

数据挖掘中客户的特征化及其划分(一) 摘要]良好客户关系已成为电子商务时代制胜的关键。在激烈的市场竞争中,客户关系管理逐渐成为企业关注的焦点。深入研究客户和潜在客户是在市场中保持竞争力的关键。本文通过对客户行为的特征化分析,以数据挖掘为分析工具,对客户关系管理进行了讨论,给出了相应的划分方法,使用这些划分方法,对客户进行分析是有意义的。 关键词]客户关系管理数据挖掘聚类分析 一、引言 在激烈的市场竞争中,客户关系管理(CustomerRelationshipManagement)逐渐成为各企业关注的焦点。一个成熟的CRM系统要能够有效地获取客户的各种信息,识别客户与企业间的关系及所有交互操作,寻找其中的规律,为客户提供个性化的服务,为企业决策提供支持。 在企业与客户的交互操作中,“二八原则”是值得借鉴的,即20%的客户对企业做出80%的利润贡献。但究竟谁是那20%的客户?又如何确定特定消费群体的消费习惯与消费倾向,进而推断出相应消费群体或个体下一步的消费行为?这都是企业需要认真研究的问题。 二、客户的特征化及其划分 企业认识客户和潜在客户是在市场保持竞争力的关键。特征分析是了解客户和潜在客户的极好方法,包括对感兴趣对象范围进行一般特征的度量。一旦知道带来最大利润客户的特征和行为,就可以直接将其应用到寻找潜在客户之中。有效寻找客户,认识哪些人群像自己的客户。因此,在争取客户的活动中,对感兴趣对象进行特征化及其划分是很有意义的。 对客户的特征化,顾名思义就是用数据来描述或给出客户(潜在客户)特征的活动。特征化可以在数据库(或数据库的不同部分)上进行。这些不同部分也称为划分,通常他们互不包含。 划分分析(SegmentationAnalysis)通常用于根据利润和市场潜力划分客户。如:零售商按客户在所有零售商店的总体购买行为,将客户划分为若干描述他们各自购买行为的区域,这样零售商可以评估哪些客户有最大利润。划分是把数据库分成互不相交部分或分区的活动。一般有两种方法:市场驱动法和数据驱动法。市场驱动法需要决定那些对业务有重要影响的特征,即需要预先选择一些特征变量(属性),以最终定义得到划分。数据驱动法是利用数据挖掘中的聚类技术或要素分析技术寻找同质群体。 三、数据挖掘的概念 数据挖掘(DataMining)是从大型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的潜在有用信息。通过数据挖掘提取的知识表示为概念、规则、规律、模式等,它对企业的趋势预测和行为决策提供支持。 1.分类分析 分类是指将数据映射到预先定义好的群组或类。分类要求基于数据属性值来定义类别,通过数据特征来描述类别。根据它与预先定义好的类别相似度,划分到某一类中去。分类的主要应用是导出数据的分类模型,然后使用模型预测。 2.聚类分析 聚类是对抽象样本集合分组的过程。与分类不同之处在于聚类操作要划分的类是事先未知。按照同一类中对象之间较高相似度原则进行划分,目的是使同一类别个体之间距离尽可能小,不同类别中个体间距离尽可能大。类的形成是由数据驱动的。 3.关联规则 关联规则是从大量的数据中挖掘出有价值的描述数据项之间相互关联的知识。关联规则中有两个重要概念:支持度(Support)和信任度(Confidence)。它们是两个度量有关规则的方法,描述了被挖掘出规则的有用性和确定性。关联规则挖掘,希望发现事务数据库中数据项之间的关联,这些规则往往能反映客户的购买行为模式。

数据分析基础体系

互联网产品数据分析基础体系 互联网产品的数据指标体系主要分为五个维度,包括用户规模与质量、参与度分析、渠道分析、功能分析以用户属性分析。用户规模和质量维度主要是分析用户规模指标,这类指标一般为产品考核的重点指标;参与度分析主要分析用户的活跃度;渠道分析主要分析渠道推广效果;功能分析主要分析功能活跃情况、页面访问路径以及转化率;用户属性分析主要分析用户特征。 一、用户规模和质量 用户规模和质量的分析包括活跃用户、新增用户、用户构成、用户留存率、每个用户总活跃天数五个常见指标。用户规模和质量是数据分析最重要的维度,其指标也是相对其他维度最多。 1、活跃用户指标 活跃用户指在某统计周期内使用过产品的用户。手机端产品活跃用户数一般按照设备维度统计,即统计一段周期内使用过的设备(如手机、平板电脑)数量。 活跃用户是衡量产品用户规模的指标。通常,一个产品是否成功,如果只看一个指标,那么这个指标一定是活跃用户数。活跃用户数根据不同统计周期可以分为日活跃数(DAU)、周活跃数(WAU)、月活跃数(MAU)。 2、新增用户指标 新增用户是指注册后,首次登录产品的用户。按照统计时间跨度不同分为日、周、月新增用户。新增用户量指标主要是衡量营销推广渠道效果的最基础指标;另一方面,新增用户

占活跃用户的比例也可以用来用于衡量产品健康度。如果某产品新用户占比过高,那说明该产品的活跃是靠推广得来,这种情况非常值得关注,尤其是关注用户的留存率情况。 3、用户构成指标 用户构成是对周活跃用户或者月活跃用户的构成进行分析,有助于通过新老用户结构了解活跃用户健康度。以周活跃用户为例,周活跃用户包括以下几类用户,包括本周回流用户、连续活跃n周用户、忠诚用户、连续活跃用户。本周回流用户是指上周“未使用”过产品,本周使用产品的用户;连续活跃n周用户是指连续n周,每周至少使用过一次产品的活跃用户;忠诚用户是指连续活跃5周及以上的用户;连续活跃用户是指连续活跃2周及以上的用户;近期流失用户是指连续n周(大约等于1周,但小于等于4周)没有使用过产品的用户。 4、用户留存率指标 用户留存率是指在某一统计时段内的新增用户数中再经过一段时间后仍使用该产品的用户比例。用户留存率可重点关注次日、7日、14日以及30日留存率。次日留存率即某一统计时段(如今天)新增用户在第二天(如明天)再次使用产品的比例;7 日留存率即某一统计时段(如今天)新增用户数在第7 天再次使用该产品的比例;14日和30日留存率以此类推。用户留存率是验证产品用户对吸引力很重要的指标。通常,我们可以利用用户留存率对比同一类别产品中不同产品对用户的吸引力。如果对于某一个产品,在相对成熟的版本情况下,如果用户留存率有明显变化,则说明用户质量有明显变化,很可能是因为推广渠道质量的变化所引起的。 5、每个用户总活跃天数指标 每个用户的总活跃天数指标(TAD,Total Active Days per User)是在统计周期内,平均每个用户在产品的活跃天数。如果统计周期比较长,如统计周期一年以上,那么,每个

第八章 分类数据分析

第九章 列联分析 一、填空题 1、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为 。 2、设0f 为列联表中观察值频数,e f 为期望值频数,则进行拟合优度检验时所用统计量2χ= 。 3、在列联分析中,观察值总数为n ,RT 为列联表中给定单元的行合计,CT 为给定单元列合计,则该给定单元频数期望值为 。 4、在列联分析中,观察值总数为500,列联表中给定单元的行合计数为140,列合计数为162,则该给定单元频数期望值为 。 5、在3×4列联分析中,统计量2 2 0()e e f f f χ-=∑(其中0f 为观测值频数,e f 为期望值频数)的自由度为____________。 6、对来自三个地区的原料质量进行检验时,先把它们分成三个等级,在随机抽取400间进行检验,经分析得知原料质量与地区之间的关系实现著的,现计算得2300χ=,则?相关系数等于 。 7、?相关系数是描述两个分类变量之间相关程度的统计量,它主要用于描述 的列联表数据。 8、若两个分类变量之间完全相关。则?相关系数的取值为 。 9、当列联表中两个变量相互独立时,计算的列联相关系数C= 。 10、利用2 χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须 。 二、单项选择题 1、列联分析是利用列联表来研究( ) A 、两个分类变量的关系 B 、两个数值型变量的关系 C 、一个分类变量和一个数值型变量的关系 D 、连个数值型变量的分布 2、设R 为列联表的行数,C 为列联表的列数,则进行拟合优度检验时所用统计量2χ的自由度为( ) A 、R B 、 C C 、R ×C D 、(R-1)×(C-1) 3、若两个分类变量之间完全相关。则?相关系数的取值为( ) A 、0 B 、小于1 C 、大于1 D 、1=? 4、当列联表中两个变量相互独立时,计算的列联相关系数C ( ) A 、等于1 B 、大于1 C 、等于0 D 、小于0 5、利用2χ分布进行独立性检验,要求样本容量必须足够大,特别是每个单元中的期望频数e f 不能过小,如果只有两个单元,则每个单元的期望频数必须( ) A 、等于或大于1 B 、 C 值等于?值 C 、等于或大于5 D 、等于或大于10 6、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名男生和120名女生进行调查,得到结果如下: A 、48和39 B 、102和81 C 、15和14 D 、25和19 7、一所大学准备采取一项学生上网收费的措施,为了解男女学生对这一措施的看法,分别抽取了150名

定性属性数据分析复习题

属性数据分析复习题 一、 填空(每题4分,共20分) 1. 按数据取值分类,人的身高,性别,受教育程度分别属于计量数据,名义数据,有序数据 2. 度量定性数据离散程度的量有离异比率, G-S 指数,熵 3. 分类数据的检验方法主要有2χ检验和似然比检验 4. 二值逻辑斯蒂线性回归模型的一般形式是011ln 1k k p x x p βββ=+++- 5. 二维列联表的对数线性非饱和模型有 3 种 二、 案例分析题(每题20分,共60分) 1.P40习题二1,给出上分位数20.05(5)11.07χ= 0123456:0.3,0.2,0.2,0.1,0.1,0.1H p p p p p p ====== 220.0518.0567(5)11.07χχ=>=,落入拒绝域,故拒绝原假设,即认为这些数据与 消费者对糖果颜色的偏好分布不相符 2.P42表 3.1独立性检验,给出上分位数2 0.05(1) 3.84χ= 012:H p p =(即认为肺癌患者中吸烟比例与对照组中吸烟比例相等) 112:H p p ≠

未连续性修正的: 22 2 2112212210.051212()106(6011332)9.6636(1) 3.8463439214n n n n n n n n n χχ++++-?-?===>=??? 带连续性修正的: 22 11221221220.051212(||)106(|6011332|53)27.9327(1) 3.8463439214 n n n n n n n n n n χχ++++--?-?-===>=??? 均落入拒绝域,故拒绝原假设,即认为肺癌患者中吸烟比例与对照组中吸烟比例不等 3.P83表 4.3 独立性检验,给出上分位数2 0.05(2) 5.99χ= 0:ij i j H p p p ++=(即认为男性和女性对啤酒的偏好无显著性差异) 220.0590.685(2) 5.99χχ=>=,落入拒绝域,故拒绝原假设,即认为男性和女性对 啤酒的偏好有显著性差异 三、简答(每题10分) 1.谈谈你对p 值的认识 P 值是: 1) 一种概率,一种在原假设为真的前提下出现观察样本以及更极端情况的概率。 2) 拒绝原假设的最小显著性水平。 3) 观察到的(实例的)显著性水平。 4) 表示对原假设的支持程度,是用于确定是否应该拒绝原假设的另一种方法。 P 值(P value )就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P 值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P 值越小,我们拒绝原假设的理由越充分。总之,P 值越小,表明结果越显著。 统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著 2.写出三维列联表各种独立性之间的关系

初中数学数据分析基础测试题及答案解析

初中数学数据分析基础测试题及答案解析 一、选择题 1.一组数据1,5,7,x的众数与中位数相等,则这组数据的平均数是()A.6 B.5 C.4.5 D.3.5 【答案】C 【解析】 若众数为1,则数据为1、1、5、7,此时中位数为3,不符合题意; 若众数为5,则数据为1、5、5、7,中位数为5,符合题意, 此时平均数为1557 4 +++ = 4.5; 若众数为7,则数据为1、5、7、7,中位数为6,不符合题意; 故选C. 2.某实验学校女子排球队12名队员的年龄分布如图所示,则这12名队员的年龄的众数、平均数分别是() A.15岁,14岁B.15岁,15岁 C.15岁,15 6 岁D.14岁,15岁 【答案】A 【解析】 【分析】 根据众数、平均数的定义进行计算即即可. 【详解】 观察图表可知:人数最多的是5人,年龄是15岁,故众数是15. 这12名队员的年龄的平均数是:123131142155161 14 12 ?+?+?+?+? = 故选:A 【点睛】 本题主要考查众数、平均数,熟练掌握众数、平均数的定义是解题的关键. 3.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 决赛成绩/分95908580

人数 4 6 8 2 那么20名学生决赛成绩的众数和中位数分别是( ) A .85,90 B .85,87.5 C .90,85 D .95,90 【答案】B 【解析】 试题解析:85分的有8人,人数最多,故众数为85分; 处于中间位置的数为第10、11两个数, 为85分,90分,中位数为87.5分. 故选B . 考点:1.众数;2.中位数 4.某单位招考技术人员,考试分笔试和面试两部分,笔试成绩与面试成绩按6:4记入总成绩,若小李笔试成绩为80分,面试成绩为90分,则他的总成绩为( ) A .84分 B .85分 C .86分 D .87分 【答案】A 【解析】 【分析】 按照笔试与面试所占比例求出总成绩即可. 【详解】 根据题意,按照笔试与面试所占比例求出总成绩: 64 8090841010? +?=(分) 故选A 【点睛】 本题主要考查了加权平均数的计算,解题关键是正确理解题目含义. 5.在某次训练中,甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示,对于 本次训练,有如下结论:①22 s s >甲乙;②22 s s <甲乙;③甲的射击成绩比乙稳定;④乙的射 击成绩比甲稳定.由统计图可知正确的结论是( ) A .①③ B .①④ C .②③ D .②④

属性数据分析第五章课后答案

属性数据分析第五章课后作业 6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 二维2×2列联表独立检验的似然比检验统计量Λ 2的值为0.7032,p值 -ln 为05 ≥ = =χ p,不应拒绝原假设,即认为“偏好类型” (2> P 4017 .0 )1( ) .0 7032 .0 与“性别”无关。 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表

在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别,1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表示偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下: 2C 层 822.11ln 2=Λ-248.6ln 2=Λ- 条件独立性检验问题的似然比检验统计 量是这两个 似然比检验统计量的和,其值为 07.18822.11248.6ln 2=+=Λ- 由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 (4)产生偏差的原因 a 、在(1)中,将不同年龄段的数据压缩在一起合起来后分析发现男性和女性在

2019年关于如何写数据分析报告

关于如何写数据分析报告 现有数据分析报告当中存在一些问题,我们对现有的数据分析 报告当中的问题进行分析,来找到如何做出更高质量的数据分析报告。 一、基础数据的采集缺乏科学依据 基础数据的采集对于整个数据分析报告具有非常重要的意义, 基础数据采集的科学性决定了这个数据分析报告是不是有使用价值。只有当数据采集具有科学性、客观、严密的逻辑性时,建立在这样的数据分析基础之上的经济效益评价、现金流量分析以及数据分析结论才具有现实的价值和意义。一般来说,当拿到一个项目时我们首先会结合项目的特点来进行基础数据分析,一个项目刚形成,从无到有的时候,基础数据一般采用一手的数据,因为它没有历史的轨迹来遵循,所以用一手数据资料来进行分析。一手数据的采集方法比如:问卷调查、观察、抽样技术等等,来对一手数据进行分析。通常对拥有大量的历史数据的项目如服装业等,数据采集可借鉴同等的规模或一些历史数据,以他为基础来进一步研究和分析。同时也可借鉴行业公开的资料、网上资料、统计的年鉴等等来进行分析。从现有的数据分析报告来看,很多基础的数据就是简单的摆在那里,没有数据来源,数据提示,没有对基础数据严谨的分析。 二、作为数据分析报的使用方而言,拿到这样的报告会对于报 告的科学性提出质疑。 数据分析的过程缺乏逻辑性,论证的结论不具备系统性很多数 据分析报告一般都是前面是一堆数据,后面是一个结论。当真正的研

究数据和结论时,是结果单一,数据和结论找不到必然的联系,要不就是只有一个结论,比如对净现值、内部收益率做出说明等等。作为专业的数据分析报告,必须充分的考虑每一个数字科学来源的基础上运用定量的模型来对数据进行分析,一步步推导到数据的结论上。 例如,一个项目不确定性分析,风险概率分析 (一)、什么是影响这个项目的风险点,这些风险因素就是我 们通常意义上的不确定性分析的模型来做 (二)、在这样的风险因素基础上,哪一些风险因素对投资项 目的效益有重大影响,这些因素通过敏感性分析可以找出来。 (三)、找出这些风险因素下一步就是分析,这些影响效益的 风险点出现的概率有多大? 三步分析完之后,风险对于这个项目的影响就显露出来,到这 个时候只是数据分析的第一步工作。有一些数字和比率出现在报告上,更重要的在于结论,针对于这样的分险因素和风险变量(不可避免的),作为数据分析报告必须能搞提出来如何在项目的操作中 有效的防范这些风险。这样的风险点的提出和风险因素的防范 对于报告的使用者来说是有意义的。 三、现有的数据分析报的结论单一,仅仅对于项目的可行性和 计划性进行研究 建立在定量研究的基础上的数据分析报告和分析师还需要对于 整个项目的战略规划提供一些更有价值得东西,包括项目中对于总投资的一些建议。比如总投资规模一定的情况下资金来源于自有资金、

属性数据分析第五章课后答案

属性数据分析第五章课后答案

属性数据分析第五章课后作业 6.为了解男性和女性对两种类型的饮料的偏好有没有差异,分别在年青人和老年人中作调查。调查数据如下: 偏好饮料A 偏好饮料B 年青人 男性 37 26 女性 11 23 老年人 男性 30 43 女性 31 11 试分析这批数据,关于男性和女性对这两种类型的饮料的偏好有没有差异的问题,你有什么看法?为什么? 解:(1)数据压缩分析 首先将上表中不同年龄段的数据合并在一起压缩成二维2×2列联表1.1,合起来看,分析男性和女性对这两种类型的饮料的偏好有没有差异? 表1.1 “性别×偏好饮料”列联表 偏好饮料A 偏好饮料B 合计 偏好A 比例 偏好B 比例 男性 67 69 136 49.26% 50.74% 女性 42 34 76 55.26% 44.74% 二维2×2列联表独立检验的似然比检验统计量Λ-ln 2的值为0.7032,p 值为05.04017.0)7032.0)1((2>=≥=χP p ,不应拒绝原假设,即认为“偏好类型”与“性别”无关。 (2)数据分层分析 其次,按年龄段分层,得到如下三维2×2×2列联表1.2,分开来看,男性和女性对这两种类型的饮料的偏好有没有差异? 表1.2 三维2×2×2列联表 偏好饮料A 偏好饮料B 合计 偏好A 比 例 偏好B 比例 年青人 男性 37 26 63 58.73% 41.27% 女性 11 23 34 32.35% 67.65%

老年人 男性 30 43 73 41.10% 58.90% 女性 31 11 42 73.81% 26.19% 在上述数据中,分别对两个年龄段(即年青人和老年人)进行饮料偏好的调查,在“年青人”年龄段,男性中偏好饮料A 占58.73%,偏好饮料B 占41.27%;女性中偏好饮料A 占58.73%,偏好饮料B 占41.27%,我们可以得出在这个年龄段,男性和女性对这两种类型的饮料的偏好有一定的差异。同理,在“老年人”年龄段,也有一定的差异。 (3)条件独立性检验 为验证上述得出的结果是否可靠,我们可以做以下的条件独立性检验。 即由题意,可令C 表示年龄段,1C 表示年青人,2C 表示老年人;D 表示性别, 1D 表示男性,2D 表示女性;E 表示偏好饮料的类型,1E 表示偏好饮料A ,2E 表 示偏好饮料B 。欲检验的原假设为:C 给定后D 和E 条件独立。 按年龄段分层后得到的两个四格表,以及它们的似然比检验统计量Λ-ln 2的值如下: 1C 层 2C 层 822.11ln 2=Λ- 248.6ln 2=Λ- 条件独立性检验问题的似然比检验统计量是这两个似然比 检 验 统 计 量 的 和 , 其 值 为 07.18822.11248.6ln 2=+=Λ- 由于2===t c r ,所以条件独立性检验的似然比检验统计量的渐近2χ分布的自由度为2)1)(1(=--t c r ,也就是上面这2个四格表的渐近2χ分布的自由度的和。由于p 值50.00011916)07.18)2((2=≥χP 很小,所以认为条件独立性不成立,即在年龄段给定的条件下,男性和女性对两种类型的饮料的偏好是有差异的。 1E 2E 合 计 1 D 37 26 63 2D 11 23 34 合计 48 49 97 1E 2E 合计 1D 30 43 73 2D 31 11 42 合计 61 54 115

大数据分析基础试卷

大数据分析基础 一、基础知识部分习题(共29题,67分) 1、大数据的最显著特征是()。(单选题,本题2分) A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高 2、美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点。这体现了大数据分析理念中的()。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 3、下列对大数据特点的说法中,错误的是()。(单选题,本题2分) A:数据规模大B:数据类型多样C:数据处理速度快D:数据价值密度高 4、当前社会中,最为突出的大数据环境是()。(单选题,本题2分) A:互联网B:物联网C:综合国力D:自然资源 5、下列关于计算机存储容量单位的说法中,错误的是()。(单选题,本题2分) A:1KB<1MB<1GB B:基本单位是字节(Byte) C:一个汉字需要一个字节的存储空间D:一个字节能够容纳一个英文字符, 6、下列关于聚类挖掘技术的说法中,错误的是()。(单选题,本题2分) A:不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别 B:要求同类数据的内容相似度尽可能小 C:要求不同类数据的内容相似度尽可能小

D:与分类挖掘技术相似的是,都是要对数据进行分类处理 7、下列关于大数据的分析理念的说法中,错误的是()。(单选题,本题2分) A:在数据基础上倾向于全体数据而不是抽样数据 B:在分析方法上更注重相关分析而不是因果分析 C:在分析效果上更追究效率而不是绝对精确 D:在数据规模上强调相对数据而不是绝对数据 8、大数据时代,数据使用的关键是()。(单选题,本题2分) A:数据收集B:数据存储C:数据分析D:数据再利用 9、数据仓库的最终目的是()。(单选题,本题2分) A:收集业务需求B:建立数据仓库逻辑模型 C:开发数据仓库的应用分析D:为用户和业务部门提供决策支持10、支撑大数据业务的基础是()。(单选题,本题2分) A:数据科学B:数据应用C:数据硬件D:数据人才 11、在网络爬虫的爬行策略中,应用最为基础的是()。(多选题,本题3分) A:深度优先遍历策略B:广度优先遍历策略 C:高度优先遍历策略D:反向链接策略E:大站优先策略 12、当前,大数据产业发展的特点是()。(多选题,本题3分) A:规模较大B:规模较小C:增速很快D:增速缓慢E:多产业交叉融合13、下列关于数据生命周期管理的核心认识中,正确的是()。(多选题,本题3分) A:数据从产生到被删除销毁的过程中,具有多个不同的数据存在阶段 B:在不同的数据存在阶段,数据的价值是不同的 C:根据数据价值的不同应该对数据采取不同的管理策略

数据分析中的变量分类

数据分析中的变量分类 数据分析工作每天要面对各种各样的数据,每种数据都有其特定的含义、使用范围和分析方法,同一个数据在不同环境下的意义也不一样,因此我们想要选择正确的分析方法,得出正确的结论,首先要明确分析目的,并准确理解当前的数据类型及含义。统计学中的变量指的是研究对象的特征,我们有时也称为属性,例如身高、性别等。每个变量都有变量值,变量值就是我们分析的内容,它是没有含义的,只是一个参与计算的数字,所以我们主要关注变量的类型,不同的变量类型有不同的分析方法。 变量主要是用来描述事物特征,那么按照描述的粗劣,有以下两种划分方法: 按基本描述划分 【定性变量】:也称为名称变量、品质变量、分类变量,总之就是描述事物特性的变量,目的是将事物区分成互不相容的不同组别,变量值多为文字或符号,在分析时,需要转化为特定含义的数字。 定性变量可以再细分为: 有序分类变量:描述事物等级或顺序,变量值可以是数值型或字符型,可以进而比较优劣,如喜欢的程度:很喜欢、一般、不喜欢 无序分类变量:取值之间没有顺序差别,仅做分类,又可分为二分类变量和多分类变量二分类变量是指将全部数据分成两个类别,如男、女,对、错,阴、阳等,二分类变量是一种特殊的分类变量,有其特有的分析方法。多分类变量是指两个以上类别,如血型分为A、B、AB、O 【定量变量】:也称为数值型变量,是描述事物数字信息的变量,变量值就是数字,如长度、重量、产量、人口、速度和温度。 定量变量可以再细分 连续型变量:在一定区间内可以任意取值,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。如身高、绳子的长度等。 离散型变量:值只能用自然数或整数单位计算,其数值是间断的,相邻两个数值之间不再有其他数值,这种变量的取值一般使用计数方法取得。 按照精确描述划分 【定类变量】

相关文档