文档库 最新最全的文档下载
当前位置:文档库 › 第九章 列联分析

第九章 列联分析

第九章 列联分析
第九章 列联分析

第九章列联分析

9.1 分类数据与列联表

本章核心思想:定性与定性之间的关系分析,即两个分类变量之间或者一个顺序变量与一个分类变量的关联以及关联程度问题研究。

对象:分类数据

复习要求:理解分类数据定义,掌握列联表的结构、各种分布表(列联表分布)以及表内数据代表的意义,能根据给出图表填写分布表内相关数据。

9.1.1分类数据:一种非数字数据,数据表现为类别反映不同调查对象的特征。(ps:统计数据分为分类数据、顺序数据、数值数据)

分类变量的结果表现为类别例如:性别(男, 女)

各类别用符号或数字代码来测度使用分类或顺序尺度

你吸烟吗? 1.是;2.否你赞成还是反对这一改革方案? 1.赞成;2.反对

9.1.2列联表结构(由两个以上的变量交叉分类的频数分布表)

1、行变量的类别用r表示,ri 表示第i个类别

2、列变量的类别用c表示,cj 表示第j个类别

3、每种组合的观察频数用fij表示

4、表中列出了行变量和列变量的所有可能的组合,所以称为列联表

5、一个r 行c列的列联表称为r c列联表

9.1.3列联表的分布:观测值与期望值分布(查看教材247—248页)

9.2 χ2(卡方)检验:两个分类变量之间关系分析检验

基本思想:考察观测频数与期望频数之间的吻合程度

考点:自由度的计算、用χ2进行拟合优度检验(无差假设检验)、相关性检验9.2.1公式:

理论证明,实际观察次数(f o)与理论次数(f e),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:

这是卡方检验的原始公式,其中当f e越大(f e≥5),近似得越好。显然f o与f e相差越大,卡方值就越大;f o与f e相差越小,卡方值就越小;因此它能够用来表示f o与f e相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的实际观测次数和理论次数分布之间是否存在显著差异。

基本运用:检验无差假设(拟合优度检验) 独立性检验(关联性)

所谓无差假设,是指各项分类的实计数之间没有差异,也就是说各项分类之间的概率相等(均匀分布),因此理论次数完全按概率相等的条件来计算。即任一项的理论次数都等于总数/分类项数。因此自由度也就等于分类项数减1。

9.2.2拟合优度检验的步骤

(1)提出假设

H0:π1 = π2 = … = πj;H1:π1 , π2 , … , πj 不全相等

(2)计算检验的统计量χ2

(3)作出决策:根据显著性水平α和自由度(r-1)(c-1)查出临界值χα2

若χ2>χα2,拒绝H0;若χ2<χα2,接受H0

(4)结论

教材例题:249----250页

【例1】随机地将麻将色子抛掷300次,检验该色子的六个面是否均匀。结果1-6点向上的次数依次是,43,49,56,45,66,41。

解:每个类的理论次数是300/6 = 50,代入公式:

因此,在0.05的显著性水平下,可以说这个色子的六面是均匀的。

【例2】随机抽取60名高一学生,问他们文理要不要分科,回答赞成的39人,反对的21人,问对分科的意见是否有显著的差异。

解:如果没有显著的差异,则赞成与反对的各占一半,因此是一个无差假设的检验,于是理论次数为60/2=30,代入公式:

所以对于文理分科,学生们的态度是有显著的差异的。

9.2.3独立性检验(关联性)即检验列联表中的行变量与列变量之间是否独立

检验的步骤为

提出假设

H0:行变量与列变量独立

H1:行变量与列变量不独立

计算检验的统计量

进行决策

根据显著性水平α和自由度(r-1)(c-1)查出临界值χα2

若χ2χ≥α2,拒绝H0;若χ2<χα2,接受H0

例题:教材250———253页例9.2

SPSS统计分析教程列联表分析

2 列联表分析(Crosstabs) 列联表是指两个或多个分类变量各水平的频数分布表,又称频数交叉表。SPSS的Crosstabs过程,为二维或高维列联表分析提供了22种检验和相关性度量方法。其中卡方检验是分析列联表资料常用的假设检验方法。 例子:山东烟台地区病虫测报站预测一代玉米螟卵高峰期。预报发生期y为3级(1级为6月20日前,2级为6月21-25日,3级为6月25日后);预报因子5月份平均气温x1(℃)分为3级(1级为16.5℃以下,2级为16.6-17.8℃,3级为17.8℃以上),6月上旬平均气温x2(℃)分为3级(1级为20℃以下,2级为20.1-21.5℃,3级为21.5℃以上),6月上旬降雨量x3(mm)分为3级(1级为15mm以下,2级为15.1-30mm,3级为30mm以上),6月中旬降雨量x4(mm)分为3级(1级为29mm以下,2级为29.1-36mm,3级为36mm以上)。数据如下表。 山东烟台历年观测数据分级表() 注:摘自《农业病虫统计测报》 131页。 1) 输入分析数据 在数据编辑器窗口打开“”数据文件。 数据文件中变量格式如下: 2)调用分析过程 在菜单选中“Analyze-Descriptive- Crosstabs”命令,弹出列联表分析对话框,如下图 3)设置分析变量 选择行变量:将“五月气温[x1],六月上气温[x2],六月上降雨[x3],六月中降雨[x4]”

变量选入“Rows:”行变量框中。 选择列变量:将“玉米螟卵高峰发生期[y]”变量选入“Columns:”列变量框中。 4)输出条形图和频数分布表 Display clustered bar charts: 选中显示复式条形图。 Suppress table: 选中则不输出多维频数分布表。。 5)统计量输出 点击“Statistics”按钮,弹出统计分析对话框(如下图)。 Chi-Square: 卡方检验。选中可以输出皮尔森卡方检验(Pearson)、似然比卡方检验(Likelihood-ratio)、连续性校正卡方检验 (Continuity Correction)及Fisher精确概率检验(Fisher’s Exact test)的结果。 Correlations: 选中输出皮尔森(Pearson)和Spearman相关系数,用以说明行变量和列变量的相关程度。 Nominal: 两分类变量的关联度(Association)测量 Contingency Coefficient: 列联系数,其值越大关联性越强。 Phi and Cramer’s V:Cramer列联系数,其值越大关联性越强。 Lambda: 减少预测误差率,1表示预测效果最好,0表示预测效果最差。 Uncertainty Coefficient: 不定系数 Ordinal: 两有序分类变量(等级变量)的关联度测量 Gamma: 关联度,+1表示完全正关联,-1表示负关联,0表示无联。 Somers’d:列联度,其取值范围和意义同上。 Kendall’s tau-b: Nominal by Interval: 一个定性变量和一个定量变量的关联度

第七章 列联表分析

第七章列联表分析 7.1 列联表(Crosstabs)分析的过程 7.2 列联表的实例分析 7.1 列联表 (Crosstabs) 分析的过程 列联表分析的过程是对两个变量之间关系的分析方法。被分析的变量可以是定类变量也可以是定序变量。系统是通过生成列联表对两个变量进行列联表分析的。 列联表分析的功能可以通过下述操作来实现。 图7-1 列联表分析对话框 1.打开列联表分析对话框 执行下述操作: Analyze→Descriptive→Crosstabs 打开Crosstabs 对话框如图7-1 所示。 2.确定列联分析的变量 从左侧的源变量窗口中选择两个定类变量或定序变量分别进入Row(s)(行)窗口和Column(s)(列)窗口。进入Row(s)窗口的变量的取值将作为行的标志输出,而进入Column(s)窗口的变量的取值将作为列的标志输出。Display clustered bar charts 是在输出结果中显示聚类条图。Suppress table 是隐藏表格,如果选择此项,将不输出R×C 列联表。 3.选择统计分析内容 单击statistics 按钮,打开statistics 对话框,如图7-2 所示。

图7-2statistics 对话框 下面介绍该对话框中的选项和选项栏的内容: (1)Chi-square 是卡方(X2)值选项,用以检验行变量和列变量之间是否独立。适用于定类变量和定序变量。 (2)Correlations 是皮尔逊(Pearson)相关系数r 的选项。用以测量变量之间的线性相关。适用于定序或数值变量(定距以上变量)。 (3)Nominal 是定类变量选项栏。选项栏中的各项是当分析的两个变量都为定类变量时可以选择的参数。 1)Contingency coefficient:列联相关的C 系数,由卡方系数修正而得。 2) Phi and Cramer's V:列联相关的V 系数,由卡方系数修正而得。 3)Lambda:λ系数。 4)Uncertainty Coefficient:不定系数。 (4)Ordinal 是定序变量选项栏。选项栏中的各项是当分析的两个变量都为定序变量时可以选择的参数。 1)Gramma:Gramma 等级相关系数。 2)Somers’d:Somers 等级相关d 系数。 3)Kendall’s tau-b:肯得尔等级相关tau-b 系数。 4)Kendall’s tau-c:肯得尔等级相关tau-c 系数。 (5)Nominal by Interval 选项栏中的Eta 是当一个变量为定类变量,另一个变量为数值变量时,测量两个变量之间关系的相关比率。 系统默认状态是不输出上述参数。如需要可自行选择。上述选择做完以后,单击Continue 返回到Crosstabs 对话框。 4.确定列联表内单元格值的选项 单击Cells(单元格)按钮,打开Cell Display 对话框,如图7-3 所示。

应用SPSS软件进行列联表分析

应用SPSS软件进行列联表分析 在许多调查研究中,所得到的数据大多为定性数据,即名义或定序尺度测量的数据。例如在一项全球教育水平的研究中,调查了400余人的个人信息,包括性别、学历、种族等,对原始资料进行整理就可以得到频数分布表。 定义四个变量:gender(性别)、educat(学历)、minority(种族)、count(人数),其中前三个为分类变量,并且gender变量取值为0、1,标签值定义为:0表示female,1表示male;educat变量取值为1、2、3,标签值定义为:1表示学历低,2表示学历中等,3表示学历高;minority变量值为0、1,标签值定义为:0表示非少数种族,1表示为少数种族。下面做gender、educat、minority的三维列联表分析及其独立性检验。数据文件如图1所示。 图1 第一步:用“count”变量作为权重进行加权分析处理。从菜单上依次选Data--weight Cases 命令,打开对话框,如图2所示。

图2 点选Weight Cases by项,并将变量“count”移入Frequency Variable栏下,之后单击OK按钮。 第二步:从菜单上依次点选Analyze--Deseriptive Statistics--Crosstabs命令,打开列联分析对话框(Crosstabs),如图3所示。 图3 第三步:在Crosstabs对话框中,如图4将变量性别gender从左侧的列表框内移入行变量Row(s)框内,并将受教育年限编码后得到的学历变量educat移入列变量Column(s)框内(若

此时单击OK按钮,则会输出一个2*3的二维列联表)。这里要输出一个三维列联表,将变量种族minority作为分层变量移入Layer框中,并且可以勾选左下方的Display clustered bar charts项,以输出聚集的条形图,如图8图9所示。 图4 第四步:选择统计量,单击Cosstabs对话框下侧的Statistics按钮,打开其对话框,如图5 所示。 图5 在Statistics对话框内,勾选Chi-square项,以输出表2进行独立性检验。这里由于不是定距

上机练习3列联表分析与方差分析

上机练习 3 列联表分析与方差分析 本上机练习的主要目的:熟悉如何利用SPSS与Excel进行列联表分析及方差分析。本练习所使用数据文件为 和“Salary.sav”。“carown.dat”、“fastfood.sav” 1. 列联表分析 Q:如何利用列联表分析考察家庭成员数与家庭所拥有汽车数之间 的关系?(数据文件为“Carown.dat”) 在这之前,我们首先检验各变量是否存在野码(wild code)或异常值 (outlier),这可以通过频数表以及箱形图(boxplot)来判断。 在家庭成员数的频数表中,我们发现,有一个样本的家庭成员数为0,而 ,该样本取值在其范围之外,即为野码(wild 该变量的取值范围为[1, +∞] code)。对于野码的处理,一般可以采用将该样本的此变量设为缺失值或 直接去掉该样本的做法。

在家庭所拥有汽车数的频数表中,我们发现,有一个样本的家庭所拥有汽 车数为9,显然是一个极端值。我们利用boxplot也证实了该样本为一个异常值(outlier)。异常值处于该变量的正常取值范围内,但可能会对该 变量的相关统计结果产生较为严重的影响。对于异常值的处理,一般可以 采用直接去掉该样本的做法或者根据情况进行调整。而对于上述我们发现 的异常值来说,我们可以直接去掉该样本。 在上述数据清理的工作完成之后,我们可以开始进行列联表分析。因为列 联表分析只适用于分类变量,我们需要利用Transform Recode Into Different Variables…对家庭人数以及家庭所拥有汽车数进行分类,分别 定义新变量member1和cars1与之对应。具体对应关系如下: 旧变量新变量新变量类别旧变量新变量新变量类别

第12章 列联表和对应分析

第十二章 列联表和对应分析 我们前面介绍的相关分析可以用来分析定量变量之间的关系,但不能用于定性变量的分析。本章介绍的列联表检验和对应分析方法则可以用来分析定性变量之间的关系。 第一节 列联表与独立性检验 【例12.1】美国的一般社会调查(General Social Survey )是由美国芝加哥大学的民意调查中心进行的一项随机抽样调查,调查对象为18岁以上的成年人。调查中获得了居民的婚姻状况和幸福状况方面的数据。下面我们根据1996年的调查结果来分析两个变量之间的关系(数据文件gss96.sav )。在调查中,婚姻状况的取值为已婚、丧偶、离异、分居和未婚(分别用1-5表示);幸福状况的取值为:非常幸福、比较幸福和不太幸福(分别用1-3表示)。在SPSS 软件中打开数据文件,选择“分析”→“描述统计”→“交叉表”,把“婚姻状况”设为行变量,把“幸福状况”设为列变量,可以得到表12-1所示的列联表。从表中我们可以看出,从婚姻状况看,已婚人员的比重最高;从幸福状况看,比较幸福的人员比重最高。但从表中我们很难直观地看出两个变量之间的内在联系。 表12-1 婚姻状况和幸福状况列联表 幸福状况 合计 非常幸福 比较幸福 不太幸福 婚姻状况 已婚 574 726 82 1382 丧偶 70 149 59 278 离异 83 292 79 454 分居 14 73 30 117 未婚 136 419 99 654 合计 877 1659 349 2885 要研究二维列联表中的两个变量是否相互独立,可以使用我们在非参数检验中讲过χ2 检验。检验的零假设和备择假设为 H 0:婚姻状况和幸福状况这两个变量相互独立;H 1:婚姻状况和幸福状况不相互独立。 假定样本量为n ,列联表有r 行、s 列,表中各行的合计值分别为r i R i ,,2,1,Λ=,各列的合计值分别为s j C j ,2,1,Λ=。每个单元格中的频数为j i O ,。在零假设成立,即行变量和列变量相互独立时,每个单元格频数的期望值可以按照式(12-1)计算: n C R n n C n R E j i j i ij ?= ??= (12-1) 显然,如果期望频数ij E 和观测频数ij O 相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。按照式(12-2)构造检验统计量:

列联表分析

列联表分析 【例1】性别与所喜爱颜色的调查表。 双向列联表:性别×颜色 【程序】 proc freq data=SASUSER.data9_01; tables SEX*COLOR / CHISQ NOPERCENT NOROW; weight F; run; 【例3】下面数据是某个“统计入门”课程的数据,记录了该课程中所有学生的性别和专业 (“是”为统计专业,“非”为其他专业)。对数据进行整理生成列联表并分析。 【操作:解决方案-分析-分析家调入数据统计-表分析】 【程序】 *** Table Analysis ***; proc freq data=SASUSER.data9_03; tables SEX*MAJOR; run;

【例5】雇员情况数据集Employee变量有:性别(gender)、工种(jobcat)、薪水(salary) /薪水等级(salaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)、初薪(begsalary) /薪水等级(begsalaryrank,分高(=1)100人,中(=2)200人,低(=3)其他人)和受教 育年限。试作三向、四向、五向列联表。 【程序prog9_05_1】三向表:对性别、薪水等级和工种的情况进行统计(生成2张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*JOBCAT; run; 【程序prog9_05_3】五向表:对性别、薪水等级、初薪等级、受教育年限和工种的情况进 行统计(生成18张表) *** Table Analysis ***; proc freq data=SASUSER.data9_05; tables GENDER*SALARYRANK*BEGSALARYRANK*EDUCATION*JOBCAT; run; 【例6】下表是一个由220名饮酒者组成的随机样本,对饮酒者进行酒类型偏好的调查。检 验性别与饮酒偏好是否有关?(α=0.05) 【程序】 data sasuser.data9_06; input sex wine people; datalines; 1 1 60 2 1 40 1 2 50 2 2 70 ; proc freq; weight people; tables sex*wine/chisq; run;

相关文档