文档库 最新最全的文档下载
当前位置:文档库 › Logistic回归的实际应用

Logistic回归的实际应用

Logistic回归的实际应用
Logistic回归的实际应用

Logistic回归的介绍与实际应用

摘要

本文通过对logistic回归的介绍,对logistic回归模型建立的分析,以及其在实际生活中的运用,我们可以得出所建立的模型对实际例子的数据拟合结果不错。

关键词:logistic回归;模型建立;拟合;

一、logistic回归的简要介绍

1、Logistic回归的应用范围:

①适用于流行病学资料的危险因素分析

②实验室中药物的剂量-反应关系

③临床试验评价

④疾病的预后因素分析

2、Logistic回归的分类:

①按因变量的资料类型分:二分类、多分类;其中二分较为常用

②按研究方法分:条件Logistic回归、非条件Logistic回归

两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍

研究。

3、Logistic回归的应用条件是:

①独立性。各观测对象间是相互独立的;

②Logit P与自变量是线性关系;

③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10

倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似

然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多;

④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑

观察时间的影响(建议用Poisson回归)。

4、拟和logistic回归方程的步骤:

①对每一个变量进行量化,并进行单因素分析;

②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成

等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位

数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为

离散变量。

③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等

级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变

量变换;

④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15

或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模

型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选

变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统

计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,

选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量

(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中

予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删

除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而

定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析

结果,这在与他人结果比较时应当注意。

⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;

两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,

但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究

交互作用,最多是研究少量的一级交互作用。

⑥对专业上认为重要但未选入回归方程的要查明原因。

5、回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回

归分析)

①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。

R2随着自变量个数的增加而增加,所以需要校正;校正决定系数()越

大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指

标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉

及预测值与观测值之间差别的问题,因此在logistic回归中不适合。

②C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。C p

无法用SPSS直接计算,可能需要手工。1964年CL Mallows提出:

Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。

③AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的

方程越好。

在logistic回归中,评价模型拟合优度的指标主要有Pearson χ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson χ2、偏差(deviance)主要用于自变量不多且为分类变量的情况,当自变量增多且含有连续型变量时,用HL指标则更为恰当。Pear sonχ2、偏差(deviance)、Hosmer- Lemeshow (HL)指标值均服从χ2分布,χ2检验无统计学意义(P>0.05)表示模型拟合的较好,χ2检验有统计学意义(P≤0.05)则表示模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多个模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般认为拟合得更好。

6、拟合方程的注意事项:

①进行方程拟合对自变量筛选采用逐步选择法[前进法(forward)、后退法

(backward)、逐步回归法(step wise)]时,引入变量的检验水准要小

于或等于剔除变量的检验水准;

②小样本检验水准α定为0.10或0.15,大样本把α定为0.05。值越小说明

自变量选取的标准越严;

③在逐步回归的时可根据需要放宽或限制进入方程的标准,或硬性将最感

兴趣的研究变量选入方程;

④强影响点记录的选择:从理论上讲,每一个样本点对回归模型的影响应

该是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。

对由过失或错误造成的点应删去,没有错误的强影响点可能和自变量与应变量的相关有关,不可轻易删除。

⑤多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性

越强;b特征根:越近似于0,共线性越强;c条件指数:越大,共线性越强;

⑥异常点的检查:主要包括特异点(outher)、高杠杆点(high leverage points)

以及强影响点(influential points)。特异点是指残差较其他各点大得多的点;高杠杆点是指距离其他样品较远的点;强影响点是指对模型有较大影响的点,模型中包含该点与不包含该点会使求得的回归系数相差很大。

单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很可能是一个影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度统计量H(hat matrix diagnosis)、Cook 距离、DFBETA、Score检验统计量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值>2,则可认为是一个特异点。杠杆度统计量H可用来发现高杠杆点, H值大的样品说明距离其他样品较远,可认为是一个高杠杆点。Cook 距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响程度。Cook距离是标准化残差和杠杆度两者的合成指标,其值越大,表明所对应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA 指标值越大),表明该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,首先应根据专业知识、数据收集的情况,分析其产生原因后酌情处理。如来自测量或记录错误,应剔除或校正,否则处置就必须持慎重态度,考虑是否采用新的模型,而不能只是简单地删除就算完事。因为在许多场合,异常点的出现恰好是我们探测某些事先不清楚的或许更为重要因素的线索。

7、回归系数符号反常与主要变量选不进方程的原因:

①存在多元共线性;

②有重要影响的因素未包括在内;

③某些变量个体间的差异很大;

④样本内突出点上数据误差大;

⑤变量的变化范围较小;

⑥样本数太少。

8、参数意义

①Logistic回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素

条件下,效应指标发生与不发生事件的概率之比的对数值。

②Logistic回归中的回归系数(b i)表示,其它所有自变量固定不变,某一

因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变

化值,即OR或RR的对数值。需要指出的是,回归系数β的大小并不反

映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联

系最强呢? (InL(t-1)-InL(t))三种方法结果基本一致。

③存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别

小心。

④模型估计出OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料

不适合使用该模型。另外,Logistic模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随

访期的延长,回归系数变得不稳定,标准误增加。

9、统计软件

能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等。

二、logistic 回归模型的建立

1、实际的例子:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的3个月的时间内,只有部分顾客确实购买了房屋。购买房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x ,对表1中的数据建立Logistic 回归模型。

序号 年家庭收入(万元)x 签订意向书人数 i n 实际购房人数 i m 实际购房比例 i i i n m p /= 逻辑变换 )

1ln('i i i p p p -= 权重 )

1(i i i i p p n w -=

1 1.5 25 8 0.320000 -0.75377 5.440

2 2.5 32 1

3 0.406250 -0.37949 7.719 3 3.5 58 26 0.448276 -0.2076

4 14.34

5 4 4.5 52 22 0.423077 -0.31015 12.692 5 5.5 43 20 0.46511

6 -0.13976 10.698 6 6.5 39 22 0.564103 0.257829 9.590

7 7.5 2

8 16 0.57142

9 0.287682 6.857 8 8.5 21 12 0.571429 0.287682 5.143 9 9.5 15 10 0.666667 0.693147 3.333

表1

2、模型的建立: Logistic 回归方程:)

exp(1)

exp(00i i i i i x x p ββββ+++=

,i=1,2,...,c (1)

(1)式中c 为分组数据的组数。

本例中,c=9。将以上回归方程做线性变换,令)1ln('

i

i i p p p -= (2)

式(2)的变换称为逻辑变换,变换后的线性回归模型为:i i i i x p εββ++=1' (3) 式(3)是一个普通的一元线性回归模型。式(3)没有给出误差项的形式,我们认为其误差项的形式就是做线性变换所需要的形式。对表1中的数据,算出经验回归方程为:x p 156.0886.0'

+-=∧, (4) 判别系数9243.02=r ,显著性检验P 值≈0,高度显著。将式(4)还原为式(1)的Logistic 回归方程为:)

156.0886.0exp(1)

156.0886.0exp('

x x p +-++-=∧ (5)

三、运用模型进行预测

利用式(5)可以对购房比例做预测,例如80=x ,则有

)156

.0886.0e x p (1)156

.0886.0e x p ('

x x p +-++-=

∧=0.590。

四、结果的实际意义

这表明在住房展销会上与房地产商签订初步购房意向书的年收入8万元家庭中,预计实际购房比例为59%.或者说,一个签订初步购房意向书的年收入8万元的家庭,其购房概率为59%.

五、模型的拟合效果分析

我们用Logistic 回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一个不足之处,即异方差性并没有解决。式(3)的回归模型不是等方差的,应该对式(3),用加权最小二乘估计。当i n 较大,'i p 的近似方差为:

)

1(1

)('i i i i n p D ππ-≈

(6),其中)(i i y E =π,因而选取权数:)1(i i i i

p p n w -=,(7)

对例题重新用加权最小二乘做估计。利用SPSS 软件操作,点选分析→回归→线性回归,因变量:逻辑变换;自变量:年家庭收入;WLS 权重:权重i w 。得到结果如下:

模型汇总

b,c

模型

R

R 方

调整 R 方

标准 估计的误

Durbin-Watson

1

.939a

.881

.864

2.4282

2.059

a. 预测变量: (常量), 逻辑变换。

b. 因变量: 年家庭收入x

c. 加权的最小二乘回归 - 按 权重w 进行加权

Anova b,c

模型 平方和 df

均方 F Sig. 1

回归 306.486 1 306.486 51.982

.000a

残差 41.272 7 5.896

总计

347.758

8

a. 预测变量: (常量), 逻辑变换。

b. 因变量: 年家庭收入x

c. 加权的最小二乘回归 - 按 权重w 进行加权

系数a

模型

非标准化系数 标准系数 t Sig. B

标准 误差

试用版

1

(常量) -.886 .102

-8.653

.000 家庭年收入

.156

.017

.961

9.242

.000

a. 因变量: 逻辑变换

系数

a,b

模型

非标准化系数 标准系数 t Sig. B

标准 误差

试用版

1

(常量) -.849 .114

-7.474

.000 家庭年收入

.149

.021

.939

7.210

.000

a. 因变量: 逻辑变换

b. 加权的最小二乘回归 - 按 权重 进行加权

用加权最小二乘法得到的Logistic 回归方程为:)

149.0849.0exp(1)

149.0849.0exp(x x p i +-++-=

,(8)

利用(8)式可以对80=x 时的购房比例做预测,有:

)

149.0849.0exp(1)

149.0849.0exp(x x p i +-++-=

=0.585,所以,年收入8万元的家庭预计实际购房比

例为58.5%,这个结果与未加权的结果很接近。

结束语

本文对Logistic回归的应用范围和拟和logistic回归方程的步骤进行了简要介绍,以及对回归方程拟合优劣的判断,提及了一些拟合方程的注意事项;明确了参数意义;其实能够进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等,本文中实际的例子利用了SPSS进行了分析,发现拟合效果还不错。

Logistic回归分析简介

Logistic回归分析简介 Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2.Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍 研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ②LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍 为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然

估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观 察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等 级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数 法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离 散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级 变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量 变换; ④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或 0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型 程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变 量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计 量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选 择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald 统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔 除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般

SPSS—二元Logistic回归结果分析报告

SPSS—二元Logistic回归结果分析 2011-12-02 16:48 身心疲惫,睡意连连,头不断往下掉,拿出耳机,听下歌曲,缓解我这严重的睡意吧!今天来分析二元Logistic回归的结果 分析结果如下: 1:在“案例处理汇总”中可以看出:选定的案例489个,未选定的案例361个,这个结果是根据设定的validate = 1得到的,在“因变量编码”中可以看出“违约”的两种结果“是”或者“否” 分别用值“1“和“0”代替,在“分类变量编码”中教育水平分为5类,如果选中“为完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,如果四个都未被选中,那么就是”研究生“ 频率分别代表了处在某个教育水平的个数,总和应该为489个

1:在“分类表”中可以看出:预测有360个是“否”(未违约)有129个是“是”(违约) 2:在“方程中的变量”表中可以看出:最初是对“常数项”记性赋值,B为 -1.026,标准误差为:0.103 那么wald =( B/S.E)2=(-1.026/0.103)2 = 99.2248, 跟表中的“100.029几乎接近,是因为我对数据进行的向下舍入的关系,所以数据会稍微偏小, B和Exp(B) 是对数关系,将B进行对数抓换后,可以得到:Exp(B) = e^-1.026 = 0.358, 其中自由度为1, sig为0.000,非常显著

1:从“不在方程中的变量”可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型 表中分别给出了,得分,df , Sig三个值, 而其中得分(Score)计算公式如下: (公式中(Xi- Xˉ) 少了一个平方) 下面来举例说明这个计算过程:(“年龄”自变量的得分为例) 从“分类表”中可以看出:有129人违约,违约记为“1”则违约总和为 129,选定案例总和为489 那么: yˉ = 129/489 = 0.16 xˉ = 16951 / 489 = 34.2 所以:∑(Xi-xˉ)2 = 30074.9979

二分类Logistic回归的详细SPSS操作

SPSS操作:二分类Logistic回归 作者:张耀文 1、问题与数据 某呼吸内科医生拟探讨吸烟与肺癌发生之间的关系,开展了一项成组设计的病例对照研究。选择该科室内肺癌患者为病例组,选择医院内其它科室的非肺癌患者为对照组。通过查阅病历、问卷调查的方式收集了病例组和对照组的以下信息:性别、年龄、BMI、COPD病史和是否吸烟。变量的赋值和部分原始数据见表1和表2。该医生应该如何分析? 表1. 肺癌危险因素分析研究的变量与赋值 表2. 部分原始数据 ID gender age BMI COPD smoke cancer 1 0 34 0 1 1 0 2 1 32 0 1 0 1 3 0 27 0 1 1 1 4 1 28 0 1 1 0 5 1 29 0 1 0 0 6 0 60 0 2 0 0 7 1 29 0 0 1 1 8 1 29 1 1 1 1 9 1 37 0 1 0 0 10 0 17 0 0 0 0 11 0 20 0 0 1 1 12 1 35 0 0 0 0 13 0 17 1 0 1 1

………………… 2、对数据结构的分析 该设计中,因变量为二分类,自变量(病例对照研究中称为暴露因素)有二分类变量(性别、BMI和是否吸烟)、连续变量(年龄)和有序多分类变量(COPD 病史)。要探讨二分类因变量与自变量之间的关系,应采用二分类Logistic回归模型进行分析。 在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。 本例中单变量分析的结果见表3(常作为研究报告或论文中的表1)。 表3. 病例组和对照组暴露因素的单因素比较 病例组(n=85)对照组(n=259) χ2 /t统计量P 性别,男(%)56 (65.9) 126 (48.6) 7.629 <0.01 年龄(岁),x± s40.3 ±14.0 38.6 ±12.4 1.081 0.28 BMI,n (%) 正常48 (56.5) 137 (52.9) 0.329 0.57 超重或肥胖37 (43.5) 122 (47.1) COPD病史,n (%) 无21 (24.7) 114 (44.0) 14.123 <0.01 轻中度24 (28.2) 75 (29.0) 重度40 (47.1) 70 (27.0) 是否吸烟,n(%) 否18 (21.2) 106 (40.9) 10.829 <0.01 是67 (78.8) 153 (59.1) 单因素分析中,病例组和对照组之间的差异有统计学意义的自变量包括:性别、COPD病史和是否吸烟。 此时,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);2)单因素分析时,

logistic回归分析案例

1. 数据制备(栅格数据) (1) 宝塔区基底图层.tif (2) 居民点扩增.tif 、坡度.tif 、坡向.tif 等要素数据。 在 environment settings ------ p rocessing extent ------ snap raster (选中基底图层),保证栅格数据 像元无偏移,且行列的数量一致。 化:Raster to ASCII Inyul r aiLtvl- 匚” k 『号樹 ± 如葡让也\1非*订kilt :f 10. 2 'iiStati EeiT-SlaT 14t L J. KT 2.通过CLUE-S 莫型中的fileconvert 模块,获得logistic 回归分析的数据集。 (1) 将上一步骤中的因变量 y 和影响因素x 的.txt 文档后缀改为.asc 格式,并将文件 放在CLUE-S 模型所在的文件夹中。 (2) 打开FileCo nvert V2软件,按下图勾选,填写"file list "内容,点击start con version , 3 田F1 曰 It:. (3)栅格数据转为 ASCII 码,生成txt 文档。 匚onversion Tools Ejicel From GPS From KML From Raster 气 Raster to ASCII y Raster to Fist 声.Raster to Point

生成stat .txt文档。 祥Fi le 荃 flFfijie? I1id J?1Ji w ■■ 1 ? 9><4 P t414 Tl ?J19 12词 ■M*£LD|i4I# ■ Q电兀列心£i k1lf\ 15?1 *■4JE RI7 <1- I 4 話M3 IS r擠uSstalB-^aG 齬£ 淨珀bCMir 二i缶 pad... ■ 枝jfcsurrT^cM.a^t 炉 MBlOrtTIdH■: 护 xVcomr-.iic / rll asc 播Tann砂£]T (2)logistic回归分析 按图设置参数因变量、自变量;由于x3属于分类变量,点击分类按钮,按图设置参数。 >M!L4M|昨T祜lt?M? 曲唱-Hl'F1 wB-j' MtF M|T ffl¥ g: ZTStiRiiri SHilfi VTU '_'■ rt 舖C r TI薔色Z4d* ■i aa ■;? 1 iTdlfAflWVK4Wt4「利 E 呻■■} 1■ IdfcWM^U.一尉仇■臂H xlAftL lAMDf Jfit 1Q1?7r -iwns ■B-13磁MT 13 J 工 '-恫fl T l£j v-IIHH M4Q J0W PW回沐神to 型 rwa: wm 1 H teiiy- 卩厲 4a13 4 ■ira 401?wa 70i-221 ?d'131fefl 加ifUnm 片nu t013*Ozmwkt他 w p1W址?囲血|淞:幽 11013 1 Qm Sft?t 121JJ V s? 014*」; 11 H?iKa; H013 5 *旳 ti a IM■ KK MS V;941 ti Q144T f 7W filwvjcfic OH

logistic回归方程

Logistic回归:实际上属于判别分析,因拥有很差的判别效率而不常用。 1.应用范围: ①适用于流行病学资料的危险因素分析 ②实验室中药物的剂量-反应关系 ③临床试验评价 ④疾病的预后因素分析 2. Logistic回归的分类: ①按因变量的资料类型分: 二分类 多分类 其中二分较为常用 ②按研究方法分: 条件Logistic回归 非条件Logistic回归 两者针对的资料类型不一样,后者针对成组研究,前者针对配对或配伍研究。 3.Logistic回归的应用条件是: ①独立性。各观测对象间是相互独立的; ② LogitP与自变量是线性关系; ③样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),不过随着统计技术和软件的发展,样本量较小或不能进行似然估计的情况下可采用精确logistic回归分析,此时要求分析变量不能太多,且变量分类不能太多; ④当队列资料进行logistic回归分析时,观察时间应该相同,否则需考虑观察时间的影响(建议用Poisson回归)。 4.拟和logistic回归方程的步骤: ①对每一个变量进行量化,并进行单因素分析; ②数据的离散化,对于连续性变量在分析过程中常常需要进行离散变成等级资料。可采用的方法有依据经验进行离散,或是按照四分、五分位数法来确定等级,也可采用聚类方法将计量资料聚为二类或多类,变为离散变量。 ③对性质相近的一些自变量进行部分多因素分析,并探讨各自变量(等级变量,数值变量)纳入模型时的适宜尺度,及对自变量进行必要的变量变换;

④在单变量分析和相关自变量分析的基础上,对P≤α(常取0.2,0.15或0.3)的变量,以及专业上认为重要的变量进行多因素的逐步筛选;模型程序每拟合一个模型将给出多个指标值,供用户判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score统计量或G统计量或LRS(似然比统计量),用户确定P值临界值如:0.05、0.1或0.2,选择统计量显著且最大的变量进入模型;b剔除变量的选择用Z统计量(Wald统计量),用户确定其P值显著性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的显著界值的确定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或降低剔除标准,反之,则降低选入界值、提高删除标准。但筛选标准的不同会影响分析结果,这在与他人结果比较时应当注意。 ⑤在多因素筛选模型的基础上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应用中,各变量最好相互独立(也是模型本身的要求),不必研究交互作用,最多是研究少量的一级交互作用。 ⑥对专业上认为重要但未选入回归方程的要查明原因。 5.回归方程拟合优劣的判断(为线性回归方程判断依据,可用于logistic回归分析)①决定系数(R2)和校正决定系数( ),可以用来评价回归方程的优劣。R2随着自变量个数的增加而增加,所以需要校正;校正决定系数( )越大,方程越优。但亦有研究指出R2是多元线性回归中经常用到的一个指标,表示的是因变量的变动中由模型中自变量所解释的百分比,并不涉及预测值与观测值之间差别的问题,因此在logistic回归中不适合。 ② C p选择法:选择C p最接近p或p+1的方程(不同学者解释不同)。C p无法用SPSS 直接计算,可能需要手工。1964年CL Mallows提出: Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。 ③ AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。

Logistic回归模型基本知识

Logistic 回归模型 1 Logistic 回归模型的基本知识 1.1 Logistic 模型简介 主要应用在研究某些现象发生的概率p ,比如股票涨还是跌,公司成功或失败的概率,以及讨论概率 p 与那些因素有关。显然作为概率值,一定有10≤≤p ,因此很难用线性模型描述概率p 与自变量的关 系,另外如果p 接近两个极端值,此时一般方法难以较好地反映p 的微小变化。为此在构建p 与自变量关系的模型时,变换一下思路,不直接研究p ,而是研究p 的一个严格单调函数)(p G ,并要求)(p G 在p 接近两端值时对其微小变化很敏感。于是Logit 变换被提出来: p p p Logit -=1ln )( (1) 其中当p 从10→时,)(p Logit 从+∞→∞-,这个变化范围在模型数据处理上带来很大的方便, 解决了上述面临的难题。另外从函数的变形可得如下等价的公式: X T X T T e e p X p p p Logit ββ β+= ?=-=11ln )( (2) 模型(2)的基本要求是,因变量(y )是个二元变量,仅取0或1两个值,而因变量取1的概率) |1(X y P =就是模型要研究的对象。而T k x x x X ),,,,1(21 =,其中i x 表示影响y 的第i 个因素,它可以是定性变量也可以是定量变量,T k ),,,(10ββββ =。为此模型(2)可以表述成: k x k x k x k x k k e e p x x p p βββββββββ+++++++= ?+++=- 11011011011ln (3) 显然p y E =)(,故上述模型表明) (1) (ln y E y E -是k x x x ,,,21 的线性函数。此时我们称满足上面条件 的回归方程为Logistic 线性回归。 Logistic 线性回归的主要问题是不能用普通的回归方式来分析模型,一方面离散变量的误差形式服从伯努利分布而非正态分布,即没有正态性假设前提;二是二值变量方差不是常数,有异方差性。不同于多元线性回归的最小二乘估计法则(残差平方和最小),Logistic 变换的非线性特征采用极大似然估计的方法寻求最佳的回归系数。因此评价模型的拟合度的标准变为似然值而非离差平方和。 定义1 称事件发生与不发生的概率比为 优势比(比数比 odds ratio 简称OR),形式上表示为 OR= k x k x e p p βββ+++=- 1101 (4) 定义2 Logistic 回归模型是通过极大似然估计法得到的,故模型好坏的评价准则有似然值来表征,称

条件logistic回归模型的SAS计算程序

条件logistic 回归模型的SAS 计算程序 第四军医大学卫生统计学教研室 宇传华 徐勇勇 病例-对照研究资料的条件logistic 回归模 型计算比较复杂,常需借助统计软件进行计算,国际通用软件S AS (6.04版本)有LOGISTIC 和PHREG 两个过程步能较好拟合各种条件lo gistic 回归模型。 文献〔1〕利用SAS 软件的这两个过程步分别拟合了1 1和m n 配对的条件lo gistic 回归模型。 本文拟定在此基础上进一步探讨这两个过程之间的联系,对配对四格表资料和1 m 配对资料给出条件logistic 回归模型的SAS 计算程序。 一、LO GIS TIC 和PHREG 两个过程步之间的联系 病例-对照研究资料为1 1配对时,这两个过程步均可选用。文献〔1〕的第208页用LO-GIS TIC 过程步对10例胃癌的1 1配对资料作了拟合,给出了拟合程序和结果〔1〕。如果对此资料用PHREG 过程步作拟合,则程序为:D A TA a ; IN PUT pdh y x 1-x 3@@ yy =1-y ;CA RDS ; 数据集; PROC P HR EG ;MOD EL yy #y (0)=x 1-x 3/SELECTION =S TEPW I SE SLE =0.5SL S =0.3;S TR A TA pdh ; RUN ; 此程序产生1个哑变量yy ,取0(病例)和1(对 照)两个值,用y 指示病例(用1表示)和对照(用0表示),x 1、x 2和x 3表示3个危险因素,pdh 表示配对序号。程序须用配对序号进行分层,语句为“S TRA TA pdh ;”。运行该程序获得的结果与文献〔1〕利用LOGISTIC 过程步获得的结果不同之处在于:该程序按RR=ex p(β)多计算了危险比(Risk Ratio ),而LOGISTIC 过程步多计算了标准化参数估计值(Standardized Esti -mate ),其他结果完全一致。 这里要说明的是MODEL 语句后的“SE -LECT ION =ST EPW ISE SLE =0.5SLS =0.3”是选择项,如果需要所有自变量均包括在模型内可不写入此选项。如果选了此选项,则应根据专业知识和实际需要改变SLE (选变量进入方程的显著水准)和SLS (从方程中剔除变量的显著水准)等号后的值。 PHREG 过程步编写的程序与LO GIS TIC 过程步编写的程序比较有以下特点: 1.不仅可用于1 1配对资料,对程序稍加修改还可用于1 m 配对和m n 配对资料的分析。2.不需要按病例和对照分别产生两组变量,以这两组相应变量之差作为自变量放入模型;而只需设立一个指示变量(y )指示是病例还是对照,直接将自变量放入模型。当自变量比较多时这一特点更为重要。3.条件lo gistic 回归通常需要计算相对危险比及其(1-T )%可信区间,在PHREG 过程步M ODEL 语句的选择项写入“ALPHA =αRISKLIM ITS ”可实现这一计算,如需计算99%危险比的可信区间,可在选择项写入“AL-PHA=0.01RISKLIM IT S ”。ALPHA=0.05为 · 50· 中国卫生统计1997 年第14卷第5期

Logistic回归分析报告结果解读分析

Logistic 回归分析报告结果解读分析 Logistic 回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是” 或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic 回归分析,就可以大致了解胃癌的危险因素。 Logistic 回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic 回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 1. Logistic 回归的用法 一般而言,Logistic 回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic 回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2. 用Logistic回归估计危险度 所谓相对危险度(risk ratio , RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(odds ratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的

胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如1.7,

图文举例详细讲解Logistic曲线的回归分析

Logistic曲线的回归分析 例某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如 表1.所示。用转化为线性方程的方法估计其logistic曲线预测模型。设最大值k为300(cm)。 表1.玉米高度与时间(生长周期)的关系 时间(生长周期)高度/cm时间(生长周期)高度/cm时间(生长周期)高度/cm 10.671212.752297.4620.851316.5523112.7 31.281420.124135.141.751527.3525153.652.271632.5526160.362.751737.55271 67.173.691844.7528174.984.711953.3829177.996.362071.6130180.2 107.732183.8931180.8119.91 3.1基本绘图操作 在Excel中输入时间x与高度y的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S型曲线,符合logistic曲线。采用转化为线性方程的方法求解模型。 3.2Logistic曲线方程及线性化 Logistic曲线方程为: y 1 k at me(12) (1)将数据线性化及成图 转化为线性方程为: y'aat 01 (13 ) 其中,y'ln(k/y1),a 0lnm,a1a 具体操作为: 向excel表格中输入y’数据。

(整理)多项分类Logistic回归分析的功能与意义1.

多项分类Logistic回归分析的功能与意义 我们经常会遇到因变量有多个取值而且无大小顺序的情况,比如职业、婚姻情况等等,这时一般的线性回归分析无法准确地刻画变量之间的因果关系,需要用其它回归分析方法来进行拟合模型。SPSS的多项分类Logistic回归便是一种简便的处理该类因变量问题的分析方法。 例子:下表给出了对山东省某中学20名视力低下学生视力监测的结果数据。试用多项分类Logistic回归分析方法分析视力低下程度(由轻到重共3级)与年龄、性别(1代表男性,2代表女性)之间的关系。

“年龄”使之进入“协变量”列表框。

还是以教程“blankloan.sav"数据为例,研究银行客户贷款是否违约(拖欠)的问题,数据如下所示: 上面的数据是大约700个申请贷款的客户,我们需要进行随机抽样,来进行二元Logistic 回归分析,上图中的“0”表示没有拖欠贷款,“1”表示拖欠贷款,接下来,步骤如下: 1:设置随机抽样的随机种子,如下图所示:

选择“设置起点”选择“固定值”即可,本人感觉200万的容量已经足够了,就采用的默认值,点击确定,返回原界面、 2:进行“转换”—计算变量“生成一个变量(validate),进入如下界面: 在数字表达式中,输入公式:rv.bernoulli(0.7),这个表达式的意思为:返回概率为0.7的bernoulli分布随机值 如果在0.7的概率下能够成功,那么就为1,失败的话,就为"0" 为了保持数据分析的有效性,对于样本中“违约”变量取缺失值的部分,validate变量也取缺失值,所以,需要设置一个“选择条件” 点击“如果”按钮,进入如下界面:

如何用SPSS做logistic回归分析

如何用spss17.0进行二元和多元logistic回归分析 一、二元logistic回归分析 二元logistic回归分析的前提为因变量是可以转化为0、1的二分变量,如:死亡或者生存,男性或者女性,有或无,Yes或No,是或否的情况。 下面以医学中不同类型脑梗塞与年龄和性别之间的相互关系来进行二元logistic回归分析。 (一)数据准备和SPSS选项设置 第一步,原始数据的转化:如图1-1所示,其中脑梗塞可以分为ICAS、ECAS和NCAS三种,但现在我们仅考虑性别和年龄与ICAS的关系,因此将分组数据ICAS、ECAS和NCAS转化为1、0分类,是ICAS赋值为1,否赋值为0。年龄为数值变量,可直接输入到spss中,而性别需要转化为(1、0)分类变量输入到spss当中,假设男性为1,女性为0,但在后续分析中系统会将1,0置换(下面还会介绍),因此为方便期间我们这里先将男女赋值置换,即男性为“0”,女性为“1”。 图1-1 第二步:打开“二值Logistic 回归分析”对话框: 沿着主菜单的“分析(Analyze)→回归(Regression)→二元logistic (Binary Logistic)”的路径(图1-2)打开二值Logistic 回归分析选项框(图1-3)。

如图1-3左侧对话框中有许多变量,但在单因素方差分析中与ICAS 显著相关的为性别、年龄、有无高血压,有无糖尿病等(P<0.05),因此我们这里选择以性别和年龄为例进行分析。

在图1-3中,因为我们要分析性别和年龄与ICAS的相关程度,因此将ICAS选入因变量(Dependent)中,而将性别和年龄选入协变量(Covariates)框中,在协变量下方的“方法(Method)”一栏中,共有七个选项。采用第一种方法,即系统默认的强迫回归方法(进入“Enter”)。 接下来我们将对分类(Categorical),保存(Save),选项(Options)按照如图1-4、1-5、1-6中所示进行设置。在“分类”对话框中,因为性别为二分类变量,因此将其选入分类协变量中,参考类别为在分析中是以最小数值“0(第一个)”作为参考,还是将最大数值“1(最后一个)”作为参考,这里我们选择第一个“0”作为参考。在“存放”选项框中是指将不将数据输出到编辑显示区中。在“选项”对话框中要勾选如图几项,其中“exp(B)的CI(X)”一定要勾选,这个就是输出的OR和CI值,后面的95%为系统默认,不需要更改。

图文举例详细讲解Logistic曲线的回归分析

Logistic 曲线的回归分析 例 某一品种玉米高度与时间(生长周期,每个生长周期为2-3天,与气温有关)的数据如表1.所示。用转化为线性方程的方法估计其logistic 曲线预测模型。设最大值k 为300(cm )。 表1. 玉米高度与时间(生长周期)的关系 时间(生长周期) 高度/cm 时间(生长周期) 高度 /cm 时间(生长周期) 高度/cm 1 2 3 4 5 6 7 8 9 10 11 0.67 0.85 1.28 1.75 2.27 2.75 3.69 4.71 6.36 7.73 9.91 12 13 14 15 16 17 18 19 20 21 12.75 16.55 20.1 27.35 32.55 37.55 44.75 53.38 71.61 83.89 22 23 24 25 26 27 28 29 30 31 97.46 112.7 135.1 153.6 160.3 167.1 174.9 177.9 180.2 180.8 3.1 基本绘图操作 在Excel 中输入时间x 与高度y 的数据。 选择插入->图表 图87 点击图表,选择“标准类型”中的xy 散点图,并点击子图表类型的第一个。

图88 点击下一步,得到如图89。 图89

点击下一步。 图90 分别点击标题、网格线、图例进行修改,然后点击下一步。 图91 点击完成。 图92 右击绘图区,修改绘图区格式,双击做表格,修改坐标轴刻度,最后的散点图。

图93 观察散点图,其呈S 型曲线,符合logistic 曲线。采用转化为线性方程的方法求解模型。 3.2 Logistic 曲线方程及线性化 Logistic 曲线方程为: 1at k y me -= + (12) (1) 将数据线性化及成图 转化为线性方程为: 01'y a a t =+ (13) 其中,'ln(/1)y k y =-,0ln a m =,1a a =- 具体操作为: 向excel 表格中输入y ’数据。

Logistic回归分析报告结果解读分析

L o g i s t i c回归分析报告结果解读分析Logistic回归常用于分析二分类因变量(如存活和死亡、患病和未患病等)与多个自变量的关系。比较常用的情形是分析危险因素与是否发生某疾病相关联。例如,若探讨胃癌的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群有不同的临床表现和生活方式等,因变量就为有或无胃癌,即“是”或“否”,为二分类变量,自变量包括年龄、性别、饮食习惯、是否幽门螺杆菌感染等。自变量既可以是连续变量,也可以为分类变量。通过Logistic回归分析,就可以大致了解胃癌的危险因素。 Logistic回归与多元线性回归有很多相同之处,但最大的区别就在于他们的因变量不同。多元线性回归的因变量为连续变量;Logistic回归的因变量为二分类变量或多分类变量,但二分类变量更常用,也更加容易解释。 回归的用法 一般而言,Logistic回归有两大用途,首先是寻找危险因素,如上文的例子,找出与胃癌相关的危险因素;其次是用于预测,我们可以根据建立的Logistic回归模型,预测在不同的自变量情况下,发生某病或某种情况的概率(包括风险评分的建立)。 2.用Logistic回归估计危险度 所谓相对危险度(riskratio,RR)是用来描述某一因素不同状态发生疾病(或其它结局)危险程度的 比值。Logistic回归给出的OR(oddsratio)值与相对危险度类似,常用来表示相对于某一人群,另一人群发生终点事件的风险超出或减少的程度。如不同性别的胃癌发生危险不同,通过Logistic回归可以求出危险度的具体数值,例如,这样就表示,男性发生胃癌的风险是女性的倍。这里要注意估计的方向问题,以女性作为参照,男性患

Logistic回归分析

Logistic 回归分析 Logistic 回归分析是与线性回归分析方法非常相似的一种多元统计方法。适用于因变量的取值仅有两个(即二分类变量,一般用1和0表示)的情况,如发病与未发病、阳性与阴性、死亡与生存、治愈与未治愈、暴露与未暴露等,对于这类数据如果采用线性回归方法则效果很不理想,此时用Logistic 回归分析则可以很好的解决问题。 一、Logistic 回归模型 设Y 是一个二分类变量,取值只可能为1和0,另外有影响Y 取值的n 个自变量12,,...,n X X X ,记12(1|,,...,)n P P Y X X X ==表示在n 个自变量的作用下Y 取值为1的概率,则Logistic 回归模型为: [] 011221 1exp (...)n n P X X X ββββ= +-++++ 它可以化成如下的线性形式: 01122ln ...1n n P X X X P ββββ??=++++ ?-?? 通常用最大似然估计法估计模型中的参数。 二、Logistic 回归模型的检验与变量筛选 根据R Square 的值评价模型的拟合效果。 变量筛选的原理与普通的回归分析方法是一样的,不再重复。 三、Logistic 回归的应用 (1)可以进行危险因素分析 计算结果各关于各变量系数的Wald 统计量和Sig 水平就直接反映了因素i X 对因变量Y 的危险性或重要性的大小。

(2)预测与判别 Logistic回归是一个概率模型,可以利用它预测某事件发生的概率。当然也可以进行判别分析,而且可以给出概率,并且对数据的要求不是很高。 四、SPSS操作方法 1.选择菜单 2.概率预测值和分类预测结果作为变量保存 其它使用默认选项即可。

(整理)利用SAS宏程序进行单因素Logistic回归分析.

利用SAS宏程序进行单因素Logistic回归分析 在做单因素logistic回归时,如果有十几个自变量,每个自变量都运行一遍程序,然后把sas结果黏贴到word里再修改,最后合并生成一个汇总的数据,无疑是件很麻烦的事情,所以我编了一段程序,可以自动的汇总生成报表,省了很多事啊!欢迎大家共同交流 宏程序如下: %macro log1(data,yy,xx,num); /*data=分析数据集,yy=应变量,xx=自变量,num=自变量个数%do i=1 %to # %let var_=%sysfunc(scan(&xx,&i,’ ‘)); ods output ParameterEstimates=&var_.1 OddsRatios=&var_.2; proc logistic data=&data desc ; model &yy=&var_; run; data &var_.1(drop=i);set &var_.1;i=_n_;if i=1 then delete; run; data &var_ (drop=effect df);merge &var_.1 &var_.2;run; proc delete data=&var_.1 &var_.2;run; %end; data log1;set &xx;proc print noobs data=log1;proc delete data=log1 &xx;run; %mend; 测试一下: %log1(factor,tw1,sex agegroup b4 b5 b6 b7 b10 b11 b12 b32a b32b b32c b32d,13); 效果显示如下,(sas9.2自动生成html格式结果,stype选择journal)

SPSS学习笔记之——二项Logistic回归分析

SPSS学习笔记之——二项Logistic回归分析 一、概述 Logistic回归主要用于因变量为分类变量(如疾病的缓解、不缓解,评比中的好、中、差等)的回归分析,自变量可以为分类变量,也可以为连续变量。他可以从多个自变量中选出对因变量有影响的自变量,并可以给出预测公式用于预测。 因变量为二分类的称为二项logistic回归,因变量为多分类的称为多元logistic回归。 下面学习一下Odds、OR、RR的概念: 在病例对照研究中,可以画出下列的四格表: ------------------------------------------------------ 暴露因素病例对照 ----------------------------------------------------- 暴露 a b 非暴露 c d ----------------------------------------------- Odds:称为比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。在病例对照研究中病例组的暴露比值为: odds1 = (a/(a+c))/(c(a+c)) = a/c, 对照组的暴露比值为: odds2 = (b/(b+d))/(d/(b+d)) = b/d OR:比值比,为:病例组的暴露比值(odds1)/对照组的暴露比值(odds2) = ad/bc 换一种角度,暴露组的疾病发生比值: odds1 = (a/(a+b))/(b(a+b)) = a/b 非暴露组的疾病发生比值: odds2 = (c/(c+d))/(d/(c+d)) = c/d OR = odds1/odds2 = ad/bc 与之前的结果一致。 OR的含义与相对危险度相同,指暴露组的疾病危险性为非暴露组的多少倍。OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。还应计算OR的置信区间,若区间跨1,一般说明该因素无意义。 关联强度大致如下: ------------------------------------------------------ OR值联系强度 ------------------------------------------------------ 0.9-1.0 1.0-1.1 无 0.7-0.8 1.2-1.4 弱(前者为负关联,后者为正关联) 0.4-0.6 1.5-2.9 中等(同上) 0.1-0.3 3.0-9.0 强(同上) <0.1 10.0以上很强(同上) ------------------------------------------------------

如何用spss实现配比的条件logistics回归分析

如何用spss实现配比的条件logistics回归分析 孙大鹏sundapeng87@https://www.wendangku.net/doc/a817068932.html, 仅以此篇献给那些专注于使用spss而不会使用sas、R、epiinfo 等统计软件的同志,spss是大家用的非常广泛的统计工具,它的数据管理非常直观,但是有一点就是它的回归分析中没有条件logistics回归分析模块。而这个分析模块在后三个软件中可以轻松实现。 下面就给大家介绍一下如何使用spss进行条件logistics回归分析。原理就是利用生存分析中的cox回归模型。 一、变量准备。 (一)首先我们准备好的数据应该有个因变量y,为0,1格式的,0代表对照或未发病,1代表病例或已发病。 (二)我们要分析的自变量x1,x2,一般为二分类变量,1或0,是否。当然也可以是多组的分类变量,这个比较麻烦(一般不推荐,后面结果分析会说一下)。 (三)分组变量标注分组的代码group。假设1:4配比,这5个个案为一组,共用一个group号。 (四)Cox回归模型,需要一个time的生存时间变量,这个变量我们这样设置,首先有个因变量y,为0,1格式的,计算time=2-y。这样子就是设置成病例生存时间为1,对照生存时间为2。病例发病对照不发病,对照的生存时间必然要长于病例。 数据见附件1 二、操作步骤

(一)数据导入spss。不会的回家自己学去。 (二)分析----生存函数----Cox回归打开对话框 (三)选取变量,第一时间选入time变量;第二个状态选入y 即病例和对照,定义事件为为1; 协变量选择X,你要分析的因素 方法选择向前条件 分层选择group;重要 选项中可以设置计算可信区间

第十二章+Logistic回归分析

第十二章 Logistic 回归分析 一、Logistic 回归概述: Logistic 回归主要用于筛选疾病的危险因素、预后因素或评价治疗措施;通常以疾病的死亡、痊愈等结果发生的概率为因变量,以影响疾病发生和预后的因素为自变量建立模型。 二、Logistic 回归的分类及资料类型: 第一节 非条件Logistic 回归分析 一、Logistic 回归模型: Logistic 回归模型: logit (P )= ln( p p -1) = β0+β1χ1 + … +βn χn 二、回归系数的估计(参数估计): 回归模型的参数估计:Logistic 回归模型的参数估计通常利用最大似然估计法。 三、假设检验: 1.Logistic 回归方程的检验: ·检验模型中所有自变量整体来看是否与所研究事件的对数优势比存在线性关系,也即方程是否成立。 ·检验的方法有似然比检验、比分检验(score test )和Wald 检验(wald test )。上述三种方法中,似然比检验最可靠。 ·似然比检验(likehood ratio test ):通过比较包含与不包含某一个或几个待检验观察因素的两个模型的对数似然函数变化来进行,其统计量为G=-2ln(L)(又称Deviance )。无效假设H 0:β=0。当H 0成立时,检验统计量G 近似服从自由度为N-P-1的X 2分布。当G 大于临界值时,接受H 1,拒绝无效假设,认为从整体上看适合作Logistic 回归分析,回归方程成立。 2.Logistic 回归系数的检验: ·为了确定哪些自变量能进入方程,还需要对每个自变量的回归系数进行假设检验,判断其对模型是否有贡献。 ) (11011011011011)](exp[11 )exp(1)exp(p p X X p p p p p p e X X X X X X p ββββββββββββ+++-+= +++-+=+++++++=

相关文档