文档库 最新最全的文档下载
当前位置:文档库 › 逻辑回归例子

逻辑回归例子

逻辑回归例子

【篇一:逻辑回归例子】

1.logit回归本期将会大家介绍逻辑回归,虽然逻辑回归并不复杂,

但正是由于其简单,高效,可解释性强的特点,在实际用途中十分

的广泛,从购物预测到用户营销响应,从流失分析到信用评价,都

能看到其活跃的身影,可以说,逻辑回归占据了分类算法中非常重

要的地位。

回想在上一期中,我们谈到当因变量与自变量的关系式不再是线性时,通过引入衍生变量y’,使其转换为线性表达形式。

那么很自然地,对于我们现在面临的任务,我们就需要一个转换,

使得分类变量0和1转化为可用的形式。

先考虑一个二分类的预测变量,正如前面所说的,显然由于分类数

据的特点,已经不适合运用传统的线性函数进行分析。

但是二分类事件的y的期望值e(y)来说,它等价于事件发生概率,

从y到e(y),我们就把事件发生与否与值域在[0,1]区间的事件发生概

率相联系,这提示我们可以用事件发生的概率进行代替。

既然使用发生概率代替的话,一个自然而然的选择是把回归函数的

值域限制在[0,1]区间内,这样当f(xi)接近负无穷时,将有e( yi)趋近

于0,而在f(xi)接近正无穷时,将有e(yi )趋近于1,这样看来,显

然相比于研究二元变量y与x的关系,研究y发生的条件概率与x

更具适应性。

在没有任何先验条件的情况下,这里的阈值一般选择0.5。

但当我们有进一步明确需求的时候,阈值也是可以调整的,例如我

们希望对正例样本有更高的准确率要求,则可以把阈值适当地调高,例如调高到0.6;相反,假如我们希望对正例样本的召回率要求更高,则可以把阈值适当地降低,例如降低到0.4;

一般地,我们选择logit函数作为转换函数,logit函数的形式:

logit函数图像是一个典型的s型的曲线,并且它的值域是在[0,1]之

进一步地,我们利用logit函数,可以把事件发生的条件概率与x表

示为

同样,我们也可以定义一个事件不发生的概率为:

为了更显简洁,不妨作如下转换:

上式左边实际上就是表示“事件发生的概率”与“事件不发生的概率”

之比,称之为事件的发生比,简称odds。

实际上,转化为线性函数形式后,我们可以看到逻辑回归实际上就

是以线性回归的形式去逼近时间发生优势比的对数,因此也有一些

文献称之为“对数几率回归”。参数估计考虑到在logit回归的推导中,咱们已经把事件发生的概率公式给出,那么我们就可以借助极大似

然估计进行参数估计的工作,设

求得对数似然函数并整理:实战案例:样例数据:个人收入水平调

查分析.xlsx

密码: raxx

该数据集是某地区的个人收入调查分析,包含32561条记录,其中

目标变量是收入水平(分别是 =50k以及 50k),其他自变量包括年龄,受教育时间,性别,资产净增,资产损失,一周工作时间。

模型流如下所示:

利用excel源节点读取数据后,接入类型节点,在类型节点中:

(1)把收入水平的测量设为‘标记’,把角色设为‘目标’;

(2)把年龄,受教育时间,性别,资产净增,资产损失,一周工作

时间设为‘输入’;

上述介绍的内容在modeler中是在logistic节点中实现,因此我们

在下方建模选项板中,选中logistic节点,并将其添加到流。

在回logistic节点中,模型选项卡下,因为我们的目标变量‘收入水平’属于二分类变量,因此我们选择‘二项式’;

在二项式过程中中,我们选择‘向前步进法’建立logistic回归模型

选择好后,点击运行。

运行模型后,点开模型块查看模型结果。

首先看到的是caseprocessing summary,我们知道我们一共使用

了32561条记录构建模型,其中所有记录无缺失;由于自变量与因

变量都含有分类变量,因此需要进行编码。

其中因变量,我们把收入水平 50k设为1,收入水平 =50k设为0;另

外在自变量部分,只有性别属于分类变量,我们看到其中女性有10771个记录,男性则有21790个记录,其中我们把女性设为‘1’,

男性设为‘0’。

之后直接看到模型结果,可以看到一共经历6补构建了最终模型,

纳入了6个自变量,即我们所有的自变量都被纳入了方程,并且检

查系数显著性检验结果,发觉所有显著性检验结果都小于0.05。

额外地,看到性别(1)自变量,这是因为性别属于分类变量,我们

将其设置为哑变量。即性别为女性的样本进入方程,将减去 1.175*1,而性别为男性的样本进入方程则是默认该项取0;

根据结果,我们可以写出最终的回归方程有:

更重要地,对于分类问题,我们同样十分关心模型的预测准确率,

为了进行比较,我们在模型节点后添加‘分析’节点(在输出选型卡下),其中勾选‘重合矩阵(用于字符型目标字段)’,点击运行。

通过分析结果,我们可以看到逻辑回归分析的结果还是比较准确地,准确率有82.55%。

end.

作者:浩彬老撕(中国统计网特邀认证作者)

【篇二:逻辑回归例子】

一、逻辑回归模型的概念

非线性概率模型,又称逻辑模型(logistic regression),其基本

形式为一种非线性函数——逻辑函数:

其中,为采取某选择的概率,为自变量。这个函数具有我们希望

的良好性质,它的图形是一条s型曲线。

我们可以把左端整体看作一个变量,于是便有线性回归模型:

逻辑回归模型作为一种概率模型,可用于预测某事件发生的概率,

主要解决二值变量的预测或分类问题。

二、模型所解决的问题

生活中面临着许多二值(dichotomous)变量,需要去判断它的归属。所谓二值变量,是指仅取两个值的变量,可以赋予任何两个不

同的记号,一般用0和1标记。

判断二值变量的归属问题,要基于概率论和统计的知识。

假定有一个二值变量y,仅取0和1两个值,我们研究的对象是probability=p(y=1),简记为p=p(y=1)。

个人信用评估领域,在已知影响消费者信用品质的各种预测指标

(也称中间变量)后,需要预测申请人的信贷风险概率(或申请人

的“好”与“坏”)。

申请人的“好”与“坏”(outcome flag)用y表示,y=1 表示“坏”,

y=0表示“好”,现在要预测 p(y=1)。

三、模型的形式

假定有 s个开发样本,他们的预测指标x1,x2…xn以及二值结果记

号y已知,数据结构如下表所示:

逻辑回归模型的数据结构

有了上面的开发样本以后,我们就可以建立逻辑回归模型了。

把具有下面形式的模型称为逻辑回归模型:

其中:p=p(y=1)是我们感兴趣的二值变量中 y=1发生的概率,是

需要预测的。

x1, x2…xn 是影响 y=1发生的 n 个预测变量。b0,b1,…bn是我们需要估计的模型参数。

四、模型的解释

1、p=p(y=1)的计算

我们建立逻辑回归模型的最终目的是为了预测p(y=1),通过对开

发样本数据的建模,待估计出b0,b1,…bn后,根据上面的模型表达式,对其进行简单的数学变换,就可以得到:

2、模型的预测和解释

现在有一个新的观测,他的预测变量 x1,x2,..xn的值已知,我们把

这些值带入上式就可以得到该观测的 p(y=1)。

五、模型应用研究举例

某银行在探讨消费者有关风险因素的研究中,收集了一批信贷客户

的样本数据,现从中随机抽取1000例数据作为示例进行逻辑回归分析:

某银行样本数据

其中,i 表示样本编号;x1表示checking-支票;x2表示

property-资产;x3表示duration-持续时间;x4表示history-信贷

历史;x5表示saving-存款;y表示信用的好坏(‘好’y=1;

‘坏’y=0)。借助于sas软件,得到模型的参数估计值如下:

举例模型的参数估计值

于是我们可以得到p=p(y=1)的计算公式。现在有一个新的申请者,他的各种指标分别为:x1=1,x2=3,x3=48,x4=2,x5=1,带入上式,得到他成为“坏”账户的概率为0.754。

帮助人大经济论坛推广,复制贴子内容(带人大经济论坛网址)并

发到其他论坛和网站;或点击贴子标题后的“推广有奖”,把本贴推

荐到qq群或自己的微博(最好@人大经济论坛),然后跟贴贴出链

接或截图,证明已作推广的,将获得如下论坛币的奖励!(大家一

定要把群现有人数或微博粉丝人数截屏出来哦~不然只能奖励10个

币哦)

活动奖励方式(同一个群或微博或网站分享多次算一次,所有截图

均需显示分享人数,否则默认低档奖励):

1.凡分享的qq群,人数在100人以下的,视情况奖励10-20论坛币;100-500人的,奖励20-50论坛币(每群限奖励一次);500人以上

的奖励50-100论坛币。

2.凡分享到微博,您的粉丝在100人以下的,视情况奖励10-20论

坛币;100-500人的,奖励20-50论坛币(每微博限奖励一次);500人以上的奖励50-100论坛币。

3.凡分享到其他网站(包括校内网等),帖子保留一天以上的(24

小时后截图),奖励50论坛币

相关文档