文档库 最新最全的文档下载
当前位置:文档库 › 地理加权回归( GWR)

地理加权回归( GWR)

地理加权回归( GWR)
地理加权回归( GWR)

空间计量经济学打破大多数经典统计和计量分析中相互独立的基本假设,主要解决如何在横截面数据和面板数据的回归模型中处理空间相互作用(空间自相关)和空间结构(空间不均匀性)分析的问题。空间计量经济理论认为一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。也就是说,各区域之间的数据存在与时间序列相关相对应的空间相关。

空间计量模型所研究的空间效应包括空间自相关和空间差异性。空间相关性在空间回归模型中体现在误差项和因变量的滞后项,因此,空间计量的两个模型分别是空间自回归模型(Spatial Auto Regressive Model , SAR) 与空间误差模型(Spatial Error Model , SEM),空间自回归模型研究各变量在一个地区是否有扩散效应,空间误差模型考察邻接地区关于因变量的误差冲击对本地区观察值的影响。其表达式分别为:

其中,Y 为因变量;W 为n n ?阶的空间权重矩阵,权数系数可以根据实际情况决定,一般用邻接矩阵;Wy 为空间滞后因变量,反映了空间距离对区域行为的作用;ρ为空间自回归系数,反映相邻区域的观测值Wy 对本地区观察值y 的影响方向和程度;X 为k n ?的外生解释变量向量(包括常数项),β为变量系数,反映了自变量X 对因变量Y 的影响;ε为误差成分;λ为1?n 的因变量向量的空间误差系数,衡量了相邻地区的观察值Y 对本地区观察值Y 的影响方向和程度;γ为正态分布的随机误差向量。上述两种模型的估计如果仍采用OLS ,往往导致各种结果和推论不够完整、科学。本文采用极大似然法估计参数。常用检验准则有拟合优度R 2 和对数似然值LogL 。拟合优度和对数似然值越大,模型拟合效果越好, 对数似然值最大的模型最好。

( 一) 空间权重矩阵的选取

空间权重矩阵 w 表征了空间单位之间的相互信赖性与关联程度。实证研究中,通常采用相邻规则与距离规则来定义空间加权矩阵。为了研究需要,本文从地理位置特征与社会经济特征两个不同角度分别建立包括相邻规则与距离规则的空间加权矩阵,以便更准确地把握房价的区域相关关系。

1. 地理位置特征加权矩阵。 本文采用两种常用的地理位置特征矩阵体现房价的空间相关关系:第一种是空间相邻加权矩阵 W1,其中的元素 wi ,j= 1表示两个地区拥有共同的边界,wi ,j= 0 表示两个地区没有共同的边界,然后对矩阵进行标准化处理。为了避免“单

个岛屿效应”,设定海南省与广东省、广西壮族自治区有共同边界。第二种是空间距离加权矩阵 W2,其元素 wi ,j=1 / d2iji ≠ j0{i = j ,即两地区之间距离越远,相互之间的影响程度越小,两地区之间的距离 di ,j 为两地区省会城市之间的距离

于是进一步用更能反映经济变量之间的空间依赖性的地理加权回归(GWR)方法,以全国30个省市为例,建立模型

0(,)(,)i i i k i i ik i k

y u v u v X ββε=++∑,1,2,i =…,n ,

其中(,)i i u v 是第i 个样本点的空间坐标;

利用加权最小二乘法来估计,估计出30个省市的模型参数,并就此分析了各省市之间的差异。

最后比较了普通回归与地理加权回归的优劣,得出了教育支出促进经济增长, 不同地区间促进的效果不同的结论。

长期以来, 在主流的经济学理论中, 空间事物无关联及均质性假定的局限,

以及普遍使用忽视空间效应的普通最小二乘法(OL S) 进行模型估计, 使得在实际应用中往往存在模型的设定偏差问题, 进而导致经济学研究得出的各种结果和推论不够完整、科学, 缺乏应有的解释力。经典计量经济学中的线性回归模型的经典假定, 以及回归模型的系数β是一个常数假定, 面对异常复杂的经济系统和因素变量之间的交互影响, 尤其是碰到横截面数据之间存在空间自相关性和空间异质性时, 经典计量的线性回归模型就显得有些力不从心, 需要发展新的方法来弥补这种不足。【1】

空间计量经济学(Anselin ,1988) 理论认为,一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。几乎所有的空间数据都具有空间依赖性或空间自相关性的特征, 空间依赖的存在打破了大多数经典统计和计量分析中相互独立的基本假设。也就是说, 各区域之间的数据存在与时间序列相关、相对应的空间相关。空间统计和空间计量经济方法是在继承和发展完善经典统计和计量方法的基础上, 将经典统计和计量方法应用于与地理位置及空间交互作用相关的地理空间数据, 通过地理位置与空间联系建立的统计与计量关系, 以统计和计量方法识别和度量空间变动的规律与空间模式的决定因素。

(一)空间经济计量学介绍

空间统计和空间计量经济学理论与方法继承和发展了经典统计和计量理论方法,将经典统计和计量方法应用于与地理位置及空间交互作用相关的地理空间数据,通过地理位置与空间联系建立统计与计量关系,以统计和计量方法识别和度量空间变动规律及空间模式的决定因素。

空间经济计量学主要研究存在空间效应的问题。空间效应主要包括空间相关和空间差异性。在研究中涉及空间相邻、空间相邻矩阵等概念。

1.空间相关

空间相关指在样本观测中,位于位置i的观测与其它j≠i的观测有关,即存在空间相关的原因有两方面:相邻空间单元存在测量误差,空间交互影响的存在。测量误差是由于调查过程中,数据的采集与空间中的单位有关,如数据是按盛市、县等统计的,但设定的空间单位与研究问题不一致,存在测量误差。

空间相关不仅意味着空间上的观测缺乏独立性,并且意味着潜在于这种空间相关中的空间结构,也就是说空间相关的强度及模式由绝对位置和相对位置(布局,距离)决定。

2. 空间差异性

空间差异性指空间上的区域缺乏均一性,如存在中心区和郊区、先进和后进地区等。例如,我国沿海地区和中西部地区经济存在较大差别。

对于空间差异性,只要将空间单元的特性考虑进去,大多可以用经典经济计量学方法解决。但当空间差异性与空间相关共同存在时,经典经济计量学方法不再适用,而且这时问题可能变得非常复杂,因为这时要区分空间差异性与空间相关可能非常困难。

3. 时空数据空间模型

在模型中考虑时间维增加了描述的复杂性,但综合时间空间的模型在实际工作中非常有用。在经典的经济计量学模型中,这是综合截面和时间序列数据的情形。如果数据不存在空间相关,则可以采用PanelData 模型。Anselin(1988)将似不相关(SUR)模型扩展到空间的情形,提出空间SUR 模型。

【2】

(五) 空间计量经济学中的空间自相关分析【5】

根据空间统计和空间计量经济学原理方法,首先应采用空间统计分析Moran 指数法检验因变量(被解释变量)是否存在空间自相关性或集聚现象,如果存在,则需要在空间计量经济学理论方法支持下,建立空间计量经济模型,进行区域经济增长集聚的空间计量估计和检验。

Moran’s I 定义如下: 11

211()()

n n ij i j i j n n

ij

i j W Y Y Y Y I S W ====--=∑∑∑∑ 其中,2

11()n i i S Y Y n ==-∑,11n

i i Y Y n ==∑, 表示第i 地区的观测值,n 为地区总数,ij W 为二进制的邻接空间权值矩阵,

表示其中的任一元素,采用邻接标准或距离标准,其目的是定义空间对象的相互邻接关系。

一般邻接标准的为1,ij W ?=?? 当区域i 和区域j 相邻;0, 当区域i 和区域j 不相邻;

式中,1,2,i =…,n ;j=1,2, …,n ;≠m=n 或m n 。

Moran ’s I 可看作各地区观测值的乘积和,其取值范围为11I -≤≤。若各地区间经

济行为为空间正相关,I 的数值应当较大;负相关则较小。

(六) 空间变系数回归模型【6】

当用横截面数据建立计量经济学模型时, 由于这种数据在空间上表现出的复杂性、自相关性和变异性, 使得解释变量对被解释变量的影响在不同区域之间可能是不同的, 假定区域之间的经济行为在空间上具有异质性的差异可能更加符合现实。空间变系数回归模型(Spatial Varying —Coefficient Regression Model) 中的地理加权回归模型( Geographical Weighted Regression , GWR) 是一种解决这种问题的有效方法。本文即主要采用的这种模型对全国30个省市教育与经济增长之间的关系进行了探究与分析。

1. GWR 基本模型

考虑如下的全局回归模型:

0i k ik i k

y X ββε=++∑ 1,2

,i =…,n 地理加权回归( GWR) 扩展了传统的回归框架, 容许局部而不是全局的参数估计, 扩展后模型的参数是位置i 的函数,扩展后的模型如下:

0(,)(,)i i i k i i ik i k y u v u v X ββε=++∑ 1,2

,i =…,n 其中(,)i i u v 是第i 个样本点的空间坐标, (,)k i i u v β 是连续函数(,)k u v β 在i

点的值。如果(,)k u v β 在空间保持不变, 则GWR 模型就变为全局模型 。因此GWR 方程认可空间变化关系可能是存在的, 并且提供了一种可度量的方法。

由上面可知GWR 模型中的参数在每个回归点是不同的,就不能用最小二乘方法(OL S) 估计参数。Fotheringham , Brunsdon , Charlton (1996) 依据“接近位置i 的观察数据比那些离位置远一些的数据对(,)k u v β的估计有更多的影响”的思想, 利用加权最小二乘法来估计参数。因此,其结果是区域性的并非全域性的参数估计,从而就能够探测到空间数据的空间非平稳性。

我们知道,普通最小二乘法可以得到全局的参数估计向量:

1(')'X X X Y β∧-=

值得提到的是,使用最小二乘估计的前提条件是:()E Y X β=,

2()(n n Var Y I I δ=是单位矩阵)

成立。这里第二个条件不满足,可以改为21()i Var Y W δ-=,因为1i W ->0,存在n 阶非奇异对称阵B ,使得12i W B -=。令1*Y B Y -=,1*X B X -=,则11(*)()*E Y B E Y B X X ββ--===

112(*)()n Var Y B Var Y B I δ--==

于是,我们得到回归点i 的参数估计向量可以表示如下:

1(,)('(,))'(,)i i i i i i u v X W u v X X W u v Y β∧

-=

其中(,)i i W u v 是n n ?的加权矩阵,对角线上的每个元素都是关于观测值所在位置j 与回归点i 的位置之间距离的函数,其作用是权衡不同空间位置j ( j = 1 ,2 , ?, n) 的观测值对于回归点i 参数估计的影响程度,而非对角元素为0. 矩阵(,)i i W u v 可以表示为如下形式:

12W W (,) W i i i i in W u v ?? ? ? ? ???

= 记做12W (W ,W ,W )i i i in diag =…,。

2. 加权矩阵函数的选择

为了估计方程中GWR 的参数,选择一个标准来决定加权矩阵W i 是很重要的.

在空间分析中,一般认为距离回归点i 较近的观测值对回归点i 处的参数估计影响较大,而远离回归点i 的观测值的影响就较小. 所以,在估计回归点i 的参数时,必须给予离i 较近的地区更多的关注,也就是优先考虑较近观测值的影响. 根据这一思想,可供选择的权函数有多种形式, 比如距离的倒数. 通常选择Gauss 函数作为权函数,其形式如下:

2exp()ij ij W d λ=-

这里ij d 是回归点i 和位置j 中心的距离, λ是带宽. W ij 是关于ij d 的连续单

调递减函数,随ij d 的增大而减小,并且当ij d = 0 时, W ij = 1。

3. 距离衰减参数λ的确定

式中的λ是一个描述权重与距离之间函数关系的非负距离衰减参数,不同的λ将产生不同的权重W ij . 对于给定的ij d ,如果λ越大,在位置j 的观测值的

权重就越小,反之,则在位置j 的观测值的权重就越大. 另一方面,对于给定的λ,对离i 距离越近的点来说,权重逐渐趋近于1 ,对于那些离i 距离很远的点来说,权重会逐渐减小到0 ,从而在估计回归点i 的参数时能够有效地排除那些远离i 点位置上的观测值,同时又保持了空间数据的连续性。

从上面分析可知不同的λ会产生不同的权重矩阵W i (1,2,i =…,n),而且可以选择的λ不是惟一的。Brunsdon 等用交叉实证方法(即Cross2Validation) 来选择一个最合适的λ。 如果λ的值过大,这样会使得除回归点外其它观测值点的权重接近零,从而在参数估计中失去作用,因此λ不宜取值太大. 一般选择一个

较小的λ,根据等式来计算加权矩阵W i (1,2,i =…,n),通过加权最小二乘方法获

得参数的估计值i λ∧。

将估计值i λ∧代入地理加权回归(GWR)模型中,我们就得到了i Y 的估计值()i Y λ∧≠ 通过下式计算得到CV 值:

21()n j i i i CV Y Y λ∧≠=??=-???

?∑ (1,2,j =…,m) 这里()i Y λ∧≠表示回归点i 的观测值不参与估算过程得到的i Y 的估计值。()i Y λ∧≠

作为i Y 的估计值,在迭代的过程中省略了与ik x 有关的计算,只需要计算回归i 附

近位置的观测数据,而不计算它本身的观测数据。

重新选择一个λ重复上述过程得到m 个不同的CV 值,通过

12min(,,)m CV CV CV CV =…,

来寻找最合适的λ值(即CV 对应的λ)。

(一) 数据来源[7][8]

为了进一步探索不同地区间教育与经济间的差异关系,本文还引入了30个省市省会地区相互之间的公路营运里程,作为衡量各省之间距离的指标,这些数据来源于《中国高速公路及各等级公路网地图册》。

(二) 各省市地区说明

本文所涉及到得省市地区依次为:北京,天津,河北,山西,内蒙古,辽宁,吉林,黑龙江,上海,江苏,浙江,安徽,福建,江西,山东,河南,湖北,湖南,广东,广西,重庆,四川,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆。涉及到得省会地区依次为:北京,天津,石家庄,太原,呼和浩特,沈阳,长春,哈尔滨,上海,南京,杭州,合肥,福州,南昌,济南,郑州,武汉,长沙,广州,南宁,重庆,成都,贵阳,昆明,拉萨,西安,兰州,西宁,银川,乌鲁木齐。之所以没有涉及海南省以及其省会城市海口,是因为隔海的原因,不好估算其公路营运历程,故将其舍去。

二、 我国30个省市地区教育经费与经济间的一元线性分析

(一) 模型建立与分析

之前,本文已经对基于最小二乘法(OLS )的传统线性回归做了详细的理论说明,下面,本文将SAS 软件对经过处理得到的省域人均GDP ( 也就是GRP) 、人均教育经费两项指标进行分析,其中省域人均GDP 为因变量,人均教育经费为自变量。

四、 地理加权回归( GWR) 技术

一般线性回归模型把研究区域作为一个整体来看待,其结果是对研究区域整体趋势的一种拟合或平均水平的一种描述,其掩盖了许多有意义的地理、社会、经济现象. 而在更多的情况下,我们需要了解研究区域内部的变化情况,地理加权回归方法是一种局域空间分析的方法,展示了研究区域内部空间关系的变化图景,为我们进一步研究复杂的空间变化提供非常有意义的线索,地理加权回归方法必将成为空间分析的重要工具之一. 不过该技术方法还有些问题需要做进一步研究加以完善,如在整个研究区域内权函数的距离衰减参数λ是固定不变的,作为局域空间分析方法该参数在不同的地区应该是不一样的。

由表1可以看出,当前,我国接受教育的情况还是比较低的。同时,东部地区明显比西部地区受教育年数高,体现了地区间的差异性。

(一) 地理加权回归模型(GWR)模型建立及分析

通过上述初步分析可以看出,我国省域之间还是存在着一定差距的。不能用一般线性回归模型把其作为一个整体来看待,应该用地理加权回归方法为进一步研究复杂的空间变化。关于地理加权回归模型(GWR)模型,其理论部分参见第一部分空间变系数回归模型的GWR 模型。下面直接用SAS 进行编程建模,以下是建模后得到的各省域的GWR 系数估计结果。

表6 GWR 模型各省域参数估计

由GWR 模型得出的表格6,可以进一步看出地区间的差异。就教育投入对经济增长的影响来看,不同地区人均教育经费对人均GDP 的作用相差很大,像最高的安徽省市,人均教育经费对人均GDP 的作用达到了39.977127,广西,广东紧随其后,人均教育经费对人均GDP 正效应比较大的地方还有辽宁,福建,新疆,贵州,江苏,浙江,吉林,江西,上海。而另一方面,陕西人均教育经费对人均GDP 的作用居然是-5.55705,意味着教育投入对经济增长甚至起着抑制的作用,同时,黑龙江,西藏也是紧随其后,教育对经济起着负效应。比较低的地方还有四川,山西,天津,北京,青海,甘肃,重庆,湖南,宁夏,内蒙古。

将0β,1β进行描述性统计分析,与初次得到一元线性分析得到的结果对比如下: 表7 GWR 模型参数估计分析

表8 线性模型参数估计

为了更好的探索各地区间教育投资与经济增长之间的关系,用EXCEL 将人均GDP 以及表示教育投资与经济增长之间的关系的参数估计量β1进行了逻辑处理,

即如果该数值低于均值,则显示为低,若高于,则显示为高,得到下表:

表9 各省域教育与经济关系

表9中可以看出,西部欠发达地区如西藏,甘肃,青海,宁夏,教育投资对经济增长的促进作用不是很大,这间接反映了这些地区教育依然比较落后的现状。一些教育大省比如山东,河北,河南,β1的参数估计值普遍比较高,这也可以间接反映出这些地区重视教育发展的现状。同时,教育对经济增长具有比较高的正效应的地区大多集中在沿海、东部以及中部近几年发展比较迅速的地区,这无疑也暗含着科技是第一生产力的道理。说明,教育对经济增长起着极大地推动作用。教育的增长必定会带动生产力的发展,同时也会拉动GDP增长。但是,一些异常如北京、天津地区的低促进情况,新疆的高促进情况,应该引起进一步思考与讨论。

五、一般线性模型与地理加权回归( GWR)模型的比较

为进一步比较说明两种模型的优劣,跟据得出的模型进行拟合进行比较:

表10 模型拟合值与原始数据的比较

由表10中可以看出,地理加权回归( GWR)模型的拟合精确程度明显优于传统的OLS模型。进一步说明了传统的OLS 只是对参数进行“平均”或“全局”估计, 不能反映参数在不同空间的空间非稳定性; GWR 是一种简单、有效的技术, 可以反映参数在不同空间的空间非稳定性。

使用地理加权回归模型探索空间异质性的R包

使用地理用加权模型探索空间异质性的R包地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。 The GWmodel package comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): Gaussian(高斯核函数): Exponential: Box-car(盒状核函数):

Bi-square(二次核函数): Tri-cude(立方体和函数): 一、GW汇总统计(DubVoter) GW汇总统计(GW summary statistics)包括基本的GW 汇总统计和稳健的GW 汇总统计. 基本的GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数. 稳健的GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数) GW 标准差反映一个数据的离散程度。 GW四分位数间距可反映变异程度的大小。

最新地理加权回归(-GWR)

空间计量经济学打破大多数经典统计和计量分析中相互独立的基本假设,主要解决如何在横截面数据和面板数据的回归模型中处理空间相互作用(空间自相关)和空间结构(空间不均匀性)分析的问题。空间计量经济理论认为一个地区空间单元上的某种经济地理现象或某一属性值与邻近地区空间单元上同一现象或属性值是相关的。也就是说,各区域之间的数据存在与时间序列相关相对应的空间相关。 空间计量模型所研究的空间效应包括空间自相关和空间差异性。空间相关性在空间回归模型中体现在误差项和因变量的滞后项,因此,空间计量的两个模型分别是空间自回归模型(Spatial Auto Regressive Model , SAR) 与空间误差模型(Spatial Error Model , SEM),空间自回归模型研究各变量在一个地区是否有扩散效应,空间误差模型考察邻接地区关于因变量的误差冲击对本地区观察值的影响。其表达式分别为: 其中,Y 为因变量;W 为n n ?阶的空间权重矩阵,权数系数可以根据实际情况决定,一般用邻接矩阵;Wy 为空间滞后因变量,反映了空间距离对区域行为的作用;ρ为空间自回归系数,反映相邻区域的观测值Wy 对本地区观察值y 的影响方向和程度;X 为k n ?的外生解释变量向量(包括常数项),β为变量系数,反映了自变量X 对因变量Y 的影响;ε为误差成分;λ为1?n 的因变量向量的空间误差系数,衡量了相邻地区的观察值Y 对本地区观察值Y 的影响方向和程度;γ为正态分布的随机误差向量。上述两种模型的估计如果仍采用OLS ,往往导致各种结果和推论不够完整、科学。本文采用极大似然法估计参数。常用检验准则有拟合优度R 2 和对数似然值LogL 。拟合优度和对数似然值越大,模型拟合效果越好, 对数似然值最大的模型最好。 ( 一) 空间权重矩阵的选取 空间权重矩阵 w 表征了空间单位之间的相互信赖性与关联程度。实证研究中,通常采用相邻规则与距离规则来定义空间加权矩阵。为了研究需要,本文从地理位置特征与社会经济特征两个不同角度分别建立包括相邻规则与距离规则的空间加权矩阵,以便更准确地把握房价的区域相关关系。 1. 地理位置特征加权矩阵。 本文采用两种常用的地理位置特征矩阵体现房价的空间相关关系:第一种是空间相邻加权矩阵 W1,其中的元素 wi ,j= 1表示两个地区拥有共同的边界,wi ,j= 0 表示两个地区没有共同的边界,然后对矩阵进行标准化处理。为了避免“单

地理加权回归模型介绍

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的 地理位置嵌入到回归参数之中,即: 式中:(u i ,v i )为第i个样点的坐标(如经纬度);β k (u i ,v i )是第i个样点 的第k个回归参数;ε i 是第i个样点的随机误差。为了表述方便,我们将上式简写为: 若β1β=β2β=?=βββ,则地理加权回归模型(GWR)就退变为普通线性回 归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据 对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘 法来估计参数,得

地理加权回归模型介绍

第三章地理加权回归模型介绍 3.1 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据 的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的 第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为: 若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的 估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中:

地理加权回归模型介绍

地理加权回归模型介绍 Company Document number:WTUT-WT88Y-W8BBGB-BWYTT-19998

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估

使用地理加权回归模型探索空间异质性的R包汇编

使用地理加权回归模型探索空间异质性的 R包

使用地理用加权模型探索空间异质性的R包 地理加权模型(GW model)包括的功能有:地理加权汇总统计(GW summary statistics),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA),地理加权回归(GW regression),地理加权判别分析(GW discriminant analysis),其中一些功能有基本和稳健形式之分。 The GWmodel package comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): Gaussian(高斯核函数): Exponential: Box-car(盒状核函数): Bi-square(二次核函数):

Tri-cude(立方体和函数): 一、GW汇总统计(DubVoter) GW汇总统计(GW summary statistics)包括基本的 GW 汇总统计和稳健的 GW 汇总统计. 基本的 GW 汇总统计包括GW 均值, GW 标准差, GW measure of skew和GW 皮尔逊相关系数. 稳健的 GW 汇总统计包括GW 中位数, GW 四分位间距和GW quantile imbalance(GW不平衡分位数) GW 标准差反映一个数据的离散程度。 GW四分位数间距可反映变异程度的大小。 由这两幅图可以看出在中部和西部四分位数间距和标准差值比较大,第一幅图比第二幅图更显著一些。

地理加权步骤

1. 数据准备 明确因变量和解释变量指标(有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2. 回归分析 将准备好的数据导入spss(一般可以直接在spss里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 图1 3. 地理加权回归 将带有因变量和解释变量数据的点shp文件导入ArcGIS。打开工具箱-空间统计工具- 空间关系建模-地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认范围为点shp,一般比研究范围要小一些)。

图2 图3 图4 操作完成后运行一段时间,时间大小与ArcGIS版本有关,运行完毕得到解释变量的系数栅格以及截距栅格(图5)。

图5 4. 裁剪 打开工具箱-数据管理工具-栅格-栅格处理-裁剪(图6)。 (1)输入需要裁剪的栅格; (2)输入底图文件(这个图就是我们最后想要得到的范围); (3)勾选“使用输入要素裁剪几何”,一定要勾选; (4)在输出栅格数据集处选择存储裁剪文件的位置并命名; (5)其他全部默认,点击确定。 图6 得到解释变量和截距的系数栅格图,分析其与有机碳密度的相关关系。

地理加权回归---理论整理

1.名词解释: 空间效应是空间计量经济学的基本特征,它是反映着空间因素的影响。空间效应可分为空间相关性和空间异质性。 (1)空间自相关性 自相关的这个“自”,表示你进行相关性观察统计量,是来源于不同对象的同一个属性,比如两学生(不同对象),同时对他们的数学成绩(统一属性)进行统计,如果他们同桌(空间邻接),而且A考得好B就考得好,A考不好B也考不好(高端相关),那么基本上就可以判定他们他们的空间自相关性很强——有考试串通作弊的行为。 (2)空间异质性(spatial heterogeneity):是指因为空间位置的不同而引发的获取到不同的数据(因为观察位置不同,而引发的不同特征)。空间异质性与空间自相关的表示方法还是有所不同的,它无法用一个具体的指数或指标来描述。更好的形容他的话,它是一种性质、一种现象,或者说是一种在我们的分析过程中需要充分考虑的因素,以及一种解释某些异常变化的原因。一般来说,空间异质性,会用来解释,在不同的区域,某些类别数值相互之间的关系产生变化的原因,揭示这个变化的规律或者原因产生积极的作用。 (3)空间差异(spatial disparity)是指不同地域范畴因为(社会、经济等)发展水平及其结构不同,而产生的差异 (4)空间非平稳性是空间异质性的一种表现形式,不能等同。因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。 (5)在空间统计中,零假设指的是空间位置在一定区域里呈现完全随机(均匀)分布。

2.地理加权回归的由来 伪吃货眼里的中国地图吃货眼里的地 图 以上两图就是用全局眼光和局部眼光两个角度对中国美食的定义。一直以来,我们都在赞美全局思维,批判局部思维,比如“盲人摸象”等。但是在分析的时候,很多时候,全局的思路反而会带来各种问题,比如:寒冷的冬季,全国天气预报温馨提示:全国平均温度18℃,18℃对于人体来说应该是比较适宜、舒服的温度,但是,你在此时身在东北,这里的气温明明已经达到了零下十几度。我们不能说天气预报不准确,因为综合考虑以海南为代表的南方气温以及以哈尔滨为代表的北方气温,得到这个数字是完全正确的。所以,这种全局的思考模式在实际生活中是很难得到应用的。 从概念上来说,进行分析的时候,全局模式(global model)在分析之前,就假定了变量的关系具有同质性(homogeneity),从而掩盖了变量间关系的局部特征,所得到的结果是研究区域内的某种“平均”。 但是就像上面所举的“全国各地区气温存在差异”的例子,这种因为地理位置的变化,而引起的变量间关系或结构的变化称之为“空间非平稳性”。

地理加权回归模型介绍

地理加权回归模型介绍 Prepared on 24 November 2020

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986;Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i,v i)为第i个样点的坐标(如经纬度);βk(u i,v i)是第i个样点的第k个回归参数;εi是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1k=β2k=?=βnk,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种估

地理加权回归模型介绍

地理加权回归模型介绍 LG GROUP system office room 【LGA16H-LGYY-LGUA8Q8-LGA162】

第三章地理加权回归模型介绍 基本模型 在地学空间分析中,n组观测数据通常是在n个不同地理位置上获取的样本数据,全局空间回归模型就是假定回归参数与样本数据的地理位置无关,或者说在整个空间研究区域内保持稳定一致,那么在n个不同地理位置上获取的样本数据,就等同于在同一地理位置上获取的n个样本数据,其回归模型与最小二乘法回归模型相同,采用最小二乘估计得到的回归参数户既是该点的最优无偏估计,也是研究区域内所有点上的最优无偏估计。而在实际问题研究中我们经常发现回归参数在不同地理位置上往往表现为不同,也就是说回归参数随地理位置变化,这时如果仍然采用全局空间回归模型,得到的回归参数估计将是回归参数在整个研究区域内的平均值,不能反映回归参数的真实空间特征。为了解决这一问题,国外有些学者提出了空间变参数回归模型(Spatially Varying-Coeffi Cient Regression Model)(Fosterand Gorr,1986; Gorrand Olligschlaeger,1994),将数据的空间结构嵌入回归模型中,使回归参数变成观测点地理位置的函数。Fortheringham等(Brunsdonetal,1996;Fortheringham et al,1997;Brunsdon et al,1998)在空间变系数回归模型基础上利用局部光滑思想,提出了地理加权回归模型(Geographieally Weighted Regression Model-GWR)。 地理加权回归模型(GWR)是对普通线性回归模型(OLR)的扩展,将样点数据的地理位置嵌入到回归参数之中,即: 式中:(u i ,v i )为第i个样点的坐标(如经纬度);β k (u i ,v i )是第i个样点的 第k个回归参数;ε i 是第i个样点的随机误差。为了表述方便,我们将上式简写为:若β1β=β2β=?=βββ,则地理加权回归模型(GWR)就退变为普通线性回归模型(OLR)。 Fotheringham et al依据“接近位置i的观察数据比那些离i位置远一些的数据对的估计有更多的影响”(Fotheringham et al,1996)的思想,利用加权最小二乘法来估计参数,得 其中: β?是β的估计值,n是空间样点数,k是自变量的个数,W in 是对位置i刻画模型时赋予数据点n的权重。 由于地理加权回归模型中的回归参数在每个数据采样点上都是不同的,因此其未知参数的个数为n×(P + l),远远大于观测个数n,这样就不能直接利用参数回归估计方法估计其中的未知参数,而一些非参数光滑方法为拟合该模型提供了一个可行的思路。Foste & Gorr(1986)和Gorr & Olligsehiaeger(1994)利用广义阻尼负反馈(generalized damped negative feedback)方法估计未知参数在各地理位置的值,这种

使用地理加权回归模型探索空间异质性的R包

使用地理用加权模型探索空间异质性的R 包 地理加权模型(GW model )包括的功能有:地理加权汇总统计(GW summary statistics ),地理加权主成分分析(GW principal comp- onents analysis,即GW PCA ),地理加权回归(GW regression ),地理加权判别分析(GW discriminant analysis ),其中一些功能有基本和稳健形式之分。 The GWmodelpackage comes with five example data sets, these are: (i) Georgia, (ii)LondonHP, (iii) USelect, (iv) DubVoter, and (v) EWHP. 运用GW model 的一个重要元素就是空间加权函数,空间加权函数量化(或套)观察到的变量之间的空间关系或空间相关性。空间目标及其位置临近关系的确定。 六个核函数的介绍: Global Model(均值核函数): w ij =1 Gaussian(高斯核函数):w ij =exp ?(?12(d ij b )2) Exponential:w ij =exp ?(? d ij b ) Box-car(盒状核函数):w ij = 1 if d ij

地理加权步骤

地理加权步骤 -CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

1. 数据准备 明确因变量和解释变量指标 (有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2. 回归分析 将准备好的数据导入spss(一般可以直接在spss里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 图1 3. 地理加权回归 将带有因变量和解释变量数据的点shp文件导入ArcGIS。打开工具箱-空间统计工具-空间关系建模-地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认范围为点shp,一般比研究范围要小一些)。

图2 图3 图4 操作完成后运行一段时间,时间大小与ArcGIS版本有关,运行完毕得到解释变量的系数栅格以及截距栅格(图5)。 图5 4. 裁剪 打开工具箱-数据管理工具-栅格-栅格处理-裁剪(图6)。 (1)输入需要裁剪的栅格; (2)输入底图文件(这个图就是我们最后想要得到的范围); (3)勾选“使用输入要素裁剪几何”,一定要勾选; (4)在输出栅格数据集处选择存储裁剪文件的位置并命名; (5)其他全部默认,点击确定。

地理加权步骤

地理加权步週OYEAR-YICAIEJINGBIAN

1.数据准备 明确因变量和解释变量指标(有机碳密度是因变量,温度、降水量、粘粒含量是解释变量指标),准备好每个样点的因变量及解释变量指标数据,必须是数值。 2.回归分析 将准备好的数据导入SPSS (—般可以直接在SPSS里面打开)做逐步回归,选择进入的指标作为解释变量,温度、降水量、粘粒含量三个指标全部进入。 t Sig. G标淮谏差试用版 1 (常列 a z ave 1 121 148 072 .015.444 16.458 9.904 .000 .000 2 (常呈) 平均气温1.706 132 .129 015 008 .397 -.239 13.249 8.97B -541 B .000 000 000 3 a^_ave 平 沟气温 'm 1 506 125 ?057 001 149 015 009 000 .375 -.307 .131 10.124 8.391 ? 6.034 2.621 000 000 009图1 3?地理加权回归 将带有因变量和解释变量数据的点Shp文件导入ArcGIS o打开工具箱■空间统计工具■空间关系建模■地理加权回归(图2)。 (1)输入要素添加shp文件; (2)因变量选择作为因变量的字段; (3)解释变量选择作为解释变量的字段; (4)选择一个放置“加权点”的位置并命名,生成的加权点包含点数据的回归系数、预测值和残差等; (5)核类型、带宽方式等如果无特殊要求,默认即可; (6)打开附加参数选项,在系数栅格工作空间中创建一个新的数据库并命名(图3),用以存储解释变量的系数栅格以及截距栅格; (7)像元大小选择合适的栅格大小(旱作区选择2000感觉还可以,可自行调试); (8)打开环境设置选项(图4),在范围处理中选择底图图层(否则默认 范围为点shp, 一般比研究范围要小一些)。

地理加权回归-空间分析

地理加权回归-空间分析 1.1 地理加权回归 空间回归模型中的回归系数β不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(Geographically Weighted Regression, GWR )的提出。地理加权回归同时考虑了空间的相关性与异质性。 地理加权回归模型一般形式如下: ()()()()01122,,,,i i i i i i i i i p i i ip i y u v u v x u v x u v x ββββε=+++?++ 1,2i n =?,,;1,2,j p =?, 其中,i y 与12,,,i i ip x x x ?是因变量y 与自变量12,,,i i ip x x x ?在(,)i i u v 处的观测值,(,)i i u v 为第i 个采样点的坐标,(),k i i u v β是第i 个采样点上的第k 个回归参数,点i 被称为回归点。()2ε~0,i N σ,当i j ≠时,(),0i j Cov εε=。简便记为: 01p i i ik ik i k y x ββε==++∑ 1,2,,i n =? 地理加权回归会得出n 个回归方程,对应每个回归点i ,都会有一个回归方程。若12k k nk βββ==?=,则地理加权回归模型退化为普通线性回归模型。 模型回归参数需要通过局部加权最小二乘进行估计。假设在位置(,)i i u v 的权 重为(,)j i i w u v ,(1 ,2,,j n =),那么位置(,)i i u v 的参数估计为使()()()211221(,)n i j i i i i i i i i i p i i i p j w u v y u v x u v x u v x βββ=??-+-+-?-+??∑达到 最小的β值。 上式中的ij w 为权函数,反映其他观测点的样本对回归点的影响。权函数值 越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:

相关文档