文档库

最新最全的文档下载
当前位置:文档库 > SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

空间统计与地学分析

实验报告

学院:资源与环境科学学院

专业:地图学与地理信息系统

姓名:李庆君

学号: 2014202050050 教师:赵羲

日期: 2014-12-23

目录

空间统计分析课程实习 (3)

1、实验目的 (3)

2、实验数据 (3)

3、实验内容 (3)

3.1 空间描述性统计 (3)

3.1.1 描述性分析概念 (3)

3.1.2 描述性分析原理 (3)

3.2 相关性分析 (3)

3.2.1 双变量分析概念 (3)

3.2.2 相关性分析 (3)

3.2.3 回归分析 (4)

3.3 空间点格局 (4)

3.2.1空间点格局概念 (4)

3.2.2点格局识别 (4)

3.2.3最临近距离统计 (4)

3.4数据挖掘 (5)

3.4.1数据挖掘概念 (5)

3.4.2空间统计分析 (5)

3.4.3空间自相关 (5)

3.4.4 空间数据插值 (6)

4、实验步骤 (6)

4.1 描述性统计分析 (6)

步骤一:打开SPSS IBM SPSS Statistics 19 (6)

步骤二:加载ChinaProvinceData.xls数据 (7)

步骤三:对省边界区域数据进行描述性分析 (8)

数据分析: (10)

4.2 计算属性相关性 (11)

步骤一:打开相关性分析对话框 (11)

步骤二:相关性分析参数设置 (11)

步骤三:执行相关性分析 (12)

数据分析: (13)

4.3 探究各省市自治区中心的聚集情况 (13)

步骤一:加载数据 (14)

步骤二:实现面状数据提取几何中心 (14)

步骤三:计算几何中心经纬度 (16)

步骤四:几何中心数据导出为dbf格式 (17)

步骤五:利用CrimeStat探索各省市自治区几何中心数据的分布规律 (18)

步骤六:空间分析选项卡参数设置 (18)

数据分析: (19)

4.4 空间数据挖掘 (20)

4.4.1 空间自相关 (20)

步骤一:打开GeoDa空间分析软件 (20)

步骤二:创建空间权重矩阵 (21)

步骤三:通过Moran’s I全局空间自相关分析 (21)

步骤四:通过Moran’s I的散点图全局空间自相关分析 (22)

数据分析: (23)

4.4.2 空间差值 (23)

步骤一:打开ArcGIS Desktop10.2 (23)

步骤二:Voronoi插值参数设置 (24)

数据分析: (25)

5、实验心得 (25)

空间统计分析课程实习

1、实验目的

通过《空间统计与地学分析》课程中所学到的空间统计相关原理与理论,利用空间统计描述方法和假设统计验证方法等多种数理统计方法,已提供全国统计数据(China Province Data)与省区域边界(ChinaData.shp),练习如何利用基本的基础统计和空间统计工具对目标的属性特征和空间分布进行深入分析和信息挖掘。

2、实验数据

全国的统计数据(chinaProvinceData),省区域边界(ChinaData.shp)

各省的属性包括:名称、面积、人口、GDP、城镇人均收入、农村人均收入、文盲率。

3、实验内容

3.1 空间描述性统计

3.1.1 描述性分析概念

描述性分析过程主要用于对连续变量做描述性分析,可以输入多种类型的统计量,也可以将原始数据转换成标准Z分值饼存入当前数据集。

3.1.2 描述性分析原理

描述性分析主要是针对数据进行基础性描述,主要用于描述变量的基本特征。SPSS中的描述性分析过程可以生成相关的描述性统计量,如:均值、方差、标准差、全距、峰度和偏度,同时描述性分析过程还将原始数据转换为Z分值并作为变量储存,通过这些描述性统计量,我们可以对变量的综合特征进行全面的了解。

3.2 相关性分析

3.2.1 双变量分析概念

双变量分析目标是确定两个变量之间的相关性,测量它们之间的预测或解释的能力。双变量统计分析技术包括:相关分析和回归分析。

3.2.2 相关性分析

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两

个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了我们所见到的方方面面,相关性在不同的学科里面的定义也有很大的差异。

在统计学中,相关性系数的计算过程可表示为:将每个变量都转化为标准单位,乘积的平均数即为相关系数。两个变量的关系可以直观地用散点图表示,当其紧密地群聚于一条直线的周围时,变量间存在强相关性。

3.2.3 回归分析

回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。

正确应用回归分析预测时应注意:

①用定性分析判断现象之间的依存关系;

②避免回归预测的任意外推;

③应用合适的数据资料;

3.3 空间点格局

3.2.1空间点格局概念

空间点格局是一系列不规则地分布于研究区域中的点位组成,不考虑点位上的属性值,由某种未知的随机机制生成。

3.2.2点格局识别

点格局识别关注的是研究区域内的点在空间上分布的特征和相互关系,即空间分布格局,如聚集、随机、均匀分布等。常用的点要素空间分布格局识别方法包括样方分析、最邻近距离指数和K函数分析。

3.2.3最临近距离统计

最临近距离统计(Nearest Neighbor Indicator,NNI)是统计点间最近距离均值。其思路是检验每个点所占据的面积,即通过比较计算最邻近点点对的平均距离和随机分布模式中最邻近的点对的平均距离,用其比值(NNI)判断其与随机分布的偏离。

NNI=d(NN) d(ran)

式中,NNI为最邻近距离指数;d(ran)为空间随机分布条件下的理论平均距离,其取值一般为d(ran)=0.5A n,A为研究区域面积。

3.4数据挖掘

3.4.1数据挖掘概念

数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

3.4.2空间统计分析

由于空间现象之间存在不同方向、不同距离成分等相互作用,使得传统的数理统计方法无法很好地解决空间样本点的选取、空间估值和两组以上空间数据的关系等问题,因此,空间统计分析应运而生。

空间统计学是以区域化变量理论为基础,以变异函数为主要工具,研究具有地理空间信息特性的事物或现象的空间相互作用及变化规律的学科。

空间统计分析的重要任务:揭示空间数据的相关规律和利用相关规律进行未知点预测。由于空间统计分析包含这两个显著的任务,所以涉及两次使用样点数据,第一次用作估计空间自相关,第二次用作未知点预测。

3.4.3空间自相关

空间自相关统计量是用于度量地理数据(geographic data)的一个基本性质:某位置上的数据与其他位置上的数据间的相互依赖程度。通常把这种依赖叫做空间依赖(spatial dependence)。地理数据由于受空间相互作用和空间扩散的影响,彼此之间可能不再相互独立,而是相关的。例如,视空间上互相分离的许多市场为一个集合,如市场间的距离近到可以进行商品交换与流动,则商品的价格与供应在

空间上可能是相关的,而不再相互独立。实际上,市场间距离越近,商品价格就越接近、越相关。

计算空间自相关的方法有许多种,然最为知名也最为常用的有:Moran’s I、Geary’s C、Getis、Join count等等。

3.4.4 空间数据插值

空间插值:空间插值常用于将离散点的测量数据转换为连续的数据曲面,以便与其它空间现象的分布模式进行比较,它包括了空间内插和外推两种算法。空间内插算法:通过已知点的数据推求同一区域未知点数据。空间外推算法:通过已知区域的数据,推求其它区域数据。

泰森多边形插值为一种整体内插方法,它是在保证在多边形内部区域不变情况下的一种插值,可以直观的显示出某属性在空间中的分布情况。

4、实验步骤

4.1 描述性统计分析

步骤一:打开SPSS IBM SPSS Statistics 19

打开IBM SPSS Statistics 19,在打开现有数据源中的选择需要处理的数据省区域边界(ChinaData.shp),如图4.1.1所示

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.1 IBM SPSS Statistics 19 打开数据对话框

步骤二:加载ChinaProvinceData.xls数据

打开EXCEL数据源对话框中,工作表选项设置为Data[A1:G35],之后点击确定,如图4.1.2所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.2 打开EXCEL 对话框

加载的数据共有34行,代表34个省市自治区,数据有七个属性,分别为:名称(Admin_Name)、面积(Area_km2)、人口(Pop2008)、GDP(GDP_09_RMB)、城镇人均收入(RMB_PC_urb)、农村人均收入(RMB_PC_rur)、文盲率(Illiterate-cnt)SPSS中加载数据如图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.3 SPSS中加载省数据(ChinaData.shp)

步骤三:对省边界区域数据进行描述性分析

首先在菜单栏中选择分析→描述统计→描述,打开描述性分析对话框,如图4.1.4所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.4 利用SPSS中的描述性统计分析数据

将属性面积、人口、GDP、城镇人均收入、农村人均收入、文盲率添加到变量窗口中,对以上六个变量进行描述性统计分析,如图4.1.5所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.5 将变量加入到待分析窗口

单击选项,选择需要计算的描述性统计量,本文中选择均值、合计、标准差、方差、最大值、最小值、偏度、峰度、范围。对以上描述性统计量进行计算,分

析各个属性的统计情况,如图4.1.6所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.6选择描述性统计指标对话框

执行分析计算,可得到各属性的描述性统计量表格,包括了个数统计、全距、最大值、最小值、均值、标准差、方差、偏度、峰度等分析指标。

以下对每个指标进行相应介绍:

①全距:

全距是用来表示统计资料中的变异量数(measures of variation),其最大值与最小值之间的差距;即最大值减最小值后所得之数据。其适用于等距变量、比率变量,不适用于名义变量或次序变量。

②均值:

均值分析可以分为算数平均数、调和平均数以及集合平均数三种。

算数平均数算术平均数是集中趋势最常用、最重要的测度值。他是将总体标志总量处理总体单位总量而得到的均值。算是平均数的基本公式是:

算数平均数= 总体标志总量/ 总体单位总量

③标准差:

标准差(Standard Deviation),中文环境中又常称均方差,但不同于均方误差(mean squared error,均方误差是各数据偏离真实值的距离平方的平均数,也即

误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。

④方差:

方差是各个数据分别与其和的平均数之差的平方的和的平均数,用字母D表示。在概率论和数理统计中,方差(Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着重要意义。

⑤偏度:

偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。

⑥峰度:

又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了尾部的厚度。

通过SPSS计算,得到一下描述性统计量表格,如图4.1.7所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.1.7 各属性描述性统计量表

数据分析:

①由2008年的人口数据全距可以得出,中国人口13亿,但是两个省份的人口差距接近1亿,可以看出国内人口分布密集差异比较大。

②由均值可以清楚的看到,每个省的平均文盲人数达到了283万,而每个省平均人口为3962万,从而得出各省文盲率为7.14%。这意味着每14个人中就有一位是文盲,比例较高,对于我国实行“科教兴国”战略提成了较大的难题。

③由标准差和偏度可以得出,GDP的标准差为9.406E11而偏度为1.331,其中偏度统计量GDP是人口的两倍多,从这里可以看到,国内每个省的生产总值是有较大差距的。这在一方面能间接体现出来我国各省份区域发展的不平衡。在东部沿海地区基础好、投资效益高的情况下,实行了向东部倾斜的区域经济政策,促进了国民经济的全面高涨和新的经济增长源的形成。然而,与之相伴随的区域差距的日益显现,这违背了我国和谐发展战略。

④同理在相同标准误差的情况下,GDP的峰度明显高于人口,则GDP分布就有更多的极端值,说明其余值必然要更加集中在众数周围,其分布必然就更加陡峭,表明各省份GDP非常不平衡。

4.2 计算属性相关性

考虑到省边界区域数据中几个属性的意义,城镇人均收入与GDP生产总值应该有较大的相关性,本文对于这两个属性进行相关性分析。

步骤一:打开相关性分析对话框

在已经打开数据的情况下,点击分析→相关→双变量,打开相关性分析对话框,如图4.2.1所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.2.1利用SPSS中的双变量线性分析变量

步骤二:相关性分析参数设置

变量选择框中选择GDP_09_RMB(GDP)和RMB_PC_urb(城镇人均收入)两个变量,由于两个变量都是连续性的变量,选择Pearson 分析方法更加适合。分

析设置如下图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图 4.2.2利用双变量相关分析GDP与城镇人口收入相关性步骤三:执行相关性分析

点击确定后,可得到分析结果表格,如下图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.2.3 GDP与城镇人均收入相关性计算结果

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.2.4 农村人均收入与城镇人均收入相关性计算结果

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.2.5 文盲率与城镇人均收入相关性计算结果

数据分析:

①由图4.2.3可知,GDP国内生产总值与城镇人均收入的相关性为0.507,为中等程度相关,可得出结论:城镇人口的收入在一定程度上影响着我国的国内生产总值。

②由图4.2.4可以看到,城镇人均收入与农村人均收入的相关性高达0.946,表现为极强相关。可得出结论,在同一省份的条件下,其城镇收入与农村收入相互决定。

③由图4.2.5可以看到,文盲率与城镇人均收入Pearson相关性为-0.161,相关性为负,可知文盲率和城镇人均收入呈现负相关,这也符合我们的现实规律。由于人口文盲率较高,这一定程度影响了人们创造财富的能力,造成人均收入较低。

4.3 探究各省市自治区中心的聚集情况

以了解到可以通过ArcGIS Desktop将面状数据转换为点状数据,即提取面的几何中心。本文中,即利用ArcGIS 10.2转化数据。

步骤一:加载数据

打开ArcGIS 10.2,并加载省边界区域数据(ChinaData.shp),界面中可看到中国各省市自治区的面状数据,如图4.3.1所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.1 ArcGIS10.2添加省边界区域数据(ChinaData.shp)

步骤二:实现面状数据提取几何中心

首先单击地理处理菜单栏,选择Arctoolbox,可打开Arctoolbox对话框,ArcGIS 在这里给用户提供了大量的空间数据处理和分析的工具以及方法。如下图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.2 Arctoolbox中的地理数据处理工具

本文中利用数据管理工具来提取各省市自治区的几何中心。选择数据管理工具→要素→要素转点,打开要素转点对话框,并输入要素图层(ChinaData),选中“内部”复选框,如图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.3 要素转点参数设定对话框

确定执行后,可得到结果图如下,如图所示,每个省市自治区都有内部都提取出一个几何中心,用以代表整个区域。

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.4 面状要素提取几何中心

步骤三:计算几何中心经纬度

在ArcGIS10.2中打开几何中心属性表,在表选项中选择添加字段选项,新建Lon和Lat字段,用以存储几何中心的经纬度。然后右键单击Lat字段,选择计算几何选项,如图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.5 对Lat属性进行计算几何

Lat即纬度,所以在选项框中本次计算Y坐标值,其中使用数据源坐标系本文选择GCS: WGS 1984,具体设置如图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.6 计算几何对话框参数设置

同理,可以计算出经度Lon,可得到计算后的结果如下图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.7 获取各省市自治区几何中心的经纬度坐标结果步骤四:几何中心数据导出为dbf格式

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.8 几何中心数据导出

步骤五:利用CrimeStat探索各省市自治区几何中心数据的分布规律打开CrimeStat.exe,进入到页面设置,首先选择刚才导出的数据(Export_Output.dbf),在变量设置选项中,X设置为Lon,Y设置为Lat。如图所示:

SPSS,GeoDa,ArcGIS,SaTScan,空间分析空间统计与地学分析课程报告

图4.3.9 CrimeStat导入数据并进行XY坐标设置

步骤六:空间分析选项卡参数设置

首先选择Spatial Description再选择Distance Analysis选项卡→Nearest Neighbor Analysis,其中Border设置为Circle,表示为圆形边界区域的数据也计算在内,并执行计算,如图所示: