文档库 最新最全的文档下载
当前位置:文档库 › 人口数据空间化研究综述_柏中强

人口数据空间化研究综述_柏中强

人口数据空间化研究综述_柏中强
人口数据空间化研究综述_柏中强

第32卷第11期2013年11月

地理科学进展

PROGRESS IN GEOGRAPHY

V ol.32,No.11Nov.,2013

收稿日期:2013-06;修订日期:2013-09.基金项目:国家科技基础性工作专项重点项目(2011FY110400);国家科技基础性工作专项课题项目(2012FY111800-05)。作者简介:柏中强(1988-),男,博士研究生,主要研究方向为基于格网的区域人口时空模拟。E-mail :baizq@https://www.wendangku.net/doc/167173392.html, 通讯作者:王卷乐(1976-),男,博士,副研究员,主要从事格网化资源环境综合科学调查研究。E-mail :wangjl@https://www.wendangku.net/doc/167173392.html,

1692-1702页

1引言

人口数据是表征人类活动最直接的指标之一,

在生态环境保护、灾害风险评估与救援、商业决策、区域规划与开发等领域广泛运用。人口统计数据通常以行政区为单元逐级统计和汇总而来,以严谨的统计学理论和方法作为支撑,具有权威、系统、规范的特点(胡云峰等,2011)。但是当此类数据应用于空间分析或跨学科研究时,会出现如下问题:①人口统计数据所依赖的行政单元(省、市、县、乡镇等)与实际研究中的自然单元(流域、土壤类型单元、植被类型单元、样带等)边界不一致,从而造成地学研究中的“可变元问题”(Openshaw et al,1983;杨小唤等,2002);②以行政区平均密度来表征的人口空间分布信息不能在小尺度上体现人口空间分布特征,其精度也无法达到许多科学研究和工程应用的要求;③时间分辨率低,更新周期长,中国国家层面的人口普查一般是每10年进行一次,而其他大多数发展中国家的更新周期更长;④不便于可视化和空间分析操作,不利于表现和挖掘人口的分布规律及其模拟和预测研究。

以现代对地观测技术和地理信息空间分析与模拟技术为支撑,“社会数据空间化”和“空间数据

社会化”(Pixelizing the Social and Socializing the

Pixel)成为学界关注的焦点(Jacqueline et al,1998;蒋耒文,2002),人口数据空间化作为其典型代表和重要研究领域,对人口统计数据形成了有益补充。

人口数据空间化,是基于人口空间分布模型或采用一定的计算方法或算法,对人口统计数据进行离散化处理,发掘并展现其中隐含的空间信息,以便模拟或再现客观世界的人口地理分布。空间化工作的输入包括人口统计数据、行政界线、对人口分布具有指示作用的建模参考要素等,输出为人口分布格网表面(人口数据格网化)或满足特定区域划分要求的人口分布数据(区域人口估计)。这一研究的科学意义和应用价值主要表现在:①空间化的人口数据能够更真实地刻画人口空间分布,信息容量增加,能够促进以人口数据为素材的相关研究和应用的发展;②格网化人口数据能够便利地进行空间分析和地学模拟,易于和遥感数据源进行复合研究,为多源多尺度数据融合提供了新的思路和模式;③人口数据空间化模型可应用于空间化人口数据内插和预测,为快速、低成本的人口数据获取提供了新手段,有益于提高人口数据的时间分辨率信息;④人口数据是典型的统计型社会经济数据,其空间化方法与应用研究对于其他社会经济要素

人口数据空间化研究综述

柏中强1,2,王卷乐1,杨飞1

(1.中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京100101;2.中国科学院大学,北京100049)

要:人口数据空间化研究旨在发掘和展现人口统计数据中隐含的空间信息,并以地理格网或其他区域划分的

形式再现客观世界的人口分布,具有重要的科学意义。人口空间分布数据有助于从不同地理尺度和地理维度对人口统计数据形成有益补充,其应用广泛,相关研究方兴未艾。主要从以下3个方面对人口数据空间化研究进行综述:①主要空间化方法的原理及其适用性;②空间化中用到的建模参考因素,并结合具体应用案例分析其作用机理;③典型人口空间化数据集。在此基础上,分析了现阶段人口数据空间化所运用的输入数据的质量和详细程度、尺度效应及时空分辨率、长时间序列数据集和精度检验等方面存在的问题;并探讨了人口数据空间化未来的研究方向。

关键词:人口数据;空间化方法;建模要素;数据集doi:10.11820/dlkxjz.2013.11.012

11期柏中强等:人口数据空间化研究综述

(如GDP、资源)具有引领和示范作用。

2主要研究进展

2.1主要空间化方法

采用何种计算方法或算法对人口统计数据进行离散化处理是人口数据空间化研究的核心内容。学界对人口数据空间化方法进行了一定的总结,Wu等(2005)将基于遥感和GIS的人口估计方法分为区域插值和统计建模两大类,符海月等(2006)将人口数据空间化模型归为面积权重模型、土地利用类型影响模型、重力模型、多源数据融合模型等5种,林丽洁等(2010)则总结出了10种模型。本文从人口数据空间化方法的发展历程和基本原理的角度出发,将其归纳为城市地理学中的人口密度模型、空间插值方法、基于遥感和GIS的统计建模方法等3类。

2.1.1城市地理学中的人口密度模型

城市地理学中的人口密度模型主要有距离衰减模型和异速生长模型两类。距离衰减模型刻画了城市人口密度从中心向外围递减的趋势,模型参数有城市中心人口密度、城市影响力范围(城区半径)等,如负指数模型(Clark et al,1951)、基于高斯分布的Smeed模型、基于重量—质量—距离理论的重量人口分布模型等(江东等,2002);异速生长模型(陈彦光,2000)认为在区域城市化的过程中,城市人口密度和建设用地之间通常具有异速生长关系和分形几何结构,从而发展出了基于城市人口数量和建设用地面积的异速生长模型。

城市地理学中的人口密度模型可以对城镇人口分布规律做宏观描述。现代城市的多中心分布及区域规划导致的城区范围不规则等带来了许多不确定性,使得城区半径和建设用地分布不足以刻画城区人口分布规律。这些模型在现阶段对于城区人口空间化具有一定的参考意义,但更多的是运用于城区人口分布规律实证研究。

2.1.2空间插值方法

空间插值的理论基础是假设空间位置上越靠近的点,越可能具有相似的特征值。依照空间插值法在人口数据空间化中的应用范式,将其概括为面插值法、点插值法和地统计学方法。

(1)面插值法

Fisher等(1995)将面插值方法分为3类:面积权重法、回归分析法和表面生成法。面积权重法是面插值中最基本的方法,其他方法均是在其基础上增加约束条件演变出来的,其基本原理是:假设人口在各行政单元内均匀分布,根据格网内各行政单元的面积,以人口密度作为桥梁,完成人口数据从行政单元向网格单元的转化。典型研究如吕安民等(2002)、Mennis(2003)、范一大等(2004)。面插值法的优点是简洁易行、具有人口数量的保值性,同时也能够在一定程度上消除行政界线两侧数据的突变特征,适合简单的人口统计数据与自然地理数据的集成研究。其缺点是仅仅完成了数据表现格式的转换,刻画真实人口分布的能力较弱。

(2)点插值法

点插值法的基本原理是用一定抽样规则的点代替表面,进而进行插值加密(Martin,1989, 1996)。根据参与运算的点选择范围的不同,可以分为局部点插值和全局点插值。核密度函数法是最常用的人口数据点插值方法(吕安民等,2002)。点插值法中,插值方法和点的采样规则对结果影响显著。采用点插值法生成的人口空间化结果,一般用于展现和分析人口分布的格局和趋势。其不足之处是,用点来表征区域人口密度本身就引进了误差,且许多点插值方法有特定的假设条件,这些因素都导致了插值结果有一定的数量误差。

(3)地统计学方法

地统计学方法运用于人口数据空间化中,主要有两个方面:一是利用空间变异理论对城市人口密度结构和尺度效应等进行分析,如杜国明等(2007)、匡文慧等(2011);二是利用协同克里金法进行格网化插值,如Liu等(2003)。协同克里金法进行人口数据空间化插值的原理是:将人口密度值分解为稳定的空间量(漂移)和随机变量(残差)两部分,漂移值可以利用线性回归法求解,残差利用协同克里金插值法得到。该方法的优点在于估计残差值的次要变量能够弥补估计漂移值的主要变量信息不足的问题,能够充分利用多种辅助信息,理论基础牢靠,估计结果精度较高;缺点在于模型复杂,实现较为困难。

面插值法和点插值结果的分辨率一般为几十千米(范一大等,2004),直接限制了其应用领域。地统计学方法易于和高分辨率遥感数据源结合,在区域精细尺度人口估计方面具有独到优势(Liu et al, 2008),是近年来的研究热点。

2.1.3基于遥感和GIS的空间化方法

遥感和GIS为人口数据空间化提供了重要的研究手段,主要体现在:遥感可以直接或间接提供地表波谱反射率、植被指数、不透水面、土地利用等

1693

地理科学进展32卷

多种地表参数信息;通过GIS技术可以建立专题要素空间分布的地理因子库;GIS提供了大量的空间分析方法和途径(王雪梅等,2004)。近20年来,基于遥感和GIS的人口数据空间化方法成为主要的空间化方法,本文将其归纳为土地利用类型法、多源信息融合法和基于像元特征的空间化方法等3类。

(1)土地利用类型法

土地利用类型法假设研究区内各种土地利用类型上的人口分布均一,根据一定数量的研究区内各种土地利用类型的面积和对应的人口统计数据求得各种土地利用类型的人口密度,进而以格元内各土地利用类型的面积作为权重实现人口统计数据格网化。基于该原理,中国科学院资源环境科学数据中心生产了中国1995、2000和2003年的公里格网人口数据集。土地利用类型法要求研究区内的人口分布规律具有某种一致性,分区建模、分城乡建模、分县控制是其经常采取的控制手段。该方法已是较为成熟和普遍的方法,原理简单,精度较高,其不足之处是无法反映各种土地利用类型的综合影响,不能反映人口分布的某些随机特征。

(2)多源信息融合法

多源信息融合技术能同时利用定性和定量数据,并能处理空间及时间尺度差异的问题。该方法用于人口数据空间化的基本流程是:选择多个与人口分布相关的指示性因子,分别定量描述其与人口分布的关系;以乘积或加权求和的方法将多因子融合为人口分布权重值;建立权重值与人口分布数据的关系,进而实现统计数据到格网密度面的转变。代表性的研究如廖顺宝等(2003a)、田永中等(2004)、UNEP/GRID、汪蓉(2011)等。该方法的优点是能够以较客观的方式选择人口分布的指示性因子,合理地赋予权重值;易于和GIS技术结合,统一了多种要素和模型,模拟结果精度较高,能比较真实地反映人口数据的空间分布情况。但其缺点在于因子权重确定的过程较为复杂,客观上增加了该方法推广应用的难度。

(3)基于像元特征的空间化方法

基于像元特征的空间化方法旨在直接建立人口分布与像元尺度的波谱反射率、纹理量、夜间灯光等特征量之间的关系,常用的遥感影像包括MO-DIS、TM、SPOT、IKONOS、QuickBird、航片等。波谱反射率信息包括各波段波谱值及其算术运算结果,常用纹理量包括粗细度、方向性和对比度等3种,夜间灯光数据包括灯光强度、灯光区面积等变量。近年来,直接提取像元尺度的城镇范围或居民地而进行人口数据空间化成为高分辨率空间化的重要手段(Linard et al,2012;Azar et al,2013)。像元特征估计模型多属于经验型统计模型,遥感数据自身的不确定性及区域差异导致其普适性较差。随着中分辨率和高分辨率影像越来越易于获取,像元特征估计法在提高人口数据空间化的时间和空间分辨率上有着不可比拟的优势,具有广阔的应用前景。2.2常用建模参考要素

有关学者对人口数据空间化过程的建模参考因素进行了一定的总结,例如林丽洁等(2010)将其归纳为水热条件、地形地貌、土地利用、交通廊道和夜间灯光等5类。本文按各要素的使用频率依次将其归纳为土地利用/土地覆被、交通廊道、地形地貌、居民点密度、夜间灯光、像元波谱反射率和纹理量等7类,并对典型研究案例进行回顾。

2.2.1土地利用/土地覆被

人口分布格局与土地利用/土地覆被格局具有耦合关系,而全球变化研究的兴起增加了土地利用/土地覆被数据的易获得性,使得其成为了人口数据空间化中最常用的要素。其主要作用方式有4种:①土地覆被中的水体、荒漠、冰川等类型为不适合人类居住区,在空间化中作为掩膜剔除;②居民地作为人类居住载体,在空间化中给予最高优先级或绝对权重;③假设区域内人口在建筑用地、耕地、草地等生产和生活用地内均匀分布,计算各种土地利用类型人口密度,根据格网单元的各土地利用类型面积进行空间化;④利用居住区面积进行区域人口估计。典型研究如Yuan等(1997)、杨小唤等(2002)、江东等(2002)、田永中等(2005)。土地利用/土地覆被数据的分类精度和详细程度决定了空间化结果的精度和尺度,为使应用更加简单,经常需要对土地利用数据简单重分类。

2.2.2交通廊道

交通廊道是人类活动的通道,其一定缓冲区范围内对人口分布具有凝聚作用。在实际运用中,主要是通过对线状要素进行缓冲区分析,进行回归建模赋权重或表达为通达性来刻画其对于人口空间分布的影响力。Yue等(2005)将铁路、公路密度归一化值作为重力模型的主要影响因子之一,分别模拟山东省与中国1km×1km的人口密度分布,并预测了2015年人口波动特点。田永中等(2004)利用1:100万和1:400万中国资源环境数据库,对主要铁路、公路、河流等通过缓冲区分析其与各种土地利用的关系,结果认为土地利用(特别是耕地、农村居

1694

11期柏中强等:人口数据空间化研究综述

民点)与交通廊道之间存在距离关系。UNEP/GRID 人口数据集利用基于道路和城市中心的通达性模型进行空间化。交通廊道在具体应用中需要对其作用指数、影响距离即衰减方式进行细致刻画,例如不同的道路通行速度的差异、道路入口的凝聚力更强的问题等。

2.2.3地形地貌

地形地貌主要在大尺度上对人口分布影响明显,可以描述为人类居住地总是满足一定的地形地貌条件,常用的建模因素有高程、坡度、坡向和地面粗糙度等。董春等(2002)对贵州的人口分布状况进行研究后发现随着地形坡度的增加人口密度迅速降低,且人口主要分布在阳坡上。廖顺宝等(2003b)使用青藏高原重采样后精度为1km的高程数据对海拔进行级差为100m的分级,发现人口密度与平均高程在青海境内呈明显的对数负相关。李旭东等(2007)研究发现受海拔影响,贵州喀斯特地区的人口呈垂直分布。封志明等(2007)使用10km中国地形起伏度栅格数据与2000年1km全国人口密度栅格数据制作散点图,分析得出两者存在较强的相关性,对数曲线拟合度为0.91,证明地形起伏度是影响中国人口分布的重要因素之一。在空间化过程中,地形因子往往被离散成为类别量来限制人口的分布。

2.2.4居民点密度

居民点是人口空间分布的载体,居民点密度对于人口空间分布具有指示作用,往往需要和其他要素结合起来完成空间化工作。王春菊等(2005)研究发现,福建各市(县)平均人口密度与居民点密度有很强的相关性:人口密度与城镇居民点分布密度的相关系数达0.679,与乡镇级居民点分布密度的相关系数为0.829。刘业森等(2005)利用回归方法得到山东省不同级别县(市)的城镇居住密度与农村居住密度,构造V oronoi图替代乡镇边界,并利用反距离插值算法和窗口移动平均法,得到山东省的居住密度分布图。闫庆武等(2011)采用核密度估计法得到江苏省城镇级(乡、街道)公里格网居民点密度,并以其为权重,按县边界为控制单元的人口密度分配,实现江苏省公里格网人口空间化。

2.2.5夜间灯光

夜间灯光数据用于人口数据空间化建模时,融合了交通廊道、土地利用和居民地等信息,具有综合性强,所需建模因子少的特点。Sutton等(2001)利用DMSP-OLS夜间灯光数据的面积估计了全球各个国家城市人口,基于已知的城区人口百分比估计一个国家的总人口数,获得了全球人口为63亿。Lo(2001)利用DMSP-OLS夜间灯光数据评估中国省、县和城市级别上的人口数据潜能,结果表明利用异速生长模型从光域面积和光强度中可以生成县和城市级别非农业区(城市)相对精确的人口估计值,利用线性回归模型根据灯光面积的百分比可以很好的估计县级农业人口。Prosperie等(2002)使用DMSP图像对美国德克萨斯州的254个县进行研究,发现灯光强度和人口数量之间的相关系数达到了0.974。卓莉等(2005)采用DMSP/OLS非辐射定标夜间灯光平均强度数据,基于灯光强度信息模拟了灯光区内部的人口密度,基于人口-距离衰减规律和电厂叠加理论模拟了灯光区外部的人口密度,以人口统计数据进行总量控制,对中国1998年县级总人口和非农业人口统计数据进行了空间化。Briggs等(2007)利用克里金插值和反距离插值将DMSP-OLS夜间灯光数据处理为200m格网,结合土地利用数据,利用多元回归法生成了欧盟地区20世纪90年代和2000年左右的公里格网数据。2.2.6像元波谱反射率

直接从遥感影像的多光谱信息中估算人口分布是当前研究领域的前沿之一,其空间化最小单元即为像元。Lo(1995)使用多光谱SPOT影像,以SPOT3个波段的平均反射光谱值和基于SPOT影像的居民点分类信息为自变量,以像元尺度的人口数或住户数为因变量,构建了线性回归模型及对数模型,拟合度较好的模型R2值分别为0.88和0.77。Webster等(1996)用模型估计津巴布韦哈拉雷47个郊区的居住区密度,因变量来自SPOT和TM影像,以及每个郊区的像元子样品,根据色调(TM6个波段)、纹理(城市和非城市)、离城市中心的距离建立模型,线性和对数模型的R2分别是0.86和0.97。Harvey(2002)基于Landsat TM影像估计澳大利亚小区域人口密度和数量,用最小二乘法迭代回归像元上人口数,遥感估计获得的验证区人口和普查人口之间相关关系的R2达到0.86。随着中高分辨率影像的普及,像元波谱反射率信息在快速人口分布估计中的应用将进一步扩展。

2.2.7纹理量

遥感影像表现出的纹理特征与人口密度分布存在一定的物理机理联系,各纹理表征量又是连续量,在人口空间化建模中具有一定潜力(Liu, 2006)。Chen(2002)使用均质性纹理估计把居住区像元分为不同的均质性等级,然后在每个均质性等级的像元数和房屋密度之间建立相关关系。刘纪

1695

地理科学进展32卷

远等(2003)将区域人口密度分为期望值和残差值两部分,利用土地利用数据对其前者进行了估计;基于IKONOS影像提取的纹理特征,利用协同克里金方法对残差进行了插值,经过验证,空间精度提高明显。另外,他们进一步对空间人口密度与IKO-NOS影像提取的纹理量间的相关关系进行了研究,结果表明,虽然纹理量与人口密度之间的相关强度不足以进行居民地人口密度预测,但是纹理量在空间信息不明确的区域性人口估计中具有极强的潜力,高分辨率遥感影像的纹理量可以支持“智能化”人口空间化。Azar等(2013)利用ETM+、QUICK-BIRD、IKONOS等提取纹理量参与到居民地分类之中,得到了巴基斯坦2000年百米格网的人口分布数据。

2.3人口数据空间化代表性数据集

人口数据空间化数据集是以上各种方法和模型应用的直接成果。为了更直观反映当前人口数据空间化的研究进展,本文选取了部分国内外有代表性的人口数据集进行介绍。

2.3.1中国公里格网人口数据集

中国科学院资源环境科学数据中心2005年发布了全国1995、2000、2003年公里格网人口分布数据集,其生产方法是:根据全国人口增长和区域差异特征分层分区建模,假设各区内同一土地利用类型人口密度相同,各区内选取N个样点县,利用最小二乘法计算各土地利用类型人口密度,叠置格网,按照各土地利用类型面积权重计算人口密度。目前,该数据集由地球系统科学数据共享网无偿提供下载①。

2.3.2UNEP/GRID

UNEP/GRID②是由联合国环境计划署支持的全球资源信息数据库(Global Resource Information Database,GRID),由多个数据中心组成,设立在美国苏瀑布(Sioux Falls)的子数据库提供全球人口和行政边界数据。该数据库目前提供非洲(1960-1990年)、亚洲(1995年)和拉丁美洲(1960-1980年和2000年)的5km分辨率人口数据。UNEP/GRID人口分布模型假设人们往往倾向于集中在交通基础设施条件较好的地方,通过交通网、城市中心、城镇位置和大小等信息,计算基于网络结点的人口潜能,利用保护区、水域等信息剔除不适合人口分布的区域,将各行政单元的人口总数根据最近的临近指数分布到每个格点。

2.3.3GPW&GRUMP

GPW(Gridded Population of the World)和GRUMP(Global Rural-Urban Mapping Project)③数据集由美国航空航天管理局(NASA)资助,现由哥伦比亚大学国际地球科学信息网络中心(CIESIN)主持,覆盖范围为全球各大洲。至今,GPW已经发布了3个版本的数据集,第3版(GPWv3)于2005年发布,最高空间分辨率为2.5'(相当于赤道处的5km),包括1990、1995、2000年数据集及2005、2010和2015的估计数据集(GPW fe)。GRUMP第1版(GRUMPv1)于2011年发布,空间分辨率为30''(相当于赤道处的1km),包括1990、1995、2000年的数据。GPWv3数据集的生产在全球约使用了400000个行政区划多边形及对应的人口统计数据,利用面积权重法进行格网化。GRUMPv1在生产过程中,引入了从夜间灯光数据中提取的城市边界和面积信息,同时收集了全球人口总数大于1000人的居民点信息,空间分辨率和精度均得到了大幅提高(Balk et al,2006)。

2.3.4LandScan

LandScan数据集是一个世界范围的1km分辨率人口数据集,是美国国家橡树岭实验室全球人口项目的一部分(Dobson et al,2000;Bhaduri et al, 2007)。它使用地理信息系统和遥感相结合的创新方法,在发展、制作全球人口格网数据方面居于世界领先地位。LandScan数据集空间化策略是:收集各国权威可信的人口统计数据(通常到省级),构建基于坡度、道路可达性、土地覆被、城市密度、夜间灯光的权重模型,计算所有像元的人口分布概率系数,以各行政区界线和人口总数作为控制条件,依据系数分配,并用高分辨率影像进行检验。针对全球各国或地区在居住文化、统计数据的可获得性、质量、尺度及精确性等方面的差异,LandScan项目组开发了适应不同数据条件和区域特征的人口分配算法,并且这种算法每年更新一次,同时,更新数据集。目前,该数据集包括1998年和2000-2011年的全球数据。

2.3.5AfriPop、AsiaPop、AmeriPop

AfriPop、AsiaPop和AmeriPop是由佛罗里达大学地理系和新型病原研究所主持的百米格网人口数据空间化项目,牛津大学参与其中,目的在于提

①https://www.wendangku.net/doc/167173392.html,/Portal/metadata/viewMetadata.jsp?id=100101-38

②Global-Resource-Information-Database-SiouxFalls.https://www.wendangku.net/doc/167173392.html,/datasets/datalist.php

③https://www.wendangku.net/doc/167173392.html,/data/collection/gpw-v3/aboutus

1696

11期柏中强等:人口数据空间化研究综述

供欠发达地区的高分辨率和高精度的人口空间化信息,主要用于流行病学、扶贫、道路和城市规划及人口迁移研究。AfriPop④项目启动于2009年7月,目前已经产生覆盖非洲地区所有国家2010年的百米格网数据和部分国家2015年预测数据。AsiaPop ⑤项目启动于2011年7月,旨在生产覆盖亚洲地区所有国家的2010年百米格网人口分布数据,目前已经完成并发布了部分国家或地区的数据集。AmeriPop项目于2012年10月启动,旨在构建覆盖中美洲地区所有国家2010年百米格网人口空间分布数据。该数据集的生产方法(Tatem et al,2007; Linard et al,2012)是:收集各国2010年权威或官方发布的人口统计数据(例如中国采用的是国家统计局2010年发布的市/县/区3级统计数据),与相应的行政区划数据联接;基于TM数据,联合多种数据源(Open StreetMap、已有的建成区数据等),提取居住区数据;利用行政区划数据和居住区边界数据能够实现大多数地区的人口空间分配,对于少数无法用上述方法进行人口空间化的农村地区,利用土地利用类型法实现人口再分布。

上述数据集中除了LandScan数据集为商业数据集之外,其他数据集均为开放无偿共享数据集,在全球变化引起的海平面上升(Mondal et al,2012)、传染病传播及影响(Tatem et al,2010)、全球贫困地区人口制图(Tatem et al,2011)、居住模式(Linard et al,2012)等研究中均有应用。除这些公共数据集之外,研究者们也为特定的研究需求开发了其他数据集,如Bengtsson等(2006)基于全球气候变化模式和城镇扩张而构建的全球1900-2050年人口分布数据集,空间分辨率为0.5°;Silva等(2013)基于土地利用和基础地理数据开发的欧洲地区2006年百米格网人口分布数据集;王雪梅等(2007)基于土地利用,采用分城乡建模获得了黑河流域2000年的公里格网数据。

3存在的主要问题

综上,人口数据空间化研究经历了简单利用人口统计数据和行政区划数据空间插值,到目前利用土地利用、地形地貌、交通廊道、夜间灯光、多分辨率影像等多种参考因素及根据人口空间分布规律逐格点计算的定量化手段,使得空间化结果的精确度和详细程度不断提高,全球或区域的空间化人口数据集(产品)不断增多。由于人口分布规律的复杂性和各种建模方法的局限性,现阶段的人口数据空间化研究中仍然存在一些问题,本节主要从人口数据空间化的输入数据质量和详细程度、空间尺度效应及时空分辨率、长时间序列数据、数据集验证等方面进行分析。

3.1输入数据的质量和详细程度

质量良好、时空一致性高的人口统计数据和相关基础数据是提高空间化结果精度的基础。目前的人口数据空间化研究中,存在数据的时相不匹配、多统计口径不一致、数据拆分、基础地理数据质量差等问题(林丽洁等,2010),这不仅给空间化操作带来了一定的困难,降低了输出数据质量,还制约了空间化产品的应用。此外,输入的人口统计数据及其行政单元越详细,输出的空间化结果精度程度越高。

以中美的人口数据空间化研究为例,美国相关研究者可以获得街区或独栋房屋的人口统计数据,结合高分辨率遥感影像,从而实现高精度建筑物斑块级别的人口数量估计(Silvan et al,2010);中国可公开获得的人口统计数据多以县域为统计单元,因而小区域高分辨率的人口数据空间化研究较少,且空间化结果的精度有待提高。

3.2空间尺度效应与时空分辨率

人口数据空间化的最优分辨率与其应用对象直接相关,分辨率并非总是越高越好,洲际、国家级、亚国家级(省、区域)、流域级等不同尺度的研究和应用所需要的空间化人口数据产品尺度各不相同。目前,大多数人口数据空间化研究的分辨率为1km,也有部分百米格网的人口格网数据。对于同一个研究问题,选择不同尺度的数据产品其结论可能截然不同。当前对于尺度效应的研究较少(叶靖等,2010;王静等,2012),对于不同应用中人口数据空间化的适宜分辨率,尺度转化方法与信息损失定量评估等问题的研究不够深入。此外,当空间化的分辨率提高到一定水平时,居民的时空移动就成为不可忽略的因素,目前对于高时空分辨率的人口数据空间化模拟研究尚不够深入。

3.3长时间序列数据

人口地理学、城市地理学及全球变化等研究领域不但需要某一时刻的人口分布信息,还经常需要了解某一时期多个时刻的人口分布状态,掌握人口分布的动态演化过程。与之相对应的局面是,统计

④https://www.wendangku.net/doc/167173392.html,/users/atatem/index_files/AfriPop.htm

⑤https://www.wendangku.net/doc/167173392.html,/users/atatem/index_files/AsiaPop.htm

1697

地理科学进展32卷

数据可以形成百年时间序列,而空间化人口数据产品只有十余年的产品。某些需要长时间序列人口数据驱动的模型,研究者只能采取面积插值法等较为原始的方法生成粗分辨率空间化人口数据。考虑到人口统计单元(行政区划)经常发生变革的因素,长时间序列的人口数据空间化研究更为迫切。

3.4结果验证

随机抽样验证和与统计数据的比较是现有格网化模型和空间化结果验证采取的主要方法,此类验证是对格网化模型和空间化结果的间接验证,对空间化结果在细致尺度上的精度评价没有很好的方法,不同数据集之间的比较研究也很少见。建立完善、合理、可操作的模型和结果验证体系,实现模型反馈效应,是进一步提高人口数据格网化模型精确性和实用性的必要过程。

4未来研究方向展望

人口数据空间化研究是社会经济数据空间化研究中最活跃、成果最突出的部分,空间化人口数据较行政区为单元的统计数据更能体现人口时空分异规律。针对中国目前此项研究的现状和存在的问题,除加快建设资源环境时空数据库、制定人口-社会经济数据格网化调查规范、开展长时间序列的人口分布模拟及加强尺度效应的研究之外,今后应着重开展下面几方面的研究工作。

4.1人口空间分布规律和机理

人口空间分布规律和机理是人口数据空间化模型构建及指示因子选择的理论来源。综合性、多要素的人口数据空间化模型在提高精度的同时,也引起了模型权重确定复杂,难度加大、机理不明等问题(符海月等,2006;封志明等,2011)。深入研究人口空间分布规律和机理,就是要深入分析城乡人口分布规律与影响因素的异同,目前的人口空间化结果基本能够刻画乡村人口分布特征,而对于城市人口分布特征刻画较为粗糙。要定量研究城镇化带来的人口流动等特殊的人口分布现象的特征(如城镇化中的“空心村”人口实际流动现象),需要对统计数据进行修正,使得空间化结果更符合实际(李扬等,2010);刻画不同尺度上人口集疏特征和居住模式;寻求较为合理、客观的权重确定方法等。

4.2数据集之间一致性比对和精度检验

数据集之间的一致性比对和精度验证工作有利于对现有数据集质量做出评价,为研究者选择数据集提供参考。王雪梅等(2004)在黑河流域将GPW、UNEP/GRID、LandScan和中国公里格网人口数据集等人口估计结果与政府人口统计数据进行了比较分析,结果表明各数据集之间的不一致性明显,中国公里格网人口数据集在县级人口总数及表达精细程度上均优于其他几种产品。可以借鉴这种做法,对中国区域的主要空间化人口数据集进行一致性比对和精度检验工作。对于不一致性较高的地区,极有可能是人口分布规律较为复杂的地区,应在之后的建模中予以特别关注。目前在格网尺度开展空间化人口数据产品精度验证还较为困难,但并非完全不可能(陈振拓,2012),在有条件的情况下,应予以格网采样验证。

4.3多源遥感数据和新型数据源的应用

信息技术和传感器技术的飞速发展带来了遥感数据源的极大丰富,高分辨率、高光谱、全天候、多角度的遥感数据为提取地物特征提供了无限的潜能。新型数据源,例如移动轨迹,手机通讯数据等,对于研究人口时空移动规律极其有效。扩大和深化遥感数据及新型数据源在人口数据空间化研究中的应用,一是要研究这类数据和空间人口分布的定量关系,例如Kang等(2012)基于LandScan数据、移动通讯基站及手机通讯数据等,对区域人口在工作日和周末实现了更精确的分布;二是要引进决策树、神经网络、遗传算法、贝叶斯分类器等智能建模方法到空间化方法之中,例如Liao等(2010)基于遗传算法实现了和顺县的高精度人口数据空间化。

4.4城市街区尺度的人口分布模拟

城市街区尺度的人口分布数据在城市应急响应、灾害评估、资源分配、城市规划、市场调查、交通线路设计等方面有着广泛的应用。这类人口数据空间化对于时间和空间分辨率的要求较高:时间分辨率上,要能精确到小时或半小时;空间分辨率上,需要达到独栋建筑物或数十米格网的精度。此外,还应该考虑人口的时空移动问题。近年来,高分辨率遥感影像在人口空间分布研究中的应用在一定程度上提高了人口分布研究的空间分辨率,相关研究或侧重于人口分布的空间识别单元划分的精细化(冯甜甜,2010),或侧重于时间节点划分的精细化(张露,2012),实用性较强的城市街区尺度的人口分布模型仍需要深入研究。

4.5长时间序列的人口格网数据集开发

长时间序列的人口格网数据开发主要存在以下困难:①时空一致的指示因子数据难以收集;②各个时期资料密度不同,难以用统一的模型进行空

1698

11期柏中强等:人口数据空间化研究综述

间化。因此,可以选择典型区进行试验。例如,以黄土高原地区为研究区(刘艳华等,2012),基于多分辨率遥感影像和基础地理、土地覆被数据等,开发1980、1990、2000、2010年等4个时间点的百米格网空间化人口数据产品,以表征30年时间序列的人口空间分布,并分析该地区的人口集疏过程及空间格局的变化。

4.6集成多要素和多模型的自适应方法研究

以单一的数学模型全面表达人口分布的内在机理几乎是不可能的,如何综合利用多种数据源,考虑研究区的地理差异性以不同的计算方法实现空间化,是当前的研究难点,也是提高人口数据空间化水平的关键。这种集成多要素和多模型的自适应方法研究的基本含义是:在构建较为完整的人口空间化模型库和指示因子数据库的前提下,根据区域人口空间分布规律和可获得的数据条件,自动选择相适应的要素和模型进行人口数据空间化。LandScan数据集即采用此种空间化方法。Azar等(2013)基于多源遥感数据和基础地理数据,利用回归决策树算法实现的巴基斯坦2010年百米格网人口数据空间化研究也为自适应方法的研究提供了很好的启示。

参考文献(References)

Azar D,Ryan E,Jordan G,et al.2013.Generation of fine-scale population layers using multi-resolution satel-lite imagery and geospatial data.Remote Sensing of Envi-ronment,130:219-232.

Balk D L,Deichmann U,Yetman G,et al.2006.Determining global population distribution:Methods,applications and data.Advances in Parasitology,62(4):119-156. Bengtsson M,Shen Y,et al.2006.A SRES-based gridded glob-al population dataset for1990-2100.Population and Envi-ronment,28(2):113-131.

Briggs D J,Gulliver J,Fecht D,et al.2007.Dasymetric model-ling of small-area population distribution using land cov-er and light emissions data.Remote Sensing of Environ-ment,108(4):451-466.

Chen Y G.2000.A theoretical proof of Clark's model on spa-tial distribution density of urban population.Journal of Xinyang Normal University:Natural Science Edition,13

(2):185-188.[陈彦光.2000.城市人口空间分布密度衰

减的一个理论证明.信阳师范学院学报:自然科学版, 13(2):185-188.]

Chen Z T.2012.Study on the grid transformation of popula-tion data at the service of earthquake emergency:A case study in Yunnan Provincep[D].Beijing,China:Institute of Geology,China Earthquake Administration.[陈振拓.

2012.服务于地震应急的人口数据格网化方法研究

[D].北京:中国地震局地质研究所.]

Clark C.1951.Urban population densities.Journal of the Roy-al Statistical Society,114(7):490-496.

Dobson J E,Bright E A,Coleman P R,et https://www.wendangku.net/doc/167173392.html,ndScan:

A global population database for estimating populations

at risk.Photogrammetric Engineering and Remote Sens-ing,66(7):849-857.

Du G M.2008.Methods and practice of population data spa-tialization.Beijing,China:Chinese Agriculture Press.[杜国明.2008.人口数据空间化方法与实践.北京:中国农业出版社.]

Du G M,Zhang S W,Zhang Y Q.2007.Analyzing scale effect of population density with Shenyang City as a case.Jour-nal of the Graduate School of the Chinese Academy of Sciences,24(2):186-192.[杜国明,张树文,张有全.

2007.城市人口密度的尺度效应分析:以沈阳市为例.

中国科学院研究生院院报,24(2):186-192.]

Dong C,Liu J P,Zhao R,et al.2002.An discussion on correla-tion of geographical parameter with spatial population distribution.Remote Sensing Information,(4):61-64.[董春,刘纪平,赵荣,等.2002.地理因子与空间人口分布的相关性研究.遥感信息,(4):61-64.]

Fan Y D,Shi P J,Gu Z H,et al.2004.A method of data grid-ding from administration cell to gridding cell.Scientia Geographica Sinica,24(1):105-108.[范一大,史培军,辜智慧,等.2004.行政单元数据向网格单元转化的技术方法.地理科学,24(1):105-108.]

Feng T T.2010.Urban small area population estimation based on high-resolution remote sensing data[D].Wuhan,Chi-na:Wuhan University.[冯甜甜.2010.基于建筑物提取的精细尺度人口估算研究[D].武汉:武汉大学.]

Feng Z M,Li P.2011.Review of population geography in the past century.Progress in Geography,30(2):131-140.[封志明,李鹏.2011.20世纪人口地理学研究进展.地理科学进展,30(2):131-140.]

Feng Z M,Tang Y,Yang Y Z,et al.2007.The relief degree of land surface in China and its correlation with population distribution.Acta Geographica Sinica,62(10): 1073-1082.[封志明,唐焰,杨艳昭,等.2007.中国地形起伏度及其与人口分布的相关性.地理学报,62(10): 1073-1082.]

Fisher P F,Langford M.1995.Modeling the errors in areal in-terpolation between zonal system by montokaro simula-tion.Environment and Planning A,27(2):211-224.

Fu H Y,Li M C,Zhao J,et al.2006.Summary of grid transfor-mation models of population data.Human Geography,21

(3):115-119.[符海月,李满春,赵军,等.2006.人口数据

格网化模型研究进展综述.人文地理,21(3):115-119]. Harvey,J T.2002.Population estimation models based on indi-

1699

地理科学进展32卷

vidual TM pixels.Photogrammetric Engineering and Re-mote Sensing,68(11):1181-1192.

Hu Y F,Wang Q Q,Li J,et al.2011.Index system and trans-ferring methods to build the national society and econo-my grid database.Journal of Geo-information Science,13(5):573-578.[胡云锋,王倩倩,李军,等.2011.国家尺度社会经济数据格网化原理和方法.地球信息科学学报,13(5):573-578.]

Jacqueline G,Lowell P.1998."Socializing the Pixel"and"Pix-elizing the Social"in land-use and land-cover change// Committee on the Human Dimensions of Global Change, National Research Council.People and pixels:Linking remote sensing and social science.Washington,DC:The National Academy Press:51-69.

Jiang D,Yang X H,Wang N B,et al.2002.Study on spatial distribution of population based on remote sensing and GIS.Progress in Geography,17(5):734-738.[江东,杨小唤,王乃斌,等.2002,基于RS,GIS的人口空间分布研究.地球科学进展,17(5):734-738.]

Jiang L W.2002.Making the connections between population sciences and remote science.Market and Demographic Analysis,8(2):42-49.[蒋耒文.2002.社会化的图像和图像化的社会:遥感科学与人口科学研究的结合.市场与人口分析,8(2):42-49.]

Kang C,Liu Y,Ma X,et al.2012.Towards estimating urban population distributions from mobile call data.Journal of Urban Technology,19(4):3-21.

Kuang W H,Du G M.2011.Analyzing urban population spa-tial distribution in Beijing proper.Journal of Geo-infor-mation Science,13(4):506-512.[匡文慧,杜国明.2011.

北京城市人口空间分布特征的GIS分析.地球信息科学学报,13(4):506-512.]

Li X D,Zhang S Y.Study on the natural environmental factors affecting population distribution in the Guizhou Karst Plateau:Analysis on the main factors.Arid Zone Re-search,24(1):120-125.[李旭东,张善余.2007.贵州喀斯特高原人口分布的环境因素:主要影响要素研究.干旱区研究,24(1):120-125.]

Li Y,Liu H.2010.Research progress on migration spatial structure modeling.Progress in Geography,29(10): 1162-1170.[李扬,刘慧.2010.人口迁移空间格局模拟研究进展与展望.地理科学进展,29(10):1162-1170.] Liao S B,Sun J L.2003a.GIS based spatialization of popula-tion census data in Qinghai-Tibet Plateau.Acta Geograph-ic Sinica,58(1):25-33.[廖顺宝,孙九林.2003a.基于GIS的青藏高原人口统计数据空间化.地理学报,58(1): 25-33.]

Liao S B,Sun J L.2003b.Quantitative analysis of relationship between population distribution and environmental fac-tors in Qinghai-Tibet Plateau.China Population,Re-

source and Environment,13(3):65-70.[廖顺宝,孙九林.

2003b.青藏高原人口分布与环境关系的定量研究.中国人口·资源与环境,13(3):65-70.]

Liao Y L,Wang J F.2010.Integration of GP and GA for map-ping population distribution.International Journal of Geo-graphical Information Science,24(1):47-67.

Lin L J,Lin G F,Yan X X,et al.2010.Spatialization models of census data:A review.Journal of Subtropical Resourc-es and Environment,5(4):10-16.[林丽洁,林广发,颜小霞,等.2010,人口统计数据空间化模型综述.亚热带资源与环境学报,5(4):10-16.]

Linard C,Gilbert M,Tatem A J.2010.Assessing the use of global land cover data for guiding large area population distribution modelling.Geojournal,76(5):525-538. Linard C,Gilbert M,Snow R W,et al.2012.Population distri-bution,settlement patterns and accessibility across Africa in2010.PLoS ONE,7(2):e31743.

Liu J Y,Yue T X.2003.Digital simulation of population densi-ty in China.Acta Geographic Sinica,58(1):17-24.[刘纪远,岳天祥.2003.中国人口密度数字模拟.地理学报, 58(1):17-24.]

Liu X H,Keith C,Martin H.2006.Population density and im-age texture:A comparison study.Photogrammetric Engi-neering&Remote Sensing,72(2):187-196.

Liu X H,Kyriakidis P C,Goodchild M F.2008.Popula-tion-density estimation using regression and area-to-point residual kriging.International Journal of Geographical In-formation Science,22(4):431-447.

Liu Y H,Xu Y,Liu Y.2012.Population growth and tempo-ral-spatial differentiation in Loess Plateau Region in the last2000years.Progress in Geography,31(2):156-166.

[刘艳华,徐勇,刘毅.2012.2000年来黄土高原地区的人口增长及时空分异.地理科学进展,31(2):156-166.] Liu Y S,Yang X H.2005.Spatial distribution of statistical population based on boundary-substitution.Geo-informa-tion Science,7(4):54-58.[刘业森,杨小唤.2005.基于边界替代的人口数据空间化方法研究.地球信息科学,7

(4):54-58.]

Lo C P.1995.Automated population and dwelling unit estima-tion from high-resolution satellite images:A GIS ap-proach.International Journal of Remote Sensing,16(1): 17-34.

Lo C P.2001.Modeling the population of China using DMSP operational linescan system nighttime data.Photogram-metric Engineering&Remote Sensing,67(9):1037-1047. Lv A M,Li C M.2002.Spatial distribution pf statistical popu-lation data.Geomatics and Information Science of Wu-han University,27(3):301-305.[吕安民,李成名.2002.

人口统计数据的空间分布化研究.武汉大学学报:信息科学版,27(3):301-305.]

1700

11期柏中强等:人口数据空间化研究综述

Martin D.1989.Mapping population data from zone centroid locations.Transactions of the Institute of British Geogra-phers,14(1):90-97.

Martin D.1996.An assessment of surface and zonal models of population.International Journal of Geographical Infor-mation Systems,10(8):973-989.

Mennis J.2003.Generating surface models of population us-ing dasymetric mapping.The Professional Geographer,55

(1):31-42.

Mondal P,Tatem A J.2012.Uncertainties in measuring popula-tions potentially impacted by sea level rise and coastal flooding.PLoS ONE,7(10):E48191.

Openshaw S.1983.The modifiable areal unit problem//Open-shaw S.Concepts and techniques in modern geography.

Norwich,UK:Geobooks:38.

Prosperie L,Eyton R.2002.The relationship between bright-ness values from a nighttime satellite image and Texas County population.Southwestern Geographers,92(2): 224-240.

Silva F B,Gallego J,Lavalle C.2013.A high-resolution popu-lation grid map for Europe.Journal of Maps,9(1):1-13. Silvan J,Wang L,Rogerson P,et al.2010.Assessing fine spa-tial resolution remote sensing for small area population estimation.International Journal of Remote Sensing,31

(21):5605-5634.

Sutton P.1997.Modeling population density with night-time satellite imagery and https://www.wendangku.net/doc/167173392.html,puter,Environment and Urban System,21(3):227-244.

Tatem A J,Linard C.2011.Population mapping of poor coun-tries.Nature,474:36.

Tatem A J,Smith D L.2010.International population move-ments and regional Plasmodium falciparummalaria elimi-nation strategies.Proceedings of the National Academy of Sciences,107(27):12222-12227.

Tian Y Z,Chen S P,Yue T X,et al.2004.Simulation of Chi-nese population density based on land use.Acta Geo-graphic Sinica,59(2):283-292.[田永中,陈述彭,岳天祥,等.2004.基于土地利用的中国人口密度模拟.地理学报,59(2):283-292.]

Wang C J,Tang X H,Wu D W.2005.Quantitative analysis of the relationship between residential area density and envi-ronmental factors in Fujian.Journal of Hainan Normal University:Natural Science,18(1):89-92.[王春菊,汤小华,吴德文.2005.福建省居民点分布于环境关系的定量研究.海南师范学院学报:自然科学版,18(1):89-92.] Wang J,Yang X H,Shi R X.2012.Spatial distribution of the population in Shandong Province at multi-scales.Prog-ress in Geography,31(2):176-182.[王静,杨小唤,石瑞香.2012.山东省人口空间分布格局的多尺度分析.地理科学进展,31(2):176-182.]Wang R.2011.Study on population distribution and grid-based modeling method of Karst Area:A case study in Guangxi[D].Beijing,China:Graduate University of Chi-nese Academy of Sciences.[汪蓉.2011.喀斯特地区人口分布模式与格网化建模方法研究:以广西为例[D].

北京:中国科学院研究生院.]

Wang X M,Li X,Ma M G.2004.Advance and case analysis in population spatial distribution based on Remote Sens-ing and GIS.Remote Sensing Technology and Applica-tion,19(5):320-327.[王雪梅,李新,马明国.2004.基于遥感和GIS的人口数据空间化研究进展及案例分析.

遥感技术与应用,19(5):320-327.]

Wang X M,Li X,Ma M G.2007.Pixelizing the population on statistics of inland river basin in arid regions.Journal of arid Land Resources and Environment,21(6):39-47.[王雪梅,李新,马明国.2007.干旱区内陆河流域人口统计数据的空间化:以黑河流域为例.干旱区资源与环境, 21(6):39-47.]

Webster C J.1996.Population and dwelling unit estimation from space.Third World Planning Review,18(2): 155-176.

Wu S S,Qiu X M,Wang L.2005.Population estimation meth-ods in GIS and remote sensing:A review.GIS Science& Remote Sensing,42(1):80-96.

Yan Q W,Bian Z F,Zhang P,et al.2011.Census spatialization based on settlements density.Geography and Geo-infor-mation Science,27(5):95-98.[闫庆武,卞正富,张萍,等.2011.基于居民点密度的人口密度空间化.地理与地理信息科学,27(5):95-98.]

Yang X H,Jiang D,Wang N B,et al.2002.Method of pixeliz-ing population data.Acta Geographic Sinica,57(Suppl.): 70-75.[杨小唤,江东,王乃斌,等.2002.人口数据空间化的处理方法.地理学报,57(增刊):70-75.]

Ye J,Yang X H,Jiang D.2010.The grid scale effect analysis on town leveled population statistical data spatialization.

Journal of Geo-information Science,12(1):40-47.[叶靖,杨小唤,江东.2010.乡镇级人口统计数据空间化的格网尺度效应分析:以义乌市为例.地球信息科学学报, 12(1):40-47.]

Yuan Y,Smith R M,Limp W F.1997.Remodeling census pop-ulation with spatial information from landSat TM https://www.wendangku.net/doc/167173392.html,puters,Environment and Urban Systems,21 (3-4):245-258.

Yue T X,Wang Y A.2005.Surface modeling of the human population distribution in China.Ecological Modeling, 181(4):461-478.

Zhang L.2012.Dynamics simulation of high temporal resolu-tion urban population:A case study in Beibei District, Chongqing[D].Chongqing,China:Southwest University.

[张露.2012.高时间分辨率的城市人口动态分布模拟:

1701

地理科学进展32卷

Research progress in spatialization of population data

BAI Zhongqiang 1,2,WANG Juanle 1,YANG Fei 1

(1.State Key Laboratory of Resources and Environmental Information System,Institute of Geographic Sciences and Natural Resources Research,CAS,Beijing 100101,China;2.University of Chinese Academy of Sciences,Beijing 100049,China)

Abstract:Readily available and accurate data on spatial population distribution is essential for understanding,and responding to,many social,political,economical and environmental issues,such as humanitarian relief,di-saster response planning,environment impact assessment,and development assistance.Research on spatializa-tion of demographic data plays an important role in grid transformation of social-economical data.Furthermore,as gridded population data can be effectively interoperate with geospatial data and remote sensing images,it is a useful supplement to census data.This paper reviewed spatialization methodologies,predictive modeling factors and typical datasets in the literature of population data spatialization research.Shortcomings of demographic da-ta and advantages of spatial population distribution data are compared and summarized firstly.The spatialization methodologies are grouped into three categories,i.e.,population distribution models from urban geography,are-al interpolation methods and spatialization methods based on remote sensing and GIS.Population models from urban geography include the Clark's model and allometric growth model.The areal interpolation methods had been distinguished by point based method and area based method.Spatialization methods based on remote sens-ing and GIS are most widely used in nowadays,which can be further grouped into three categories for two rea-sons:one is the relationship between population and land use,urban area,traffic network,settlement density,im-age pixel characteristics,or other physical or socioeconomic characteristics,and the other is the calculation strat-egy.Various methods mentioned above have their own application environment and limitations.We reviewed the principles and applicability of every method in detail.After that,we generalized the frequently used factors in the spatialization process,involving land use/land cover,traffic network,topography,settlements density,night light,texture variable,and spectral reflectance.In the meantime,some typical research cases about the fac-tors also were exemplified and analyzed.In addition,we introduced a few widely used spatial population distri-bution datasets or influential population spatialization projects.They consisted of China km grid population data-sets,UNEP/GRID,GPW/GRUMP,LandScan,AfriPop &AsiaPop &AmriPop.The producers,resolution,char-acterization year and generation method of each one were presented exhaustively.Based on the above review,we discussed the current research problems and outlined research priorities in the future.The problems include the temporal inconsistency of input data,coarse resolution of demographic data,lack of in-depth study on scale effect,the scarcity of time series products and few validation works.To deal with these issues,more studies should be conducted to the following aspects:comprehension of population distribution mechanism,calculation of consistency and validation of existing datasets,application of multi-sources remote sensing data and volun-teered geographic information,continuous space-time simulation of population distribution in the typical areas,sub-block-level population estimation,self-adaptive spatialization method which integrates multiple elements and multiple models.In summary,the research on spatialization of demographic data has made breakthroughs in the past two decades.Meanwhile,there are a few problems that need to be solved immediately.Since these two aspects had been reviewed as comprehensively as possible,we hope issues discussed in this paper could enlight-en and promote the future study in this field.

Key words:population data;spatialization methodology;modeling factors;datasets

以重庆市北碚城区为例[D].重庆:西南大学.]

Zhuo L,Chen J,Shi P J,et al.2005.Modeling population den-sity of China in 1998based on DMSP/OLS nighttime

light image.Acta Geographica Sinica.60(2):266-276.[卓莉,陈晋,史培军,等.2005.基于夜间灯光数据的中国人口密度模拟.地理学报,60(2):266-276.]

1702

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

基于GIS的人口统计数据空间化解决方案

基于GIS的人口统计数据空间化解决方案 人口数据一般以各种级别的行政区域为统计单位,使用表格进行展示。常用的人口分布度量指标是人口密度,即行政区域内单位土地面积上的人口数量,这种以行政辖区为单位进行统计的方法,统计的结果是假定人口均匀分布在整个区域内,无法表达辖区的内部差异,面积较大的湖泊上,坡度较大的山地上都会被分配人口,这在很大程度上影响了人口密度数据在使用时的准确性和可靠性。随着地理信息系统的应用和发展,基于固定大小空间单位的人口计算方法研究逐步开展,其中以公里格网(1km×1km)的应用较多。在地理信息系统中对人口数据进行格网化表达,能够直观的表现人口数据的空间分布,有效的拓展人口数据的应用领域。本方案选取大比例尺地理数据、地形地貌数据,利用GIS空间统计分析方法,对四川省人口统计数据进行格网空间化。 1、数据及预处理 使用1:500000地理数据(包括居民地、水系)、四川省年鉴数据、四川省县级行政区划界线。 在进行人口数据空间化之前,先对数据进行预处理: (1) 利用高分辨率遥感卫星影像对四川省东部地区经济发达、城市建设显著的地区进行居民地范围轮廓线的修改。 (2) 点状居民地以县级辖区为单位,对照高分辨率遥感卫星影像,确定居民地范围,以缓冲区的方式生成面状居民地。 (3) 一定坡度以上的坡度数据同居民地数据套和,对照高分辨率遥感卫星影像检查修正居民地。 (4) 利用高分辨率遥感卫星影像对四川全省面状水系进行更新,增加新增的水库、湖泊,修改改线部分的水体等。 (5) 通过GIS软件的叠加分析功能,在空间分布上检查居民地与水系的关系,处理由于城市搬迁等原因造成的两者空间上的矛盾。 2、方法 本方案采用的人口数据空间化的基本思路是,假设所有的人口都分布在居民地上,在这个假设条件下对县级行政区划(包括省辖市、县级市)为单位的人口数据在空间上进行重新分配,在确保各县总人口数不变的情况下,求得每平方公里土地上居住的人口数。 依据县级行政区划内某个居民地面积占该区总居民地面积的比来确定分配人口的权重,通过GIS软件将各个辖区的人口数据分配到辖区内的居民地块上,再将分配到居民地块上的人口数量按照1km×1km的格网单位进行统计,生成人口公里格网数据模拟人口的空间分布。

GIS技术的研究现状及未来发展趋势.

GIS 技术的研究现状及未来发展趋势 摘要:GIS 是随着计算机技术发展而形成的一门新兴技术,其应用程度和范围也随之渗透、延伸,得到了人们的广泛关注。该文综述了地理信.息的发展现状,从多个角度分析当前 GIS 技术发展存在的不足,并在此基础上研究分析了 GIS 技术的未来发展趋势。 关键词:GIS 研究现状发展趋势 0 引言 随着计算机技术的飞速发展、空间技术的日新月异及计算机图形学理论的日渐完善, GIS(Geographic Information System技术也日趋成熟,并且逐渐被人们所认识和接受。近年来, GIS 被世界各国普遍重视,尤其是“数字地球”概念的提出,使其核心技术 GIS 更为各国政府所关注。目前,以管理空间数据见长的 GIS 已经在全球变化与监测、军事、资源管理、城市规划、土地管理、环境研究、农作物估产、灾害预测、交通管理、矿产资源评价、文物保护、湿地制图以及政府部门等许多领域发挥着越来越重要的作用。当前 GIS 正处于急剧发展和变化之中,研究和总结 GIS 技术发展,对进一步开展 GIS 研究工作具有重要的指导意义。因此,本文就目前 GIS 技术的研究现状及未来发展趋势进行总结和分析。 1 GIS 研究现状及其分析 1.1 GIS研究现状 世纪 90年代以来,由于计算机技术的不断突破以及其它相关理论和技术的完善, GIS 在全球得到了迅速的发展。在海量数据存储、处理、表达、显示及数据共享技术等方面都取得了显著的成效,其概括起来有以下几个方面 [1]:①硬件系统采用服务器 /客户机结构,初步形成了网络化、分布式、多媒体 GIS ; ②在 GIS 的设计中, 提出了采用“开放的 CIS 环境” 的概念, 最终以实现资源共享、数据共享为目标; ③高度重视数据标准化与数据质量的问题, 并已形成一些较为可行的数据标准; ④ 面向对象的数据库管理系统已经问世, 正在发展称之为“对象 --关系 DBMS (数据库

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

模糊数学在数据挖掘领域综述

模糊数学在数据挖掘研究综述 一、模糊数学 关于数学的分类,根据所研究对象的确定性可以分为经典数学、随机数学以及模糊数学。三者的关系如图1所示。经典数学建立在集合论的基础上,一个对象对于一个集合要么属于,要么不属于,两者必居其一,且仅居其一,绝不可模棱两可,由于这个要求,大大限制了数学的应用范围,使它无法处理日常生活中大量的不明确的模糊现象与概念。随着发展,过去那些与数学毫无关系或关系不大的学科如生物学,心理学,等都迫切要求定量化和数学化。 图1依照研究对象是否确定的数学分类 在日常生活中,我们经常会遇到一些模糊不清的概念。例如,“高个子”、“矮个子”等。如果把1.80米的人算高个子,那么,身高1.76米的人算不算高个子呢?这就很难说,因为“高个子”,“矮个子”并没有二者明确的标准,因而这些概念就显得模糊不清。为了适应这些学科自身的特点,只有通过改造数学,使它应用的面更为广泛。模糊数学就是研究事物这种模糊性质的一门数学学科。 模糊数学诞生于1965年,创始人是美国自动控制专家查德,他最早提出了模糊集合的概念,引入了隶属函数。自诞生之日起,就与电子计算机息息相关。今天精确的数学计算当然是不可少的,然而,当我们要求脑功能的时候,精确这个长处反而成了短处。例如,我们在判别走过的人是谁时,总是将来人的高矮,胖瘦、走路姿势与大脑存储的样子进行比较,从而作出判断。一般说来,这不是件难事,即使是分别多年的老友,也会很快地认出他来,但是若让计算机做这件事,使用精确数学就太复杂了。得测量来人的身高、体重、手臂摆的角度以及鞋底对地面的正压力、磨擦力、速度、加速度等数据,而且非要精确到后几十位才肯罢休。如果有位熟人最近稍为瘦了或胖了一些,计算机就“翻脸不认了”。显然,这样的“精确”容易使人糊涂。由此可见,要使计算机能模拟人功能,一定程度的模糊是必要的。模糊数学就是在这样的背景下诞生的。 随机数学与模糊数学都是对不确定性量的研究,但与模糊数学不同的是,随机数学是研究随机现象统计规律性的一个数学分支,涉及四个主要部分:概率论、随机过程、数理统计、随机运筹。随机数学更强调对数据的统计规律;而模糊数学强调的是变量的定义的模糊性。 模糊数学是一门新兴学科,过去那些与数学毫不相关或关系不大的学科(如生物学、心理学、语言学、社会科学等)都有可能用定量化和数学化加以描述和处理,从而使数学的应用范围大大扩展。它已初步应用于模糊控制、模糊识别、模糊聚类分析、模糊决策、模糊评判、系统理论、信息检索、医学、生物学等各个方面,并且在气象、结构力学、控制、心理学等方面已有具体的研究成果。模糊数学最重要的应用领域是计算机职能,它与新一代计算机的研制有密切的联系。 二、模糊计算

空间聚类的研究现状及其应用_戴晓燕

空间聚类的研究现状及其应用* 戴晓燕1 过仲阳1 李勤奋2 吴健平1 (1华东师范大学教育部地球信息科学实验室 上海 200062) (2上海市地质调查研究院 上海 200072) 摘 要 作为空间数据挖掘的一种重要手段,空间聚类目前已在许多领域得到了应用。文章在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 关键词 空间聚类 K-均值法 散度 1 前言 随着GPS、GI S和遥感技术的应用和发展,大量的与空间有关的数据正在快速增长。然而,尽管数据库技术可以实现对空间数据的输入、编辑、统计分析以及查询处理,但是无法发现隐藏在这些大型数据库中有价值的模式和模型。而空间数据挖掘可以提取空间数据库中隐含的知识、空间关系或其他有意义的模式等[1]。这些模式的挖掘主要包括特征规则、差异规则、关联规则、分类规则及聚类规则等,特别是聚类规则,在空间数据的特征提取中起到了极其重要的作用。 空间聚类是指将数据对象集分组成为由类似的对象组成的簇,这样在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大,即相异度较大。作为一种非监督学习方法,空间聚类不依赖于预先定义的类和带类标号的训练实例。由于空间数据库中包含了大量与空间有关的数据,这些数据来自不同的应用领域。例如,土地利用、居住类型的空间分布、商业区位分布等。因此,根据数据库中的数据,运用空间聚类来提取不同领域的分布特征,是空间数据挖掘的一个重要部分。 空间聚类方法通常可以分为四大类:划分法、层次法、基于密度的方法和基于网格的方法。算法的选择取决于应用目的,例如商业区位分析要求距离总和最小,通常用K-均值法或K-中心点法;而对于栅格数据分析和图像识别,基于密度的算法更合适。此外,算法的速度、聚类质量以及数据的特征,包括数据的维数、噪声的数量等因素都影响到算法的选择[2]。 本文在对已有空间聚类分析方法概括和总结的基础上,结合国家卫星气象中心高分辨率有限区域分析预报系统产品中的数值格点预报(HLAFS)值,运用K-均值法对影响青藏高原上中尺度对流系统(MCS)移动的散度场进行了研究,得到了一些有意义的结论。 2 划分法 设在d维空间中,给定n个数据对象的集合D 和参数K,运用划分法进行聚类时,首先将数据对象分成K个簇,使得每个对象对于簇中心或簇分布的偏离总和最小[2]。聚类过程中,通常用相似度函数来计算某个点的偏离。常用的划分方法有K-均值(K-means)法和K-中心(K-medoids)法,但它们仅适合中、小型数据库的情形。为了获取大型数据库中数据的聚类体,人们对上述方法进行了改进,提出了K-原型法(K-prototypes method)、期望最大法EM(Expectation Maximization)、基于随机搜索的方法(ClAR ANS)等。 K-均值法[3]根据簇中数据对象的平均值来计算 ——————————————— *基金项目:国家自然科学基金资助。(资助号: 40371080) 收稿日期:2003-7-11 第一作者简介:戴晓燕,女,1979年生,华东师范大学 地理系硕士研究生,主要从事空间数 据挖掘的研究。 · 41 · 2003年第4期 上海地质 Shanghai Geology

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

空间分析复习重点

空间分析的概念空间分析:是基于地理对象的位置和形态特征的空间数据分析技术,其目的在于提取和传输空间信息。包括空间数据操作、空间数据分析、空间统计分析、空间建模。 空间数据的类型空间点数据、空间线数据、空间面数据、地统计数据 属性数据的类型名义量、次序量、间隔量、比率量 属性:与空间数据库中一个独立对象(记录)关联的数据项。属性已成为描述一个位置任何可记录特征或性质的术语。 空间统计分析陷阱1)空间自相关:“地理学第一定律”—任何事物都是空间相关的,距离近的空间相关性大。空间自相关破坏了经典统计当中的样本独立性假设。避免空间自相关所用的方法称为空间回归模型。2)可变面元问题MAUP:随面积单元定义的不同而变化的问题,就是可变面元问题。其类型分为:①尺度效应:当空间数据经聚合而改变其单元面积的大小、形状和方向时,分析结果也随之变化的现象。②区划效应:给定尺度下不同的单元组合方式导致分析结果产生变化的现象。3)边界效应:边界效应指分析中由于实体向一个或多个边界近似时出现的误差。生态谬误在同一粒度或聚合水平上,由于聚合方式的不同或划区方案的不同导致的分析结果的变化。(给定尺度下不同的单元组合方式) 空间数据的性质空间数据与一般的属性数据相比具有特殊的性质如空间相关性,空间异质性,以及有尺度变化等引起的MAUP效应等。一阶效应:大尺度的趋势,描述某个参数的总体变化性;二阶效应:局部效应,描述空间上邻近位置上的数值相互趋同的倾向。 空间依赖性:空间上距离相近的地理事物的相似性比距离远的事物的相似性大。 空间异质性:也叫空间非稳定性,意味着功能形式和参数在所研究的区域的不同地方是不一样的,但是在区域的局部,其变化是一致的。 ESDA是在一组数据中寻求重要信息的过程,利用EDA技术,分析人员无须借助于先验理论或假设,直接探索隐藏在数据中的关系、模式和趋势等,获得对问题的理解和相关知识。 常见EDA方法:直方图、茎叶图、箱线图、散点图、平行坐标图 主题地图的数据分类问题等间隔分类;分位数分类:自然分割分类。 空间点模式:根据地理实体或者时间的空间位置研究其分布模式的方法。 茎叶图:单变量、小数据集数据分布的图示方法。 优点是容易制作,让阅览者能很快抓住变量分布形状。缺点是无法指定图形组距,对大型资料不适用。 茎叶图制作方法:①选择适当的数字为茎,通常是起首数字,茎之间的间距相等;②每列标出所有可能叶的数字,叶子按数值大小依次排列;③由第一行数据,在对应的茎之列,顺序记录茎后的一位数字为叶,直到最后一行数据,需排列整齐(叶之间的间隔相等)。 箱线图&五数总结 箱线图也称箱须图需要五个数,称为五数总结:①最小值②下四分位数:Q1③中位数④上四分位数:Q3⑤最大值。分位数差:IQR = Q3 - Q1 3密度估计是一个随机变量概率密度函数的非参数方法。 应用不同带宽生成的100个服从正态分布随机数的核密度估计。 空间点模式:一般来说,点模式分析可以用来描述任何类型的事件数据。因为每一事件都可以抽象化为空间上的一个位置点。 空间模式的三种基本分布:1)随机分布:任何一点在任何一个位置发生的概率相同,某点的存在不影响其它点的分布。又称泊松分布

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

基于GIS的人口统计数据的空间化探讨

基于GIS的人口统计数据的空间化探讨 摘要:人口信息的空间化是当前地理科学和社会科学共同的热点问题。土地利用信息数据包含了影响人口分布的大量信息。利用SPSS数学统计软件的分析和数学建模功能及ArcGIS的强大空间分析功能,通过建立土地利用类型对人口分布的影响因子库,实现了人口统计数据的空间化。 关键词:GIS;人口统计数据;空间化 人口分布是人口地理学研究的核心问题。人口分布同生产分布以及同各国各地区的社会经济发展息息相关,研究人口分布的地域差异及其发展过程,揭示其中的规律性对制订区域人口政策、人口的合理再分布以及实现人口、资源、环境的协调持续发展起着指导作用。 传统的人口统计数据通常是以行政区域为单元,通过普查、逐级汇总而来,以综合反映某行政区域内的人口总和。传统的人口数据统计方法在实际应用中存在较多问题:一是数据的空间分辨率低(县级);二是数据的时间分辨率低,全国性的人口普查10年一次;三是以行政区域为单元获得的人口统计数据在区域内是均匀分布的,不能体现出人口数据的空间分布特性;四是在研究过程中,研究区域往往与行政区划并不一致,增加数据分析的难度;五是不利于多源数据融合。基于地理格网的空间数据,如遥感数据与基于行政单元的人口数据存在尺度上的差异,难以进行融合分析。 要解决上述问题,就要探索人口分布规律并利用GIS技术将人口数据按照其分布规律展布到一定尺寸的地理格网中,构建人口分布空间数据库。人口数据空间化是指通过构建特定的统计分析数学模型将以行政区为单元的人口统计数据分布到一定尺寸的地理格网中,实现由行政单元向地理单元网格的转换。通过人口分布的空间化可以进一步提高人口信息管理水平为经济与社会的可持续发展提供服务。人口统计数据的空间化研究已成为人口空间分布应用研究领域的一个热点问题。刘纪远、岳天祥等人通过运用净第一性生产力空间分布、数字高程、城市规模等数据集,模拟了中国人口密度的空间分布规律;刘望保、闫小培等人利用EDSA-GIS空间自相关分析技术,分析改革开放以来广州市人口空间分布及其演化。本文以土地利用数据为主要影响因子,探讨具有实际可操作性的人口数据空间化的方法,并在鄱阳湖区进行试验。 1 研究区概况与数据源 1.1 研究区概况 鄱阳湖位于江西省北部,长江中下游南岸,地理坐标北纬28°22′~29°45′,东经115°47′~116°45′,是我国最大的淡水湖泊。按湖泊出现的最高水位对应的湖水水面面积为该湖泊的面积,鄱阳湖的面积为4 070 km2。

可视化空间数据挖掘研究综述

可视化空间数据挖掘研究综述 贾泽露1,2 刘耀林2 (1. 河南理工大学测绘与国土信息工程学院,焦作,454000;2. 武汉大学资源与环境科学学院,武汉,430079)摘要:空间数据挖掘针对的是更具有可视化要求的地理空间数据的知识发现过程,可视化能提供同用户对空间目标心理认知过程相适应的信息表现和分析环境,可视化与空间数据挖掘的结合是该领域研究发展的必然,并已成为一个研究热点。论文综述了空间数据挖掘和可视化的研究现状,重点阐述了空间数据挖掘中的可视化化技术及其应用,并对可视化空间数据挖掘的发展趋势进行了阐述。 关键词:数据挖掘;空间数据挖掘;数据可视化;信息可视化;GIS; 空间信息获取技术的飞速发展和各种应用的广泛深入,多分辨率、多时态空间信息大量涌现,以及与之紧密相关的非空间数据的日益丰富,对海量空间信息的综合应用和处理技术提出了新的挑战,要求越来越高。空间数据挖掘技术作为一种高效处理海量地学空间数据、提高地学分析自动化和智能化水平、解决地学领域“数据爆炸、知识贫乏”问题的有效手段,已发展成为空间信息处理的关键技术。然而,传统数据挖掘“黑箱”作业过程使得用户只能被动地接受挖掘结果。可视化技术能为数据挖掘提供直观的数据输入、输出和挖掘过程的交互探索分析手段,提供在人的感知力、洞察力、判断力参与下的数据挖掘手段,从而大大地弥补了传统数据挖掘过程“黑箱”作业的缺点,同时也大大弥补了GIS重“显示数据对象”轻“刻画信息结构”的弱点,有力地提高空间数据挖掘进程的效率和结果的可信度[1]。空间数据挖掘中可视化技术已由数据的空间展现逐步发展成为表现数据内在复杂结构、关系和规律的技术,由静态空间关系的可视化发展到表示系统演变过程的可视化。可视化方法不仅用于数据的理解,而且用于空间知识的呈现。可视化与空间数据挖掘的结合己成为必然,并已形成了当前空间数据挖掘1与知识发现的一个新的研究热点——可视化空间数据挖掘(Visual Spatial Data Mining,VSDM)。VSDM技术将打破传统数据挖掘算法的“封闭性”,充分利用各式各样的数据可视化技术,以一种完全开放、互动的方式支持用户结合自身专业背景参与到数据挖掘的全过程中,从而提高数据挖掘的有效性和可靠性。本文将对空间数据挖掘、可视化的研究概况,以及可视化在空间数据挖掘中的应用进行概括性回顾总结,并对未来发展趋势进行探讨。 一、空间数据挖掘研究概述 1.1 空间数据挖掘的诞生及发展 1989年8月,在美国底特律市召开的第一届国际联合人工智能学术会议上,从事数据库、人工智能、数理统计和可视化等技术的学者们,首次出现了从数据库中发现知识(knowledge discovery in database,KDD)的概念,标志着数据挖掘技术的诞生[1]。此时的数据挖掘针对的 作者1简介:贾泽露(1977,6-),男,土家族,湖北巴东人,讲师,博士,主要从事空间数据挖掘、可视化、土地信息系统智能化及GIS理论、方法与应用的研究和教学工作。 作者2简介:刘耀林(1960,9- ),男,汉族,湖北黄冈人,教授,博士,博士生导师,武汉大学资源与环境科学学院院长,现从事地理信息系统的理论、方法和应用研究和教学工作。

空间数据分析模型

第7 章空间数据分析模型 7.1 空间数据 按照空间数据的维数划分,空间数据有四种基本类型:点数据、线数据、面数据和体数据。 点是零维的。从理论上讲,点数据可以是以单独地物目标的抽象表达,也可以是地理单元的抽象表达。这类点数据种类很多,如水深点、高程点、道路交叉点、一座城市、一个区域。 线数据是一维的。某些地物可能具有一定宽度,例如道路或河流,但其路线和相对长度是主要特征,也可以把它抽象为线。其他的线数据,有不可见的行政区划界,水陆分界的岸线,或物质运输或思想传播的路线等。 面数据是二维的,指的是某种类型的地理实体或现象的区域范围。国家、气候类型和植被特征等,均属于面数据之列。 真实的地物通常是三维的,体数据更能表现出地理实体的特征。一般而言,体数据被想象为从某一基准展开的向上下延伸的数,如相对于海水面的陆地或水域。在理论上,体数据可以是相当抽象的,如地理上的密度系指单位面积上某种现象的许多单元分布。 在实际工作中常常根据研究的需要,将同一数据置于不同类别中。例如,北京市可以看作一个点(区别于天津),或者看作一个面(特殊行政区,区别于相邻地区),或者看作包括了人口的“体”。 7.2 空间数据分析 空间数据分析涉及到空间数据的各个方面,与此有关的内容至少包括四个领域。 1)空间数据处理。空间数据处理的概念常出现在地理信息系统中,通常指的是空间分析。就涉及的内容而言,空间数据处理更多的偏重于空间位置及其关系的分析和管理。 2)空间数据分析。空间数据分析是描述性和探索性的,通过对大量的复杂数据的处理来实现。在各种空间分析中,空间数据分析是重要的组成部分。空间数据分析更多的偏重于具有空间信息的属性数据的分析。 3)空间统计分析。使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。与统计学类似,空间统计分析与空间数据分析的内容往往是交叉的。 4)空间模型。空间模型涉及到模型构建和空间预测。在人文地理中,模型用来预测不同地方的人流和物流,以便进行区位的优化。在自然地理学中,模型可能是模拟自然过程的空间分异与随时间的变化过程。空间数据分析和空间统计分析是建立空间模型的基础。 7.3 空间数据分析的一些基本问题 空间数据不仅有其空间的定位特性,而且具有空间关系的连接属性。这些属性主要表现为空间自相关特点和与之相伴随的可变区域单位问题、尺度和边界效应。传统的统计学方法在对数据进行处理时有一些基本的假设,大多都要求“样本是随机的”,但空间数据可能不一定能满足有关假设,因此,空间数据的分析就有其特殊性(David,2003)。

空间分析实习报告

空间分析实习报告 学院遥感信息工程学院班级 学号 姓名 日期

一、实习内容简介 1.实验目的: (1)通过实习了解ArcGIS的发展,以及10.1系列软件的构成体系 (2)熟练掌握ArcMap的基本操作及应用 (3)了解及应用ArcGIS的分析功能模块ArcToolbox (4)加深对地理信息系统的了解 2.实验内容: 首先是对ArcGIS有初步的了解。了解ArcGIS的发展,以及10.1系列软件的构成体系,了解桌面产品部分ArcMap、ArcCatalog和ArcToolbox的相关基础知识。 实习一是栅格数据空间分析,ArcGIS软件的Spatial Analyst模块提供了强大的空间分析工具,可以帮助用户解决各种空间分析问题。利用老师所给的数据可以创建数据(如山体阴影),识别数据集之间的空间关系,确定适宜地址,最后寻找一个区域的最佳路径。 实习二是矢量数据空间分析,ArcToolbox软件中的Analysis Tools和Network Analyst Tools提供了强大的矢量数据处理与分析工具,可以帮助用户解决各种空间分析问题。利用老师所给的数据可以通过缓冲区分析得到矢量面数据,通过与其它矢量数据的叠置分析、临近分析来辅助选址决策过程;可以构建道路平面网络模型,进而通过网络分析探索最优路径,从而服务于公交选线、智能导航等领域。 实习三是三维空间分析,学会用ArcCatalog查找、预览三维数据;在ArcScene中添加数据;查看数据的三维属性;从二维要素与表面中创建新的三维要素;从点数据源中创建新的栅格表面;从现有要素数据中创建TIN表面。 实习四是空间数据统计分析,利用地统计分析模块,你可以根据一个点要素层中已测定采样点、栅格层或者利用多边形质心,轻而易举地生成一个连续表面。这些采样点的值可以是海拔高度、地下水位的深度或者污染值的浓度等。当与ArcMap一起使用时,地统计分析模块提供了一整套创建表面的工具,这些表面能够用来可视化、分析及理解各种空间现象。 实习五是空间分析建模,空间分析建模就是运用GIS空间分析方法建立数学模型的过程。按照建模的目的,可分为以特征为主的描述模型(descriptive model)和提供辅助决策信息和解决方案为目的的过程模型(process model)两类。本次实习主要是通过使用ArcGIS的模型生成器(Model Builder)来建立模型,从而处理涉及到许多步骤的空间分析问题。 二、实习成果及分析 实习一: 练习1:显示和浏览空间数据。利用ArcMap和空间分析模块显示和浏览数据。添加和显示各类空间数据集、在地图上高亮显示数值、查询指定位置的属性值、分析一张直方图和创建一幅山体阴影图。

数据挖掘文献综述

湘潭大学 本科生专业文献综述 题目: 数据挖掘文献综述 姓名: 林勇 学院: 信心工程学院学院 专业: 自动化 班级: 一班 学号: 2010550113 指导教师: 张莹

0前言 随着计算机技术的迅猛发展,人类正在步入信息社会。面对今天浩如烟海的信息,如何帮助人们有效地收集和选择所感兴趣的信息,更关键的是如何帮助用户在日益增多的信息中自动发现新的概念并自动分析它们之间的关系,使之能够真正地做到信息处理的自动化,这已成为信息技术领域的热点问题。数据挖掘就是为满足这种要求而产生并迅速发展起来的,可用于开发信息资源的一种新的数据处理技术。 1什么是数据挖掘 数据挖掘(Data Mining),也叫数据开采,数据采掘等,是按照既定的业务目标从海量数据中提取出潜在、有效并能被人理解的模式的高级处理过程。在较浅的层次上,它利用现有数据库管理系统的查询、检索及报表功能,与多维分析、统计分析方法相结合,进行联机分析处理,从而得出可供决策参考的统计分析数据。在深层次上,则从数据库中发现前所未有的、隐含的知识。OLAF'的出现早于数据挖掘,它们都是从数据库中抽取有用信息的方法,就决策支持的需要而言两者是相辅相成的。OLAP可以看作一种广义的数据挖掘方法,它旨在简化和支持联机分析,而数据挖掘的目的是便这一过程尽可能自动化。数据挖掘基于的数据库类型主要有:关系型数据库、面向对象数据库、事务数据库、演绎数据库、时态数据库、多媒体数据库、主动数据库、空间数据库、遗留数据库、异质数据库、文本型、Internet信息库以及新兴的数据仓库(Data Warehouse)等。而挖掘后获得的知识包括关联规则、特征规则、区分规则、分类规则、总结规则、偏差规则、聚类规则、模式分析及趋势分析等。 1.1 数据挖掘的任务 数据挖掘的两个高层目标是预测和描述。前者指用一些变量或数据库的若干已知字段预测其它感兴趣的变量或字段的未知的或未来的值;后者指找到描述数据的可理解模式。根据发现知识的不同,我们可以将数据挖掘任务归纳为以下几类: (1)特征规则。从与学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征.例如可以从某种疾病的症状中提取

空间数据分析

空间数据分析报告 —使用Moran's I统计法实现空间自相关的测度1、实验目的 (1)理解空间自相关的概念和测度方法。 (2)熟悉ArcGIS的基本操作,用Moran's I统计法实现空间自相关的测度。2、实验原理 2.1空间自相关 空间自相关的概念来自于时间序列的自相关,所描述的是在空间域中位置S 上的变量与其邻近位置Sj上同一变量的相关性。对于任何空间变量(属性)Z,空间自相关测度的是Z的近邻值对于Z相似或不相似的程度。如果紧邻位置上相互间的数值接近,我们说空间模式表现出的是正空间自相关;如果相互间的数值不接近,我们说空间模式表现出的是负空间自相关。 2.2空间随机性 如果任意位置上观测的属性值不依赖于近邻位置上的属性值,我们说空间过程是随机的。 Hanning则从完全独立性的角度提出更为严格的定义,对于连续空间变量Y,若下式成立,则是空间独立的: 式中,n为研究区域中面积单元的数量。若变量时类型数据,则空间独立性的定义改写成 式中,a,b是变量的两个可能的类型,i≠j。 2.3Moran's I统计 Moran's I统计量是基于邻近面积单元上变量值的比较。如果研究区域中邻近面积单元具有相似的值,统计指示正的空间自相关;若邻近面积单元具有不相似的值,则表示可能存在强的负空间相关。

设研究区域中存在n 个面积单元,第i 个单位上的观测值记为y i ,观测变量在n 个单位中的均值记为y ,则Moran's I 定义为 ∑∑∑∑∑======n i n j ij n i n j ij n i W W n I 11 11j i 1 2i ) y -)(y y -(y )y -(y 式中,等号右边第二项∑∑==n 1i n 1j j i ij )y -)(y y -(y W 类似于方差,是最重要的项,事 实上这是一个协方差,邻接矩阵W 和) y -)(y y -(y j i 的乘积相当于规定)y -)(y y -(y j i 对邻接的单元进行计算,于是I 值的大小决定于i 和j 单元中的变量值对于均值的偏离符号,若在相邻的位置上,y i 和y j 是同号的,则I 为正;y i 和y j 是异号的, 则I 为负。在形式上Moran's I 与协变异图 {}{}u ?-)Z(s u ?-)Z(s N(h)1(h)C ?j i ∑=相联系。 Moran's I 指数的变化范围为(-1,1)。如果空间过程是不相关的,则I 的期望接近于0,当I 取负值时,一般表示负自相关,I 取正值,则表示正的自相关。用I 指数推断空间模式还必须与随机模式中的I 指数作比较。 通过使用Moran's I 工具,会返回Moran's I Index 值以及Z Score 值。如果Z score 值小于-1.96获大于1.96,那么返回的统计结果就是可采信值。如果Z score 为正且大于1.96,则分布为聚集的;如果Z score 为负且小于-1.96,则分布为离散的;其他情况可以看作随机分布。 3、实验准备 3.1实验环境 本实验在Windows 7的操作系统环境中进行,使用ArcGis 9.3软件。 3.2实验数据 此次实习提供的数据为以湖北省为目标区域的bount.dbf 文件。.dbf 数据中包括第一产业增加值,第二产业增加值万元,小学在校学生数,医院、卫生院床位数,乡村人口万人,油料产量,城乡居民储蓄存款余额,棉花产量,地方财政一般预算收入,年末总人口(万人),粮食产量,普通中学在校生数,肉类总产量,规模以上工业总产值现价(万元)等属性,作为分析的对象。

人口空间分布解读

第一章绪论 1.1选题背景与意义 人口空间分布是一定时间内人口在一定地域范围内的空间分布状况,是人口发展过程在空间上的表现形式。人口空间分布与区域自然地理条件和社会经济因素相互作用,表现在两个方面:第一,人口空间分布受到区域自然地理条件和经济发展水平的制约;第二,合理的人口空间分布也会促进该区域社会经济发展,反之,则会阻碍该区域社会经济发展。自然地理条件和社会经济因素共同影响区域人口空间分布的状况,并影响其动态分布特征。另一方面,人口空间分布的不同特征也反映了不同区域自然地理条件和社会经济发展水平之间的差异性。所以,人口空间分布是否均衡合理对某区域社会经济发展有着重大影响。对区域人口空间分布进行分析研究的重要意义就是探索区域人口空间分布的特征和其动态变化规律,因地制宜地制订适合该地区经济社会发展的人口政策,最终促进区域人口合理均衡布局,促进人口与社会和谐可持续发展。 当今时代,经济全球化趋势不断加速,城市化进程不断推进,区域人口空间分布也随之不断发生变化。近年来,我国人口问题和地区社会经济发展间的矛盾不断升级。因此,研究区域人口空间分布的现状特征及其动态变化规律成为当前人口问题研究中的热点之一。 从1994年的《中国21世纪议程》开始,我国就开始实施可持续发展战略,之后,我国颁布的十二五规划纲要中又提出“控制人口总量,提高人口素质,优化人口结构,促进人口长期均衡发展”的奋斗目标。2012年11月党的十八大召开,胡主席在报告中又提出新的人口发展战略要求,即“促进人口长期均衡发展,增强中小城市和小城镇的人口聚集功能,有序推进农业转移人口市民化。”跟之前研究相比较,有关人口分布合理性的学术研究并不多。随着经济全球化加速推进,社会经济因素对人口分布的影响作用越来越大,因此,用经济承载力指标考量人口分布是否合理,探讨人口空间分布与社会经济发展是否协调己成为当前的重要研究课题之一。 重庆市作为我国重要的直辖市之一,2014年总人口己达1732.76万人。重庆市的人口分布格局是各种自然、社会经济因素综合影响的结果。研究重庆地区的人口空间分布格局,分析其影响因素之间的关系,并从人口容量和自然、经济承载力方面研究重庆地区人口分布是否均衡合理,有重要的理论价值和现实意义,针对存在的问题制定合理的人口政策对重庆市的社会经济发展、城市规划建设、交通运输等各个方面都有着重要影响。 1.2国内外研究现状 1.2.1国外研究进展 国外人口分布的研究可分为以下几个阶段: 20世纪60年代中期以前:这个时期的人口研究还不是独立的研究课题,它只是在研究空间问题时被涉及的某一个相关方面。主要代表学者有伯吉斯、霍伊特、罗西等人类生态学派和新古典主义学派。1951年Clark以20多个城市的人口数据为依据,研究人口密度与距离的关系,研究表明人口密度呈指数式衰减趋势,也就是人口密度与距离的关系呈现负指数的关系; Sherratt和Tanner随后研究得出新的人口密度理论模型一正态密度模型,Smeed提出了负 幂指数模型。 20世纪60年代中期至70年代中期:这一时期受地理学发展思潮的影响,研究内容主要有人口空间分布特征,此外还有人口分布的数量模式,人们的迁居行为和因人口集聚形成的住房链问题。主要代表学者有克拉克、西蒙斯、劳瑞、摩尔、贝尔、布朗等。1969年,Newling 等深化了Clark理论模型,用二次曲线替代了一次变量,提出了二次指数模型。 20世纪70年代中期以后:这一时期主要以阶级关系、政治因素等社会结构深层原因为切入点来研究人口分布,研究人口分布的发展变化规律。代表学者有哈维、史密斯等激进地理学派。90年代,美国人口分布研究主要以国内国际人口迁移和人口特征的区域差异为主,此外还

相关文档
相关文档 最新文档