文档库 最新最全的文档下载
当前位置:文档库 › 数据的预处理方法

数据的预处理方法

数据的预处理方法
数据的预处理方法

数据的预处理方法

1.1数据预处理概述

1.1.1数据预处理的目的

由于人的错误、测量设备的限制或数据收集过程的漏洞等都可能导致各种问题,从而导致数据的值乃至整个数据对象都可能会丢失。因此,为了高质量的数据挖掘结果,必须进行数据预处理。数据预处理的目的是为信息处理过程提供干净、准确、简洁的数据,从而提高数据质量、信息处理率和准确性,使数据挖掘的过程更加有效,更加容易,同时也提高挖掘结果的质量。

数据预处理的对象主要是清理其中的噪声数据、空缺数据和不一致数据。常用的数据预处理技术主要包括:数据清洗、相关分析和数据变换等。

1.1.2数据预处理的基本流程

从对不同的源数据进行预处理的功能来分,数据预处理主要包括数据清理、数据集成、数据变换、数据归约等4个基本的功能。

在实际的数据预处理过程中,这4中功能不一定都用得到,而且他们的使用也没有先后顺序,某种预处理可能先后要多次进行。

1.2异常值检测及处理

1.2.1基于图形的异常值检测

比较常见并且直观表达异常值的图形是箱形图。

箱形图可以用来观察数据整体的分布情况,利用中位数、25/%分位数、75/%分位数、上边界、下边界等统计量来来描述数据的整体分布情况。通过计算这些统计量,生成一个箱体图,箱体包含了大部分的正常数据,而在箱体上边界和下边界之外的,就是异常值,如下图1。

其中上下边界的计算公式如下:

上边界= 上四分位数+(上四分位数-下四分位数)*1.5,

下边界=下四分位数-(上四分位数-下四分位数)*1.5

图1 箱形图

此外,也有有基于分布的方法。在上、下α分位点之外的值认为是异常值(如图2)。

图2 正态分布图

1.2.2基于业务经验的异常值检测

除了通过图形采用直观方法检测异常值以外,有时还可以结合相关业务知识判断某个或某些值是否异常。比如某些污染物检测值已经超过了仪器检测的上限,或者一些指标值已经超出了可能的范围。对于这些异常情况,并不需要借助大量样本构造图形,而只需要单个的数据本身就可以判断其是否异常。

1.2.1基于统计量的异常值检测

判断异常值的统计量主要有以下判断规则:当标准差未知时,常用的有格拉布斯(Grubbs)检验法和狄克逊(Dixon)检验法;当标准差已知——奈尔(Nair)检验法。

格拉布斯(Grubbs)检验法具体步骤如下:

检验统计量=(样本均值-极值)/标准差

(1)计算统计量

12(x x x )/n

s 1,2,)

(X(n))/s n n Gn μμ=+++===-L L

式中μ为样本平均值;s 为样本标准差;Gn 为格拉布斯检验统计量。

(2)确定检出水平α,查表(见GB4881)得出对应n ,α的格拉布斯检验临界值1G -α(n )。

(1)当Gn >1G -α(n ),则判断x n 为异常值,否则无异常值。

(4)给出剔除水平α*的1(n)G α*- 当Gn >

1(n)G α*-时 x n 为高度异常值,应剔除。

除此之外,也可以用标准化数值(Z-score )这一统计量识别异常值。Z 分数标准化后的数据服从正态分布。因此,应用Z 分数可识别异常值。我们可以将

Z

分数低于-1或高于1的数据看成是异常值。

1.2.4异常值处理

异常值处理的常用方法有:(1)直接将该条观测删除。在SPSS软件里有2种不同的删除方法:整条删除和成对删除。这种方法简单易行,但缺点也很明显。如:当观测值数量很少,删除的做法会造成样本量不足;也可能会改变变量的原有分布,从而造成统计模型不够稳定。(2)暂且保留,待结合整体模型综合分析。通常我们观测到的异常值,有时在对于整个模型而言,其异常性质并没有观测到的明显,因此需要综合分析。如:我们做回归分析的时候,利用残差分布信息来判断模型优劣,残差有没有超出经验范围(+1标准差),呈现什么分布等,另外对于整个模型而言,会有一些指标(Mahalanobis、协方差比率等)可以提供某条观测或整体的拟合信息,这些指标也会提示分析人员的异常值信息。如果对于整个模型而言,并不是很明显时,建议保留。(1)如果样本量很小,可以考虑使用均值或其他统计量取代。这是一种折中的方法,大部分的参数方法是针对均值来建模的,用均值取代,实际上克服了丢失样本的缺陷,但却丢失了样本“特色”,可以说是不大不小的错误。(4)将其视为缺失值,利用统计模型填补。该方法的好处是可以利用现有变量的信息,对异常值(缺失值)填补。(5)不做过多处理。根据其性质特点,使用稳健模型加以修饰。(6)使用抽样技术或模拟技术。模拟技术可以利用先验分布特征和样本信息来构建事后预测的概率分布,进行事后模拟。

1.3缺失值处理

1.3.1简单的缺失值处理

对于缺失值的处理,从总体上来说分为删除存在缺失值的个案和缺失值插补。对于主观数据,人将影响数据的真实性,存在缺失值的样本的其他属性的真实值不能保证,那么依赖于这些属性值的插补也是不可靠的,所以对于主观数据一般不推荐插补的方法。插补主要是针对客观数据,它的可靠性有保证。

(1)删除含有缺失值的个案

主要有简单删除法和权重法。简单删除法是对缺失值进行处理的最原始方法。它将存在缺失值的个案删除。如果数据缺失问题可以通过简单的删除小部分样本来达到目标,那么这个方法是最有效的。当缺失值的类型为非完全随机缺失的时候,可以通过对完整的数据加权来减小偏差。把数据不完全的个案标记后,将完整的数据个案赋予不同的权重,个案的权重可以通过logistic回归求得。如果解释变量中存在对权重估计起决定性因素的变量,那么这种方法可以有效减小偏差。如果解释变量和权重并不相关,它并不能减小偏差。对于存在多个属性缺失的情况,就需要对不同属性的缺失组合赋不同的权重,这将大大增加计算的难度,降低预测的准确性,这时权重法并不理想。

(2)可能值插补缺失值

它的思想来源是以最可能的值来插补缺失值比全部删除不完全样本所产生的信息丢失要少。在数据挖掘中,面对的通常是大型的数据库,它的属性有几十个甚至几百个,因为一个属性值的缺失而放弃大量的其他属性值,这种删除是对信息的极大浪费,所以产生了以可能值对缺失值进行插补的思想与方法。

1.3.2基于回归的缺失值处理

获取缺失值较少偏差估计值的方法是探寻变量之间的相关关系。基于完整的数据集,建立回归方程(模型)。对于包含空值的对象,将已知属性值代入方程来估计未知属性值,以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。

回归填补是由单元的缺失项对观测项的回归,用预测值代替缺失值。通常由观测变量及缺失变量都有观测的单元进行回归计算。填补中还可以给填补值增加一个随机成分,这种方法称为随机回归填补。它是用回归填补值加上一个随机项,预测出一个缺失值的替代值,该随机项反映所预测的值的不确定性影响。随机回归填补法能够较好的利用数据提供的信息,解决因预测变量高度相关引起的共线性问题。

1.3.1基于邻近样本的缺失值处理

在处理缺失值的时候,可以使用行(观察值)之间的相似性来填补,这种方法可以填补除去那两个含有太多NA 值的样本外的其他缺失数据。

具体方法有两种:第一种方法简单地计算最相近的案例中的中位数并用这个中位数来填补缺失值。如果缺失值是名义变量,可以采用最相似数据中出现次数最多的值(即众数)。第二种方法采用这些最相似数据的加权均值。权重的大小随着距待填补缺失值的个案的距离增大而减小。通常使用高斯核函数从距离获得权重。如果相邻个案距待填补缺失值的个案的距离为d ,则它的值在加权平均中

的权重为:()e d w d -=。

1.4针对特殊数据的预处理

1.4.1针对序列数据的预处理

时间序列的预处理,一方面能够使序列的特征体现的更加明显,利于分析模型的选择;另一方面也使数据满足模型的要求。例如通过对序列取对数以及对序列进行标准化、中心化、归一化处理等方法进行数据变换,使偏态分布的序列变成对称的分布,消除序列中的异方差性,使变量间的非线性关系转换成线性关系,在时间序列数据数量很大的时候会起到显著改善计算精度的作用。

时间序列往往具有明显的长期趋势和不规则变动叠加于随机波动之上,因此,大部分时间序列都是非平稳的时间序列,只有通过各种数据处理方法将数据的非平稳特性从序列中分离出来,才能将其转换为平稳的时间序列。因此,时间序列

的平稳化处理是时间序列分析的重要步骤。

时间序列非平稳性表现出多样性和复杂性。一个均值平稳过程其方差和自协方差可能是非平稳的;而一个均值非平稳过程也可能是方差和自协方差非平稳过程。因而时间序列平稳化的方法也是多种多样的。多于不同形式的非平稳性,应采取不同的平稳化方法。

1.4.2针对文本数据的预处理

文本数据进行预处理主要包括文档切分、文本分词、去停用词(包括标点、数字、单字和其它一些无意义的词)、文本特征提取、词频统计、文本向量化等操作。

(1)文档切分

文档切分这个操作是可选的,取决于所获取到的文档集合的形式。如果得到的文档集合本身就是一篇一篇文章分开的,那么这一步可以省略。反之,如果文档集合是一个单一的文件,所有的文章都存储在这个文件中,那么就需要将其中的文章提取出来单独存放在一个文件中,从而便于以后的操作。

一般来说,单一文件的文档集合中文章与文章之间都会使用一些标记来区分,比如用空行、特定符号等等。

(2)文本分词

文本分词是预处理过程中必不可少的一个操作,因为后续的分类操作需要使用文本中的单词来表征文本。文本分词包括两个主要步骤,第一个是词典的构造,第二个是分词算法的操作。

词典的构造目前比较流行的有字典树即标准trie树,字典树的构造有很多方法。分词算法有简单的有复杂的,常见的主要有正向最大匹配、反向最大匹配、双向最大匹配、语言模型方法、最短路径算法等等。

(1)去停用词

去停用词也是预处理过程中不可缺少的一部分,因为并不是文本中每一个单词或字符都能够表征这个文本,比如说“这个”、“的”、“一二三四”、“我你他”、“0 1 2 ……9”等等,那么这些词就应当从文本中清除掉。

(4)文本特征提取

这个是文本分类过程中很重要的一部分,但是并不是必要的。文本中的某一个单词不能100%表征这篇文档,但这个单词可以在某种程度来表征这篇文档,这个程度具体衡量的标准就是概率。概率越大,说明这个单词越能表征这篇文档;反之则越不能表征这篇文档,当概率小到一个阀值的时候,这个单词就可以舍弃了。

表征的概率目前有两种使用比较广泛的方法,一种是差方统计,另一种是信息增益。

(5)词频统计

这一步是必不可少的一个步骤。这涉及到另一个表征标准了---词频。显然,如果一个单词在文本中出现的频率很高,那么这个单词就越有可能表征这个文本。

影像预处理

遥感影像预处理 预处理是遥感应用的第一步,也是非常重要的一步。目前的技术也非常成熟,大多数的商业化软件都具备这方面的功能。预处理的大致流程在各个行业中有点差异,而且注重点也各有不同。 本小节包括以下内容: ? ? ●数据预处理一般流程介绍 ? ? ●预处理常见名词解释 ? ? ●ENVI中的数据预处理 1、数据预处理一般流程 数据预处理的过程包括几何精校正、配准、图像镶嵌与裁剪、去云及阴影处理和光谱归一化几个环节,具体流程图如图所示。 图1数据预处理一般流程

各个行业应用会有所不同,比如在精细农业方面,在大气校正方面要求会高点,因为它需要反演;在测绘方面,对几何校正的精度要求会很高。 2、数据预处理的各个流程介绍 (一)几何精校正与影像配准 引起影像几何变形一般分为两大类:系统性和非系统性。系统性一般有传感器本身引起的,有规律可循和可预测性,可以用传感器模型来校正;非系统性几何变形是不规律的,它可以是传感器平台本身的高度、姿态等不稳定,也可以是地球曲率及空气折射的变化以及地形的变化等。 在做几何校正前,先要知道几个概念: 地理编码:把图像矫正到一种统一标准的坐标系。 地理参照:借助一组控制点,对一幅图像进行地理坐标的校正。 图像配准:同一区域里一幅图像(基准图像)对另一幅图像校准影像几何精校正,一般步骤如下, (1)GCP(地面控制点)的选取 这是几何校正中最重要的一步。可以从地形图(DRG)为参考进行控制选点,也可以野外GPS测量获得,或者从校正好的影像中获取。选取得控制点有以下特征:

1、GCP在图像上有明显的、清晰的点位标志,如道路交叉点、河流交叉点等; 2、地面控制点上的地物不随时间而变化。 GCP均匀分布在整幅影像内,且要有一定的数量保证,不同纠正模型对控制点个数的需求不相同。卫星提供的辅助数据可建立严密的物理模型,该模型只需9个控制点即可;对于有理多项式模型,一般每景要求不少于30个控制点,困难地区适当增加点位;几何多项式模型将根据地形情况确定,它要求控制点个数多于上述几种模型,通常每景要求在30-50个左右,尤其对于山区应适当增加控制点。 (2)建立几何校正模型 地面点确定之后,要在图像与图像或地图上分别读出各个控制点在图像上的像元坐标(x,y)及其参考图像或地图上的坐标(X,Y),这叫需要选择一个合理的坐标变换函数式(即数据校正模型),然后用公式计算每个地面控制点的均方根误差(RMS) 根据公式计算出每个控制点几何校正的精度,计算出累积的总体均方差误差,也叫残余误差,一般控制在一个像元之内,即RMS<1。 (3)图像重采样

高光谱数据处理基本流程

高光谱数据处理基本流 程 The document was finally revised on 2021

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(Imaging Spectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库

ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理:

Matlab笔记——数据预处理——剔除异常值及平滑处理

012. 数据预处理(1)——剔除异常值及平滑处理测量数据在其采集与传输过程中,由于环境干扰或人为因素有可能造成个别数据不切合实际或丢失,这种数据称为异常值。为了恢复数据的客观真实性以便将来得到更好的分析结果,有必要先对原始数据(1)剔除异常值; 另外,无论是人工观测的数据还是由数据采集系统获取的数据,都不可避免叠加上“噪声”干扰(反映在曲线图形上就是一些“毛刺和尖峰”)。为了提高数据的质量,必须对数据进行(2)平滑处理(去噪声干扰); (一)剔除异常值。 注:若是有空缺值,或导入Matlab数据显示为“NaN”(非数),需要①忽略整条空缺值数据,或者②填上空缺值。 填空缺值的方法,通常有两种:A. 使用样本平均值填充;B. 使用判定树或贝叶斯分类等方法推导最可能的值填充(略)。 一、基本思想: 规定一个置信水平,确定一个置信限度,凡是超过该限度的误差,就认为它是异常值,从而予以剔除。

二、常用方法:拉依达方法、肖维勒方法、一阶差分法。 注意:这些方法都是假设数据依正态分布为前提的。 1. 拉依达方法(非等置信概率) 如果某测量值与平均值之差大于标准偏差的三倍,则予以剔除。 3x i x x S -> 其中,11 n i i x x n ==∑为样本均值,1 2 211()1n x i i S x x n =?? ??? =--∑为样本的标准偏差。 注:适合大样本数据,建议测量次数≥50次。 代码实例(略)。 2. 肖维勒方法(等置信概率) 在 n 次测量结果中,如果某误差可能出现的次数小于半次时,就予以剔除。 这实质上是规定了置信概率为1-1/2n ,根据这一置信概率,可计算出肖维勒系数,也可从表中查出,当要求不很严格时,还可按下列近似公式计算:

遥感卫星影像预处理做哪些

北京揽宇方圆信息技术有限公司热线:4006019091 遥感影像数据预处理 影像融合不同传感器的数据具有不同的时间、空间和光谱分辨率以及不同的极 化方式。单一传感器获取的影像信息量有限,往往难以满足应用需要, 通过影像融合可以从不同的遥感影像中获得更多的有用信息,补充单一 传感器的不足。全色图影像一般具有较高空间分辨率,多光谱影像光谱 信息较丰富。为提高多光谱影像的空间分辨率,可以将全色影像融合进 多光谱图像,通过融合既提高多光谱影像空间分辨率,又保留其多光谱 特性。对卫星数据的全色及多光谱波段进行融合。包括选取最佳波段, 从多种分辨率融合方法中选取最佳方法进行全色波段和多光谱波段融 合,使得图像既有高的空间分辨率和纹理特性,又有丰富的光谱信息, 从而达到影像地图信息丰富、视觉效果好、质量高的目的。 影像匀色相邻的遥感图像,由于成像日期、季节、天气、环境等因素可能有差异, 不仅存在几何畸变问题,而且还存在辐射水平差异导致同名地物在相 邻图像上的色彩亮度值不一致。如不进行色调调整就把这种图像镶嵌起 来,即使几何配准的精度很高,重叠区复合得很好,但镶嵌后两边的影 像色调差异明显,接缝线十分突出,既不美观,也影响对地物影像与专 业信息的分析与识别,降低应用效果。要求镶嵌完的数据色调基本无差 异,美观。遥感影像匀色后保证影像整体色彩一致性。 影像镶嵌将不同的图像文件合在一起形成一幅完整的包含感兴趣区域的图像,通 过镶嵌处理,可以获得更大范围的地面图像。参与镶嵌的图像可以是不 同时间同一传感器获取的,也可以是不同时间不同传感器获取的图像, 但同时要求镶嵌的图像之间要有一定的重叠度。 影像去云雾影像数据常常有云雾覆盖,针对有云雾覆盖的影像,可以通过后期技术 处理去除薄云雾,达到影像最佳效果。 影像纠正依据控制点,利用相应软件模块对数据进行几何精校正,这一步骤包括 利用地面控制点(GCPs)找出实际地形,计算配准中控制点的误差,利 用DEM消除地形起伏引起的位移,然后对图像进行重采样等。形成符合 某种地图投影或图形表达要求的新影像。 即插即用无使用门槛,可与各类GIS软件系统无缝衔接 第 1 页

遥感数据预处理

遥感讲座——遥感影像预处理 据预处理是遥感应用的第一步,也是非常重要的一步。目前的技术也非常成熟,大多数的商业化软件都具备这方面的功能。预处理的大致流程在各个行业中有点差异,而且注重点也各有不同。下面是预处理中比较常见的流程。 1、数据预处理一般流程 数据预处理的过程包括几何精校正、配准、图像镶嵌与裁剪、去云及阴影处理和光谱归一化几个环节,具体流程图如图所示。 各个行业应用会有所不同,比如在精细农业方面,在大气校正方面要求会高点,因为它需要反演;在测绘方面,对几何校正的精度要求会很高。 2、数据预处理的各个流程介绍 (一)几何精校正与影像配准 引起影像几何变形一般分为两大类:系统性和非系统性。系统性一般有传感器本身引起的,有规律可循和可预测性,可以用传感器模型来校正;非系统性几何变形是不规律的,它可以是传感器平台本身的高度、姿态等不稳定,也可以是地球曲率及空气折射的变化以及地形的变化等。 在做几何校正前,先要知道几个概念: 地理编码:把图像矫正到一种统一标准的坐标系。 地理参照:借助一组控制点,对一幅图像进行地理坐标的校正。 图像配准:同一区域里一幅图像(基准图像)对另一幅图像校准

影像几何精校正,一般步骤如下, (1)GCP(地面控制点)的选取 这是几何校正中最重要的一步。可以从地形图(DRG)为参考进行控制选点,也可以野外GPS测量获得,或者从校正好的影像中获取。选取得控制点有以下特征: 1、GCP在图像上有明显的、清晰的点位标志,如道路交叉点、河流交叉点等; 2、地面控制点上的地物不随时间而变化。 GCP均匀分布在整幅影像内,且要有一定的数量保证,不同纠正模型对控制点个数的需求不相同。卫星提供的辅助数据可建立严密的物理模型,该模型只需9个控制点即可;对于有理多项式模型,一般每景要求不少于30个控制点,困难地区适当增加点位;几何多项式模型将根据地形情况确定,它要求控制点个数多于上述几种模型,通常每景要求在30-50个左右,尤其对于山区应适当增加控制点。 (2)建立几何校正模型 地面点确定之后,要在图像与图像或地图上分别读出各个控制点在图像上的像元坐标(x,y)及其参考图像或地图上的坐标(X,Y),这叫需要选择一个合理的坐标变换函数式(即数据校正模型),然后用公式计算每个地面控制点的均方根误差(RMS)根据公式计算出每个控制点几何校正的精度,计算出累积的总体均方差误差,也叫残余误差,一般控制在一个像元之内,即RMS<1。 (3)图像重采样 重新定位后的像元在原图像中分布是不均匀的,即输出图像像元点在输入图像中的行列号不是或不全是正数关系。因此需要根据输出图像上的各像元在输入图像中的位置,对原始图像按一定规则重新采样,进行亮度值的插值计算,建立新的图像矩阵。常用的内插方法包括: 1、最邻近法是将最邻近的像元值赋予新像元。该方法的优点是输出图像仍然保持原来的像元值,简单,处理速度快。但这种方法最大可产生半个像元的位置偏移,可能造成输出图像中某些地物的不连贯。 2、双线性内插法是使用邻近4个点的像元值,按照其距内插点的距离赋予不同的权重,进行线性内插。该方法具有平均化的滤波效果,边缘受到平滑作用,而产生一个比较连贯的输出图像,其缺点是破坏了原来的像元值。 3、三次卷积内插法较为复杂,它使用内插点周围的16个像元值,用三次卷积函数进行内插。这种方法对边缘有所增强,并具有均衡化和清晰化的效果,当它仍然破坏了原来的像元值,且计算量大。 一般认为最邻近法有利于保持原始图像中的灰级,但对图像中的几何结构损坏较大。后两种方法虽然对像元值有所近似,但也在很大程度上保留图像原有的几何结构,如道路网、水系、地物边界等。

高光谱数据处理基本流程

高光谱分辨率遥感 用很窄(10-2l)而连续的光谱通道对地物持续遥感成像的技术。在可见光到短波红外波段其光谱分辨率高达纳米(nm)数量级,通常具有波段多的特点,光谱通道数多达数十甚至数百个以上,而且各光谱通道间往往是连续的,每个像元均可提取一条连续的光谱曲线,因此高光谱遥感又通常被称为成像光谱(ImagingSpectrometry)遥感。 高光谱遥感具有不同于传统遥感的新特点: (1)波段多——可以为每个像元提供几十、数百甚至上千个波段; (2)光谱范围窄——波段范围一般小于10nm; (3)波段连续——有些传感器可以在350~2500nm的太阳光谱范围内提供几乎连续的地物光谱; (4)数据量大——随着波段数的增加,数据量成指数增加; (5)信息冗余增加——由于相邻波段高度相关,冗余信息也相对增加。 优点: (1)有利于利用光谱特征分析来研究地物; (2)有利于采用各种光谱匹配模型; (3)有利于地物的精细分类与识别。 ENVI高光谱数据处理流程: 一、图像预处理 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气纠正。辐射校正一般由数据提供商完成。 二、显示图像波谱 打开高光谱数据,显示真彩色图像,绘制波谱曲线,选择需要的光谱波段进行输出。 三、波谱库 1、标准波谱库 软件自带多种标准波谱库,单击波谱名称可以显示波谱信息。 2、自定义波谱库 ENVI提供自定义波谱库功能,允许基于不同的波谱来源创建波谱库,波谱

来源包括收集任意点波谱、ASCII文件、由ASD波谱仪获取的波谱文件、感兴趣区均值、波谱破面和曲线等等。 3、波谱库交互浏览 波谱库浏览器提供很多的交互功能,包括设置波谱曲线的显示样式、添加注记、优化显示曲线等 四、端元波谱提取 端元的物理意义是指图像中具有相对固定光谱的特征地物类型,它实际上代表图像中没有发生混合的“纯点”。 端元波谱的确定有两种方式: (1)使用光谱仪在地面或实验室测量到的“参考端元”,一般从标准波谱库选择; (2)在遥感图像上得到的“图像端元”。 端元波谱获取的基本流程: (1)MNF变换 重要作用为:用于判定图像内在的维数;分离数据中的噪声;减少计算量;弥补了主成分分析在高光谱数据处理中的不足。 (2)计算纯净像元指数PPI PPI生成的结果是一副灰度的影像,DN值越大表明像元越纯。 作用及原理: 纯净像元指数法对图像中的像素点进行反复迭代,可以在多光谱或者高光谱影像中寻找最“纯”的像元。(通常基于MNF变换结果来进行)

红外与近红外光谱常用数据处理算法

一、数据预处理 (1)中心化变换 (2)归一化处理 (3)正规化处理 (4)标准正态变量校正(标准化处理)(Standard Normal Variate,SNV)(5)数字平滑与滤波(Smooth) (6)导数处理(Derivative) (7)多元散射校正(Multiplicative Scatter Correction,MSC) (8)正交信号校正(OSC) 二、特征的提取与压缩 (1)主成分分析(PCA) (2)马氏距离 三、模式识别(定性分类) (1)基于fisher意义下的线性判别分析(LDA) (2)K-最邻近法(KNN) (3)模型分类方法(SIMCA) (4)支持向量机(SVM) (5)自适应boosting方法(Adaboost) 四、回归分析(定量分析) (1)主成分回归(PCR) (2)偏最小二乘法回归(PLS) (3)支持向量机回归(SVR)

一、数据预处理 (1) 中心化变换 中心化变换的目的是在于改变数据相对于坐标轴的位置。一般都是希望数据集的均值与坐标轴的原点重合。若x ik 表示第i 个样本的第k 个测量数据,很明显这个数据处在数据矩阵中的第i 行第k 列。中心化变换就是从数据矩阵中的每一个元素中减去该元素所在元素所在列的均值的运算: u ik k x x x =- ,其中k x 是n 个样本的均值。 (2) 归一化处理 归一化处理的目的是是数据集中各数据向量具有相同的长度,一般为单位长度。其公式为: 'ik x = 归一化处理能有效去除由于测量值大小不同所导致的数据集的方差,但是也可能会丢失重要的方差。 (3)正规化处理 正规化处理是数据点布满数据空间,常用的正规化处理为区间正规化处理。其处理方法是以原始数据集中的各元素减去所在列的最小值,再除以该列的极差。 min() 'max()min() ik ik k k x xk x x x -= - 该方法可以将量纲不同,范围不同的各种变量表达为值均在0~1范围内的数据。但这种方法对界外值很敏感,若存在界外值,则处理后的所有数据近乎相等。 (4) 标准化处理(SNV )也称标准正态变量校正 该处理能去除由单位不同所引起的不引人注意的权重,但这种方法对界外点不像区间正规化那样的敏感。标准化处理也称方差归一化。它是将原始数据集各个元素减去该元素所在列的元素的均值再除以该列元素的标准差。 ';ik k ik k k x x x S S -==

高光谱预处理实验指导书

高光谱遥感图像预处理 实验指导书 指导教师:赵泉华

一、实习目的 通过高光谱遥感图像预处理的学习,使学生在课堂教学及实验课教学的基础上进一步将理论与实践相结合,消化和理解课堂所学理论知识,达到初步掌握利用ENVI等软件预处理高光谱遥感图像,并熟悉高光谱遥感图像预处理流程与方法的目的。 二、实习方式 学生自学指导书为主,指导教师讲授为辅; 利用计算机,结合相应遥感图像及ENVI软件的具体操作进行。 三、练习数据 机载高光谱AVIRIS数据。 四、实习内容与要求 掌握高光谱遥感图像预处理的理论与方法,利用ENVI中FLAASH大气校正工具和快速大气校正工具对高光谱数据进行大气校正及快速大气校正。

实验一、高光谱FLAASH数据大气校正 实验目的:通过实验操作,掌握高光谱遥感图像FLAASH数据的大气校正的基本方法和步骤,深刻理解遥感图像大气校正的意义。 实验内容:ENVI软件中高光谱图像预处理模块下的图像大气校正。 高光谱图像的预处理主要是辐射校正,辐射校正包括传感器定标和大气校正。辐射校正一般由数据提供商完成。太阳辐射通过大气以某种方式入射到物体表面然后再反射回传感器,由于大气气溶胶、地形和邻近地物等影像,使得原始影像包含物体表面,大气,以及太阳的信息等信息的综合。如果我们想要了解某一物体表面的光谱属性,我们必须将它的反射信息从大气和太阳的信息中分离出来,这就需要进行大气校正过程。 操作步骤: 1.打开文件 File→Open→CupriteAVIRISSubset.dat→打开。 2. FLAASH Atmospheric Correction Module Input Parameters设置 在Toolbox 中打开FLAASH 工具Radiometric Correction/Atmospheric Correction Module/FLAASH Atmospheric Correction→双击启动→进入FLAASH Atmospheric Correction Module Input Parameters 面板。 图1-1 FLAASH Atmospheric Correction Module Input Parameters 面板 (1)Input Radiance Image:点击Input Radiance Image→选择CupriteAVIRISSubset.dat 文件→在打开的Radiance Scale Factors 面板中,选择默认Read array of scale factors (1 per band) from ASCII file→OK→在对话框中选择AVIRIS11_gain.txt 文件→打开→在Input ASCII File 对话框中,将Scale Column改为1→OK;

光谱预处理方法的作用与目的

光谱预处理方法的作用与目的 光谱预处理的方法有很多,应结合实际情况合理选取最好的预处理方法。 1.均值中心化(mean centering):增加样品光谱之间的差异,从而提高模型的 稳健性和预测能力。 2.标准化(autoscaling):该方法给光谱中所有变量相同的权重,在对低浓度 成分建立模型时特别适用。 3.归一化(normalization):常用于微小光程差异引起的光谱变化。 4.平滑去噪算法(smoothing):是消除噪声最常用的一种方法。其效果与选择 的串口数有关,窗口数太大,容易失真;窗口数过小,效果不佳。 5.导数(derivative):可有效的消除基线和其他背景的干扰,分别重叠峰,提 高分辨率和灵敏度。 6.标准正太变换(SNV):主要用来消除固体颗粒大小、表面散射以及光程变 化对漫反射光谱的影响。去趋势算法常用在SNV处理后的光谱,用来消除南反射光谱的基线漂移。 7.多元散射校正(msc):作用于SNV 差不多,主要是消除颗粒分布不均匀及 颗粒大小产生的散射影响,在固体漫反射和浆状物透射和反射光谱中运用比较多。 8.傅里叶变换(FT):能够实现时域和频域之间的转换。仪器的噪声相对于信 息信号而言,其振幅更小,频率更高,故舍去高频率的部分信号可以消除大部分光谱噪声,使信号更加平滑,利用低频信号,通过傅里叶反变换,对原始光谱数据重构,达到去除噪声的目的。 9.小波变换(WT):将信号转变成一系列的小波函数的叠加,这些小波函数都 是由一个母小波函数经过平移和尺度伸缩得到,小波变换在时域和频域同时具有良好的局部化性质,他可以对高频成分采用逐步精细化的时域或空间域取代步长,从而达到聚焦到对象的任意细节。

脑电数据预处理步骤讲解学习

脑电数据预处理步骤

1)脑电预览。首先要观察被试脑电基本特征,然后剔除原始信号中一些典型的干扰噪声、肌肉运动等所产生的十分明显的波形漂移数据。 2)眼电去除。使用伪迹校正(correction)的方法,即从采集的 EEG 信号中减去受眼电(EOG)伪迹影响的部分。首先寻找眼电的最大绝对值,用最大值的百分数来定义 EOG 伪迹。接着构建平均伪迹,将超过 EOG 最大值某个百分比(如10%)的眼电导联电位识别为 EOG 脉冲,对识别的 EOG 脉冲进行平均,由协方差估计公式(2-1)计算平均 EOG 脉冲和其它电极之间的 EEG 的传递系数 b: b=cov(EOG, EEG)/var(EOG) (2-1) 其中 cov 表示协方差(covariance),var 表示方差(variance)。 最后根据公式(2-2)对受眼动影响的电极在产生眼动的时间段的波形进行校正,点对点地用 EEG 减去 EOG: corrected EEG=original EEG-b×EOG (2-2) 实验中设置最小眨眼次数为 20 次,眨眼持续时间 400ms。 3)事件提取与脑电分段。ERP 是基于事件(刺激)的诱发脑电,所以不同刺激诱发的 ERP 应该分别处理。在听觉认知实验中,多种类型的刺激会重复呈现,而把同种刺激诱发的脑电数据提取出来的过程叫做事件提取。这样,连续的脑电数据就会根据刺激事件为标准划分为若干段等长数据。以实验刺激出现的起始点为 0 时刻点,根据实验出现的事件对应的事件码,将脑电数据划分成许多个数据段,每段为刺激前 100ms 到刺激后 600ms。对每个试次(一个刺激以及相应的一段加工过程)提取一段同样长度的数据段。 4)基线校正。此步骤用于消除自发脑电活动导致的脑电噪声,以 0 时刻点前的数据作为基线,假设 0 时刻点前的脑电信号代表接收刺激时的自发脑电,用 0时刻点后的数据减去 0 时刻点前的各点数据的平均值,可以消除部分的自发脑

最常见的近红外光谱的预处理技术的综述

最常见的近红外光谱的预处理技术的综述 smund Rinnan,Frans van den Berg,S?ren Balling Engelsen 摘要:预处理在近红外(NIR)光谱数据处理化学计量学建模中已经成为不可分割的一部分。预处理的目的是消除光谱中物理现象在为了提高后续多元回归、分类模型或探索性分析。最广泛使用的预处理技术可以分为两类:散射校正方法和光谱间隔方法。综述和比较了算法的基础理论和当前的预处理方法以及定性和定量的后果的应用程序。其目的是提供更好的NIR 最终模型的建立,在此我们通过对光谱的预处理基本知识进行梳理。 关键词:乘法散射校正;近红外光谱法;标准化;诺里斯威廉姆斯推导;预处理;Savitzky-Golay 平滑;散射校正;光谱导数;标准正态变量;综述 1.引言 目前为止,没有能够优化数据来进行代替,但是经过适当的数据收集和处理将会起到优化效果,对光谱数据进行预处理是最重要的一步(例如最优化之前叠层建模),常用的方法有主成分分析(PCA)和偏最小二乘法(PLS)。在大量的文献中,多变量光谱应用食品、饲料和医药分析,比较不同的预处理的结果研究模型的预测结果是不可分割的组成部分。近红外反射/透射率(NIR / NIT)光谱的光谱技术,到目前为止最多被使用的和最大的多样性在预处理技术,主要是由于入非线性光散射的光谱可以引起显著影响。由于类似规模的波长的电磁辐射和粒子大小的近红外光谱在生物样品,近红外光谱技术是一种不被广泛使用是由于存在散射效应(包括基线转变和非线性),这将会影响样品光谱的结果的记录。然而,通过应用合适的预处理,可以很大程度上消除这些影响。 在应用研究中,比较了几乎完全不同的定标模型(定量描述符和相应关系)。几乎没有出现评估的差异和相似性的报道。替代技术即修正的含义(例如,谱描述符数据)在研究中很少被讨论。本文旨在讨论建立了预处理方法对近红外光谱和模型之间的关系,更具体地说,这些技术都是对应独立的响应变量,所以我们只讨论方法,不需要一个响应值。我们同时关注预处理工艺理论方面的和实际效果,这种方法适用于近红外光谱/ NIT光谱。 对固体样品,干扰系统的差异主要是因为光散射的不同和有效路径长度的不同。这些不受欢迎的变化常常构成了样本集的总变异的主要部分,可以观察到得转变基线(乘法效应)和其他现象称为非线性。一般来说,近红外光谱反射率测量的一个示例将测量普及性的反映和镜面反射辐射(镜面反射)。镜面反射通常由仪表设计和几何的采样最小化,因为它们不含任何化学信息。这个diffusively反射的光,这反映在广泛的方向,是信息的主要来源在近红外光谱。然而,diffusively反射光将包含信息的化学成分不仅示例(吸收)而且结构(散射)。主要的形式的光散射(不包括能量转移与样品)瑞利和洛伦兹米氏。两者都是过程中电磁辐射是分散的(例如,通过小粒子,泡沫,表面粗糙度,水滴,晶体缺陷,microorganelles、细胞、纤维和密度波动)。 当粒子尺寸大于波长,因为通常情况下,NIR光谱,是主要的洛仑兹米氏散射。相比之下,瑞利散射,是各向异性,洛伦兹米氏散射依赖的形状散射粒子和不强烈波长依赖性。 对生物样品,散射特性是过于复杂,所以软或自适应补偿,光谱预处理技术,正如我们近红外光谱在本文中进行讨论,要求删除散射从纯粹的、理想的吸收光谱。 显然,预处理不能纠正镜面反射率(直接散射),自谱不包含任何精细结构。光谱主要由镜面反射率应该总是被移除之前为离群值多元数据分析,因为他们仍将是局外人,甚至在预处理。图1显示了一组13好蔗糖和样品不同粒径加一坏蔗糖的例子展示如何(极端)镜面反射率表现比正常的光谱。 图1还演示了总体布局的大多数数据在本文中。上部的图,一个条形图显示了主成分得分值第一主成分(PC)后的样本集数据意味着定心[1]。下面部分显示预处理效果的数据集(或

近红外光谱分析技术的数据处理方法

引言 近红外是指波长在780nm~2526nm范围内的光线,是人们认识最早的非可见光区域。习惯上又将近红外光划分为近红外短波(780nm~1100nm)和长波(1100 nm~2526 nm)两个区域.近红外光谱(Near Infrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速、准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。它综合运用了现代计算机技术、光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油、食品、生物化工、制药及临床医学等得到了广泛应用,在产品质量分析、在线检测、工艺控制等方面也获得了较大成功。近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针对特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定、可靠的定性或定量分析模型,并最终确定未知样品和对其定量。 1工作原理 近红外光谱区主要为含氢基团X-H(X=O,N,S,单健C,双健C,三健C等)的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果:组分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k为多元线性回归系数;(Dp)1~k为各组分最佳波长的反射光密度值(D=-lgp,p为反射比)。该方程准确的反映了定标范围内一系列样品的测定结果,与实验室常规测定法之间的标准偏差SE为:SE=[Σ(y-x)2/(n-1)]1/2(2)式中:x表示实验室常规法测定值,y表示近红外光 谱法测值,n为样品数。 2光谱数据的预处理 仪器采集的原始光谱中除包含与样品组成有关的信息外,同时也包含来自各方面因素所产生的噪音信号。这些噪音信号会对谱图信息产生干扰,有些情况下还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测。因此,光谱数据预处理主要解决光谱噪音的滤除、数据的筛选、光谱范围的优化及消除其他因素对数据信息的影响,为下步校正模型的建立和未知样品的准确预测打下基础。常用的数据预处理方法有光谱数据的平滑、基线校正、求导、归一化处理等。 2.1数据平滑处理 信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。平滑处理常用方法有邻近点比较法、移动平均法、指数平均法等。 2.1.1邻近点比较法 对于许多干扰性的脉冲信号,将每一个数据点和它旁边邻近的数据点的

Matlab预处理近红外光谱

Matlab预处理近红外光谱 1. 微分处理光谱 一阶微分公式: x i,1st=x i?x i+g g 二阶微分公式: x i,2st=x i+x i+g?2x i g2 式中,x i是谱图数据中i波数下的透过率,g为窗口宽度 一阶导数MATLAB代码: X1st=diff(X,1);%X 为输入光谱矩阵,X1st 为输出一阶导数光谱矩阵二阶导数MATLAB代码: X2st=diff(X,2); %X 为输入光谱矩阵,X2st 为输出二阶导数光谱矩阵2. 多元散射校正处理谱图 (1)计算平均光谱: x i,j= X i,j n i=1 n (2)一元线性回归: X i=m i X+b i (3)多元散射校正: X i MSC=(X i?b i) m i 公式中X表示n×p维定标光谱数据矩阵,n为样品数,p为波点数。

X 表示所有样品的原始近红外光谱在各个波长点处求平均值所得到的平均光谱矢量,X i 是1×p 维矩阵,表示单个样品光谱矢量,m i 和b i 分别表示各样品近红外光谱X i 与平均光谱X 进行一元线性回归后得到的相对偏移系数和平移变量。I 代表第i 个样本,j 代表第j 个波数。 MATLAB 代码如下: me=mean(X); [m,~]=size(X); for i=1:m, p=polyfit(me,X(i,:),1); Xmsc(i,:)=(X(i,:)- p(2)*ones(1,n))./(p(1)*ones(1,n)); End 代码中输入光谱矩阵为 X ,输出光谱矩阵为Xmsc 。 3. 标准正态变量变换(SNV ) X i ,SNV = x ?x i ,k i m k =i (m?1) 式中x i 是第i 样品光谱的平均值,k=1,2,…,m 。m 为波长点数;i=1,2,..,n 。n 为校正样品数;X i ,SNV 是变换后的光谱。 SNV 的MATLAB 代码如下: [~,n]=size(X); rmean=mean(X,2); dr=X-repmat(rmean,1,n); Xsnv=dr./repmat(sqrt(sum(dr.^2,2)/(n-1)),1,n);

近红外光谱的数据预处理研究

第24卷,第12期 光谱学与光谱分析Vol 124,No 112,pp1563-1565 2004年12月 Spectroscopy and Spectral Analysis December,2004 近红外光谱的数据预处理研究 高荣强1,范世福1*,严衍禄2,赵丽丽2 11天津大学精密仪器与光电子工程学院,天津 30007221中国农业大学信息与电气工程学院,北京 100083 摘 要 进行了小麦样品近红外光谱数据的预处理研究,一般仪器记录的样品近红外光谱数据中包含有一系列噪声和干扰信号,因此适当的预处理是进行后续光谱定标、建模及模型传递的基础,对可靠地获得准确 分析结果具有很重要的作用。结合小麦样品蛋白质含量近红外光谱分析工作,对由近红外光栅光谱仪和傅里叶变换近红外光谱分别记录的66种小麦样品光谱数据,采用高斯一阶、二阶导数小波变换方法进行了预处理。对比常用的一阶差分预处理,证明高斯函数导数小波变换方法是十分有效、实用的,预处理后光谱曲线非常光滑、噪声消除效果明显,富含有用光谱分析信息的区域更加清晰显示,因而非常有助于后续的光谱定标、建模和模型传递工作。 主题词 近红外光谱;光谱预处理;小波变换 中图分类号:T H74414 文献标识码:A 文章编号:1000-0593(2004)12-1563-03 收稿日期:2003-06-03,修订日期:2003-10-16 作者简介:范世福,1939年生,天津大学精密仪器与光电子工程学院教授,博士生导师 *通讯联系人 引 言 近红外光(N ear I nfrared 简称NIR )是介于可见光(Vis)和中红外光(简写为M IR 或IR )之间的电磁波,美国AST M (American Society of T esting M aterials,美国材料检测协会)将近红外谱区定义为780~2526nm (波数为12820~3959cm -1)。 近红外光谱分析方法由于一系列独特的优点,正在全球范围内受到广泛的重视和推广应用[1,2]。近红外光谱由被测样品的近红外特征光谱主导,包含了噪声、各种外界干扰因素。噪声主要来自高频随机噪音、基线漂移、信号本底、样品不均匀、光散射等。因此要想通过近红外光谱来分析样品的物质成分,就应该先进行光谱预处理,以便降噪、减少各种干扰的影响,简化后续建模处理运算过程,提高分析准确度[3,4]。 在深入研究近红外光谱预处理的基础上[5],通过对66个小麦样品蛋白质含量测定的具体问题,研究解决近红外光谱数据预处理。本研究引入了小波变换进行光谱预处理。 1 小麦样品的近红外光谱 由中国农业大学信息学院生物物理实验室,提供了分别 由傅里叶变换型近红外光谱仪和光栅型近红外农产品品质分析仪扫描所得的小麦样品光谱图 [6] ,如图1和图2所示。 Fig 11 The NIR F ourier transf orm spectra of 66wheat samples Instrument:Bruker -Vactor 22N FT IR spectrometer; Scanni ng region:4004-9003cm -1;Sampling i nterval:31875cm -1,1297points Fig 12 The NIR grating spectra of 55wheat samples Instrument:NIR grating spectrophotometer S canning regi on:4000-7692cm -1;S ampling interval:121308cm -1,301points

近红外光谱分析技术的数据处理方法

近红外光谱分析技术的数据处理方法

引言 近红外是指波长在780nm~2526nm范围内的光线,是人们认识最早的非可见光区域。习惯上又将近红外光划分为近红外短波(780nm~1100nm)和长波(1100 nm~2526 nm)两个区域.近红外光谱(Near Infrared Reflectance Spectroscopy,简称NIRS)分析技术是一项新的无损检测技术,能够高效、快速、准确地对固体、液体、粉末状等有机物样品的物理、力学和化学性质等进行无损检测。它综合运用了现代计算机技术、光谱分析技术、数理统计以及化学计量学等多个学科的最新研究果,并使之融为一体,以其独有的特点在很多领域如农业、石油、食品、生物化工、制药及临床医学等得到了广泛应用,在产品质量分析、在线检测、工艺控制等方面也获得了较大成功。近红外光谱分析技术的数据处理主要涉及两个方面的内容:一是光谱预处理方法的研究,目的是针对特定的样品体系,通过对光谱的适当处理,减弱和消除各种非目标因素对光谱的影响,净化谱图信息,为校正模型的建立和未知样品组成或性质的预测奠定基础;二是近红外光谱定性和定量方法的研究,目的在于建立稳定、可靠的定性或定量分析模型,并最终确定未知样品和对其定量。 1工作原理 近红外光谱区主要为含氢基团X-H(X=O,N,S,单健C,双健C,三健C等)的倍频和合频吸收区,物质的近红外光谱是其各基团振动的倍频和合频的综合吸收表现,包含了大多数类型有机化合物的组成和分子结构的信息。因为不同的有机物含有不同的基团,而不同的基团在不同化学环境中对近红外光的吸收波长不同,因此近红外光谱可以作为获取信息的一种有效载体。近红外光谱分析技术是利用被测物质在其近红外光谱区内的光学特性快速估测一项或多项化学成分含量。被测样品的光谱特征是多种组分的反射光谱的综合表现,各组分含量的测定基于各组分最佳波长的选择,按照式(1)回归方程自动测定结果:组分含量=C0+C1(Dp)1+C2(Dp)2+…+Ck(Dp)k(1)式中:C0~k为多元线性回归系数;(Dp)1~k为各组分最佳波长的反射光密度值(D=-lgp,p为反射比)。该方程准确的反映了定标范围内一系列样品的测定结果,与实验室常规测定法之间的标准偏差SE为:SE=[Σ(y-x)2/(n-1)]1/2(2)式中:x表示实验室常规法测定值,y表示近红外光 谱法测值,n为样品数。 2光谱数据的预处理 仪器采集的原始光谱中除包含与样品组成有关的信息外,同时也包含来自各方面因素所产生的噪音信号。这些噪音信号会对谱图信息产生干扰,有些情况下还非常严重,从而影响校正模型的建立和对未知样品组成或性质的预测。因此,光谱数据预处理主要解决光谱噪音的滤除、数据的筛选、光谱范围的优化及消除其他因素对数据信息的影响,为下步校正模型的建立和未知样品的准确预测打下基础。常用的数据预处理方法有光谱数据的平滑、基线校正、求导、归一化处理等。 2.1数据平滑处理 信号平滑是消除噪声最常用的一种方法,其基本假设是光谱含有的噪声为零均随机白噪声,若多次测量取平均值可降低噪声提高信噪比。平滑处理常用方法有邻近点比较法、移动平均法、指数平均法等。 2.1.1邻近点比较法

ENVI对SAR大数据地预处理过程(详细版)

一、数据的导入: (1) 在Toolbox 中,选择SARscape ->Basic->Import Data->Standard Formats->ALOS PALSAR。 (2) 在打开的面板中,数据类型(Data Type):JAXA-FBD Level 1.1。 注:这些信息可以从数据文件名中推导而来。 (3) 单击Leader/Param file,选择 d1300816-005-ALPSRP246750820-H1.1__A\LED-ALPSRP246750820-H1.1__A文件。 (4) 点击Data list,选择 d1300816-005-ALPSRP246750820-H1.1__A\IMG-HH-ALPSRP246750820-H1.1__A文件 (4) 单击Output file,选择输出路径。 注:软件会在输入文件名的基础上增加几个标识字母,如这里增加“_SLC” (5) 单击Start 执行,最后输出结果是ENVI 的slc文件,sml格式的元数据文件,hdr格式的头文件等。 (6) 可在ENVI 中打开导入生成的以slc为后缀的SAR 图像文件。

二、多视 单视复数(SLC)SAR 图像产品包含很多的斑点噪声,为了得到最高空间分辨率的SAR图像,SAR 信号处理器使用完整的合成孔径和所有的信号数据。多视处理是在图像的距离向和方位向上的分辨率做了平均,目的是为了抑制SAR 图像的斑点噪声。多视的图像提高了辐射分辨率,降低了空间分辨率。 (1) 在Toolbox 中,选择SARscape->Basic ->Multilooking。 (2) 单击Input file 按钮,选择一景SLC 数据(前面导入生成的ALOS PALSAR 数据)。 注意:文件选择框的文件类型默认是*_slc,就是文件名以_slc 结尾的文件,如不是,可选择*.*。 (3) 设置:方位向视数(Azimuth Looks):5,距离向视数(Range Looks):1 注:详细的计算方法如下所述。另外,单击Look 按钮可以估算视数。 (4) Border Resize 选项,选择此项,会对检测结果边缘中的无效值,进而重新计算输出图像的大小。这里不选择。 (5) 输出路径会依据软件默认参数设置自动添加或自行修改,单击Start 按钮执行。 (6) 计算完之后在Display 中显示结果,可以看到图像的斑点噪声得到的抑制,但是降低了空间分辨率

相关文档