第十章非参数密度估计
密度估计的参数解是首先假设一个参数模型,X1,…,X n~i.i.d. f Xθ,其中θ为低维参数向量。然后通过一些估计方法得到θ,如极大似然估计,矩估计等等。然后到处密度函数。此方法的危险性在于初始假设模型的不正确可能导致严重的推断错误。
一种常见的非参数密度估计是直方图,他是一种分段常数的密度估计。另一种基本的密度估计可通过考虑密度函数如何将概率分配到各区间上受到启发,如果f 足够光滑,我们假设f将某概率不但赋予给x i点,而且赋予给x i周围的一个区域。因此,要从X1,…,X n~i.i.d.f估计f,将X i周围区域的概率密度累加起来时合理的。
10.1 绩效度量
绩效度量是为了评价密度估计量的性质。令f为整个支撑区域上f的估计量,引入积分平方误差
ISE h= f x?f x 2 dx
∞
?∞
如果我们想讨论估计量的一般性质,那么在所有可能的样本上对ISE h进行平均是比较合理的。积分平均误差为
MISE h=E{ISE h}
其中的期望是关于分布f。因此MISE h可以看成是误差(ISE h)关于抽样密度的整体度量的平均值。又由期望和积分的可交换性,
MISE h=MSE f x dx
其中
MSE f x=E f x?f x 2
=var f x+ bias f x2
bias f x=E f x?f(x)
MISE和ISE都可用来研究选择h值的准则。两者的好坏已知都有争论,详见Birgit Grunda; Peter Hallb; J. S. Marronc.Loss and risk in smoothing parameter selection
Peter Hall and J. S. Marron.lower bounds for bandwidth selection in density estimation
10.2 核密度估计
一元核密度估计允许采取灵活的加权方案,即拟合
f x=1
nh
K(
x?X i
)
n
i=1
(10.6)
其中K为核密度,h为固定值,通常称为窗宽。一些常见的核为:
(10.6)的估计量为固定窗宽核密度估计。而窗宽的大小对估计量有很大的影响,小的窗宽会将密度分配得太局限于观测数据附近,导致估计密度函数有很多错误的峰值;而大的窗宽会将密度贡献分布得太开,从而会因光滑而遗失掉f的一些特征。
10.2.1 窗宽的选择
MISE等于积分均方误差。这表明窗宽的选择是偏差和方差的折衷
例10.1(双峰密度)
实际上,我们只需对h试一串值,然后选择一个比较合适的。当然,我们希望得到一个相对正规的窗宽选择程序:如自动算法。
假设K是连续对称的概率密度函数,均值为0,方差0<σK2<∞.令R(g)表示给定函数g的粗超度的度量,定义为
R g=g2(z)dz
然后假设R K<∞且f足够光滑。即有二阶有界连续导数。
MISE h=var f x+ bias f x2dx
E f x=1
K
x?u
f u du=K(t)f(x? t)dt
在上式中用Taylor级数展开
f x? t=f x? tf′x+ 2t2f′′x
2
+o( 2)
因此
bias f x2dx= 4σK4R f′′
4
+o( 4)
同样可以计算得到:
var f x=1
f x R K+o(
1
)
将其对x积分得
var f x=R K
n
+o(
1
n
)
因此
MISE =AMISE +o 1
nh
+h4,
其中
AMISE h =R K nh + 4σK 4R f
′′ 4
称为渐进均方误差,h 最小化上式可得
= R K
K 4 1
5
很多窗宽的选择方法依赖于优化或者找到关于h 的函数的根,例如最小化AMISE(h)的一个近似量。 1、交叉验证
许多窗宽的选择是把f
x 作为 f 的估计量而与h 联系起来,用某个量Q(h)量化,如果Q 表示根据对在某种意义上对观测数据的拟合程度,那么观测数据在计算f
x 和计算拟合程度时候用了两次,这样会对观测提供一个过于乐观的观点,为纠正这一问题,可以采用交叉验证,计算f x 在第i 个点的质量时,模型采用除去第i 个点之外的所有数据拟合,令
f
?i X i =1
n ?1 K X i ?X j
j ≠i
表示X i 点处核密度估计量用除X i 外所有数据估计的密度。交叉验证中一种常见的Q 的选择是伪似然
PL h = f
?i X i n
i =1
尽管此方法简单,但其得到的密度估计常常有太多的摆动且对异常值过于敏感。且其估计量很多时候是不相合的 另一种方法是将积分平方误差写成
ISE h = f
2 x dx ?2E f x + f 2 x dx =R f ?2E f x +R (f ) 组后一项是常数,中间项可以通过2
n f
?i X i n i =1来估计,因此通过关于h 最小化 UCV h =R f
?2
f ?i X i n
i =1
得到窗宽,此方法称为无偏交叉验证准则。如果不可能解析计算R(f ),那么计算上式的最好的方式是寻找一个核来简化解析,对于正态核
UCV h =R ? +1 [1 8π 1?12 X i ?X j ?2?(X i ?X j )]j ≠i
n
i =1 详见Nonparametric Econometrics :Theory and Practice
例10.2 (鲸的洄游)2001年春天在阿拉斯加巴罗岛附近的海冰边缘对弓头鲸幼仔做了一个目测调查,为了得到摸清其洄游规律,我们估计其洄游可能会按照一个大致的节奏出现。
我们用正态核对鲸鱼幼仔洄游数据进行核密度估计。
通过PL 算法得到h 的最优值为17.4,我们采用了121个样本中的20个,而书本上的结果为9.75.而UCV 的结果同样可以计算。
2、插入法
对于一维核密度估计我们知道,最小化AMISE 得到的窗宽为
=
R K
K 4 1
5
(10.24) 因此h 的估计会依赖于未知函数f ,现可以提出多种方法来估计R f ′′
Silverman 提出一种初等的方法:把f 替换成正态分布,该正态分布的均值为0,方差为样本方差。于是有R f ′′ =
3
8π?
12σ5,当k 为标准正态核时。有
h pilot = 4π
?110
3
8
π?12
?
1σ n
?15
= 4
3n
15
σ
此方法称为Silverman 大拇指法,作为产生近似的窗宽的一种方法,此方法是很有价值的。
(10.24)中的R f ′′ 的经验估计是比Silverman 大拇指更好的方法。基于核的估计量为
f ′′ x =d 22 10 L x ?X i 0 n
i =1
=103 L′′(x ?X i
)n
i =1
(10.26) 其中 0为窗宽,L 为用来估计f′′的充分可微的核函数。R (f′′)的估计直接从(10.26)式可得。Sheather-Jones 方法为:
(1)用简单的大拇指法计算窗宽 0,该窗宽用来估计R (f′′) (2)然后用10.24式计算窗宽h 并产生最后的核密度估计。
对用导频核L =?的一元核密度估计,Sheather-Jones 窗宽的计算如下:
R K
nσK 4R α
f ′′ 1
5
? =0 其中
R α f ′′ =1 5 ? 4 (X i ?X j )n
j =1n
i =1 α =
6 2h 5R
a f ′′ R
b f ′′′ 1
7
R a f ′′ =1 ? 4 (X i ?X j )n
j =1n
i =1
R b f ′′′ =1n n ?1 b 7 ? 6 (X i ?X j b
)n
j =1
n
i =1
a=0.920(IQR)/n17
b=0.912(IQR)/n1
IQR为数据的四分位间距
3、极大光滑原则
思想:对所有的f均计算h值,然后选择其中的最大值
窗宽的选择: =3R K
35n 1 5σ
详见:The maximal smoothing principleindensity estimation G.R. Terrell
例(鲸鱼洄游,续)
10.2 核的选择
1、艾氏核
假设K为各阶矩有限、方差为1的有界对称密度,Epanechnikov证明了关于K最小化AMISE等价于在这些条件下关于K最小化R(K)。该问题的解是5
?(z/5)的核,其中K?为艾氏核
K?z=3
1?z2若z<1 0, 其它
2、典则核
由(10.29)式可得
h K L =
δK
其中,δK=R K
σK41
.要想达到与核为K时的窗宽h同样的光滑度,那么核L的
窗宽应该取 δL/δK,进一步,如果我们希望对给定的h不同的核可以达到相同的光滑度,我们可以将核进行改进,使得h=1相当于δK的窗宽。核密度改
写为f X x=1
n
K δK(x?X i)
n
i=1
,其中K δK z=1
hδK
K(z
hδK
),按照此方式定
义可以给出每种形式的典则核,这样的好处是:单独的h值对每个典则核交换使用不影响其光滑程度。
10.3 对数样条
通过三次样条估计f的对数。令S为包含节点在t1,…,t M上的三次样条,且在L,t1和[t M,U)上为线性的M-维空间,令S的基表示为函数{1,B1,…,B M?1},现在考虑用如下的参数化定义的密度f X|θ对f建模
log f X|θxθ=θ1B1x+?+θM?1B M?1x?cθ.
其中
exp{c(θ)}=exp{θ1B1x+?+θM?1B M?1x}dx
U
L
该模型我们通过两个条件来保证。(1)L>?∞或θ1<0(2)U<∞或θM?1<0
对给定的数据值x1,…,x n,该模型的对数似然为
lθx1,…,x n=log f X|θ(x i|θ)
n
i=1
在c(θ)的限制下最大化上式可以得到极大似然估计θ。为估计模型,我们取
f x=f X|θ(x|θ)
作为f(x)的极大似然对数样条密度估计
关于节点的摆放:令x i表示数据的第i个次序统计量,定义一个近似的分位数函
数为q i?1
n?1
=x i,1≤i≤n,对一列数,0 决定,对1≤i≤M 2 , n r i+1?r i=4?max4??,1?max4?2?,1?…?max{4?i?1?,1} ?的选择满足当M为奇数时r M+1=1/2,或当M为偶数时,r M+r M +1 =1/2.其余 节点保持分位数对称,于是对M 2 ≤i≤M?1, r M+1?i?r M?i=r i+1?r i r M=1 上面假定的M是预先给定的,其实实际上有很多选择M的方法:概括如下,首 先把少量节点放在给定的位置上,建议的最小值为min{2.5n 1 5, n 4 ,n?,25},其中的n? 为不同数据点的个数,然后其他的节点一个个计入到现存的集合中,每次循环中,在该节点不存在的模型满足Rao检验统计量的最大值的位置上增加一个节点,直 到总节点数达到min{4n 1 5, n 4 ,n?,30},或是没有节点可以继续添加为止 然后各节点依次逐个删除。令θ=(θ1,…,θM?1)表示当前模型中参数的极大似然估计,那么检验第i个基函数贡献显著性的Wald统计量为θi/SE{θi},其中SE{θi}为观测的信息矩阵逆矩阵,删除去掉后使Wald统计量达到最小的值对应的节点,依此序贯删除直到只有三个节点时停止。 接着序贯的添加节点,这产生一列共S个模型,节点个数为m s,选择使BIC达到最小的模型 BIC s=?2l θs x1,…,x n+m s?1log n 10.4 多元方法 10.4.2多元核估计 前面的一元核密度估计最直接的推广就是广义多元核估计。 f x=1 K(H?1(x?X i)) n i=1 其中H为p×p的非奇异矩阵,函数K为实值多元核函数,且K z dz=1, zK(z)dz=0,zz T K(z)dz=I p,指定H中的大量窗宽以及在p维下指定核的形 状都是不方便的,比较实际的是寻找H 和K 有较少参数的具体情形。 乘积核方法大大简化了计算。核密度估计为: f x =1n 1 j K (x j ?X ij j )p j =1n i =1 其中K 为一元核密度,x = x 1,…,x p ,X i =(X i 1,…,X ip ),h j 对每个坐标为固定的窗宽,j =1,…,p 另一种简化方法允许K 为p 维对称单峰密度函数,且令 f x =1nh p K (x ?X i )n i =1 (10.42) 这种情况下,多元艾氏核的形状 K z = p +2 Γ 1+p 2 2π p 2 1?z T z ,若z T z <10, 否则 在渐进积分均方误差下式最优的 (10.42)中唯一的固定窗宽意味着每个观测数据点相关的概率分布向各个方向均匀散开,当数据在各方向有不同的变异性,认为各方向有相同的尺度得到的估计往往不合理,Fukunage 建议把数据做线性变换使其有单位协方差阵,然后由一个完全对称核对变换后的数据进行密度估计,最后再变换回去得到最终的估计我们假设协方差阵的特征分解为Σ =PΛP T ,其中Λ为特征值按降序排列的对角阵。令X 为样本均值。那么Z i =Λ?1 P T (X i ?X )给出了变换后的数据,该过程称为白化或是球化。 在乘积密度估计中,对窗宽的选择上我们最简单的方法是假设f 是正态的,这提供了一个与一元Silverman 的大拇指法类似的窗宽选择的方法,得到的窗宽为 i = 4 n p +2 1 σ i ,其中σ i 为第i 个坐标方向的标准误的估计 10.4.3 自适应核及最邻近 普通的固定的核密度估计,K 的形状和窗宽嗾使固定的,这决定了一种不变的邻近概念。于是换个角度考虑:允许区域变换大小,但要求有固定个数的数据点落在其中,那么高密度的范围会有较小的区域,低密度的范围会有较大的区域。 优点:在数据较稀少的地方,较大的窗宽有助于防止对异常值过于局部敏感同时,在数据过密的地方,较小的窗宽会避免过度光滑带来的偏差。 1、最邻近方法k最邻近密度估计 f x= k nV p d k x p d k(x)为x到第k个最邻近观测数据点的欧氏距离,V p为p维球体的体积,从概念上讲,x点处密度的k近邻估计为k/n除以以x为中心包含n个数据中k个的最小球体的体积,大的k值得到光滑的估计,小的k值得到弯曲的估计。 对任意核,最近邻估计可以写成: f x= 1 k p K x?X i k n i=1 如果d k x用任意的 k x代替,建议使用名称球状估计, k x可能不会明确的表示距离。 2、变核方法及变换 变核或样本点自适应估计可以写成 f x=1 n 1 i p K x?X i i n i=1 (10.50) 其中K为多元核, i为以X i为中心的核贡献的窗宽 上式中的变核估计是形状相同但是尺度不同且以各个观测为中心的多个核的混合,变核估计的最优窗宽依赖于f。f的导频估计可以用来指导窗宽的调整,步骤为: (1) 构造一个导频估计f,其对所有的x i都严格为正,例如可以选择 = 4 n p+2 1 p+4σ i的乘积正态核,从而如果f是以某个在x i可能为火接近于0的估计为 基础的,那么当估计超过?时,令f等于估计的密度,否则令f x=? (2)令自适应窗宽为 i= f X iα 其中敏感参数为0≤α≤1,h承担调节总体光滑度 的作用。一般设α=0.5,还有情况设α=1 p (3) 对窗宽为 i应用(10.50)式得到变核估计的最终估计。 例 10.7(二元t 分布) 考虑从大小为n=500的一组样本估计二元t 分布(有两个自由度)。在非自适应方法中,我们采用正态乘积核,其中的窗宽由Sheather-Jones 方法选择。在自适应方法中,我们采用具有正态乘积核的Abramson (α=1/2),导频估计取非自适应的结果,其中的?=0.005,且h 设为非自适应方法中各坐标窗宽的平均值乘以f X i 1 2的几何平均值,结果如下图: 10.4.4 探索性投影寻踪 探索性投影寻踪主要研究高维密度中的低维结构。最终的密度估计通过修改标准的正态分布以反映发现的结构来构造。 假设数据包含p 维变量X 1,…,X n ~i .i .d . f X 的n 个观测,开始探索性投影追踪之前,首先对数据变换使其均值为0,协方差为I p .令f Z 表示变换后的变量Z 1,…,Z n 对应的密度函数,要估计f X ,只需估计f Z 然后反变换回去即可。 过程中的几部还依赖于另外一种基于Legendre 多项式展开的密度估计技巧 Legendre 多项式是[-1,1]上定义为P 0 u =1,P 1 u =u ,且对j ≥2, P j u = 2j ?1 uP j ?1 u ? j ?1 P j ?2 u /j 的一系列正交多项式,其有如下的性质:对所有的j 有L 2范数 P j 2(u )du 1 ?1=2 2j ?1. 这些多项式可以作为一组基来表示[-1,1]上的函数。特别的,我们可用Legendre 多项式展开 f x = a j P j (x )∞ i =0 (10.56) 表示只在[-1,1]上有支撑的一元密度f ,其中a j = 2j +12n E {P j (X )},其中期望时关于f 求的。如果X 1,…,X n ~i .i .d .f ,那么1 n P j (X i )n i =1是E {P j (X )}的一个估计,截取(10.56) 中的J+1项后的和得到的估计为 f x=a j P j(x) J i=1 投影寻踪的第一部是投影。如果Y i=αT Z i,那么我们说Y i是Z i在α方向上的投影。第一步的目标是把多元观测数据投影到一维直线上,使得在该直线上投影数据的分布有最多的结构。 投影性数据的结构的程度用它与正态性的偏离量来度量。令U y=2Φy?1,其中的Φ为标准正态累积分布函数。如果Y~N(0,1),那么U Y~Unif(?1,1),要度量Y的分布结构,只需度量U Y的密度与Unif(-1,1)的偏离程度即可。 定义结构指标为 Sα= f U u?1 2 2 du 1 ?1=R f U? 1 2 (10.60) 其中f U u为当Z~f Z时U(αT Z)的概率密度函数。当Sα较大时,投影数据中有大量的非正态结构,当Sα接近于0时,投影数据几乎正态。 要从数据中估计Sα,用f U的Legendre展开重新把(10.60)中的R f U表示为 R f U= 2j+1 2 E P j U2 ∞ j=1 (10.61) 其中期望时关于f U取的。由于UαT Z1,UαT Z2,…,U(αT Z n)代表从f U中抽取的样本,故(10.61)式中的期望可以用样本矩来估计。于是 Sα= 2j+11 P j2?αT Z i?1 n i=1 2 n j=1 ? 1 作为Sα的估计,因此,要估计有最大正态结构的投影方向,我们需要在αTα=1的限制下最大化Sα,用α1表示. 探索性投影追踪的第二步是结构移除步骤。目标是对Z1,…Z n应用一种变换使得f Z到α1的投影密度为标准的正态分布,而沿其它方向的任何正交方向的投影分布都不变。为此,令A1为一标准正交矩阵且第一行为α1T.同时,对来自于随机向量 V=V1,…V p的观测,定义向量变换为T v=(??1(F V 1v1,v2,…,v p),其中F V 1 为V 的第一个元素的累积分布函数,那么对i=1,…,n,令 Z i1=A1T T(A1Z i) 就可得到想要的变换。但上式依赖于fα 1 T Z相应的累积分布函数,要解决这个问题,只需将累积分布函数用α1T Z1,…,α1T Z n相应的经验分布函数替代就行了,于是我们把得到的Z i1看成一种新的数据集,然后继续上面的方法,直到经过M步迭代后他的分布在各个可能的投影上都是正态的。 f Z1z=f Z z ?α1T z α1T Z1 T 到迭代停止后得到f Z(z)的估计。 通过对f Z应用变量变换X=PΛ1 Z+x 进行球变换的逆变换得到估计f X. 例10.8(二元旋转)我们构造一些二元数据密度说明探索性投影寻踪,假设W=(W1,W2),其中W1~Gamma4,2,W2~N0,1,且W1与W2独立,则E W=2,0,var W=I.我们用 R=?0.581?0.814 ?0.8140.581 对W进行旋转,得到数据X,通过对数据球化得到数据Z,我们的样本数为500,前两步的结果如下 可以看到,经过两次变化后数据投影几乎正态了。 R语言与非参数统计(核密度估计) 背景 核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 原理 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的: 其中K为核密度函数,h为设定的窗宽。 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。 但是核密度的估计并不是,也不能够找到真正的分布函数。 代码作图示例 我们可以举一个极端的例子:在R中输入: ●[plain]view plaincopyprint? 1.plot(density(rep(0, 1000))) 可以看到它得到了正态分布的曲线,但实际上呢?从数据上判断,它更有可能是一个退化的单点分布。 但是这并不意味着核密度估计是不可取的,至少他可以解决许多模拟中存在的异方差问题。比如说我们要估计一下下面的一组数据: ●[plain]view plaincopyprint? 1.set.seed(10) 2.dat<-c(rgamma(300,shape=2,scale=2),rgamma(100,shape=10,scale=2)) 核密度估计是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。 假设我们有n个数X1-Xn,我们要计算某一个数X的概率密度有多大。核密度估计的方法是这样的: 其中N(x,z)为正太分布的概率密度函数,z为设定的参数。 (1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。 (2)存在的问题: 我感觉这种方法会存在一个问题。 边界问题。比如满足[0,1]之间的均匀分布的数有1000w个,人工大致已经可以看出概率分布。但用核密度估计估计出来的结果会非常奇怪。[-1,0]和[1,2]之间的数的概率密度不会被估计为0。主要原因是因为有边界的影响。具体怎么影响,我还没有想或者看明白。 我也是初看核密度估计,有不对的地方,欢迎大牛拍砖。 kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。 核密度估计在估计边界区域的时候会出现边界效应。 在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。 核密度估计 对于一组关于X 和Y 观测数据 (){} 1 ,n i i i x y =,我们假设它们存在如下关系: ()i i i y m x ε=+,通常我们的目的在于估计()m x 的形式。在样本数量有限的情况下,我们 无法准确估计()m x 的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定()m x 的形式,仅假设()m x 满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。 最简单最直接的方法就是取多点平均,也就是每一点()m x 的值都由离x 最近的多个数据点所对应的y 值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n 个数据点来平均,则()m x 为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题,也就是说,要决定每个数据点在估计()m x 的值时要起到的作用问题。直观上,和x 点越近的数据对决定()m x 的值所应起越大的作用,这就需要加权平均。因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。 一、核密度估计 对于数据12,,,n x x x K ,核密度估计的形式为: ()11?n i h i x x f x K nh h =-??= ??? ∑ 这是一个加权平均,而核函数(kernal function )()K g 是一个权函数,核函数的形状和值域控制着用来估计()f x 在点x 的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h 的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数: Uniform : ()1 12 I t ≤ Epanechikov : ()()23 114 t I t -< Quartic : ()()215 1116 t I t -< Gaussian 21 2t - kernel density estimation是在概率论中用来估计未知的密度函数,属于非参数检验方法之一,由Rosenblatt (1955)和Emanuel Parzen(1962)提出,又名Parzen窗(Parzen window)。Ruppert 和Cline基于数据集密度函数聚类算法提出修订的核密度估计方法。核密度估计在估计边界区域的时候会出现边界效应。在单变量核密度估计的基础上,可以建立风险价值的预测模型。通过对核密度估计变异系数的加权处理,可以建立不同的风险价值的预测模型。 [1] 由给定样本点集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各个可能的类别中都服从特定的分布。经验和理论说明,参数模型的这种基本假定与实际的物理模型之间常常存在较大的差距,这些方法并非总能取得令人满意的结果。由于上述缺陷,Rosenblatt和Parzen提出了非参数估计方法,即核密度估计方法.由于核密度估计方法不利用有关数据分布的先验知识,对数据分布不附加任何假定,是一种从数据样本本身出发研究数据分布特征的方法,因而,在统计学理论和应用领域均受到高度的重视。一些比较常用的核函数是:均匀核函数k(x)=1/2,-1≤x≤1 加入带宽h后:kh(x)=1/(2h),-h≤x≤h 三角核函数k(x)=1-|x|,-1≤x≤1 加入带宽h后:kh(x)=(h-|x|)/h^2,-h≤x≤h 伽马核函数kxi(x)=[x^(α-1)exp{-xα/xi}]/[(xi/α)^α.Γ(α)] 1)基本原理: 核密度估计的原理其实是很简单的。在我们对某一事物的概率分布的情况下。如果某一个数在观察中出现了,我们可以认为这个数的概率密度很比大,和这个数比较近的数的概率密度也会比较大,而那些离这个数远的数的概率密度会比较小。基于这种想法,针对观察中的第一个数,我们都可以f(x-xi)去拟合我们想象中的那个远小近大概率密度。当然其实也可以用其他对称的函数。针对每一个观察中出现的数拟合出多个概率密度分布函数之后,取平均。如果某些数是比较重要,某些数反之,则可以取加权平均。 第十章非参数密度估计 密度估计的参数解是首先假设一个参数模型,X1,…,X n~i.i.d. f Xθ,其中θ为低维参数向量。然后通过一些估计方法得到θ,如极大似然估计,矩估计等等。然后到处密度函数。此方法的危险性在于初始假设模型的不正确可能导致严重的推断错误。 一种常见的非参数密度估计是直方图,他是一种分段常数的密度估计。另一种基本的密度估计可通过考虑密度函数如何将概率分配到各区间上受到启发,如果f 足够光滑,我们假设f将某概率不但赋予给x i点,而且赋予给x i周围的一个区域。因此,要从X1,…,X n~i.i.d.f估计f,将X i周围区域的概率密度累加起来时合理的。 10.1 绩效度量 绩效度量是为了评价密度估计量的性质。令f为整个支撑区域上f的估计量,引入积分平方误差 ISE h= f x?f x 2 dx ∞ ?∞ 如果我们想讨论估计量的一般性质,那么在所有可能的样本上对ISE h进行平均是比较合理的。积分平均误差为 MISE h=E{ISE h} 其中的期望是关于分布f。因此MISE h可以看成是误差(ISE h)关于抽样密度的整体度量的平均值。又由期望和积分的可交换性, MISE h=MSE f x dx 其中 MSE f x=E f x?f x 2 =var f x+ bias f x2 bias f x=E f x?f(x) MISE和ISE都可用来研究选择h值的准则。两者的好坏已知都有争论,详见Birgit Grunda; Peter Hallb; J. S. Marronc.Loss and risk in smoothing parameter selection 福州大学数学与计算机科学学院2008级数学与应用数学专业应用统计分析方向--应用数学实习 1.实习日记 2.实习作业 3.实习总结 4. 成绩评定 班级: 应数(2)班 姓名: 唐昌宏 学号: 030801218 指导老师: 吕书龙 实习地点: 福州大学 实习日期: 2011.6.27~2011.7.8 实习日记 2011.6.27 星期一确定实习内容 这个学期,我学习了许多关于统计计算与非参数统计的知识,以及假设检验、回归、正态性检验在R软件上的实现,还有R软件的一些其他的基本操作,如:作图、矩阵运算、数据导入、编程等。通过对自己弱点的分析,决定将实习目的定为:课堂上讲过的部分内容(非参数密度估计及其简单应用)在R软件中的实现,做到“理解理论知识、实现理论知识”。 2011.6.28 星期二复习巩固要用到的理论知识 针对要做的内容(核密度估计),对其理论知识做比较系统的复习,重点复习该方法的适用范围、计算方法、公式推导、实现过程,为之后的写算法、编程序打下理论基础。 2011.6.29 星期三复习巩固要用到的R软件命令 既然是自己编写程序,就避免不了对程序好坏的评价,因此就需要将自己编程计算的结果与R软件的计算结果进行比较;其次,在编程序时可以直接使用R 软件中已有的函数,以简化程序的篇幅。因此,复习巩固R软件命令是必要的。2011.6.30 星期四学习相关的数值计算方法 由于我想要用估计出的核密度函数来计算概率值,这就免不了要计算积分值,因此,我重点学习了数值计算中的快速、高精度算法。如:Gauss—Legendre 求积公式。 2011.7.1 星期五搜索非参数密度估计的图书 为了解决非参数密度估计的程序设计,我专门查找了图书馆的相关书籍,有许多介绍非参数统计的书籍,但每本书的侧重点有所不同。我就根据自己的需要,找到了一本对核回归有比较详细介绍的《非参数估计》作为我的参考书籍。 2011.7.4 星期一学习非参数密度估计的相关理论 今天主要任务是学习非参数密度估计的相关理论,包括:基本方法、应用方向以及具体的公式推导。在此基础上,写出相应的R程序,并在R软件中进行模拟,分析模拟的结果。 对于一组关于X 和Y 观测数据 (){} 1 ,n i i i x y =,我们假设它们存在如下关系: ()i i i y m x ε=+,通常我们的目的在于估计()m x 的形式。在样本数量有限的情况下,我们 无法准确估计()m x 的形式。这时,可以采用非参数方法。在非参数方法中,并不假定也不固定()m x 的形式,仅假设()m x 满足一定的光滑性,函数在每一点的值都由数据决定。显然,由于随机扰动的影响数据有很大的波动,极不光滑。因此要去除干扰使图形光滑。 最简单最直接的方法就是取多点平均,也就是每一点()m x 的值都由离x 最近的多个数据点所对应的y 值的平均值得到。显然,如果用来平均的点越多,所得的曲线越光滑。当然,如果用n 个数据点来平均,则()m x 为常数,这时它最光滑,但失去了大量的信息,拟合的残差也很大。所以说,这就存在了一个平衡的问题,也就是说,要决定每个数据点在估计()m x 的值时要起到的作用问题。直观上,和x 点越近的数据对决定()m x 的值所应起越大的作用,这就需要加权平均。因此,如何选择权函数来光滑及光滑到何种程度即是我们这里所关心的核心问题。 一、核密度估计 对于数据12,,,n x x x K ,核密度估计的形式为: ()11?n i h i x x f x K nh h =-?? = ??? ∑ 这是一个加权平均,而核函数(kernal function )()K g 是一个权函数,核函数的形状和值域控制着用来估计()f x 在点x 的值时所用数据点的个数和利用的程度,直观来看,核密度估计的好坏依赖于核函数和带宽h 的选取。我们通常考虑的核函数为关于原点对称的且其积分为1,下面四个函数为最为常用的权函数: Uniform : ()1 12 I t ≤ Epanechikov : ()()23 114 t I t -<核密度图详解
核密度估计是在概率论中用来估计未知的密度函数
核密度估计
核密度估计
非参数密度估计
核密度估计的实现与简单应用
核密度估计