文档库 最新最全的文档下载
当前位置:文档库 › 最小二乘法的历史回顾与现状

最小二乘法的历史回顾与现状

最小二乘法的历史回顾与现状
最小二乘法的历史回顾与现状

 收稿日期: 1997-12-30第15卷第1期1998年5月 中国科学院研究生院学报Jour nal of Graduate Schoo l,Academia Sinica V o l.15 N o.1M ay 1998

最小二乘法的历史回顾与现状

陈希孺 院士

(本院数学教学部)

摘 要 对最小二乘法的意义、发现经过及与之有关的高斯正态误差理论的发展情

况,作了简要论述;对这个方法在应用上的意义、理论上的进展以及与之相关的一些

数理统计学问题,也作了概括性的介绍.

关键词 最小二乘法,线性统计模型,M 估计

1 最小二乘法的定义

假定在研究一个问题时,从某种理论或假定出发,得到了一个模型.根据这个模型,我们感兴趣的某个量有其理论值,同时我们可以对这个量进行实际观测,而得出其观测值.由于种种原因——例如模型不完全正确以及观测有误差等,理论值与观测值会有差距,这差距的平方和

H = (理论值-观测值)2(1)

可以作为理论与实测符合程度的度量.(1)式中的求和是针对若干次不同的观测,通常,理论值中包含有未知参数(或参数向量)θ.最小二乘法(Least Squa res Method,以下简记为LSE)要求选择这

样的θ值θ ,使H 达到最小.因此,LSE 的直接意义,是作为一种估计未知参数的方法.

举一个简单例子.设有一个未知量θ,对它作了n 次测量,分别得出x 1,…,x n .在此,理论

值是θ,观测值为x i ,(1)式定义的H =H (θ)= n i =1

(x i -θ)2,使H (θ)达到最小的θ值为θ =(x 1+…+x n )/n =x -.因此,按LSE 应取各次观察值的平均值x -去估计θ.这就是常用的取算术

平均的方法从LSE 角度的解释.本例中最小值为H (θ )= n i =1(x i -x -)2,其大小可以作为测量

精度(因而x -这个估计的精度)的一种指标:此值愈大,表示测量的精度愈小,因而x -的精度也愈小.但还要注意一个情况,有可能各次测量很接近,但都有系统偏差.比方说,一架天平没有

调好,1g 的东西,秤出来总在1.1g 左右.因此,以H (θ )之值去衡量测量精度(因而估计精度)

有一个条件,即测量没有系统误差,在数理统计上把这称为无偏性(unbiasedness ).如果以e 记测量的随机误差,则无偏性的统计表述是Ee =0,E 是所谓数学期望.直观上说,就是在多次测

量之下,正负偏差都可能出现并在概率意义上相互抵消.当这个条件满足时,H (θ )确实可以作

为刻划估计精度的指标,具体如何做,在数理统计学中有仔细介绍,此处不多说了.在统计上使用LSE 时,一般都要假定这种无偏性成立,当然,在实际操作中要保证这个条件,需要细心地做好有关的工作,以消除系统误差可能的来源.

举一个稍复杂一点的例子.设有两个相关的量x ,y (例如人的身高、体重),对之进行n 次观测,得(x i ,y i ),i =1,…,n .在直角坐标系中,这些点大体上沿一条直线分布,因此有一定理由4

图1

把这问题的理论模型设定为直线y =θ1+

θ2x .按这个模型,在x i 处y 的理论值应为

θ

1+θ2x i ,而实际观测结果为y i .因此,对本问题,(1)式定义的H 为

H (θ1,θ2)= n

i =1(y i -θ1-θ2x i )2,

利用求极值的方法不难确定使H 达到最

小的值θ 1和θ 2,它们是θ 1=y --θ 2x -,

θ 2= n

i =1(x i -x -)y i / n i =1(x i -x -

)2.所定出的直线y =θ 1+θ 2x 与观测点{(x i ,

y i ),1≤i ≤n }的拟合程度如何,可由最小值H (θ

1,θ 2)刻划,此值愈大,表示点群的直线趋势并不强.此处看来没有涉及观测误差的问题,其实不然,很可能有这样的情况:

原本x ,y 之间有直线关系(例如说)y =2x

+1,但由于对x ,y 的观测有系统误差,从图上看,点群可能仍是聚集在一条直线附近,但这条直线与正确的直线y =2x +1偏离很远.当然,即使没有系统误差,但由于测量有随机误差,由LSE 所决定的直线y =θ 1+θ 2x 仍会与正

确的直线y =θ

1+θ2x i 有差距.但这种差距一般说比较小,且当观测次数n 较大时会很小.而系统误差存在时差距会较大,且不随测量次数的增加而降低.

此例还值得注意的一点是:虽说x ,y 都是被观测的量,但在我们用LSE 去处理时,其地位不同,表现在理论值与观测值的偏差是以y 值为准而不以x 值为准.形式上,我们也可以倒过来,即以x 值为准来计偏差.这时用LSE 所拟合的直线,与刚才以y 为准所得者会不同.这个现象乍看似乎有些难于理解,但从统计学角度看是完全自然的,此处不详加说明.在统计上,把此处的x 叫做“解释变量”或“自变量”,而y 叫做“目标变量”或“因变量”.偏差以目标变量为准.在实用上,何者取为解释变量或目标变量,并非完全任意的,要看问题的性质而定.当x ,y 分别有“因”和“果”的含义时,一般总是取y 为目标变量.

这个例子在统计学上称为“一元线性回归”.一元,指模型中只有一个自变量x ,它很容易推广

到多个自变量的情况y =θ

0+θ1x 1+…+θk x k ,其中x 1,…,x k 是自变量,叫“多元线性回归”.局限于这种线性情况,LSE 在计算上只涉及解线性方程组,因而不难实施.由于这个原因,加上高斯的正态误差理论,二者结合构成了应用统计中最强有力的方法,涵盖了应用统计中许多重要的分支,故有的统计学家把LSE 在统计学中的地位,比作微积分在数学中的地位.当然,LSE 也可用于非线性模型等一些更复杂的模型,但在计算上比较繁重,其统计理论也更为复杂.

2 发现的历史

在介绍了LSE 的基本概念后,我们来稍稍谈一下这个方法产生的历史过程.可以说,LSE 源于天文学和测地学上的应用需要.在早期数理统计方法的发展中,这两门科学起了很大的作用,故丹麦统计学家霍尔把它们称为“数理统计学的母亲”.5

 1998年陈希孺:最小二乘法的历史回顾与现状5月

 第15卷中国科学院研究生院学报第1期这种应用的一般模式,实际上就是我们上节讲到的多元线性回归,只是在解释上有所不同(从严格的统计理论观点上说,二者有很大的不同,但在应用上一般不加区别).假定在某个问题中,有一些不能或不易观测的量θ1,…,θk,另有一些容易观测的量x0,x1,…,x k,按理论(例如牛顿力学理论),它们应有严格的线性关系

x0+x1θ1+…+x kθk=0(2)问题归结为:要根据(x0,x1,…,x k)的观测数据

(x0i.…,x ki), i=1,…,n(3)去估计θ1,…,θk,它们被视为模型中的参数,按(2)式,由(3)中的观测值(x\-0i,…,x ki)将得出方程

x0i+x1iθ1+…+x kiθk=0, i=1,…,n(4)共有n个方程.但是,由于观测有误差以及理论并非完全确切,代替(4)式实际上是

x0i+x1iθ1+…+x kiθk=X i, 1≤i≤n(5)其中X1,…,X n为随机误差,这里要求n≥k,即观测次数应不少于未知参数,否则无法估计.

如果误差不存在,即(4)式确切成立,那么问题好办,只须从(4)中的n个方程挑出k个,形成联立线性方程组,解出来即得到θ1,…,θk,的确切值.但因误差存在,我们实际上有的是(5).在这种情况下,如果仍沿用误差为0时的作法,即挑出k个方程去求解,则将得出一个低效率的解,因为没有把n个观测结果都利用上.这一点可以从本文开始那个简单例子中清楚看到:对一未知值θ作了n次测量得x1,…,x n,如果毫无误差,将得到n个方程

x1-θ=0, x2-θ=0,…, x n-θ=0,(6)实际情况为x1-θ=X1,…,x n-θ=X n.如果只挑出一个方程,例如x1-θ=0,去求解,将得θ= x1,即只用第一个观测值x1去估计θ,其余皆弃之不用.这显然是很大的浪费.LSE的作法是相当于把(6)中n个方程相加,得n i=1x i-nθ=0,解出θ=x-.因此,问题在于怎样充分利用全部的观测结果(3),以期得到一个效率更高的估计.这个问题曾困扰了18世纪的一些学者,包括像欧拉和拉普拉斯这样的伟大数学家.例如,梅耶(J.T.Mayer)在1750年由确定地球上一点的经度问题,引出形如(4)(其实是(5))的一组方程,其中n=27而k= 3.梅耶把这27个方程分成3组,每组9个,将各组方程相加得出一个方程,这样共得到3个方程,可以解出θ1,θ2,θ3.这个方法在18世纪下半叶曾很为流行,但由于分组的方法无定规可循,在应用上不方便,因为不同的分组方法可得出差异很大的解.又如,欧拉(L.Euler)在1749年研究木星对土星轨道的影响时,得到n=75和k=8的一组方程.拉普拉斯也研究过这同一问题,得到n=24和k=4的一组方程.他们处理这个问题的方法与梅耶相似,即要设法从全部n个方程中构造出k个方程,以便解出θ1,…,θk.但他们的做法比梅耶更缺乏规则性,因而不能为解决这类问题指出一个一般的途径.

现行的LSE是勒让德(A.M.Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的.该书有80页,包含8页附录,LSE就包含在这个附录中.勒让德之所以能作出这个发现,是因为他没有因袭前人的想法——要设法构造出k个方程去求解.他认识到关键不在于使某一方程严格符合,而在于要使误差以一种更平衡的方式分配到各个方程.具体地说,他寻求这样的θ值,使(5)式各误差的平方和,即n i=1(x i0+x i1θ1+…+x ikθk)2,达到最小.为什么取平方,而不取绝对值、四次方或其他函数?这就只能从计算的观点来解释了——至少在勒让德时代,不可能知道从统计学的角度看,选择平方这个函数有何优点,这方面的研究是那以后很久的事情.

6

图2

c 为子午线上一点;l 2为过该点的切线;l 1过c 指向

天顶;h 为l 1、l 2的夹角,即c 点处的纬度;a 点的纬

度比b 点高1°,且c 是a b 弧的中点虽然勒让德在1805年以前很久,就因天文学

上的问题而遇到(5)式这样的方程组,但看来他并

不是在与这些问题打交道时,才发现了LSE,因为

在其上述著作正文中,他基本上没有提到这个方

法.他发现这个方法,可能是在他参加的一项测地

学工作中,即从1792年开始持续了10余年的量

测过巴黎子午线之长的工作(当时把1米定义为

此线长的4000万分之一).这个工作所用的模型,

是根据地球略微有些椭性这个事实.如图2,由椭

圆方程出发,根据地球椭性甚小而略去高次项,不

难证明下面的近似公式:

l (h )=θ1+θ2sin 2h ,式中h 为c 点的纬度,l (h )为子午线上以c 为中心1度的弧长,θ1,θ2为参数.若记x 0=-l (h ),x 1=1,x 2=sin 2h ,则上式成为x 0+x 1θ1+x 2θ2=0,即有

(4)式的形状.在这项工作中,共在5个位置处测

定了其纬度h 和l (h ),从而可用LSE 解出θ1和θ2的估值θ 1和θ 2,然后子午线的全长可用360l

(45°)去估计之.从一种“事后诸葛亮”的眼光,我们现在看起来会觉得这个方法似乎平淡无奇,甚至是理所当然的.这正说明了创造性思维之可贵和不易.从一些数学大家未能在这个问题上有所突破,可以看出当时这个问题之困难.欧拉、拉普拉斯在许多很困难的数学问题上有伟大的建树,但在这个问题上未能成功.除了在思想上囿于“解方程”这一思维定势之外,也许还因为,这是一个实用性质的问题而非纯数学问题.解决这种问题,需要一种植根于实用而非纯数学精确性的思维.例如,按数学理论,容器以做成球形最省,但基于实际以至美学上的原因,在现实中有各种形状的容器存在.总之,从LSE 发现的历史中,使我们对纯数学和应用数学思维之间的差别,多少有一些启示.

3 高斯的正态误差理论

勒让德在其著作中,对LSE 的优点有所阐述.然而,到此为止,这个方法仍有其不足之处,即它纯是一个计算方法,缺少误差分析.我们不知道,使用这个方法引起的误差如何,因此也就无法知道,除了若干表面上的优点(例如计算上方便)之外,LSE 还有何深层次的优点.要研究这些问题,就需建立一种误差分析理论.从(5)式显然看到,误差X i 的大小对θi 的估计有重大影响,X i 的概率性质决定了θi 估计的统计性质.因此,要对X i 的概率性质给予适当的描述,这一点是德国大数学家高斯(C.F.Gauss)的功绩.

早在17世纪,伽利略在其名著《关于两个世界的对话——托雷密与哥白尼》(1632)中,就讨论了随机误差及其分布的问题.虽然他并未提出这个名词,但他提出了随机误差的分布曲线应有图3的形状:f 关于0对称(即f (-X )=f (X ),这表示正负误差有同等出现的机会),f 在两边单调地衰减至0,即大误差出现的机会较小,很大误差的机会几乎为0.以后的学者在研究7

 1998年陈希孺:最小二乘法的历史回顾与现状5月

图3a 是误差大小;f (a )是a 这样的误差发生的概率,或更确切

地说,f (a )与这个概率成比例.图4

误差理论时,多遵循这个出发点.但满足这种性质的函数很多,如何决定出一个具体形式是一个困难问题.

最早接触这个问题的是辛普森(T .Simpso n ).1755年,他为了回答“算术平均优于一次观测”这个问题,考虑了图4那种三角形误差曲线.他用n =6的特例,通过计算证明了

P (| 6

i =1X i /6|P (|X 1|0

这里X 1,…,X 6是6次观测的误差.上述不等式表明:算术平均的误差取小值的机会,比一次观测误差取小值的机会大,因而在这个意义上证明了取平均的优越性.以后拉格朗日(J .L .La-

g rang e )考虑过f (X )=p 2-X 2(|X |≤p )和f (X )=co s X (|X |≤π/2)的形状,但在这个问题上用力最多的是拉普拉斯.他的出发点是要为函数f 规定一些应当满足的条件,以据此确定f .例如,他考虑的一种条件是,当X >0时,f (X )下降,f ′(X )也下降.他要求二者保持常数比例,这样定出f 有如下的形式:

f (X )=m 2

ex p(-m |X |), m >0为参数.这个分布如今在概率论中很有名,叫拉普拉斯分布.然而,用之作为误差分布却很不成功.拉普拉斯曾用它去分析3次观测的算术平均的误差,结果导致很复杂的分析问题,更一般的情况就不用说了.拉普拉斯后来还根据其他的考虑提出过另外的误差曲线的形式,也很不成功.

现在轮到高斯,他不从单纯“把f 作为一个函数而要设法找出一些条件去决定它”这个思维定势出发,而是径直假定这样的“公理”:在多次观测中取平均是天然合理的.由此出发,再配合他的“极大似然”的想法(见下.极大似然的概念最初源出于此,但作为一个估计参数的一般方法提出来,应归功于费歇尔(R.A.Fisher)1912

年的工作,很容易决定出f 应有

f (X )=12πe

exp -X 22e 2的形式.这就是概率论中最重要、最著名的正态分布,又称高斯分布.根据这个分布,按(5)式,(X

1,…,X n )的联合密度为L =(2π)-n /2e -n ex p -12e

2 n i =1(x 0i +x 1i θ1+…+x ki θk )

2为要使L 达到最大(即极大似然),必须使

n i =1(x 0i +x 1i θ1+…+x ki θk )2达到最小,从而引出LSE .当然,高斯理论的意义,并不在于给LSE 这样一个形式上的推证.其8 第15卷中国科学院研究生院学报第1期

 1998年陈希孺:最小二乘法的历史回顾与现状5月意义在于:(1)无论从实际与理论(见下)看,正态误差是合理的选择;(2)在正态误差下,有一套严格简洁的小样本理论(其发展是本世纪的事),因而大大提高了LSE在实用上的方便和广泛性.可以说,没有高斯的正态误差理论配合,LSE的意义和重要性可能还不到其现今所具有的十分之一.LSE方法与高斯误差理论的结合,是数理统计史上最重大的成就之一,其影响直到今日也尚未过时.

高斯的上述理论发表于其1809年的著作《关于绕日行星运动的理论》中.在此书中,他把LSE称为“我们的方法”,并声称他自1799年以来就使用这个方法,由此爆发了一场与勒让德的优先权之争.近代学者经过对原始文献的研究,认为两人可能是独立发明了这个方法,但首先见于书面形式的,以勒让德为早.然而,现今教科书和著作中,多把这个发明权归功于高斯.其原因,除了高斯有更大的名气外,主要可能是因为其正态误差理论对这个方法的重要意义.在德国10马克的钞票上有高斯像,并配了一条正态曲线.在高斯众多伟大的数学成就中挑选了这一条,亦可见这一成就对世界文明的影响.

在高斯发表其1809年著作之前,约在1780年左右,拉普拉斯已发现了概率论中的“中心极限定理”.根据这个定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态.测量误差正具有这种性质.一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加.因此,中心极限定理给误差的正态性提供了一种合理的理论解释.这一点对高斯理论的圆满化很有意义,因为高斯原来的假定(平均数天然合理)总难免给人一种不自然的感觉.耐人寻味的是,无论是中心极限定理的发明者拉普拉斯,还是早就了解这一结果的高斯,都没有从这个结果的启示中去考察误差分布问题.对前者而言,可能是出于思维定势的束缚,这对拉普拉斯来说可算不幸,他因此失掉了把这个重要分布冠以自己名字的机会(正态分布这个形式最早是狄莫弗(De M oiv re)1730年在研究二项概率的近似计算时得出的.以后也有其他学者使用过,但都没有被冠以他们的名字.高斯之所以获得这一殊荣,无疑是因为他把正态分布与误差理论联系了起来).

4 应用和理论的拓展

美国统计史学家斯蒂格勒(S.M.Stig ler)指出,LSE是19世纪数理统计学的压倒一切的主题.1815年时,这方法已成为法国、意大利和普鲁士在天文和测地学中的标准工具,到1825年时已在英国普遍使用.他指出,一个方法得到如此迅速的推广和接受,在科学方法的历史上鲜有类似的例子.这中间最重大的事情莫过于以下两件:(1)19世纪后期,约在1874~1890年之间,英国学者高尔顿(F.Galto n)从遗传现象的研究发现了相关回归,但高尔顿不善长数学,未能把有关的统计概念用确切的数学形式表达出来.这后一步工作稍后由英国统计学家皮尔逊(K.Pea rson)和约尔(U.Yule)所完成.结果显示:有关的计算完全是LSE的一种应用;(2)自1923年起,英国统计学家因分析农业试验的需要而发明了方差分析法.这方法的大意是:设y1,…,y n是一批通过试验或观测而得的数据,它们各各不同,在统计学上用T=n i=1(y i-y-)2去刻划这批数据变异的程度,称为总(变差)平方和.而y1,…,y n之所以有不同,除随机误差外,还可能因为受到一些系统性因素的影响.例如几块试验地上小麦亩产不同,可能由于使用的种子品种不同,所施肥料种类和数量不同等.试验的目的正在于考察这些因素对目标变量影响的有无及大小.方差分析法通过把总平方和分解为一些部分:T=Q1+…+Q R+E,每个Q i

9

 第15卷中国科学院研究生院学报第1期

及E都是数据y1,…,y n的非负定二次型,使得Q i值的大小反映系统因素i的影响之大小,而E则反映随机误差影响之大小.这种分解式,从概念到计算,完全是基于LSE.目前相关回归方差分析及其他一些与LSE有密切关系的统计方法,仍占据了应用统计方法武库中的主导地位,因而LSE对数理统计学关系之重大,就可想而知了.

至于LSE在理论上的进展,主要是本世纪的事情,且基本上是在线性统计模型的框架下.这种模型有形状

Y i=x T i U+e i, 1≤i≤n(6)这里x1,x2,…是已知的p维向量,U是未知的p维参数向量,Y i是目标变量的观测值,而e i为随机误差.这个模型,随着x i取值性质的不同,包含了前述相关回归和方差分析等几个主要的统计分支.所取得的成就大略可分为三个方面:一是正态小样本理论,即假定e1,…,e n独立并各有正态分布N(0,e2).在这个情况下,发展了完善的抽样分布理论,可据以进行小样本统计推断,与应用的关系最直接;二是n固定时的代数(矩阵)理论,这个理论可以说发端于高斯,其特点是不对误差的分布作特定的假定.高斯于1823年在误差e1,…,e n独立同分布的假定下,证明了LSE的一个最优性质:在U的一切线性估计类中,在无偏的前提下,LSE是其中方差最小者.这个结果经过本世纪初马尔科夫的推广,称为高斯-马尔科夫定理,是模型(6)中LSE理论的基本定理.代数理论主要以矩阵方法为工具,沿着这个基本定理的线索向前发展,也涉及误差方差的二次型估计问题,LSE在线性估计类中的可容许性问题等.目前这方面的工作仍未终结;三是大样本理论,即有关在样本量n很大(在数学上是n→∞)时,LSE的渐近性质的研究.这种研究,除了在理论上有揭示LSE的深层次性质的意义外,还有其应用上的重要意义.因为在e1,…,e n不是正态分布时,有关统计量的分布定不出来,因而无法进行确切的统计推断.大样本理论提供了一个近似,可以在样本量n足够大时使用.目前这方面的理论已发展到很精深的程度,但还存在一些没有解决的困难问题.

5 由改进最小二乘法所引起的研究

自19世纪初至本世纪中叶,可以说LSE统治了应用统计的多数领域,这一点到目前可以说仍基本成立.但近几十年来,LSE的统治地位已开始有所动摇,其原因有内在和外在的.内在的原因是,应用上的经验及理论研究表明:LSE有一些缺憾,在有些情况下表现不好;外在的原因是,其他方法的研究有了重大进展,尤其是快速计算机的应用,使一些以往由于计算困难而无法使用的方法,如今也得以使用.因此LSE已不再是唯一可能的选择.

先说前者.考虑模型(6),若记S=n i=1x i x T i,这是一个p阶方阵,则U的LSE可表为U= S-1n i=1x i y i.在有些情况下方阵S呈病态或接近退化,这时S-1的数值计算的精度很差.理论研究也表明,这时LSE的均方误差可以很大.

针对这种情况及其他问题,统计学者提出了一些对策.它们仍是以LSE为基础,但作一些调整.例如由霍尔(A.E.Hoerl)和肯纳德(R.W.Kennard)在1970年提出的岭估计(Ridge Es-timate),用U(k)=(S+k I)-1n i=1x i y i取代LSE U去估计U,这里k>0而I为p阶单位阵.这样做的目的,是在S上加上k I后,降低其病态性.关于这个估计有不少研究,例如如何决定k 以及这个估计的性质如何.除此以外,学者们还提出了压缩估计、主成份估计、特征根估计等,都是基于LSE,但对它有所修改.

10

LSE缺憾的深层次原因,在于它选用了平方这个函数去衡量偏差,因而加大了数据中异常值(outlier)破坏性的影响.所谓异常值,是指由于系统性原因及人为错误而使某一数据严重失真.例如某一数据本是2.473,由于小数点位置记错而写成24.73,为对付这个问题,统计学家研究了发现数据中异常值的方法,以便在计算前将其剔除.但是,除了最简单的模型以外,有效的方法不容易作出,于是就想到用另外更根本的措施,即用其他方法取代LSE.或者说,用增长较慢的函数去取代平方,以压低异常值的影响,这就是所谓稳健(Robust)方法.

这些方法中,最重要的一个要推最小一乘法,即用绝对值去取代平方来衡量偏差.例如,对一个未知量θ测量n次得x1,…,x n.按最小一乘法,应当找θ,使表达式n

i=1

|x i-θ|达到最小.不难证明,这个θ就是x1,…,x n按大小居于正中的那一个(n为奇数时),或是居于正中那两个的算术平均(n为偶数时),这个量称为x1,…,x n的样本中位数.如果数据中有个别异常值,它对算术平均的影响可能很大,但对样本中位数可能没有影响,或影响不大.这就是稳健性的含义:一个统计方法受到其少量异常值的影响愈小,则其稳健性愈好.

从历史上说,最小一乘法的提出比LSE更早:它是波斯科维奇(R.J.Boscovitch)于1755年在处理一个测地学问题时提出的.他的问题相应于(5)式中的k=2,提出的极值准则是

n

i=1X i=0, n

i=1|X i|最小.(7)

他用一种几何的考虑解决了这个问题,但对更多的参数无能为力,后来人们废弃了(7)式中的前一条件.由于计算上的困难,这方法后来没有得到重视.直到本世纪50年代,发现了用线性规划求解最小一乘的方法.计算机的出现,理论研究上的突破,以及它在某些领域,特别是计量经济应用上的良好表现,这个方法日益受到应用者的重视.

到1964年,统计学家休伯(P.J.Huber)推广了这个概念,提出在估计一个未知值的情况下,用一个特别选定的函数d取代平方:设对一个未知量θ作了n次测量得到x1,…,x n,则用使表达式n i=1d(x i-θ)达到最小的θ值去估计θ.d一般是一个偶函数,在正实轴上增加,增加的速度比平方为慢.一般说,增加愈慢,解的稳健性愈好.但稳健性有时是以牺牲效率为代价的,在实用上需要在这二者之间求得折衷.到1973年,休伯又把这个方法用于(6)式所定义的线性统计模型.这类估计在统计学上总称为M估计,是近若干年来统计研究的前沿和热点之一,目前在大样本理论方面已取得了不少深入的成果.

istorical Backgrounds and Present State of the Least Squares Method

Chen Xiru

(The Gra duate School at B eijin g,University of Science and Tec h nology of China,B eijin g 100039)

Abstract This paper gives a brief acco unt of the history of develo pment of Least Squares M ethods and Gaussian no rm al-error theo ry.A brief surv ey is also giv en fo r the prac-tical applications,theoretical dev elopments of the Least Squares Methods,and so me to pic in m ethematical sta tistics rela ted to this m ethod.

Key words least squares method,linear statistical m odel,M-estimation

11 1998年陈希孺:最小二乘法的历史回顾与现状5月

最小二乘法及其应用..

最小二乘法及其应用 1. 引言 最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔( F. W. Bessel, 1784—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒( S. M. Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。 2. 最小二乘法 所谓最小二乘法就是:选择参数10,b b ,使得全部观测的残差平方和最小. 用数学公式表示为: 21022)()(m in i i i i i x b b Y Y Y e --=-=∑∑∑∧ 为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例. i i i x B B Y μ++=10 (一元线性回归方程)

最小二乘法及其应用

最小二乘法及其应用 最小二乘法是一个比较古老的方法,早在十八世纪,就由高斯首先创立并成功地应用于天文观测和大地的测量工作中。此后,近三百年来,它已被广泛应用于科学实验与工程技术中。随着现代电子计算机的普及与发展,这个古老的方法更加显示出其强大的生命力。 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可以用于曲线拟合,其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 最小二乘法拟合曲线的基本原理是:成对等精度地测得一组数据x,只(i=l,2,…,n),试找出一条最佳的拟合曲线,使得这条拟合曲线上的各点的值与测量值的差的平方和在所有拟合曲线中最小。所谓“拟合”,即不要求所作的曲线完全通过所有的数据点,只要求所得的曲线能反映数据的基本趋势。曲线拟合的几何解释是:求一条曲线,使数据点均在离此曲线的上方或下方不远处。 用最小二乘法拟合的曲线较为精确,接近于实际曲线。因而,最小二乘法拟合曲线在实际生活和科学研究中有着重要的意义,并渗透到各个领域,在物理、气象、化学、医学等方面有着广泛的应用。例如,在物理方面,我们通常通过实验测得数据,然后根据这些实验数据拟合曲线,从而总结出某种现象的规律或者变化趋势,进而采取相应的措施避免或加强其变化程度。这对于指导我们了解物理现象,并深刻理解物理知识是非常有帮助的。又如,在气象方面,在温室效应的研究中,科学家们通过对1860年到1980年的11个地球平均温度增加值的分析,利用最小二乘法进行曲线拟合,通过精确计算,建立了地球平均温度增加值与时间之间的函数关系。从而得出在2080年左右,地球的平均温度会比1980年上升约6℃,从而会引起诸如冰川后退、海平面上升等一系列严重的环境问题。到时极地冰盖就会融化,从而引起大量的洪水泛滥和大片的陆地被淹没,这一认识对进行环境质量评价和提出保护地球的措施具有重要的理论意义。

1、曲线拟合及其应用综述

曲线拟合及其应用综述 摘要:本文首先分析了曲线拟合方法的背景及在各个领域中的应用,然后详细介绍了曲线拟合方法的基本原理及实现方法,并结合一个具体实例,分析了曲线拟合方法在柴油机故障诊断中的应用,最后对全文内容进行了总结,并对曲线拟合方法的发展进行了思考和展望。 关键词:曲线拟合最小二乘法故障模式识别柴油机故障诊断 1背景及应用 在科学技术的许多领域中,常常需要根据实际测试所得到的一系列数据,求出它们的函数关系。理论上讲,可以根据插值原则构造n 次多项式Pn(x),使得Pn(x)在各测试点的数据正好通过实测点。可是, 在一般情况下,我们为了尽量反映实际情况而采集了很多样点,造成了插值多项式Pn(x)的次数很高,这不仅增大了计算量,而且影响了函数的逼近程度;再就是由于插值多项式经过每一实测样点,这样就会保留测量误差,从而影响逼近函数的精度,不易反映实际的函数关系。因此,我们一般根据已知实际测试样点,找出被测试量之间的函数关系,使得找出的近似函数曲线能够充分反映实际测试量之间的关系,这就是曲线拟合。 曲线拟合技术在图像处理、逆向工程、计算机辅助设计以及测试数据的处理显示及故障模式诊断等领域中都得到了广泛的应用。 2 基本原理 2.1 曲线拟合的定义 解决曲线拟合问题常用的方法有很多,总体上可以分为两大类:一类是有理论模型的曲线拟合,也就是由与数据的背景资料规律相适应的解析表达式约束的曲线拟合;另一类是无理论模型的曲线拟合,也就是由几何方法或神经网络的拓扑结构确定数据关系的曲线拟合。 2.2 曲线拟合的方法 解决曲线拟合问题常用的方法有很多,总体上可以分为两大类:一类是有理论模型的曲线拟合,也就是由与数据的背景资料规律相适应的解析表达式约束的曲线拟合;另一类是无理论模型的曲线拟合,也就是由几何方法或神经网络的拓扑结构确定数据关系的曲线拟合。 2.2.1 有理论模型的曲线拟合 有理论模型的曲线拟合适用于处理有一定背景资料、规律性较强的拟合问题。通过实验或者观测得到的数据对(x i,y i)(i=1,2, …,n),可以用与背景资料规律相适应的解析表达式y=f(x,c)来反映x、y之间的依赖关系,y=f(x,c)称为拟合的理论模型,式中c=c0,c1,…c n是待定参数。当c在f中线性出现时,称为线性模型,否则称为非线性模型。有许多衡量拟合优度的标准,最常用的方法是最小二乘法。 2.2.1.1 线性模型的曲线拟合 线性模型中与背景资料相适应的解析表达式为: ε β β+ + =x y 1 (1) 式中,β0,β1未知参数,ε服从N(0,σ2)。 将n个实验点分别带入表达式(1)得到: i i i x yε β β+ + = 1 (2) 式中i=1,2,…n,ε1, ε2,…, εn相互独立并且服从N(0,σ2)。 根据最小二乘原理,拟合得到的参数应使曲线与试验点之间的误差的平方和达到最小,也就是使如下的目标函数达到最小: 2 1 1 ) ( i i n i i x y Jε β β- - - =∑ = (3) 将试验点数据点入之后,求目标函数的最大值问题就变成了求取使目标函数对待求参数的偏导数为零时的参数值问题,即: ) ( 2 1 1 = - - - - = ? ?∑ = i i n i i x y J ε β β β (4)

最小二乘法的编程实现

1、最小二乘法: 1)(用1 T A A 方法计算逆矩阵) #include #include #include #include #include #define N 200 #define n 9 void Getdata(double sun[N])//从txt文档中读取数据(小数){ char data; char sunpot[10]={0000000000};//为防止结果出现‘烫’字int i=0,j=0; double d; FILE *fp=fopen("新建文本文档.txt","r"); if(!fp) { printf("can't open file\n"); } while(!feof(fp)) { data=fgetc(fp); if(data!='\n') { sunpot[i]=data; i++; } else if(data=='\n') { sunpot[i]='\0';//给定结束符 d=atof(sunpot);//将字符串转换成浮点数 sun[j]=d; j++; i=0;//将i复位 } } } void Normal(double sun[N],double sun1[N])//将数据进行标准化{

double mean,temp=0,variance=0; int i; for(i=0;i

最小二乘法曲线拟合 原理及matlab实现

曲线拟合(curve-fitting ):工程实践中,用测量到的一些离散的数据},...2,1,0),,{(m i y x i i =求一个近似的函数)(x ?来拟合这组数据,要求所得的拟合曲线能最好的反映数据的基本趋势(即使)(x ?最好地逼近()x f ,而不必满足插值原则。因此没必要取)(i x ?=i y ,只要使i i i y x -=)(?δ尽可能地小)。 原理: 给定数据点},...2,1,0),,{(m i y x i i =。求近似曲线)(x ?。并且使得近似曲线与()x f 的偏差最小。近似曲线在该点处的偏差i i i y x -=)(?δ,i=1,2,...,m 。 常见的曲线拟合方法: 1.使偏差绝对值之和最小 2.使偏差绝对值最大的最小 3.使偏差平方和最小 最小二乘法: 按偏差平方和最小的原则选取拟合曲线,并且采取二项式方程为拟合曲线的方法,称为最小二乘法。 推导过程: 1. 设拟合多项式为: 2. 各点到这条曲线的距离之和,即偏差平方和如下: 3. 问题转化为求待定系数0a ...k a 对等式右边求i a 偏导数,因而我们得到 了: ....... 4、 把这些等式化简并表示成矩阵的形式,就可以得到下面的矩阵: 5. 将这个范德蒙得矩阵化简后可得到:

6. 也就是说X*A=Y,那么A = (X'*X)-1*X'*Y,便得到了系数矩阵A,同时,我们也就得到了拟合曲线。 MATLAB实现: MATLAB提供了polyfit()函数命令进行最小二乘曲线拟合。 调用格式:p=polyfit(x,y,n) [p,s]= polyfit(x,y,n) [p,s,mu]=polyfit(x,y,n) x,y为数据点,n为多项式阶数,返回p为幂次从高到低的多项式系数向量p。x必须是单调的。矩阵s包括R(对x进行QR分解的三角元素)、df(自由度)、normr(残差)用于生成预测值的误差估计。 [p,s,mu]=polyfit(x,y,n)在拟合过程中,首先对x进行数据标准化处理,以在拟合中消除量纲等影响,mu包含标准化处理过程中使用的x的均值和标准差。 polyval( )为多项式曲线求值函数,调用格式: y=polyval(p,x) [y,DELTA]=polyval(p,x,s) y=polyval(p,x)为返回对应自变量x在给定系数P的多项式的值。 [y,DELTA]=polyval(p,x,s) 使用polyfit函数的选项输出s得出误差估计Y DELTA。它假设polyfit函数数据输入的误差是独立正态的,并且方差为常数。则Y DELTA将至少包含50%的预测值。 如下给定数据的拟合曲线: x=[0.5,1.0,1.5,2.0,2.5,3.0], y=[1.75,2.45,3.81,4.80,7.00,8.60]。 解:MATLAB程序如下: x=[0.5,1.0,1.5,2.0,2.5,3.0]; y=[1.75,2.45,3.81,4.80,7.00,8.60]; p=polyfit(x,y,2) x1=0.5:0.05:3.0; y1=polyval(p,x1); plot(x,y,'*r',x1,y1,'-b') 运行结果如图1 计算结果为: p =0.5614 0.8287 1.1560 即所得多项式为y=0.5614x^2+0.08287x+1.15560 图1 最小二乘法曲线拟合示例 对比检验拟合的有效性: 例:在[0,π]区间上对正弦函数进行拟合,然后在[0,2π]区间画出图形,比较拟合区间和非拟合区间的图形,考察拟合的有效性。 在MATLAB中输入如下代码: clear x=0:0.1:pi; y=sin(x); [p,mu]=polyfit(x,y,9)

最小二乘法的原理及其应用

最小二乘法的原理及其应用 一、研究背景 在科学研究中,为了揭示某些相关量之间的关系,找出其规律,往往需要做数据拟合,其常用方法一般有传统的插值法、最佳一致逼近多项式、最佳平方逼近、最小二乘拟合、三角函数逼近、帕德(Pade)逼近等,以及现代的神经网络逼近、模糊逼近、支持向量机函数逼近、小波理论等。 其中,最小二乘法是一种最基本、最重要的计算技巧与方法。它在建模中有着广泛的应用,用这一理论解决讨论问题简明、清晰,特别在大量数据分析的研究中具有十分重要的作用和地位。随着最小二乘理论不断的完善,其基本理论与应用已经成为一个不容忽视的研究课题。本文着重讨论最小二乘法在化学生产以及系统识别中的应用。 二、最小二乘法的原理 人们对由某一变量t或多个变量t1…..tn 构成的相关变量y感兴趣。如弹簧的形变与所用的力相关,一个企业的盈利与其营业额,投资收益和原始资本有关。为了得到这些变量同y之间的关系,便用不相关变量去构建y,使用如下函数模型 , q个相关变量或p个附加的相关变量去拟和。 通常人们将一个可能的、对不相关变量t的构成都无困难的函数类型充作函数模型(如抛物线函数或指数函数)。参数x是为了使所选择的函数模型同观测值y相匹配。(如在测量弹簧形变时,必须将所用的力与弹簧的膨胀系数联系起来)。其目标是合适地选择参数,使函数模型最好的拟合观测值。一般情况下,观测值远多于所选择的参数。 其次的问题是怎样判断不同拟合的质量。高斯和勒让德的方法是,假设测量误差的平均值为0。令每一个测量误差对应一个变量并与其它测量误差不相关(随机无关)。人们假设,在测量误差中绝对不含系统误差,它们应该是纯偶然误差,围绕真值波动。除此之外,测量误差符合正态分布,这保证了偏差值在最后的结果y上忽略不计。 确定拟合的标准应该被重视,并小心选择,较大误差的测量值应被赋予较小的权。并建立如下规则:被选择的参数,应该使算出的函数曲线与观测值之差的平方和最小。用函数表示为:

标准曲线最小二乘法拟合与相关系数

标准曲线的最小二乘法拟合和相关系数 (合肥工业大学控释药物研究室 尹情胜) 1目的 用最小二乘法拟合一组变量(, i = 1-n )之间的线性方程(y = ax+b ),表示两 变量间的函数关系;(开创者:德国数学家高斯)个人收集整理勿做商业用途 一组数据(,,i = 1-n )中,两变量之间的相关性用相关系数(R )来表示。(开 创者:英国统计学家卡尔 皮尔逊)个人收集整理勿做商业用途 2最小二乘法原理 用最小二乘法拟合线性方程时,其目标是使拟合值( 方和(Q )最小。 n n Q=g (并-E (Yj —axj-b/ 整理勿做商业用途 3拟合方程的计算公式与推导 当Q 最小时,加 % ;得到式(2)、式(3): n n n ai = + b£xj 一 £xiyj = 0 1 = 1 [ = 1 i = 1 dQ db = 2 由式(3)和式(4),得出式(4)和式(5): 忖)与实测值()差值的平 式( 1)个人收集 式(2) n n (aj^x.+nb- i = i j = i 整理勿做商业用途 式(3)个人收集

n n n ^Vi=a^\ + b^x i i = 1 i = 1 i = 1 理勿做商业用途 n n S y i = a E X i + nb i = 1 i = 1 收集整理勿做商业用途 个人收集整理勿做商业用途 截距b的计算公式为公式(5),也即: I 11n i= 1 i = 1 式(4)个人收集整 式(5)个人 n 式(4)乘以门,式(5)乘以已1,两式相减并整理得斜率a: n n n i = 1 i = 1 i = 1 斜率(k = xy /xx , n* 积和-和积)式(6)截距 b =(y-x) / n,差平均差)式(7)

最小二乘法原理及应用【文献综述】

毕业论文文献综述 信息与计算科学 最小二乘法的原理及应用 一、国内外状况 国际统计学会第56届大会于2007年8月22-29日在美丽的大西洋海滨城市、葡萄牙首都里斯本如期召开。应大会组委会的邀请,以会长李德水为团长的中国统计学会代表团一行29人注册参加了这次大会。北京市统计学会、山东省统计学会,分别组团参加了这次大会。中国统计界(不含港澳台地区)共有58名代表参加了这次盛会。本届大会的特邀论文会议共涉及94个主题,每个主题一般至少有3-5位代表做学术演讲和讨论。通过对大会论文按研究内容进行归纳,特邀论文大致可以分为四类:即数理统计,经济、社会统计和官方统计,统计教育和统计应用。 数理统计方面。数理统计作为统计科学的一个重要部分,特别是随机过程和回归分析依然展现着古老理论的活力,一直受到统计界的重视并吸引着众多的研究者。本届大会也不例外。 二、进展情况 数理统计学19世纪的数理统计学史, 就是最小二乘法向各个应用领域拓展的历史席卷了统计大部分应用的几个分支——相关回归分析, 方差分析和线性模型理论等, 其灵魂都在于最小二乘法; 不少近代的统计学研究是在此法的基础上衍生出来, 作为其进一步发展或纠正其不足之处而采取的对策, 这包括回归分析中一系列修正最小二乘法而导致的估计方法。 数理统计学的发展大致可分 3 个时期。① 20 世纪以前。这个时期又可分成两段,大致上可以把高斯和勒让德关于最小二乘法用于观测数据的误差分析的工作作为分界线,前段属萌芽时期,基本上没有超出描述性统计量的范围。后一阶段可算作是数理统计学的幼年阶段。首先,强调了推断的地位,而摆脱了单纯描述的性质。由于高斯等的工作揭示了最小二乘法的重要性,学者们普遍认为,在实际问题中遇见的几乎所有的连续变量,都可以满意地用最小二乘法来刻画。这种观点使关于最小二乘法得到了深入的发展,②20世纪初到第二次世界大战结束。这是数理统计学蓬勃发展达到成熟的时期。许多重要的基本观点和方法,以及数理统计学的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法。在其发展中,以英国统计学家、生物学家费希尔为代表的英国学派起了主导作用。③战后时期。这一时期中,数理统计学在应用和理论两方面继续获得很大的进展。

最小二乘法实际应用

---------------------------------------------------------------最新资料推荐------------------------------------------------------ 最小二乘法实际应用 最小二乘法实际应用最小二乘法实际应用一、分析问题: 利用最小二乘法找出实际测试数据的拟合曲线。 设定测量一天内不同时间车流量的曲线。 以下是假定不同时间段车流量数据表,按照数据找出任意次曲 线拟合方程和它的图像。 二、 Matlab 程序代码: x=[1:1:24]; y=[2, 3, 1, 1, 5, 12, 13, 15, 14, 9, 10, 11, 12, 13, 14, 12, 11, 10, 9, 12, 10, 11, 5, 4] ; x1=polyfit(x, y, 3) ; %三次多项式拟合% x2=polyfit(x, y, 9) ; %九次多项式 拟合% x3=polyfit(x, y, 15) ; %十五次多项式拟合% y1= polyval(x1, x) ; y2= polyval(x2, x) ; y3= polyval(x3, x) ; z1= sum((y-y1) . ) ; %三次多项式误差平方和% z2= sum((y-y2) . ) ; %九次次多项式误差平方和% z3= sum((y-y3) . ) ; %十五 次多项式误差平方和% plot(x, y, ‘ *’ ) ; %用*画出 x, y 图像% hold on; plot(x, y1, ‘ r’ ) ; %用红色线画出 x, y1 图像% hold on; plot(x, y2, ‘ g’ ) ; %用绿色线画出 x, y2 图像% hold on; plot(x, y3, ‘ b:x’ ) ; %用蓝色 x 线画 出 x, y3 图像% 三、结果: 不同次数多项式拟和误差平方和为: 1 / 6

数值计算_第6章 曲线拟合的最小二乘法

第6章曲线拟合的最小二乘法 6.1 拟合曲线 通过观察或测量得到一组离散数据序列,当所得数据比较准确时,可构造插值函数逼近客观存在的函数,构造的原则是要求插值函数通过这些数据点,即。此时,序列与 是相等的。 如果数据序列,含有不可避免的误差(或称“噪音”),如图6.1 所示;如果数据序列无法同时满足某特定函数,如图6.2所示,那么,只能要求所做逼近函数最优地靠近样点,即向量与的误差或距离最小。按与之间误差最小原则作为“最优”标准构造的逼近函数,称为拟合函数。 图6.1 含有“噪声”的数据

图6.2 一条直线公路与多个景点 插值和拟合是构造逼近函数的两种方法。插值的目标是要插值函数尽量靠近离散点;拟合的目标是要离散点尽量靠近拟合函数。 向量与之间的误差或距离有各种不同的定义方法。例如: 用各点误差绝对值的和表示: 用各点误差按模的最大值表示: 用各点误差的平方和表示: 或(6.1) 其中称为均方误差,由于计算均方误差的最小值的方法容易实现而被广泛采用。按 均方误差达到极小构造拟合曲线的方法称为最小二乘法。本章主要讲述用最小二乘法构造拟合曲线的方法。 在运筹学、统计学、逼近论和控制论中,最小二乘法都是很重要的求解方法。例如,它是统计学中估计回归参数的最基本方法。

关于最小二乘法的发明权,在数学史的研究中尚未定论。有材料表明高斯和勒让德分别独立地提出这种方法。勒让德是在1805年第一次公开发表关于最小二乘法的论文,这时高斯指出,他早在1795年之前就使用了这种方法。但数学史研究者只找到了高斯约在1803年之前使用了这种方法的证据。 在实际问题中,怎样由测量的数据设计和确定“最贴近”的拟合曲线?关键在选择适当的拟合曲线类型,有时根据专业知识和工作经验即可确定拟合曲线类型;在对拟合曲线一无所知的情况下,不妨先绘制数据的粗略图形,或许从中观测出拟合曲线的类型;更一般地,对数据进行多种曲线类型的拟合,并计算均方误差,用数学实验的方法找出在最小二乘法意义下的误差最小的拟合函数。 例如,某风景区要在已有的景点之间修一条规格较高的主干路,景点与主干路之间由各具特色的支路联接。设景点的坐标为点列;设主干路为一条直线 ,即拟合函数是一条直线。通过计算均方误差最小值而确定直线方程(见图6.2)。 6.2线性拟合和二次拟合函数 线性拟合 给定一组数据,做拟合直线,均方误差为 (6.2) 是二元函数,的极小值要满足

最小二乘法综述及举例

最小二乘法综述及算例 一最小二乘法的历史简介 1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯也计算了谷神星的轨道。奥地利天文学家海因里希·奥尔伯斯根据高斯计算出来的轨道重新发现了谷神星。 高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中。 经过两百余年后,最小二乘法已广泛应用与科学实验和工程技术中,随着现代电子计算机的普及与发展,这个方法更加显示出其强大的生命力。 二最小二乘法原理 最小二乘法的基本原理是:成对等精度测得的一组数据),...,2,1(,n i y x i i =,是找出一条最佳的拟合曲线,似的这条曲线上的个点的值与测量值的差的平方和在所有拟合曲线中最小。 设物理量y 与1个变量l x x x ,...,2,1间的依赖关系式为:)(,...,1,0;,...,2,1n l a a a x x x f y =。 其中n a a a ,...,1,0是n +l 个待定参数,记()2 1 ∑=- = m i i i y v s 其中 是测量值, 是由己求 得的n a a a ,...,1,0以及实验点),...,2,1)(,...,(;,2,1m i v x x x i il i i =得出的函数值 )(,...,1,0;,...,2,1n il i i a a a x x x f y =。 在设计实验时, 为了减小误差, 常进行多点测量, 使方程式个数大于待定参数的个数, 此时构成的方程组称为矛盾方程组。通过最小二乘法转化后的方程组称为正规方程组(此时方程式的个数与待定参数的个数相等) 。我们可以通过正规方程组求出a 最小二乘法又称曲线拟合, 所谓“ 拟合” 即不要求所作的曲线完全通过所有的数据点, 只要求所得的曲线能反映数据的基本趋势。 三曲线拟合 曲线拟合的几何解释: 求一条曲线, 使数据点均在离此曲线的上方或下方不远处。 (1)一元线性拟合 设变量y 与x 成线性关系x a a y 10+=,先已知m 个实验点),...,2,1(,m i v x i i =,求两个未知参数1,0a a 。 令()2 1 10∑ =--=m i i i x a a y s ,则1,0a a 应满足1,0,0==??i a s i 。 即 i v i v

最小二乘法数据拟合

最小二乘法数据拟合 设给定数据),(i i f x ,),,2,1(m i = 在集合},,,{Span 10n ??? =Φ中找一个函数 )()(* 0** x a x S k n k k ?∑==,)(m n < (1) 其误差是 i i i f x S -=)(*δ,),,2,1(m i = (2) 使)(* x S 满足 2 1 )(2 *1 1 2 ])()[(min ])()[(i i m i i x S i i m i i m i i f x S x f x S x -=-=∑∑∑=Φ ∈==ωωδ (3) 0)(≥x ω是],[b a 上给定的权函数。上述求逼近函数)(*x S 的方法就称为曲线拟合的最小二 乘法。满足关系式(3)的函数)(* x S 称为上述最小二乘问题的最小二乘解。 并且有结论: 1)对于给定的函数表),(i i f x ,),,2,1(m i =,在函数类},,,{Span 10n ??? =Φ中存在唯一的函数)()(*0** x a x S k n k k ?∑== ,使得关系式(3)成立。 2)最小二乘解的系数* *1*0,,,n a a a 可以通过解法方程 ),(),(0 ???f a k n k j k =∑=,),,2,1,0(n j = (4) 作为曲线拟合的一种常用的情况,如果讨论的是代数多项式拟合,即取 },,,,1{},,,{210n n x x x =??? 那么相应的法方程(4)就是 ??????????????=???????????????????????? ??∑∑∑∑∑∑∑∑∑∑∑∑++i n i i i i i i i n n i i n i i n i i n i i i i i i n i i i i i f x f x f a a a x x x x x x x x ωωωωωωωωωωωω 102112 (5)

最小二乘法原理及其简单应用_邹乐强

科技信息 SCIENCE &TECHNOLOGY INFORMATION 2010年第23期y (%) 1.000.90.90.810.60.560.35x (%) 3.6 3.7 3.8 3.9 4.0 4.1 4.2 最小二乘法原理及其简单应用 邹乐强 (河南工程技术学校河南 焦作 454000) 【摘要】最小二乘法是从误差拟合角度对回归模型进行参数估计或系统辨识,并在参数估计、系统辨识以及预测、预报等众多领域中得到极为广泛的应用。然而,最小二乘法因其抽象、难懂常常被大家所忽视。本文就最小二乘法的引入,原理的证明,简单的应用进行归纳和总结,使读者对最小二乘法有更为清晰、系统、全面地认识。 【关键词】最小二乘法;回归模型;参数估计;系统辨识最小二乘法作为一种传统的参数估计方法,早已经被大家所了解。然而大多同学对最小二乘法的认识都比较模糊,仅仅把最小二乘法理解为简单的线性参数估计。事实上,最小二乘法在参数估计、系统辨识以及预测、预报等众多领域都有着广泛的应用。本文就最小二乘法的引入、最小二乘法原理的简单证明、最小二乘法在线性参数估计、欧氏空间、多项式拟合以及经济领域的模型参数估计等应用方面进行具体的阐释。本文的一些理论建立在学习过高等代数、数值分析及了解简单的经济计量学的基础上。本文的理论简明易懂,仅对现实中常见的问题用最小二乘法理论结合阐释。 1问题的引入 例 已知某种材料在生产过程中的废品率y 与某种化学成分x 有关。下列表中记载了某工厂生产中y 与相应的x 的几次数值: 我们想找出y 对x 的一个近似公式。 解把表中数值划出图来看,发现它的变化趋势近于一条直线。因此我们决定选取x 的一次式ax+b 来表达。当然最好能选到适当的a ,b 使下面的等式 3.6a+b -1.00=03.7a+b -0.9=03.8a+b -0.9=03.9a+b -0.81=0 4.0a+b -0.60=04.1a+b -0.56=04.2a+b -0.35=0 都成立。实际上是不可能的,任何a ,b 代入上面各式都会发生误差。于是想找a ,b 使上面各式的误差的平方和最小,即找到a ,b 使 (3.6a+b -1.00)2+(3.7a+b -0.9)2+(3.8a+b -0.9)2+(3.9a+b -0.81)2+(4.0a+b -0.60)2+(4.1a+b -0.56)2+(4.2a+b -0.35)2 最小。这里讨论的是误差的平方即二乘方,故称为最小二乘法。现在转向为一般的最小二乘法问题: 实系数线性方程组 a 11x 1+a 12x 2+…+a 1n x n - b 1=0 a 21x 1+a 22x 2+…+a 2n x n - b 2=0………… a m 1x 1 +a m 2x 2+…+a mn x n -b m = 1.1 可能无解。即任何一组实数x 1,x 2,……,x s 都可能使 m i =1 Σ(a i 1x 1+a i 2x 2+…+a in x n -b i )2 (*) 不等于零。 我们设法找到实数组x 0 1,x 0 2,…,x 0 s 使最小,这样的x 0 1,x 0 2,…,x 0 s 称为方程组的最小二乘解。这样问题就叫最小二乘法问题。 [1] 2 最小二乘法原理的证明 2.1 最小二乘法原理的初等证明 定理:X =(x 1,x 2,……x n )T 是矛盾方程组(1.1)的最小二乘解的充要条件是X 是方程组 (m i =1Σa 2 i 1)x 1+ m i =1Σa i 1a i 211x 2+…+ m i =j Σa i 1a in 11x n =m i =1 Σa i 1b i m i =1Σa i 2a i 1 1 1x 1+ m i =1Σa 2 i 2 11x 2+…+m i =1Σa i 2a in 11x n = m i =1Σa i 2b i m i =1 Σa in a i 11 1x 1+m i =1Σa in a i 211x 2+…+ m i =1 Σa 2 in 11x n = m i =1 Σa in b i 2.2 的解[2] 证明:设Y = m i =1Σ b i -n k =1 Σa ik x k 11 2 2.3 把Y 整理为关于x j (1≦j ≦n)的二次函数得 Y = m i =1 Σa 2ij 1 1x 2 j +2m i =1 Σ(a j (a i 1x 1+…+a i ,j -1x j -1+a i ,j +1x j +1+…+a 1n x n b j ))x j +m i =1 Σ(a i 1x 1+…+a i ,j -1x j -1+a i ,j +1x j +1+…+a in x n -b j )2 j=1,2,3,……,n 必要性:设X =(x 1,x 2,……,x n )T 是方程组⑴的最小二乘解,由定义1知⑴式中Y 有最小值,且X 是最小值点。由二次函数的性质得知二次函数 m i =1 Σa 2ij 〉0(j=1,2,……,n ),故a ij 不全部为零(与A 列满秩的假设一 致),且X 满足: X = m i =1 Σ[a ij (a i 1x 1 +…+a i ,j -1x i,j -1 +a i ,j +1x i,j +1+…+a in x n -b n )] m i =1 Σa ij (j=1,2,……,n) 2.4 化简得: m i =1 Σa ij a i 111x 1+m i =1Σa ij a i 211x 2+…+ m i =1Σa ij a i,j-111x j -1+ m i =1 Σa 2 ij 11x j + m i =1Σa ij a i,j+111x j +1+…+m i =1Σa ij a in 1 1x n =m i =1 Σa ij b i (j=1,2,…n) 这就是方程组⑵。不难看出方程组⑵的系数矩阵为A T A (A T 表示A 的转置矩阵),由A 列满秩知|A T A |≠0,故⑵有唯一解。必要性得证。 充分性:设X 是方程组(2)2.2的解,由x j (j =1,2,...,n )满足方程组2.2,也就是满足⑷式,再由于A 列满秩,a ij (i =1,2,...,m )不全为零,故⑶中二次项系数 m i =1 Σa 2 ij >0,因此,⑷中式Y 有最小值且最小值点为X =(x 1 , x 2,...,x n ),所以X 是方程组⑴的最小二乘解。 2.2利用欧氏空间证明最小二乘法下面我们利用欧氏空间的概念来表达最小二乘法,并给出最小二乘解所满足的代数条件。令 A = a 11a 12…a 1n a 21a 22 …a 2n … ……… a m 1 a m 2… a mn ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠B = b 1b 2… b m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ X = x 1x 2… x m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ Y =n j =1Σa 1j x 1n j =1Σa 2j x 2n j =1 Σa mj x m ≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠≠ ≠ ≠≠≠≠ ≠ ≠≠≠≠≠ ≠≠ ≠ =AX 2.5 ○职校论坛○ 282

最小二乘法在误差分析中的应用

误差理论综述与最小二乘法讨论 摘要:本文对误差理论和有关数据处理的方法进行综述。并且针对最小二乘法(LS)的创立、发展、思想方法等相关方面进行了研究和总结。同时,将近年发展起来的全面最小二乘法(TLS)同传统最小二乘法进行了对比。 1.误差的有关概念 对科学而言,各种物理量都需要经过测量才能得出结果。许多物理量的发现,物理常数的确定,都是通过精密测量得到的。任何测试结果,都含有误差,因此,必须研究,估计和判断测量结果是否可靠,给出正确评定。对测量结果的分析、研究、判断,必须采用误差理论,它是我们客观分析的有力工具 测量基本概念 一个物理量的测量值应由数值和单位两部分组成。按实验数据处理的方式,测量可分为直接测量、间接测量和组合测量。 直接测量:可以用测量仪表直接读出测量值的测量。 间接测量:有些物理量无法直接测得,需要依据待测物理量与若干直接测量量的函数关系求出。 组合测量:如有若干个待求量,把这些待求量用不同方法组合起来进行测量,并把测量结果与待求量之间的函数关系列成方程组,用最小二乘法求出这个待求量的数值,即为组合测量。 误差基本概念 误差是评定测量精度的尺度,误差越小表示精度越高。若某物理量的测量值为y,真值为Y,则测量误差dy=y-Y。虽然真值是客观存在的,但实际应用时它一般无从得知。按照误差的性质,可分为随机误差,系统误差和粗大误差三类。 随机误差:是同一测量条件下,重复测量中以不可预知方式变化的测量误差分量。 系统误差:是同一测量条件下,重复测量中保持恒定或以可预知方式变化的测量误差分量。 粗大误差:指超出在规定条件下预期的误差。 等精度测量的随机误差 当对同一量值进行多次等精度的重复测量,得到一系列的测量值,每个测量

最小二乘法应用实例

数值计算方法 实际应用(论文) 题目最小二乘法原理实际生活应用 学院信息工程学院 专业软件工程 姓名张同 班级 13级2班 学号1402130235

摘要 最小二乘法(又称最小平方法)是一种数学优化技术,是利用最小化误差的平方和寻找数据的最佳函数匹配的一种计算方法[1],目前在测量学、城市道路规划、物理学、地质勘探学、概率论、统计学等领域有着广泛的应用。本文对最小二乘法进行了深入细致的研究,利用Visual C++编制程序实现最小二乘法的界面化设计,通过实验数据的输入,实现线性和二次拟合曲线的输出,并利用设计的程序实现了一些实际问题的求解和处理。 关键词:最小二乘法曲线拟合Visual C++

最小二乘法在实际生活中的应用 一.实际问题描述: 早在19世纪后期,英国生物学家Galton 在研究父母身高与子女身高关系时,观察了1078个家庭中父亲、母亲身高的平均值x 和其中一个成年儿子身高y,建立了x 与y 之间的线性关系。 二.提出问题: 通过父母平均身高推算出成年儿子身高 三.分析问题: 平时我们在实验过程中会遇到两量y x ,如果存在b ax y +=的线性关系时,其中b a ,为线性函数的参数。当实验数据存在这种线性关系时,通常我们运用作图法对其参数进行处理运算、进而求出实验结果。但是作图法很难得到好的结果,而运用最小二乘法可以得到比较好的线性拟合 [19] 。对其两种方法比较可以最小二乘法的数据处理方法是比较理想的办法。 四.实验原理: 最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。 最小二乘法拟合:对给定数据点{(Xi ,Yi)}(i=0,1,…,m),在取定的函数类Φ 中,求p(x)∈Φ ,使误差的平方和E ^2最小,E^2=∑[p(Xi)-Yi]^2。从几何意义上讲,就是寻求与给定点 {(Xi ,Yi)}(i=0,1,…,m)的距离平方和为最小的曲线y=p(x)。函数p(x)称为拟合函数或最小二乘解,求拟合函数p(x)的方法称为曲线拟合的最小二乘法。 五.解决方案: 运用数值计算方法中的最小二乘法处理数据,计算出a 与b ,得到y=a+bx 关系式。 1.根据实验数据列以下表格: 表1 实验数据收集 父母平均身高x (cm ) 155 160 165 170 175 180 成年儿子身高y (cm ) 158 164 168 175 178 188 2.主要程序代码: #include #include

Matlab最小二乘法曲线拟合的应用实例

MATLAB机械工程 最小二乘法曲线拟合的应用实例 班级: 姓名: 学号: 指导教师:

一,实验目的 通过Matlab上机编程,掌握利用Matlab软件进行数据拟合分析及数据可视化方法 二,实验内容 1.有一组风机叶片的耐磨实验数据,如下表所示,其中X为使用时间,单位为小时h,Y为磨失质量,单位为克g。要求: 对该数据进行合理的最小二乘法数据拟合得下列数据。 x=[10000 11000 12000 13000 14000 15000 16000 17000 18000 19000 2 0000 21000 22000 23000]; y=[24.0 26.5 29.8 32.4 34.7 37.7 41.1 42.8 44.6 47.3 65.8 87.5 137.8 174. 2] 三,程序如下 X=10000:1000:23000; Y=[24.0,26.5,29.8,32.4,34.7,37.7,41.1,42.8,44.6,47.3,65.8,87.5,137.8,17 4.2] dy=1.5; %拟合数据y的步长for n=1:6 [a,S]=polyfit(x,y,n); A{n}=a;

da=dy*sqrt(diag(inv(S.R′*S.R))); Da{n}=da′; freedom(n)=S.df; [ye,delta]=polyval(a,x,S); YE{n}=ye; D{n}=delta; chi2(n)=sum((y-ye).^2)/dy/dy; end Q=1-chi2cdf(chi2,freedom); %判断拟合良好度 clf,shg subplot(1,2,1),plot(1:6,abs(chi2-freedom),‘b’) xlabel(‘阶次’),title(‘chi2与自由度’) subplot(1,2,2),plot(1:6,Q,‘r’,1:6,ones(1,6)*0.5) xlabel(‘阶次’),title(‘Q与0.5线’) nod=input(‘根据图形选择适当的阶次(请输入数值)’); elf,shg, plot(x,y,‘kx’);xlabel(‘x’),ylabel(‘y’); axis([8000,23000,20.0,174.2]);hold on errorbar(x,YE{nod},D{nod},‘r’);hold off title(‘较适当阶次的拟合’) text(10000,150.0,[‘chi2=’num2str(chi2(nod))‘~’int2str(freedom(nod))])

相关文档
相关文档 最新文档