Chapter 3 Adaptive Filter (自适应滤波器)
设计Wiener 和Kalman Filter 时,要求已知关于信号和噪声统计特性的先验知识,但许多时候是不知道的,而且这些特性还是时变的,处理这类信号时,需采用自适应Filter ,它是自适应信号处理二大内容之一,另一类是自适应天线。
本章主要研究,自适应Filter 的工作原理,基本理论,重要算法和典型应用。
§3.1 自适应Filter 原理
自适应Filter 由参数可调的数字结构(or 称自适应处理器)和自适应算法两部分组成,如图:
)()(n y n x ??→?产生与参考信号)(n d 比较)(n e ?(有时也用)(n x )经过自适应算法对Filter 参数进行调整。
Adjustable Algorithm 的原则:最终使e (n )均方值最小! 实际上:Adaptive Filter 是一种能自动调整本身参数的特殊
Wiener Filter 。它在设计时,不需先知道输入信号和噪声的统计特性。它能在自己工作中逐渐学会or 估计出所需的统计特性。并以此依据自动调整自己的参数以达到最佳Filtering 的目的。 总之,自适应最大的特性:学习(learning )、跟踪(tracing )。 我的关心的是学习的速度(speed )、精度(失调量,misadjustment )这一对矛盾对自适应系统的影响,0)(≠n e ,称失调量。
自适应滤波器有这几种常见实例: ⒈ 自适应预测:
可用于语音编码谱估计等
)(n S )(D n S
+期望响应)(n d 是D n +时刻的信号值)(D n S +
⒉自适应建模:
自适应处理器不断调整自己的权值使得输出响应)(n
y尽可能逼近未知系统(被建模系统)的输出)(n
d。
也即使自适应处理器成为未知系统的模型。
逆向建模:自适应处性器调整自己的权值的成为被建模系统的逆系统:即把被建模系统的输出转换成为输入信号的延时n
S。
-
(?
)
3.自适应干扰器?自适应连列信号处理(典型的多输入干扰抵消器)
在设计自适应滤波器时,首先要确定滤波器的结构(FIR、IIR),然后设计自适应算法以调整Filter参数,其目标是使某一特定的代价函数最小化。(均方误差为代价函数)
传感器阵列接收到目标信号,导向延时使其预定观测方向上波束增益最大。固定目标信号滤波器输出为)(
n
S+,自适应处
(n
N
)
理器输出是噪声的估计)(?n
N。
N,并用来抵消)(n
常用于波束形成器。
§3.2 Adaptive Linear Combinator(自适应线性组合器)
——本章讨论的重点。
自适应线性组合器是一种参数可自适应调整的有限冲激响应(FIR)数字滤波器,具有非递归结构形式。
它的分析和实现比较简单,在大多数自适应信号处理中应用。
下面是自适应线性组合器原理图(多输入)
这里)(n
z有L+1个元素:可以是在同一时刻n对L+1个不同信号源取样得到,也可以是同一信号源在n以前L+1个时刻取样得到。前者为多输入情况,后者为单输入情况。
单输入并行输出的自适应线性组合器:
输入: T L n x n x n x n X )](,),(),([)(10 =
一个空间序列,同一时刻,一组取样值并行输入 同一时刻n 对1+L 个不同信号源取得→多输入 也可以是: T L n x n x n x n X )](,),1(),([)(--= 一个时刻序列,一个信号的串行输入
同一信号源在n 以前L +1个时刻取得→单输入
T L n w n w n w n w )](,),(),([)(10 =
权系数矢量:既是e (n )的函数,还可能是x (n )的函数。 调整权系数的方程叫做自适应过程。 对单输入情况: )()()(0k n x n w n y k L
k -=∑=
对多输入情况:
)()()(0
n x n w n y k k L k ∑==
还可表示为:??
?
??==-===③②①min )]([)()()()()()()()()(2n e E n n y n d n e n w n Z n Z n W n y T T ξ
总之:自适应线性组合器按照误差信号均方值(or 平均功率)最小的准则(即③)来自动调整权矢量,选择什么信号作为参考响应,要根据不同的应用要求来确定。
§3.3 均方误差性能曲面(Performance Surface )
由上面①②③三式,得均方误差表示式:
④)()]()([2)()]()([)()]([2n W n X n d E n W n Z n X E n W n d E T T T -+=ξ
(()()()[]n Z n W n d E n X n W E n d E n X n W n d E T T T 2]})()({[)]([})]()()({[222-+=-=ξ 且W (n )参数矢量不是随机的,只有)()(n X n d 是随机的,即得④式) 将④式进一步写成:
)(2)()()]([2n w P n Rw n W n d E T T -+=ξ
?
?
?=?=列矢量 )]()([ )]()([n X n d E P N
N n X n X E R T 无论)(n w 的元素为2:T n w n w n w )](),([)(10= or 是n 个:)](,),(),([)(110n w n w n w n w n -=
ξ的最高次幂都为2,不同的是自变量的个数增多了,相应地,可以看出:
也就是说:均方误差ξ是权矢量W 的各分量的二次函数,即若将该式展开,则W 各分量只有一次和二次项存在,ξ的图形一定是L +1维空间向中一个中间下凹的超抛物面,有唯一最低点
ξmin ,该曲面称为均方误差性能曲面。
当输入)(n w 只有两个元素时,可得到如图的自适应滤波器:
均方误差性能曲面:简称性能曲面。
ξ是)(),(10n w n w 的二次函数,是三维空间中的抛物面。
自适应过程,即自动调整权系数)(n w ,使均方误差达到最小值
min ξ的过程,相当于沿性能曲面往下搜索达最低点的过程。
因此梯度很重要。
随自变量的个数增多,相应的性能曲线变为L +1维空间中的抛物面→超抛物面。其梯度:
P R W P RW w
P T 1*022-=?=-=??=
ε
*)(*)(min W W R W W T --+=ξξ,让*W W V -=得:
RV V T +=min ξξ
此式表明:当W 偏离最佳值W*一个数值0≠V 时,ξ
将比min ξ大
一个数值!RV V T
实际上是进行坐标平移:0>RV V T ∴R 需为正交or 半正交的
T L V V V V ],,,[10 =权偏移矢量
RV V
V 2=??=
ε
(P RW P R W R W W R RV V T 22)(2*)(22-=-=-==) 为了使曲面上的任一点收敛到W*时最快,则:
①需按最陡下降(Stepest Decent)方式,按梯度的负方向下降;
②下降步幅与梯度的绝对值成正比,?
(n
W
W;
)1
n
(
-
)
=
+μ
③要收敛,即方向不能错;
§3.4 Properties of the Quadratic Performance Surface(二次性能
曲面的基本性质)
我们知道,平稳随机信号的统计特性是不随时间变化的。因此,其性能曲面在坐标系中是固定不变或“刚性”的。自适应过程就是从性能曲面上某点(初始状态)开始,沿着曲面向下搜索最低点的过程。
但对非平稳随机信号来说,这种性能曲面是“晃动的”、“模糊的”自适应过程,不仅要求沿性能曲面向下搜索最低点,而且还对最低点进行跟踪。
我们这里只讨论平稳随机过程,且为方便理解,只讨论两个权系数W 0和W 1的自适应线性组合。
此时性能曲面是三维空间),,(10w w ξ中的一个抛物面。 现用一个与10W W -平面平行与其相距1ξ的平面切割该抛物面,交线在10W W -平面上投影是一个椭圆。如图:椭圆中心为
),(**1*0W W W =,它是性能曲面最低点min ξ的投影。
如果用若干个与10W W -平面距离不同的平行平面来切割性能
曲面,交线投影将是一组中心同在W*的椭圆。它们各与一个确定的ξ相对应。因此称为等均方误差线or 等高线。 等高线方程:由W P RW W n d E T T 2)]([2-+=ξ得:
=-W P RW W T T 2常数
若将坚持原点平移至),(*1*0*W W W =,得到权偏移矢量全标系
*10),(W W V V V -==等高线方程:
=RV V T 常数
(可由RV V T +=min ξξ得到)
这是一组同心椭圆,中心位于新坐标原点V=0。
将上面讨论推广到L+1个权系数的情况不难想象,等高线将是L+1维空间中的一组同心超椭圆,椭圆中主位于坐标系
),,,(10L v v v 的原点。这组同心超椭圆有
L+1个主轴,它们也是均
方误差曲面的主轴。F 的梯度也是ξ的梯度。
()0=-?n n Q I R λ
V V W '??→???→?旋转平移
*W W V -=
V Q V 1-=' 的旋转)
是(V V '
??
???Λ'+=+=--+=V V RV
V W W R W W T
T
T min min **min )()(ξξξξξξ Λ是
R 的特征值矩阵:可由R 的特征方程det[R-aI]=0解出。
2
min 101
10min
min )( 0
0)(i i L
i L L L T
V V V V V V V V V '+=??????
? ??'''???????
?
?'''+=Λ+=∑=-λξλλλξξξ
???
?
?
???='?'
'='??='??'='??1212
11100200022 22 2λξλξλξ
λξV V V V V V i i
i i i
V V V λξ
λε
22222
='??'='? ()L i ,,1,0 =
由此总结出二次性能曲面的三个基本性质:主轴是R 的特征矢量。
⒈ 输入信号自相关矩阵R 的特征矢量n Q 确定了性能曲面的主轴1-Λ=Q Q R ,Λ是R 的特征值矩阵
0]det[=-I R λ
????
?
????
??
?=ΛL λλλ
001
对角矩阵 Q 是R 的特征矢量矩阵:n n Q RQ λ=
V Q V V W 1-='??→???→?旋转平移它的梯度矢量就位于该坐标轴上。
⒉ 因此它定义的旋转系统V '就是椭圆的主轴系统。 ⒊ R 的特征值给出了性能曲面沿主轴的二阶导数值。
§3.5 Stepest Descent Method 最陡下降法
前面分析知,自适应线性组合器的均方误差性能曲面是权系数的二次函数,但在实际应用中,性能曲面的参数甚至解析式都是未知的。因此,只能由已测数据,采用某种算法对性能曲面自动进行搜索。寻找最低点,从而得到最佳权矢量。牛顿法和最陡下降法是两种著名的方法,牛顿法在数学上有重要意义,但实现很困难。因此,我们只介绍最陡下降法,它在工程上易于实现。 顾名思义,最陡下降法是沿性能曲面最陡方向向下搜索曲面最低点。曲面的最陡下降是曲面的负梯度方向。这是一个迭代搜索过程。
即首先从曲面上某个初始点)0(W ?出发,沿该点负梯度方向搜索到第1点)1(W ,再用类似方法,向下到2………,直到搜索到*W 为止。最陡下降迭代计算权矢量公式:
))(()()1(n n W n W -?+=+μ
各点梯度不同
μ
:控制搜索步长的参数,又称自适应增益常数
将它代入前面讲的梯度:P RW 22-=?
*
*2)(]2[ ])([2)( ])([2)()()1(RW n W R I W n W R n W P n RW n W n W n W μμμμ+-=--=--=?+ )(1P R W -*=
这方程由)()1()0(n W W W →→计算很困难,一般要将W 坐标通过平移V →坐标,并通过旋转→主轴坐标V '。
*****)2(2])()[2()1(W R I W RW W n W R I W n W μμμ-+-+--=-+
)
()2( )()2( )(]2[)()2()1(1111n V Q I Q n V Q Q QQ n V Q Q I n V R I n V ----Λ-=Λ-=Λ-=-=+μμμμ
)()2()1()()2()1(1
11n V I n V V Q V n V Q I n V Q 'Λ-=+'???
?
??='Λ-=+∴---μμ 又 即?????
?
??????'''????????????---=????????????+'+'+')()()(21021021)1()1()1(101010n V n V n V n V n V n V L L L μλμλμλ 由于
)
,,1,0)(1(L i n V i =+'之间没有耦合,所以可分别由初始权值进
行迭代运算求解,可得:
)0()2()(V I n V n 'Λ-='μ
即
?????
?
??????'''???????????
?---=????????????''')0()0()0(21021021)()()(1010
10L n
L L V V V n V n V n V μλμλμλ )0()21()(i n i i V n V '-='∴μλ
为确保算法收敛,有0)(lim
='∞
→n V i n ,即收敛到V 的原点,即W 的W *点。
因此必须保证i
i λμμλ1
01|21|<
<-
可以由给定的→)(n x 求μλλλ→→),,,(10L R
由R 的特征值L λλλ,,,10
max
1
0λμ<
<∴ μ在此范围内选取!
这样计算仍比较繁锁,可采用直接估计μ的方法,让R 矩阵的迹:
max 0
][λλ>=∑=k L
k r R t
][R t r 也可由输入信号取样值进行估计:
)]([][2
0n x E R t k L
k r ∑==
从而取][01R t t -<<μ
由于实际自适应F 中调整参数是),,,(10L W W W W 可将上面结果返回到自然坐标系去,以看清W (n )的自适应调整规律。 由)0()2()(V I n V n 'Λ-='μ有:
)0()2()(V I Q n V Q n 'Λ-='μ
)0()2()(V I Q n V Q n 'Λ-='μ
∴])0([]2[)(*1*W W Q I Q W n W n -Λ-+=-μ
利用恒等式:11)(--=Q QA QAQ n n 有 *
**)(lim ])0([)2()(W
n W W W R I W n W n n =--+=∞
→μ
§3.6 Learning Curve & Convengence Speed (学习曲线和收敛速度)
在自适应调整权系数的过程中,均方误差是迭代n 次数的函数,称为学习曲线。
∵ *2)(]2[)]([)()1(RW n W R I n n W n W μμμ+-=-?+=+
)()2()1(n V I n V 'Λ-=+'μ
)0()2()(V I n V n 'Λ-='μ ])0([]2[)(**W W R I W n W n --+=μ ])0([]21[)(**W W W n W n -Λ-+=μ
∴
n
k
k k L
k n
T n
T n T V V I V V I I V n V n V 220m i n 2m i n m i n m i n )21()]0([ )0(]2[)]0([ )
0()2(])2[()]0([)()]([μλλξμξμμξξξ-'+='ΛΛ-'+='Λ-ΛΛ-'+='Λ'+=∑=
(Λ-μ2I 也是对角阵,两对角阵相乘运算服从交换律)
这就是最陡下降法学习曲线的表达式,收敛条件约为:1
max 0-<<λμ
称:22)21()(k k k m sc μλγγ-==为误差公比 (按几何级数衰减)
(k k μλγ21-=) 讨论:
⒈ 权系数衰减时间常数(The Time-constant of the Exponential Relaxation of Weight Coeffieient )。
收敛速度的快慢,用时间常数来说明:
第一就是τ,权系数衰减时间常数
)0()0()21()(k n
k k n k k V V n V '='-='γμλ
定义:ττγγ1
)
()0(--=?==''
e e n V V
即)(n V '衰减为)0(V '的e
1倍时,所经历的迭代次数即为τ。 通常)10(1≈>>τ
τ
γτ
1
11
-
==∴-
e
μλ
τ2111=
-=
?r (次),其中μλ21-=r
⒉ 学习曲线时间常数msc τ(The Time-Constant of learning Curve )
μλ
τγγτ41
2)1(2111=
=-=
-=
msc
msc 其物理意义:min )(ξξ-n 衰减为)0(ξ-min ξ的e
1倍所需迭代次数。 ⒊ 自适应时间常数(Adaptive Time C ) )(msc msc T τ=·
(Samples 样本数or 取样周期)
即:将msc τ迭代次数用其取样间隔来度量。
§3.7 Least-Mean-Square Adaptive Algorithm 最小均方(LMS )自适应算法
其核心是用平方误差代替均方误差。
最陡下降法,每次迭代都需要知道性能曲面上某点的梯度值,而实际上梯度值只能根据观测数据进行估计。LMS 算法是一种很有用的估计梯度的方法。它的突出优点是计算量小,且不脱线计算,只要知道输入信号和参考响应。
它的总体思想是由)]([)(22n e E n e ?→?代。
让单个平方误差序列的梯度?→??代)(?n 多个平方误差序列统计
平均的梯度。
))(()()1(n n W n W -?+=+μ
W
n e E n ??=?))]
(([)(2
))(?()()1(n n W n W ?-+=+→μ
W
n e n ??=?)]([)(?2
,设)()(?n D n D = ))
()()(()
()(2)
()(2)]([)(22
n X W n X n e n X n e W
n e n e W n e n T ==-=??=??=? )()(2)()1(n X n e n W n W μ+=+∴ → LMS 算法的基本关系式
显然权系的调整路径,不可能沿着理想的最陡下降的路径。
可见实现起来很简单,下次权矢量)1(+μW 只需在当前权矢量
)(n W 上加一个修正量,该修正量为误差信号)(n e 的加权值。
Note :
对权矢量的所有分量来说,)(n e 是相同的,权系数为)(2n X μ。 (X(n) → 当前输入)
采用LMS 算法的自适应线性组合器:
讨论:⒈ )()(?),()](?[n n n n E ??∴?=?
是的不偏估计,即算法收敛 [证明]:)}()]()()({[2)]()([2)](?[n X n d n W n X E n X n e E n E T --=-=?
)(])([2n P n RW ?=-=
说明:按基本关系式将计算得到的多个梯度估计进行统计平
均,再由统计平均值)](?[n E ?
来调整权矢量,迭代结果最理想。 然而,实际应用中,每次调整权矢量前,通过观测只得到一个)(n X 。
由关系式得到一个)(?n ?,据此调整权矢量得到)(n W 必然是随机
的,当迭代过程收敛后,权矢量在最佳权矢量附近随机起伏,这等效于在最佳权矢量上加了一个噪声。 ⒉ 将)()(2)()1(n X n e n W n W μ+=+两边取期望值:
)]}
()()([)]()([{2)]([ )}()]()()({[2)]([ )]
()([2)]([)]1([n W n X n X E n X n d E n W E n X n W n X n d E n W E n X n e E n W E n W E T T -+=-+=+=+μμμ
又)()(2)()1(n X n e n W n W μ+=+
说明)(,),1(),()1(n X n X n X n W -+只与相关,与)1(+n X 无关 即)()(n X n W 与不相关,这也保证了不脱线处理的可能性。
P
n W E R I n W RE P n W E n W E n X n X E n X n d E n W E n W E T μμμμ2)]([]2[ )]}
([{2)]([ )]}
([)]()([)]()([{2)]([)]1([+-=-+=-+=+∴ 而最陡下降法梯度公式:P R I n W n W μμ2]2)[()1(+-=+
说明:LMS 算法得到的权矢量的期望值与最陡下降法权矢量本
身一样,因此,当收敛条件1
max 0-<<λμor ][01R tr -<<μ满足时,随
迭代次数趋近于无穷,LMS 权矢量的期望值将趋近于最佳权矢量。