· 1 ·
2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍?
解:
四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3}
八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则:
四进制脉冲的平均信息量symbol bit n X H / 24log log )(1=== 八进制脉冲的平均信息量symbol bit n X H / 38log log )(2=== 二进制脉冲的平均信息量symbol bit n X H / 12log log )(0=== 所以:
四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。
2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量?
解:
设随机变量X 代表女孩子学历
X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75
设随机变量Y 代表女孩子身高
Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5
已知:在女大学生中有75%是身高160厘米以上的 即:bit x y p 75.0)/(11=
求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15
.075
.025.0log )()/()(log
)/(log )/(11111111=?-=-=-=
2.3 一副充分洗乱了的牌(含52张牌),试问
(1) 任一特定排列所给出的信息量是多少?
(2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量?
解:
(1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是:
!
521)(=
i x p bit x p x I i i 581.225!52log )(log )(==-=
(2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:
· 2 ·
bit C x p x I C x p i i i 208.134
log
)(log )(4)(1352
13
13
52
13
=-=-==
2.4 设离散无记忆信源???
???=====??????8/14/1324/18/310)(4321x x x x X P X ,其发出的信息为(202120130213001203210110321010021032011223210),求 (1) 此消息的自信息量是多少?
(2) 此消息中平均每符号携带的信息量是多少?
解:
(1) 此消息总共有14个0、13个1、12个2、6个3,因此此消息发出的概率是:
6
2514814183??
? ?????? ?????? ??=p
此消息的信息量是:bit p I 811.87log =-=
(2) 此消息中平均每符号携带的信息量是:bit n I 951.145/811.87/==
2.5 从大量统计资料知道,男性中红绿色盲的发病率为7%,女性发病率为0.5%,如果你问一位男士:“你是否是色盲?”他的回答可能是“是”,可能是“否”,问这两个回答中各含多少信息量,平均每个回答中含有多少信息量?如果问一位女士,则答案中含有的平均自信息量是多少?
解: 男士:
symbol
bit x p x p X H bit
x p x I x p bit x p x I x p i i i N N N Y Y Y / 366.0)93.0log 93.007.0log 07.0()(log )()( 105.093.0log )(log )(%
93)( 837.307.0log )(log )(%
7)(2
=+-=-==-=-===-=-==∑
女士:
symbol bit x p x p X H i
i i / 045.0)995.0log 995.0005.0log 005.0()(log )()(2
=+-=-=∑
2.6 设信源?
?????=??????17.016.017.018.019.02.0)(654321
x x x x x x X P X ,求这个信源的熵,并解释为什么H(X) > log6不满足信源熵的极值性。
解:
585
.26log )(/ 657.2 )17.0log 17.016.0log 16.017.0log 17.018.0log 18.019.0log 19.02.0log 2.0( )
(log )()(26
=>=+++++-=-=∑X H symbol bit x p x p X H i
i i
· 3 ·
不满足极值性的原因是
107.1)(6
>=∑i
i
x p 。
2.7 同时掷出两个正常的骰子,也就是各面呈现的概率都为1/6,求: (1) “3和5同时出现”这事件的自信息; (2) “两个1同时出现”这事件的自信息;
(3) 两个点数的各种组合(无序)对的熵和平均信息量; (4) 两个点数之和(即2, 3, … , 12构成的子集)的熵; (5) 两个点数中至少有一个是1的自信息量。
解:
(1)
bit
x p x I x p i i i 170.4181
log )(log )(18
1
61616161)(=-=-==
?+?=
(2)bit
x p x I x p i i i 170.536
1
log )(log )(36
1
6161)(=-=-==
?=
(3)
两个点数的排列如下: 11 12 13 14 15 16 21 22 23 24 25 26 31 32 33 34 35 36 41 42 43 44 45 46 51 52 53 54 55 56 61 62 63 64 65 66
共有21种组合:
其中11,22,33,44,55,66的概率是36
16161=? 其他15个组合的概率是18
161612=??
symbol bit x p x p X H i
i i / 337.4181log 18115361log 3616)(log )()(=??? ??
?+?-=-=∑
(4)
参考上面的两个点数的排列,可以得出两个点数求和的概率分布如下:
symbol
bit x p x p X H X P X i
i i / 274.3 61log 61365log 365291log 912121log 1212181log 1812361log 36
12 )
(log )()(36112181111211091936586173656915121418133612)(=?
?? ??
+?+?+?+?+?-=-=?????????
?=??????∑
· 4 ·
(5)
bit x p x I x p i i i 710.136
11
log
)(log )(3611
116161)(=-=-==
??=
2.8证明:H(X 1X 2 。。。 X n ) ≤ H(X 1) + H(X 2) + … + H(X n )
证明:
...
)/()( 0);()/()( 0);().../(...)/()/()()...(21332131221212121312121X X X H X H X X X I X X H X H X X I X X X X H X X X H X X H X H X X X H n n n ≥?≥≥?≥++++=-)
(...)()()()...()
.../()( 0)...;(32121121121n n n N N n N X H X H X H X H X X X H X X X X H X H X X X X I ++++≤∴≥?≥--
2.9 证明:H(X 3/X 1X 2) ≤ H(X 3/X 1),并说明当X 1, X 2, X 3是马氏链时等式成立。
证明:
log 1)/()(log )()/()(log 1)/()/()()
/()
/(log
)()
/(log )()/(log )()
/(log )()/(log )()
/()/(212
31321212332112313211232213133211
2
3
213133211
2
3
133211
2
3
2133211
3
13311
2
3
21332113213=????
??-??????=??
?
??-=????
??-≤=+-=+-=-∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑e x x p x x p e
x x x p x x p x x p e x x x p x x p x x x p x x x p x x p x x x p x x p x x x p x x x p x x x p x x p x x p x x x p x x x p X X H X X X H i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i
氏链
是马等式成立的条件是时等式成立
当
_,,)/()/()/()()/()/()()()/()/()()
/()/(01)
/()
/()/()/(321132131232113121212131321213132131313213X X X x x x p x x p x x p x x x p x x p x x p x p x x p x x x p x x p x x p x x x p x x p x x x p x x p X X H X X X H i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i i ∴=?=?=?=?=-≤∴
2.10 对某城市进行交通忙闲的调查,并把天气分成晴雨两种状态,气温分成冷暖两个状态,
· 5 ·
调查结果得联合出现的相对频度如下:
忙
晴
雨
冷 12
暖 8
暖 16
冷 27
闲
晴
雨
冷 8
暖 15
暖 12冷 5
若把这些频度看作概率测度,求: (1) 忙闲的无条件熵;
(2) 天气状态和气温状态已知时忙闲的条件熵; (3) 从天气状态和气温状态获得的关于忙闲的信息。
解: (1)
根据忙闲的频率,得到忙闲的概率分布如下:
symbol
bit x p x p X H x x X P X i i
i / 964.010340log 1034010363log 10363)(log )()(1034010363闲忙)(2
21=??? ??+-=-=??
???????
?=??????∑
(2)
设忙闲为随机变量X ,天气状态为随机变量Y ,气温状态为随机变量Z
symbol
bit YZ H XYZ H YZ X H symbol bit z y p z y p YZ H symbol bit z y x p z y x p XYZ H j
k
k j k j i
j
k
k j i k j i / 859.0977.1836.2)()()/(/ 977.1 10328log 1032810332log 1033210323log 1032310320log 10320 )
(log )()(/ 836.2 10312log 103121035log 103510315log 103151038log 1038 103
16log
1031610327log 103271038log 103810312log 10312
)
(log )()(=-=-==?
?
? ??+++-=-==?
?
?
++++ ??+++-=-=∑∑∑∑∑ (3)
(;)()(/)0.9640.8590.105 /I X YZ H X H X YZ bit symbol =-=-=
2.11 有两个二元随机变量X 和Y ,它们的联合概率为
· 6 ·
并定义另一随机变量Z = XY (一般乘积),试计算: (1) H(X), H(Y), H(Z), H(XZ), H(YZ)和H(XYZ);
(2) H(X/Y), H(Y/X), H(X/Z), H(Z/X), H(Y/Z), H(Z/Y), H(X/YZ), H(Y/XZ)和H(Z/XY); (3) I(X;Y), I(X;Z), I(Y;Z), I(X;Y/Z), I(Y;Z/X)和I(X;Z/Y)。
解: (1)
symbol
bit y p y p Y H y x p y x p y p y x p y x p y p symbol
bit x p x p X H y x p y x p x p y x p y x p x p j
j j i
i i / 1)(log )()(2
1
8183)()()(21
8381)()()(/ 1)(log )()(2
1
8183)()()(21
8381)()()(22212121112212221111=-==
+=+==
+=+==-==
+=+==
+=+=∑∑
Z = XY 的概率分布如下:
symbol
bit z p Z H z z Z P Z k
k / 544.081log 8187log 87
)()(818710)(2
21=??? ??+-=-=??????????===?
?????∑
symbol
bit z x p z x p XZ H z p z x p z x p z x p z p z x p z p z x p z x p z x p z p x p z x p z x p z x p z x p x p i k
k i k i / 406.181log 8183log 8321log 21
)(log )()(8
1
)()()()()(8
35.087)()()()()()(5.0)()(0)()()()(2222221211112121111112121111=??? ??++-=-==
=+==-=-=+====+=∑∑
· 7 ·
symbol
bit z y p z y p YZ H z p z y p z y p z y p z p z y p z p z y p z y p z y p z p y p z y p z y p z y p z y p y p j k
k j k j / 406.181log 8183log 8321log 21
)(log )()(8
1)()()()()(8
35.087)()()()()()(5.0)()(0)()()()(2222221211112121111112121111=??? ??++-=-==
=+==-=-=+====+=∑∑
symbol
bit z y x p z y x p XYZ H y x p z y x p y x p z y x p z y x p z y x p y x p z y x p y x p z y x p z y x p z y x p z x p z y x p z x p z y x p z y x p y x p z y x p y x p z y x p z y x p z y x p z y x p z y x p i
j
k
k j i k j i / 811.181log 8183log 8383log 8381log 8
1
)(log )()(8
1
)()()
()()(0
)(8
3)()()()()(8
38121)()()()()()(8/1)()()()()(0
)(0)(0)(22222222222122122121121221211211111121111111211111111211111212221211=??? ??+++-=-==
==+====+=-=-==+===+===∑∑∑
(2)
symbol
bit XY H XYZ H XY Z H symbol bit XZ H XYZ H XZ Y H symbol bit YZ H XYZ H YZ X H symbol
bit Y H YZ H Y Z H symbol bit Z H YZ H Z Y H symbol bit X H XZ H X Z H symbol bit Z H XZ H Z X H symbol bit X H XY H X Y H symbol bit Y H XY H Y X H symbol
bit y x p y x p XY H i j
j i j i / 0811.1811.1)()()/(/ 405.0406.1811.1)()()/(/ 405.0406.1811.1)()()/(/ 406.01406.1)()()/(/ 862.0544.0406.1)()()/(/ 406.01406.1)()()/(/ 862.0544.0406.1)()()/(/ 811.01811.1)()()/(/ 811.01811.1)()()/(/ 811.181log 8183log 8383log 8381log 81
)(log )()(2=-=-==-=-==-=-==-=-==-=-==-=-==-=-==-=-==-=-==??? ??+++-==-=∑∑
(3)
· 8 ·
symbol
bit YZ X H Y X H Y Z X I symbol bit XZ Y H X Y H X Z Y I symbol bit YZ X H Z X H Z Y X I symbol
bit Z Y H Y H Z Y I symbol bit Z X H X H Z X I symbol bit Y X H X H Y X I / 406.0405.0811.0)/()/()/;(/ 457.0405.0862.0)/()/()/;(/ 457.0405.0862.0)/()/()/;(/ 138.0862.01)/()();(/ 138.0862.01)/()();(/ 189.0811.01)/()();(=-=-==-=-==-=-==-=-==-=-==-=-=
2.12有两个随机变量X 和Y ,其和为Z = X + Y (一般加法),若X 和Y 相互独立,求证:H(X) ≤ H(Z), H(Y) ≤ H(Z)。
证明:
)
()()/()()
()(log )()( )/(log )/()()/(log )()/()(
0)( )()()/(2Y H Z H X Z H Z H Y H y p y p x p x z p x z p x p x z p z x p X Z H Y x z Y
x z y p x z p x z p Y
X Z i j j j i i k i k i k i i k i k k i i k i k j i k i k ≥∴≥=??
?
???-=?
??
???-=-=??
??-∈-=-=∴+=∑∑∑∑∑∑ 同理可得)()(X H Z H ≥。
2.13 设有一个信源,它产生0,1序列的信息。它在任意时间而且不论以前发生过什么符号,
均按P(0) = 0.4,P(1) = 0.6的概率发出符号。 (1) 试问这个信源是否是平稳的? (2) 试计算H(X 2), H(X 3/X 1X 2)及H ∞;
(3) 试计算H(X 4)并写出X 4信源中可能有的所有符号。
解:
(1) 这个信源是平稳无记忆信源。因为有这些词语:“它在任.意时间...而且不论以前发生过什么符号...........
……” (2) symbol
bit X H X X X X H H symbol bit x p x p X H X X X H symbol
bit X H X H N N N N i
i
i
/ 971.0)().../(lim / 971.0)6.0log 6.04.0log 4.0()(log )()()/(/ 942.1)6.0log 6.04.0log 4.0(2)(2)(12132132====+-=-
===+?-==-∞
>-∞∑
(3) 1111
111011011100101110101001100001110110010101000011001000010000的所有符号:
/ 884.3)6.0log 6.04.0log 4.0(4)(4)(4
4X symbol
bit X H X H =+?-==
2.15 某一无记忆信源的符号集为{0, 1},已知P(0) = 1/4,P(1) = 3/4。 (1) 求符号的平均熵;
(2) 有100个符号构成的序列,求某一特定序列(例如有m 个“0”和(100 - m )个“1”)的自信息量的表达式;
· 9 ·
(3) 计算(2)中序列的熵。
解: (1)
symbol bit x p x p X H i
i i / 811.043log 4341log 41
)(log )()(=??? ??+-=-=∑
(2)
bit m x p x I x p m
i i m m
m
i 585.15.4143
log
)(log )(4
34341)(100
100100
100100+=-=-==?
?
?
?????? ??=---
(3) symbol bit X H X
H / 1.81811.0100)(100)(100
=?==
2.16 一阶马尔可夫信源的状态图如下图所示。信源X 的符号集为{0, 1, 2}。 (1) 求平稳后信源的概率分布; (2) 求信源的熵H ∞。
P
P
解: (1)
???
??===??
?=++==????
????+?=?+?=?+?=???
??+=+=+=3/1)(3/1)(3/1)(1)()()()()()()()()()()()()
()()()
/()()/()()()/()()/()()()/()()/()()(3
213213211333222111313333
32322222121111e p e p e p e p e p e p e p e p e p e p p e p p e p e p p e p p e p e p p e p p e p e e p e p e e p e p e p e e p e p e e p e p e p e e p e p e e p e p e p
· 10 ·
?
?
????=??????????
???=+=?+?=+==+=?+?=+==+=?+?=+=3/123/113/10
)(3
/13/)()()()/()()/()()(3/13/)()()()/()()/()()(3/13/)()()()/()()/()()(131313333323232222212121111X P X p p e p p e p p e x p e p e x p e p x p p p e p p e p p e x p e p e x p e p x p p p e p p e p p e x p e p e x p e p x p (2)
()
symbol
bit p p p p p p p p p p p p p p p p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e e p e p H i
j
i j i j i / log log log
31log 31log 31log 31log 31log 31
)/(log )/(31)/(log )/(31)/(log )/(31 )
/(log )/(3
1
)/(log )/(31)/(log )/(31 )
/(log )/(31)/(log )/(31)/(log )/(3
1 )
/(log )/()(33333232313123232222212113131212111133?+?-=??
?
?????+??+??+??+?+??-=?
??
++++++???++-=-=∑∑∞ 2.17黑白气象传真图的消息只有黑色和白色两种,即信源X ={黑,白}。设黑色出现的概率为P(黑) = 0.3,白色出现的概率为P(白) = 0.7。
(1) 假设图上黑白消息出现前后没有关联,求熵H(X); (2) 假设消息前后有关联,其依赖关系为P(白/白) = 0.9,P(黑/白) = 0.1,P(白/黑) = 0.2,P(黑/黑) = 0.8,求此一阶马尔可夫信源的熵H 2(X);
(3) 分别求上述两种信源的剩余度,比较H(X)和H 2(X)的大小,并说明其物理含义。
解: (1)
symbol bit x p x p X H i
i i / 881.0)7.0log 7.03.0log 3.0()(log )()(=+-=-=∑
(2)
symbol
bit e e p e e p e p H e p e p e p e p e p e p e p e p e p e p e p e p e e p e p e e p e p e p e e p e p e e p e p e p i
j
i j i j i / 553.0 9.0log 9.0321.0log 1.0322.0log 2.0318.0log 8.031 )
/(log )/()(3
/2)(3/1)(1)()()(2)()(2.0)(9.0)()(1.0)(8.0)()/()()/()()()/()()/()()(21211212221112122222121111=?
?
?
???+?+?+?-=-=??
?==??
?=+=??
?+=+=??
?+=+=∑∑∞
p(黑/黑)=0.8
e1
e2
· 11 ·
(3)
%7.442
log 553
.02log %9.112log 881
.02log 001001=-=-=
=-=-=
∞∞H H H H H H ηη
H(X) > H 2(X)
表示的物理含义是:无记忆信源的不确定度大与有记忆信源的不确定度,有记忆信源的结构化信息较多,能够进行较大程度的压缩。
2.17 给定声音样值X 的概率密度为拉普拉斯分布+∞<<-∞=-x e x p x
,2
1)(λλ,求H c (X),并
证明它小于同样方差的正态变量的连续熵。
解:
()
()
()[]
λπλσπλλλλλσλλλλλλλλλλ
λλλλ
λλ
λ
λλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλλe
X H e e X H dx e x e xde xdx e dx e dx e x e de x dx
x e dx x e dx x x p x E m x E xdx e xdx e m ydy e ydy e y d y e xdx e xdx
e xdx e xdx e xdx x p X E m symbol
bit e
e X H e e e e d e e e e d e dx
e e dx
e e dx e e dx
e x p dx x p dx
e x p dx x p x p X H c c x x x x
x x x x x x x x y y y x x x x c x x x x
x x
x x x x x x x x x c 2log
)(2log 2log 21)(222 2 21)()(0
2
1
212
121)()(21212
12121)()(/ 2log log 2log )(log log log log log log 其中:
log 2
log log 2
12
log log )()(2log 2
1
log )()(log )()(2正态2
00000
20202020
22
||2
2
2
2
00000)(000|
|22200020
|||
|||||=>==∴=??? ?
?--=-===??? ??--=-===?==-==+-=∴-==--=+==?===+=∴=??? ??-=-==-=-=--=-=-=??????????????????
????
??
????∞+-∞+-∞+-∞
+-∞+-∞+-∞+-∞+-∞+-∞
+∞--∞
+∞-∞+-∞+-∞+-∞+-∞+-∞-∞+-∞-∞
+∞--∞+∞-∞+-∞+--∞
+--∞
+--∞
+--∞
+--∞+∞---∞
+∞
--∞
+∞-+∞∞--+∞∞-
· 12 ·
2.18 每帧电视图像可以认为是由3 105个像素组成的,所有像素均是独立变化,且每像素又取128个不同的亮度电平,并设亮度电平是等概出现,问每帧图像含有多少信息量?若有一个广播员,在约10000个汉字中选出1000个汉字来口述此电视图像,试问广播员描述此图像所广播的信息量是多少(假设汉字字汇是等概率分布,并彼此无依赖)?若要恰当的描述此图像,广播员在口述中至少需要多少汉字?
解: 1)
symbol bit X NH X H symbol
bit n X H N
/ 101.27103)()(/ 7128log log )(6
5
?=??=====
2)
symbol
bit X NH X H symbol
bit n X H N
/ 13288288.131000)()(/ 288.1310000log log )(=?=====
3)158037288
.13101.2)()(6
=?==
X H X H N N 2.19 连续随机变量X 和Y 的联合概率密度为:?????≤+=其他
1
),(2222
r y x r y x p π,求H(X), H(Y),
H(XYZ)和I(X;Y)。、 (提示:
?
-
=2
222log 2
sin log π
π
xdx )
解:
· 13 ·
?
??
?
??????
??????
?
-+-=+
==-==--=--=--=-+-=--=---=--=-=≤≤--===----------
---2
2020
220
220
20222
20
2
20
2222
22
2222222222222
22222
222
22sin log 2
2cos 1422cos 1log 4
sin log sin 4
log sin 4
sin log sin 4
sin log sin 4)
cos (sin log sin 4cos log 4log 2log )(/ log 2
1
log log 2
1
1log 2log log )(2log log )(2
log )( 2log )( )(log )()()( 21)()(2
2222
22
2π
π
π
ππ
ππθθθ
π
θθπθ
θθπ
θθπ
θθθπ
θθθπθθθπθπππππππππd d r d rd d r d r r r r d r r r r x dx x r x r r dx x r r x r dx
x r x p symbol
bit e r e
r r dx
x r x p r dx
x r x p dx r
x p dx r
x r x p dx
x p x p X H r x r r
x r dy r dy xy p x p r r
r r
r
r r r r r r r
r r
r c x r x r x r x r 令其中:
· 14 ·
e
e e d e d e d e d e d e
d d d e
r d r d d r r d d d r d r 220
2220
220
22
0220
2220
220
20
20
20
220
20
220
20
20
20
20
log 21
2sin log 21log 212cos log 1
log 122cos 1log 2
cos log 2
sin log cos cos sin 21
sin log 2sin sin log 2sin 12sin sin log 1
sin log 2cos 2
log 2
1
1log sin log 2cos 2
1log sin log 2cos 2
)2log 2
(2
2sin log 1
log sin log 2cos 2
sin log 2
2cos log 2
log 2
-=--=--=+-
=-=-=???
?
??-==
+-=-
-=-
-
+
-
=-
+
-
=
?????
??
??
?
??
?
??π
π
ππ
π
π
π
π
π
π
π
π
π
π
π
π
π
θπθ
θπ
θπθ
θ
πθ
θπθ
θ
θθ
θπθθθθπθ
θπθ
θθπθ
θθπθ
θθπππ
θπ
θ
θθπθθπθθπ
θπ
其中:
bit/symbol
e r e r XY H Y H X H Y X I bit/symbol r dxdy xy p r dxdy r
xy p dxdy
xy p xy p XY H bit/symbol
e r X H Y H x p y p r y r r y r dx r dx xy p y p c c c c R
R
R
c C C y r y r y r y r log log log log log 2 )()()();( log )(log 1
log
)( )(log )()( log 2
1
log )()()
()()
( 21
)()(222222222222
2222
222222
2-=--=-+===-=-=-===≤≤--===???????
?
---
---πππππππππ
· 15 ·
2.21 设N X X X X ...21=是N 维高斯分布的连续信源,且X 1, X 2, … , X N 的方差分别是
2
2221,...,,N σσσ,它们之间的相关系数),...,2,1,(0)(j i N j i X X j i ≠==ρ。试证明:N 维高斯分布
的连续信源熵
∑==N
i
i N c c e X X X H X H 2212log 21)...()(σπ
证明:相关系数()
()j i N j i x x j i ≠== ,,...,2,1, 0ρ,说明N X X X ...21是相互独立的。
∑==+++=+++=∴=+++==∴N
i i N
N c c c c i i c N c c c N c c e e e e X H X H X H X H e X H X H X H X H X X X H X H 12
2
2221212
21212log 21 2log 21...2log 212log 21 )
(...)()()(2log 2
1
)()(...)()()...()(σπσπσπσπσπ
2.22 设有一连续随机变量,其概率密度函数??
?≤≤=其他
0)(2
a x bx x p
(1) 试求信源X 的熵H c (X);
(2) 试求Y = X + A (A > 0)的熵H c (Y); (3) 试求Y = 2X 的熵H c (Y)。
解:1)symbol
bit e
a b X H ba a F bx x F e
a ba
b xdx
x b b dx
x x f dx x f b dx
bx x f dx x f x f X H c X X R
R
R
R
R
c / log 32log )(1
3
)(,3)(log
9
2log log 2log log )()(log log )()(log )()(3
333
3222?--=∴===--=--=-?-=-=-=?????
2)
??????
-----=--?-=--=-=-='=-=
=-≤=≤+=≤=+≤≤∴≤-≤?≤≤-R
R
R
R
R
c A
y A Y A y d A y A y b b dy
A y y f dy y f b dy
A y b y f dy y f y f Y H A y b y F y f A y b
dx bx A y X P y A X P y Y P y F A
a y A a
A y a x )
()log()(2log )log()()(log )(log )()(log )()()()()()(3
)()()()(002222
3
2
· 16 ·
symbol
bit e
a b Y H ba A a F A y b y F symbol
bit e
a ba
b
c Y Y / log 32log )(13
)(,)(3)(/ log 92log 3
33
3
3?--=∴==+-=--=
3)
symbol
bit e
a b Y H ba a F y b y F ba e a ba b e a ba b ydy
y b
b dy
y y f dy y f b
dy y b y f dy y f y f Y H y b
y F y f y
b dx bx y
X P y X P y Y P y F a
y a y a x c Y Y R R R
R
R
c y
Y / 1log 32log )(1
3
)2(,24)(3
29log 92log 8log
928log log 48log log )()(8log 8
log
)()(log )()(8)()(24
)
2
()2()()(202
003
3
33
333
32222
3
202+?--=∴===-+
--=--=--=-?-=-=-=='===≤=≤=≤=≤≤∴≤≤?≤≤??????
第二章: 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 《 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) ( 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) " 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少 (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量 》 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:
· 1 · 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13 =-=-==
2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量symbol bit n X H / 24log log )(1=== 八进制脉冲的平均信息量symbol bit n X H / 38log log )(2=== 二进制脉冲的平均信息量symbol bit n X H / 12log log )(0=== 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:bit x y p 75.0)/(11= 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15 .075.025.0log )()/()(log )/(log )/(11111111=?-=-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: ! 521)(=i x p bit x p x I i i 581.225!52log )(log )(==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下:
第二章信源与信息熵 主要内容:(1)信源的描述与分类;(2)离散信源熵和互信息;(3)离散序列信源的熵;(4)连续信源的熵和互信息;(5)冗余度。 重点:离散/连续信源熵和互信息。 难点:离散序列有记忆信源熵。 说明:本章内容主要针对信源,但是很多基本概念却是整个信息论的基础,所以安排了较多课时。由于求熵涉及一些概率论的基础知识,考虑到大四的同学可能对这部分知识已经遗忘,故适当复习部分概率论知识。较难的 2.1.2节马尔可夫信源部分放置在本章最后讲,便于同学理解。本章概念和定理较多,比较抽象,课堂教学时考虑多讲述一些例题,通过例题来巩固概念和消化定理。 作业: 2.1—2.7,2.10,2.12。 课时分配:10课时。 板书及讲解要点: 在信息论中,信源是发出消息的源,信源输出以符号形式出现的具体消息。如果符号是确定的而且预先是知道的,那么该消息就无信息而言。只有当符号的出现是随机的,预先无法确定,一旦出现某个符合就给观察者提供了信息。因此应该用随机变量或随机矢量来表示信源,运用概率论和随机过程的理论来研究信息,这就是香农信息论的基本点。 2.1 信源的描述与分类 在通信系统中收信者在未收到消息以前对信源发出什么消息是不确定的,是随机的,所以可用随机变量、随机序列或随机过程来描述信源输出的消息,或者说用一个样本空间及其概率测度——概率空间来描述信源。 信源:产生随机变量、随机序列和随机过程的源。 信源的基本特性:具有随机不确定性。 信源的分类 离散信源:文字、数据、电报——随机序列 连续信源:话音、图像——随机过程 离散信源:输出在时间和幅度上都是离散分布的消息。
消息数是有限的或可数的,且每次只输出其中一个消息,即两两不相容。 发出单个符号的无记忆信源 离散无记忆信源: 发出符号序列的无记忆信源 离散信源 离散有记忆信源: 发出符号序列的有记忆信源 发出符号序列的马尔可夫信源 概率论基础: 无条件概率,条件概率和联合概率的性质和关系: (1) 非负性 0()()(/)(/)()1i j j i i j i j p x p y p y x p x y p x y ≤≤,,,, (2) 完备性 111 1 11 ()1,()1,(/)1, (/)1,()1 n m n i j i j i j i m m n j i i j j j i p x p y p x y p y x p x y ===========∑∑∑∑∑∑ 1 1 ()(),()()n m i j j i j i i j p x y p y p x y p x ====∑∑ (3) 联合概率 ()()(/)()(/)()()()(/)()(/)() i j i j i j i j i j i j j i j i j i p x y p x p y x p y p x y X Y p x y p x p y p y x p y p x y p x =====当与相互独立时,, (4) 贝叶斯公式 1 1 () () (/)(/)() () i j i j i j j i n m i j i j i j p x y p x y p x y p y x p x y p x y === = ∑∑, 2.1.1 无记忆信源: 例如扔骰子,每次试验结果必然是1~6点中的某一个面朝上。可以用一个离散型随机变量X 来描述这个信源输出的消息。
第二章 信源与信息度量 习题 1. 某大学设置五个学院,每个学院的学生数分别为 学院: 数学 物理 外语 外贸 医学 人数: 300 400 500 600 200 问“某学生王某是外语学院学生”这一消息提供的信息量是多少? 2. 同时扔出两个正常的骰子,也就是各面呈现的概率都是1/6,求: (1) 事件“2和5同时呈现”的自信息量; (2) 事件“两个4同时呈现”的自信息量; (3) 事件“至少呈现一个1”的自信息量。 3. 字母“e ” 在英文中出现的概率是0.103,字母“c ”出现的概率为0.022,字母“x ”出现的概率是0.001,求这些字母各自的自信息量。 4. 某电子厂共能生产A 、B 、C 、D 四种仪器,其中A 因技术落后停产了,B 占全部产量的20%,C 占30%,D 占50%。有两个消息“现在完成1台仪器B ”,和“现在完成1台仪器C ”,试确定哪一种消息提供的信息量大些?其中有什么规律? 5. 某地,35%的女孩上大学,65%的女大学生身高超过1.6米,而一个女孩身高超过1.6米的概率是50%,现有一条消息:说某一个身高超过1.6米的女孩是大学生,求这条消息的信息量。 6. 试求: (1) 在一付标准的扑克牌中抽出一张(每张牌均认为是不同的)的平均信息量。 (2) 若扑克牌仅按它的等级鉴定而不问它的花色(大、小王属同一等级),重复上述计算。 7. 某地的天气预报为:晴(占4/8),多云(占2/8),雨(占1/8),雪(占1/8),冰雹(占0/8);而当地老农对天气的预测只能做到:晴(占7/8),雨(占1/8)。试求两者对天气预报各自提供的平均信息量,并说明从中得到的规律。 8. 某离散无记忆平稳信源的概率空间为:12340123()3/81/41/41/8X x x x x p X ====????=????? ???,若某消息符号序列为:202 120 130 213 001 203 210 110 321 010 021 032 011 223 210,求: (1) 该消息的自信息量; (2) 该消息平均每个符号携带的信息量。 9. 若每帧电视图像由3×105 个像素组成,且像素是独立变化的。每个像素取128个不同的亮度电平,并设亮度电平等概率出现。
第2章离散信源与信息熵 信号 信号+干扰 消息 干扰 消息 信源 编码器 信道 译码器 信宿 噪声源 通信系统模型 信息
2.1 信源的分类和描述 信源是信息的发源地,可以是人、生物、机器或其他事物。信源的输出是包含信息的消息。消息的形式可以是离散的或连续的。 信源输出为连续信号形式(如语音),可用连续随机变量描述。 连续信源←→模拟通信系统 信源输出是离散的消息符号(如书信),可用离散随机变量描述。 离散信源←→数字通信系统
离散信源…X i…X j… 离散无记忆信源:输出符号X i X j 之间相互无影响; 离散有记忆信源:输出符号X i X j 之间彼此依存。 3 离散信源 无记忆 有记忆发出单个符号发出符号序列马尔可夫信源 非马尔可夫信源
y j 将一粒棋子随意地放 在棋盘中的某列; 棋子放置的位置是一 个随机事件; 可看做一个发出单个 符号的离散信源。 x i
1212,,...,(),(),...,()m m x x x X P p x p x p x ????=???????? 就数学意义来讲,信源就是一个概率场,可用概率空间来描述信源。由离散随机变量X 表示棋子位置: 10()1,()1m i i i p x p x =≤≤=∑i x 其中,代表随机事件的某一结果。
2.2离散信源的信息熵信息的可度量性是信息论建立的基础; 香农的信息论用事件发生概率的对数来描述事件的不确定性,得到消息的信息量,建立熵的概念。 2.2.1自信息量 –定义2.1 任意随机事件x i 的自信息量定义为: i i i 1(x )log log (x )(x ) I P P ==-
英语信源、汉语信源及其信息熵的研究 摘要 英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源熵达到最大值。也就是说,信源符号相关性越强,所提供的平均信息量就越小。所以,研究这两种信源的信息熵,就可以得出每种信源中符号的相关性,和提供的平均信息量,量化的来比较两种语言。 关键词 英语信源 汉语信源 信息熵 正文 一、英语信源及其信息熵 英语字母有26个,加上空格,共27个符号。根据熵的性质,信源的最大熵 02log 27 4.76(/)H bit symbol == 但实际上,英语中的字母并非等概率出现,字母之间还有严格的依赖关系。如果我们对英语书中27个符号出现的概率加以统计,可得: 27个英语字符出现的概率 符号 概率 符号 概率 符号 概率 空格 0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 A 0.063 C 0.023 K 0.003 N 0.059 F,U 0.0225 X 0.002
I 0.055 M 0.021 J,Q 0.001 R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 按上述表格中的概率分布,随机选择英语字母排列起来,得到一个信源输出序列: AI_NGAE_ITE_NNR_ASAEV_OTE_BAINTHA_HYROO_POER_SE TRYGAIETRWCO … 可见,这些字母完全是随机排列,毫无相关性,却不是英语单词,所以我们应该考虑字母的依赖性。 为了进一步逼近实际情况,可把婴语信源近似地看作1阶,2阶,…,∞阶马尔可夫信源,求得相应的熵 2 3.32(/)H bit symbol = 3 3.1(/)H bit symbol = 异推出,马尔可夫信源阶数越高,输出的序列越接近实际情况。当依赖关系延伸到无穷远时,信源输出就是真正的英语。所以我们求马尔可夫信源的极限熵 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵
· 1 · 第二章: 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13=-=-==
英语信源、汉语信源及其信息熵的研究 摘要英语信源和汉语信源是两种不同的自然语信源,而信息熵反映了信源的记忆长度,信源的记忆长度越长,熵就越小。只有当记忆长度为0,即信源符号间彼此没有任何依赖关系且等概率分布时,信源 符号概率符号概率符号概率 空格0.2 S 0.052 Y,M 0.012 E 0.105 H 0.047 G 0.011 T 0.072 D 0.035 B 0.0105 O 0.0654 L 0.029 V 0.008 0.023 K 0.003 A 0.063 C N 0.059 F,U 0.0225 X 0.002 I 0.055 M 0.021 J,Q 0.001
R 0.054 P 0.0175 Z 0.001 如果不考虑上述符号之间的依赖关系,即近似地认为信源是离散无记忆信源,根据离散上的定义可得 27121()log () 4.03(/) i i i H p a p a bit symbol ==-=∑ 1.4(/)H bit symbol ∞= 二、汉语信源及其信息熵 对于英语,字符数少,可轻松的计算出英语信源的信息熵,但是对于汉语这个中文字符极其庞大的信源,科学家们做出了大量的统计
与计算。方法同上面的英语信源信息熵的计算,不过计算量增加了非常多。下面是截取的一些统计资料。 CCL 语料库-现代汉语总字频数:307,317,060 总字种数:9711 字频表: 的:11523375 一:4140344 是:3291508 了:3059837 在:2933070 人:2827726 不:2733842 国:2645758 有:2507415 中:2182025 他:2029395 这:1968713 我:1940875 和:1872750 大:1832977 (ZIPF'S LAW)核算,汉字的容量极限是12366个汉字,汉字的平均信息量是9.65比特 三、英语信源和汉语信源的比较 显而易见,汉语信源的信源熵远远大于英语信源的信息熵,说明
试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量symbol bit n X H / 24log log )(1=== 八进制脉冲的平均信息量symbol bit n X H / 38log log )(2=== 二进制脉冲的平均信息量symbol bit n X H / 12log log )(0=== 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 一副充分洗乱了的牌(含52张牌),试问 (1) 任一特定排列所给出的信息量是多少 (2) 若从中抽取13张牌,所给出的点数都不相同能得到多少信息量 解: (1) 52张牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: ! 521)(= i x p bit x p x I i i 581.225!52log )(log )(==-= (2) 52张牌共有4种花色、13种点数,抽取13张点数不同的牌的概率如下: (a)p(x i )=52/52 * 48/51 * 44/50 * 40/49 * 36/48 * 32/47 * 28/46 * 24/45 * 20/44 * 16/43 * 12/42 * 8/41 * 4/40= (b)总样本:C 1352, 其中13点数不同的数量为4*4*4*…*4=413 。所以,抽取13张点数不同的牌的概率: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 13 52 13 =-=-== 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 已知:在女大学生中有75%是身高160厘米以上的
汉语信源、英语信源及其信息熵的研究 【摘要】本文主要搜集资料,对目前在信息熵领域内对于汉语、英语这两大主流语言的信源进行信息熵研究的资料进行了阅读和整合,给出了基本研究方法及目前比较权威的几种语言的信息熵。 【关键字】信息熵 【正文】汉语信息产业基础建设的中心课题,就是要利用信息熵的基本原理和方法来提高中文的效率。 美国的信息产业能有今天的称雄世界的实力,能接连不断地产生新的技术产品,是跟坚实的基础建设分不开的。这个基础建设的基本依据,是信息科学技术的基本原理和方法:信息熵(ENTROPY )。 第二次世界大战期间,美国为了提高信息储存和传递的效率,发明了多种新的编码方法,奠定了现代信息科学技术的基础。战争结束后,这些方法得到了飞跃发展。在这些方法当中,科学家香农和霍夫曼提出的信息熵和数据压缩的理论和方法最能代表现代信息学的基本概念。个人计算机和BBS 问世以后,信息熵和数据压缩技术迅速普及。现在,这种技术已经成为计算机和联网必不可少的组成部份。 信息熵的基本目的,是找出某种符号系统的信息量和多余度之间的关系,以便能用最小的成本和消耗来实现最高效率的数据储存、管理和传递。 从信息论的角度考虑, 自然语言理解可以看作是利用所获得信息消除句子中文字的不确定性过程. 统计语言模型是对自然语言的一种近似描述, 它是自然语言理解的核心. 应用语言模型就可以帮助人们实现对句子中所出现的语言成分的预测, 消除自然语言理解过程中的不确定性. 不同的语言模型其预测或者说消除不确定性的能力不同. 预测能力强的模型是人们所期望的, 因此, 对语言模型性能的评价就成了语言建模的一个很重要问题, 它能够指导人们建立更为有效的语言模型. 针对各种语言模型建立有效的评价指标, 是一个比较复杂和困难的问题, 目前还没有一个好的解决办法.不过从信息熵的角度对统计语言模型的复杂度度量方法进行定量化的推理与描述,可以得到一些有意义的结论. 从信息论角度考虑, 一种语言或其子集可以看作离散信源. 如果所考虑的语言的字符集V 的大小为V , 语言中的语句由这些字符任意构成, 各字符的出现与上下文无关, 且出现的概率相等, 则在某一时刻出现某一字符的随机试验结局就有V 种可能. 按照信息论中的编码理论, 要区别每个字符就需要log 2..V..比特的信息. 也就是说, 每个字符所含的信息量为log 2V , 记为H0.但实际的自然语言中, 语句中各语言符号的出现概率不可能相等. 若暂不考虑上下文相关性, 假设第i( i= 1, 2, ., V) 个字符出现的概率为Pi , 则信源输出的各字符的平均信息量为: H= - Pi log 2Pi V i=1 (1) 信息论中将式( 1) 称为熵. 熵表示了消息出现的不确定性的大小, 表现在
第二章: 2.1 试问四进制、八进制脉冲所含信息量是二进制脉冲的多少倍? 解: 四进制脉冲可以表示4个不同的消息,例如:{0, 1, 2, 3} 八进制脉冲可以表示8个不同的消息,例如:{0, 1, 2, 3, 4, 5, 6, 7} 二进制脉冲可以表示2个不同的消息,例如:{0, 1} 假设每个消息的发出都是等概率的,则: 四进制脉冲的平均信息量H(X 1) = log 2n = log 24 = 2 bit/symbol 八进制脉冲的平均信息量H(X 2) = log 2n = log 28 = 3 bit/symbol 二进制脉冲的平均信息量H(X 0) = log 2n = log 22 = 1 bit/symbol 所以: 四进制、八进制脉冲所含信息量分别是二进制脉冲信息量的2倍和3倍。 2.2 居住某地区的女孩子有25%是大学生,在女大学生中有75%是身高160厘米以上的,而女孩子中身高160厘米以上的占总数的一半。假如我们得知“身高160厘米以上的某女孩是大学生”的消息,问获得多少信息量? 解: 设随机变量X 代表女孩子学历 X x 1(是大学生) x 2(不是大学生) P(X) 0.25 0.75 设随机变量Y 代表女孩子身高 Y y 1(身高>160cm ) y 2(身高<160cm ) P(Y) 0.5 0.5 已知:在女大学生中有75%是身高160厘米以上的 即:p(y 1/ x 1) = 0.75 求:身高160厘米以上的某女孩是大学生的信息量 即:bit y p x y p x p y x p y x I 415.15.075.025.0log )()/()(log )/(log )/(2111121111=??? ???-=? ? ????-=-= 2.3 一副充分洗乱了的牌(含52牌),试问 (1) 任一特定排列所给出的信息量是多少? (2) 若从中抽取13牌,所给出的点数都不相同能得到多少信息量? 解: (1) 52牌共有52!种排列方式,假设每种排列方式出现是等概率的则所给出的信息量是: bit x p x I i i 581.225!52log )(log )(2==-= (2) 52牌共有4种花色、13种点数,抽取13点数不同的牌的概率如下: bit C x p x I C x p i i i 208.134 log )(log )(4)(1352 13 2 213 52 13 =-=-==