当前位置：文档库 › 多媒体技术教程课后习题答案

多媒体技术教程课后习题答案

第1章多媒体技术概要

1.1 多媒体是什么？

多媒体是融合两种或者两种以上媒体的一种人-机交互式信息交流和传播媒体。使用的媒体包括文字、图形、图像、声音、动画和视像(video)。

1.4 无损压缩是什么？

无损压缩是用压缩后的数据进行重构(也称还原或解压缩)，重构后的数据与原来的数据完全相同的数据压缩技术。

无损压缩用于要求重构的数据与原始数据完全一致的应用，如磁盘文件压缩就是一个应用实例。根据当前的技术水平，无损压缩算法可把普通文件的数据压缩到原来的1/2～1/4。常用的无损压缩算法包括哈夫曼编码和LZW 等算法。

1.5 有损压缩是什么？

有损压缩是用压缩后的数据进行重构，重构后的数据与原来的数据有所不同，但不影响人对原始资料表达的信息造成误解的数据压缩技术。

有损压缩适用于重构数据不一定非要和原始数据完全相同的应用。例如，图像、视像和声音数据就可采用有损压缩，因为它们包含的数据往往多于我们的视觉系统和听觉系统所能感受的信息，丢掉一些数据而不至于对图像、视像或声音所表达的意思产生误解。

1.9 H.261~H.264和G.711~G.731是哪个组织制定的标准？

国际电信联盟(ITU)。

1.10 MPEG-1，MPEG-2和MPEG-4是哪个组织制定的标准？

ISO/IEC ，即国际标准化组织(ISO)/ 国际电工技术委员会(IEC)。

第2章无损数据压缩

2.1假设{,,}a b c 是由3个事件组成的集合，计算该集合的决策量。(分别用Sh ，Nat 和Hart

作单位)。

H 0 = (log 23) Sh = 1.580 Sh

= (log e 3) Nat = 1.098 Nat

= (log 103) Hart = 0.477 Hart

2.2 现有一幅用256级灰度表示的图像，如果每级灰度出现的概率均为

()1/256

i p x =，

,255i =，计算这幅图像数据的熵。

221

()()log ()256(

log )256256n

i i i H X p x p x ==-=-??∑=8 (位)，

也就是每级灰度的代码就要用8比特，不能再少了。

2.3现有8个待编码的符号

,,m m ，它们的概率如练习_表2-1所示，计算这些符号的霍

夫曼码并填入表中。答案不唯一）。

2.4 现有5个待编码的符号，它们的概率见练习表2-2。计算该符号集的：(1) 熵；(2)霍夫

曼码；(3) 平均码长。

()()log ()

i i i i H a p a p a ==-∑=-0.4×

log (0.4)-2×0.2*

log (0.2)-2×0.1

log (0.1)

=0.4×1.3219+0.4×2.3219+0.2×3.3219=0.5288+-0.9288+0.6644=2.1220 (位) (2) 编码树和霍夫曼码

练习图2-1 编码树

代码分配不唯一 (3) 平均码长

L 0.4+0.4+0.6+0.4+0.4=2.2(位/符号)

2.5 使用算术编码生成字符串games 的代码。字符g, a, m, e, s 的概率见练习表2-3。

g a

1.0

0.0

0.10.20.4

0.6

1.0

0.84

0.76

0.792

0.776

0.7776

0.7792

a m e s 0.77776

0.7776

练习图2-2 games 的算术码

2.10 你是否同意“某个事件的信息量就是某个事件的熵”的看法？

参考解答：“信息量(information content)是具有确定概率事件的信息的定量度量”，而“熵(entropy)是事件的信息量的平均值，也称事件的平均信息量(mean information content)”。

第3章数字声音编码

3.1 音频信号的频率范围大约是多少？话音信号频率范围大约是多少？

(1) Audio: 20~20000 Hz

(2) Speech: 300~3400 Hz

3.2 什么叫做模拟信号？什么叫做数字信号？

(1) 幅度或频率发生连续变化的一种信号。

(2) 以二进制代码形式表示有无或高低的一种信号。

3.3 什么叫做采样？什么叫做量化？什么叫做线性量化？什么叫做非线性量化？

(1) 采样：在某些特定的时刻对模拟信号进行测量的过程。

(2) 量化：幅值连续的模拟信号转化成为幅值离散的数字信号的过程。

(3) 线性量化：在量化时，信号幅度的划分是等间隔的量化。

(4) 非线性量化：在量化时，信号幅度的划分是非等间隔的量化。

3.4 采样频率根据什么原则来确定？

奈奎斯特理论和声音信号本身的最高频率。采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音。

3.5 样本精度为8位的信噪比等于多少分贝？

48 分贝。

3.7 选择采样频率为22.050 kHz和样本精度为16位的录音参数。在不采用压缩技术的情况

下，计算录制2分钟的立体声需要多少MB(兆字节)的存储空间(1MB=1024×1024B)

(22050×2×2×2×60)/(1024×1024) ＝10.09 MB

3.8 什么叫做均匀量化？什么叫做非均匀量化？

(1) 均匀量化：采用相等的量化间隔对采样得到的信号进行量化。它是线性量化的另一种说法。

(2) 非均匀量化：采用非相等的量化间隔对采样得到的信号进行量化。例如，对大的输入信号采用大的量化间隔，对小的输入信号采用小的量化间隔。它是非线性量化的另一种说法。

3.9 什么叫做μ率压扩？什么叫做A率压扩？

(1) 在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压(缩)扩(展)标准。在北美PCM电话网中，使用μ率压扩算法。

(2) 在脉冲编码调制(PCM)系统中，一种模拟信号和数字信号之间进行转换的CCITT压

(缩)扩(展)标准。在欧洲电话网，使用A律压扩算法。

对于采样频率为8 kHz，样本精度为13比特、14比特或16比特的输入信号，使用律压扩编码或使用A律压扩编码，经过PCM编码器之后每个样本的精度为8比特，输出的数据率为64 kbps。

3.11 自适应脉冲编码调制(APCM)的基本思想是什么？

根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在较长时间周期里发生变化。

3.12 差分脉冲编码调制(DPCM)的基本思想是什么？

利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。这种技术是根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。此外，它还能适应大范围变化的输入信号。

3.13 自适应差分脉冲编码调制(ADPCM)的基本思想是什么？

ADPCM综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：(1) 利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值；(2) 使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。

第4章彩色数字图像基础

4.1 什么叫做真彩色和伪彩色？

在一幅彩色图像中，每个像素值有R，G，B三个基色分量，每个基色分量直接决定显示设备的基色强度，这样产生的彩色称为真彩色。例如用RGB 5∶5∶5表示的彩色图像，R，G，B各用5位，用R，G，B分量大小的值直接确定三个基色的强度，这样得到的彩色是真实的原图彩色。现在，通常把每个像素的颜色值用24位表示的颜色叫做真彩色。24位表示的颜色总数：224 ＝16 777 216 种颜色。

4.3一个像素的RGB分量分别用3，3，2位表示的图像，问该幅图像的颜色数目最多是多少？

如果有一幅256色的图像，问该图的颜色深度是多少？

(1) 256 种；(2) 8 位

4.5 JPEG压缩编码算法的主要计算步骤是：①DCT变换，②量化，③Z字形编码，④使

用DPCM对直流系数(DC)进行编码，⑤使用RLE对交流系数(AC)进行编码，⑥熵编码。

假设计算机的精度足够高，问在上述计算方法中，哪些计算对图像的质量是有损的？哪些计算对图像的质量是无损的？

4.6 什么叫做γ校正？

在屏幕上显示用离散量表示的色彩时采用的一种色彩调整技术。计算机显示器和电视采用的阴极射线管产生的光亮度与输入的电压不成正比，而是等于以某个常数为底，以输入电压为指数的数，这个常数称为γ，它的值随显示器的不同而改变，一般在2.5左右。

4.7 什么叫做α通道？它的作用是什么？

在每个像素用32位表示的图像表示法中的高8位，用于表示像素在一个对象中的透明度。例如，用两幅图A和B混合成一幅新图New，新图的像素为：New pixel =(alpha)(pixel A color) +(alpha)(pixel B color)。在计算机环境下，通道可存储在帧缓冲存储器中的附加位平面上。对于32位帧缓冲存储器，除高8位是通道外，其余24位是颜色位，红、绿和蓝各占8位。

4.7 什么叫做图形(graphics)、图像(image)、位图(bitmap )和图形图像(graphical image)？

(1) 图形：按照数学规则用绘图软件(如Adobe Illustrator)或图形输入设备创建的图，如工程图和结构图。(2) 图像：用像素值阵列表示的人物或场景的图。(3) 位图：用像素值阵列表示的图。(4) 图形图像：表示矢量图的位图。

第5章颜色的度量体系

5.2 什么是颜色空间？对人、显示设备和打印设备，通常采用什么颜色参数来定义颜色？

(1) 颜色空间：表示颜色的一种数学方法，人们用它来指定和产生颜色，使颜色形象化。

(2) 对于人来说，可以通过色调、饱和度和明度来定义颜色；对于显示设备来说，人们使用红、绿和蓝磷光体的发光量来描述颜色；对于打印或者印刷设备来说，人们使用青色、品红色、黄色和黑色的反射和吸收来产生指定的颜色。

第6章颜色空间变换

6.1 PAL制彩色电视使用什么颜色模型？NTSC制彩色电视使用什么颜色模型？计算机图像

显示使用什么颜色模型？

(1) PAL制彩色电视：YUV

(2) NTSC制彩色电视：YIQ

(3) 计算机图像显示设备：RGB

6.2 用YUV或YIQ模型来表示彩色图像的优点是什么？为什么黑白电视机可看彩色电视图

像？

(1) YUV表示法的优点：①它的亮度信号(Y)和色度信号(U，V)是相互独立的，因此可以对这些单色图分别进行编码；②可以利用人眼的特性来降低数字彩色图像所需要的存储容量。YIQ同样具有YUV的这两个优点。

(2) 黑白电视能接收彩色电视信号的道理是利用了YUV/YIQ分量之间的独立性。

6.3 在RGB颜色空间中，当R=G=B，且为任意数值时，问计算机显示器显示的颜色是什么颜

色？

灰色

第8章小波图像编码

8.1 什么叫做零树

“零树”是指小波变换系数之间的一种数据结构，因为离散小波变换是一种多分辨率的分解方法，每一级分解都会产生表示图像比较粗糙（低频图像）和比较精细（高频图像）的小波系数，在同一方向和相同空间位置上的所有小波系数之间的关系可用一棵树的形式表示，如果树根和他的子孙的小波系数的绝对值小于某个给定的阈值T，那么这棵树就叫零树。

第9章彩色数字电视基础

9.1电视是什么？电视制是什么？世界上主要的彩色电视制有哪几种？

(1) 电视是捕获、广播和接收活动图像和声音的远程通信系统；(2) 电视制(television system)是传输图像和声音的方法；(3) 目前世界上使用的彩色电视制式主要有PAL，NTSC，SECAM三种，都是模拟彩色电视制式。

9.2 隔行扫描是什么意思？非隔行扫描是什么意思？

(1) 在隔行扫描中，一帧画面分两场，第一场扫描总行数的一半，第二场扫描总行数的另一半。电子束扫完第1行后回到第3行开始的位置接着扫，然后在第5、7、……，行上扫，直到最后一行。奇数行扫完后接着扫偶数行，这样就完成了一帧(frame)的扫描。隔行扫描要求第一场结束于最后一行的一半，不管电子束如何折回，它必须回到显示屏顶部的中央，这样就可以保证相邻的第二场扫描恰好嵌在第一场各扫描线的中间。正是这个原因，才要求总的行数必须是奇数。

(2) 在非隔行扫描中，电子束从显示屏的左上角一行接一行地扫到右下角，在显示屏上扫一遍就显示一幅完整的图像。

9.3 电视机和计算机的显示器各使用什么扫描方式？

电视机通常使用隔行扫描；计算机的显示器通常使用非隔行扫描。

9.6 对彩色图像进行子采样的理论根据是什么？

人的视觉系统所具有的两种特性。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不易察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。子采样是压缩彩色电视信号的一种技术。

9.7 图像子采样是在哪个彩色空间进行的？

在YCbCr颜色空间

9.8 一幅YUV彩色图像的分辨率为720×576像素。分别计算采用4:2:2、4:1:1和4:2:0子采样

格式采样时的样本数。

(1) 4:4:4 这种采样格式不是子采样格式，它是指在每条扫描线上每4个连续的采样点取

4个亮度Y样本、4个红色差Cr样本和4个蓝色差Cb样本，这就相当于每个像素用3个样本表示。

720×576×3 ＝1 244 160

(2) 4:2:2 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、2个红色差Cr样本和2个蓝色差Cb样本，平均每个像素用2个样本表示。

720×576×2 ＝829 440

(3) 4:1:1 这种子采样格式是指在每条扫描线上每4个连续的采样点取4个亮度Y样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝622 080

(4) 4:2:0 这种子采样格式是指在水平和垂直方向上每2个连续的采样点上取2个亮度Y 样本、1个红色差Cr样本和1个蓝色差Cb样本，平均每个像素用1.5个样本表示。

720×576×1.5 ＝622080

9.11 高清晰度电视(HDTV)是什么？

高清晰度电视(high definition television，HDTV)是具有正常视力的观众可得到与观看原始景物时的感受几乎相同的数字电视。通常认为，在观众与显示屏之间的距离等于3倍显示屏高度的情况下就可获得这种感受。

MPEG-1，MPEG-2，MPEG-4，MPEG-7，MPEG-21分别是什么标准，各自要达到的目标是什么？

MPEG-1是数字电视标准，MPEG-1处理的标准图像交换格式的电视，即NTSC制为352像素×240行/帧×30帧/秒，PAL制为352像素×288行/帧×25帧/秒，压缩的输出速率定义在1.5Mbit/s以下。这个标准主要是针对当时具有这种数据传输速率的CD-ROM和网络而开发的，用于在CD-ROM上存储数字影视和在网络上传输数字影视。

MPEG-2是数字电视标准。MPEG-2标准是一个直接与数字电视广播有关的高质

量图像和声音编码标准，是MPEG-1的扩充。MPEG-2提供位速率的可变性能功

能，其基本目标是：位速率为4～9Mbit/s，高达15Mbit/s。

MPEG-4是视听对象编码标准。MPEG-4是为视听数据的编码和交互播放开发算

法和工具，是一个数据速率很低的多媒体通信标准。MPEG-4的目标是要在异构

网络环境下能够高度可靠地工作，并且具有很强的交互功能。

MPEG-7是多媒体内容描述接口标准。MPEG-7的名称叫做多媒体内容描述接口，

目的是制定一套描述符标准，用来描述各种类型的多媒体信息及它们之间的关

系，以便更快更有效地检索信息。这些媒体材料可包括静态图像、图形、3D模

型、声音、话音、电视以及在多媒体演示中它们之间的组合关系。在某些情况下，数据类型还可包括面部特性和个人特性的表达。

MPEG-21是多媒体框架标准。MPEG-21企图描述多媒体的元数据(metadata)1，用于全球多媒体对象的集成、创建、使用、操作、管理和传送等操作，便于不同人群在异构网络环境下使用各种多媒体资源，它的目标是为未来多媒体的应用提供一个完整的平台。MPEG-21要解决的核心问题是资源共享、知识产权和版权的管理与保护。

第11章MPEG声音

11.1 列出你所知道的听觉系统的特性。

响度感知, 音高感知, 掩蔽效应

11.2 什么叫做听阈？什么叫做痛阈？

(1) 当声音弱到人的耳朵刚刚可以听见时，称此时的声音强度为“听阈”

(2) 当声音强到人的耳朵刚刚感到疼痛时，称此时的声音强度为“痛

阈”。实验表明，如果频率为1 kHz的纯音的声强级达到120 dB左右时，人的耳朵

就感到疼痛，这个阈值称为“痛阈”。

11.3 什么叫做频域掩蔽？什么叫做时域掩蔽？

（1）强纯音掩蔽在其附近同时发声的弱纯音，这种特性称为频域掩蔽。

(2)在时间方向上相邻声音之间的掩蔽，这种特性称为时域掩蔽。

11.4 MPEG-1 的层1、2 和3 编码分别使用了听觉系统的什么特性？

层1：频域掩蔽特性；

层2：频域掩蔽特性+ 时间掩蔽特性；

层3：频域掩蔽特性+ 时间掩蔽特性+ 临界频带特性(声音频率与掩蔽曲线不是线性关系)；

11.6 MPEG-1的声音质量是： AM FM near-CD CD-DA

□AM □FM □√□near-CD □CD-DA

第11章MPEG视像

12.1电视图像数据中有哪些冗余数据可去掉，目前分别采用什么方法减少冗余数据？

电视图像数据中的冗余数据可归纳成两类：人的视觉特性感觉不到的冗余数据和电视图

像数据自身的冗余数据，针对不同类型的冗余采用不同方法减少冗余，详见下表。

12.2 在MPEG视像数据压缩技术中，目前利用了视觉系统的哪两种特性？

人的视觉系统具有的两种特性可以用来压缩电视图像数据。一是人眼对色度信号的敏感程度比对亮度信号的敏感程度低，利用这个特性可以把图像中表达颜色的信号去掉一些而使人不易察觉；二是人眼对图像细节的分辨能力有一定的限度，利用这个特性可以把图像中的高频信号去掉而使人不易察觉。

12.3 MPEG-1编码器输出的电视图像的数据率大约是多少？

1.15 Mbps

12.4 MPEG专家组在制定MPEG-1/-2 Video标准时定义了哪几种图像？哪种图像的压缩率最

高？哪种图像的压缩率最低？

(1) MPEG专家组定义了三种图像：帧内图像I(intra)，预测图像P(predicted )和双向预测图像B (bi-directionally interpolated )。

(2) 双向预测图的压缩率最高，帧内图像的压缩率最低。

12.5 有人认为“图像压缩比越高越好”。你对这种说法有何看法？

在图像压缩算法中，为了获得比较高的压缩率，通常要采用有损压缩。如果笼统说“图像压缩比越高越好”是不严格的。因为压缩比越高，意味图像的质量损失越大，重构图像的质量将会越低。如果说“在图像质量相同的前提下，图像压缩比越高越好”是认可的。

12.6 有人说“MPEG-1编码器的压缩比大约是200:1”。这种说法对不对？为什么？

不对。“200:1”是使用子采样、降低图像分辨率和MPEG-1视像压缩技术获得的，而(1)电视图像的子采样(4：1：1)不是MPEG编码器的功能，它的压缩比为2:1；(2)电视图像画面尺寸(如PAL制720×576)的降采样(变成360×288)也不属于MPEG编码器的功能，它的压缩比为4:1。

12.7 视像的空间分辨率和时间分辨率是什么意思？

空间分辨率：图像的尺寸。例如，PAL制图像尺寸：720×576，360×288。

时间分辨率：图像的帧数每秒。例如，PAL制电视图像的时间分辨率为30帧/秒，NTSC 电视图像的时间分辨率为25帧/秒，电影图像的时间分辨率为24帧/秒。

12.8 在MPEG-1和MPEG-2中，典型的宏块由多少个像素组成；子采样为4:2:0的宏块分成

多少个亮度图块、红色差图块和蓝色差图块，每个图块由多少个像素组成。

在MPEG-1, MPEG-2中，典型的宏块为16×16像素。

在子采样为4:2:0的宏块分成4个亮度图块、1个红色差图块和1个蓝色差图块，每个

图块由8×8个像素组成。

12.9 什么叫做移动估算？

移动估算(motion estimation)是计算移动矢量的过程，也就是在参考图像中查找与当前编码图块匹配最佳的图块的过程。

12.10 什么叫做移动补偿？

计算当前编码图块与参考帧中的图块的像素值之差的过程。

在编码时，使用移动矢量表示当前帧的图块相对于过去或将来帧的图块的偏移量，使用当前帧的与过去或将来帧的像素值的差值表示图像的变化程度，这个差值在重构当前帧的图块时作为“补偿量”；在解码时，利用移动矢量确定当前帧的图块相对于过去或将来帧的图块位置，使用过去或将来帧的像素值和编码时得到的补偿量重构当前帧的图块。