当前位置：文档库 › 武汉大学多媒体课后习题作业

武汉大学多媒体课后习题作业

第一章

2.什么是多媒体?多媒体的关键特性包括那些方面?

答：（1）多媒体，从表面上讲，就是“多种媒体的综合”，相关的技术也就是“怎么样进行多种媒体综合技术”。多媒体技术概括的讲，就是能够对多种媒体信息进行综合的处理技术。所以多媒体技术可以定义为：以数字化为基础，能够对多种媒体信息进行采集、编码、存储、传输、处理和表现，综合处理多种媒体信息并使之建立起来有机的逻辑联系，集成为一个系统并具有良好交互性的技术。

（2）多媒体的关键特性主要包括信息载体的多样性、交互性和集成性这3个方面。

5.多媒体计算机组成的硬件环境包含那些设备?

答：多媒体计算机基本的硬件结构，主要包括功能强大的CPU，大容量的存储空间，高分辨率的显示接口和设备，音频接口和相应的设备，视频接口和相应的设备等。

一种典型的多媒体计算机配置的多媒体设备有：①光盘驱动器；②音频卡；③视频卡；④扫描卡；

⑤交互式控制接口；⑥网络接口；⑦打印机接口；⑧图形加速卡。

第二章

1.简述多媒体通信基本概念。

答：多媒体通信是指在一次呼叫过程中能同时提供多种媒体信息（如声音、图形、图象、数据、文本等）新型通信方式

3.简述媒体同步技术。

答：在多媒体系统中，通常利用多媒体从不同角度从不同侧面表现一个主题，此时不同媒体之间就存在同步问题，例如，视频播放时，伴音应和口型相吻合等。同步是多媒体系统中的一个关键问题，它与系统中许多因素有关，如通信系统、操作系统、数据库、文件及其应用形式等。因此，多媒体系统中同步应在不同的层面上考虑。

1.链路层同步，链路层同步处理的是媒体流内部以及多个媒体流之间的同步问题。

2.表示层同步，在将不同表示媒体的对象复合一个复合对象的过程中将引入同步机制，构成多媒体复合对象；或用超级链接将不同表示媒体的对象链接过程中引入同步机构，构成超媒体。

3.应用层同步，应用层同步采用的技术为脚本（Script）同步技术。

6.简述多媒体通信的终端技术。

答：多媒体终端作为人机交互的界面，具有两种功能：一是面向用户，提供一种自然、友好的交互环境，屏蔽掉各种复杂的网络功能；二是面向网络，下达其所需实施的各种功能，屏蔽掉应用环境的复杂性和不确定性。从多媒体系统具有交互性这一重要性来看，多媒体终端技术是离不开计算机技术的。而从PC派生出来的功能简化的终端则统称为“信息家电”。

多媒体通信的终端技术中，面向对象的软件开发技术成为主流技术；网络计算和分布式技术成为软件的核心技术；嵌入式软件技术成为智能化设备的基础；软件构件和复合技术成为提高软件开发生产率，形成规模生产的重要手段。

第三章

4.常用的变换编码由哪些？变换编码是如何压缩数据得？

答：常用的变换编码有KLT变换和离散余弦DCT变换两种：

变化编码是有失真编码的一种重要的编码类型。在变化编码中，原始数据从初始空间或者时间域进行数学变换，使得信号中最重要的部分（例如包含最大能量的最重要的系数）在变换域中易于识别，并且集中出现，可以重点处理；相反使能量较少的部分较分散，可以进行粗处理。例如将时域信号变换到频域，因为声音、图象大部分信息都是低频信号，在频域中比较集中，再进行采样编码可以压缩数

据。该变换过程是逆过程，使用反变换可以恢复原始数据。变换编码系统中的压缩数据有三个步骤：变换、变换域采样和量化。变化是可逆的，本身并不进行数据压缩，它只把信号映射到另一个域，使

信号在变换域里容易压缩，变换后的样值更独立有序。在变换编码系统中，用于量化一组变换样值的

比特数是固定的，它是小于对所有变换样值用固定长度均匀量化进行编码所需要的总数，所以量化是

使数据得到压缩，是变化编码中不可缺少的一步。为了取得满意的结果，某些重要系数的编码位数比

其他要多，某些位数要少，某些就干脆被忽略了。在对量化后的变换样值进行比特分配，要考虑使整

个量化失真最小。这样过程就称为有损压缩。数据压缩对变化矩阵的选择有两方面的要求，一要能准确地再现信源向量，即要求再现误差尽量地小；二要尽可能地去除信息的相关性。

5.哈夫曼编码的编码方法怎样？有什么特点？举例说明哈夫曼编码过程.

答：Huffman于1952年提出了对统计独立信源能达到最小平均码长的编码方法，即最佳码，它完全依据字符出现概率来构造，各码字长度严格按照所对应符号出现概率的大小逆序排列。最佳性可从理论

上证明。这种码具有即时性和唯一可译性。

编码时，首先将信源符号按概率递减顺序排列，把两个最小的概率加起来，作为新符号的概率，重复

此过程，直到概率和达到1。

Huffman编码过程如下:

1.将信源符号按概率递减顺序排序；

2.把二个最小的概率加起来，作为新符号的概率；

3.重复步骤1、2，直到概率达到1为止；

4.在每次合并消息时，将合被合并的消息赋于1和0或0和1；

5.寻找从每一个信源符号到概率为1处的路径上的1和0；

6.对每一符号写出‘1’、‘0’序列（从码书的根到终节点）；

第四章

1.简述JPEG压缩算法。

答：JPEG压缩标准是一个用于灰度或彩色图象的压缩标准，包括无损模式和有损模式，非常适用于那些不太复杂或一般取自真实图象的压缩标准。它使用离散的余玄变换(DCT)、量化、行程和哈夫慢编码等技术，是一种混合编码标准。

JPEG定义了如下两种基本的压缩算法：基于空间线性预测技术，即PCM的无失真压缩算法；基于DCT

的有失真压缩算法，并进一步应用行程编码和熵编码。

PCM的无失真压缩算法具有硬件实现容易、重见图象质量好的优点，在此采用的是完全恢复的技术。无损压缩不使用DCT方法，而是采用一个简单的预测器。预测器可以采用不同的方法，不同的预测方法

将决定有那些相邻的相素将被用于预测下一个像素。

JPEG的基于DCT的压缩编码算法包括基本系统和增强系统两种不同的层次的系统。并定义了顺序工作方式和累进工作方式。基本系统只采用顺序工作方式，熵编码时只能采用哈夫曼编码，且只能存储两

套码表。增强系统是基本系统的扩充，可采用累进工作方式、分层工作方式等，熵编码时可选用哈夫

曼或算术编码。

3.在MPEG视频压缩中为了提高压缩比，采用哪两种技术。

答：在空间方向上：图像压缩采用JPEG压缩算法去掉冗余信息，即基于DCT的压缩技术，减少空间域冗余度；在时间方向上：采用基于16×16子块的运动补偿技术，减少帧序列时间域的冗余度。

5.简述MPEG-1视频压缩过程。

答：MPEG视频压缩编码后包括三种元素：I帧（I-frames）、P帧（P-frames）和B帧（B-frames）。

在MPEG编码的过程中，部分视频帧序列压缩成为I帧；部分压缩成P帧；还有部分压缩成B帧。I帧法是帧内压缩法，也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT（Discrete Cosine

Transform）的压缩技术，这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。

在保证图像质量的前提下实现高压缩的压缩算法，仅靠帧内压缩是不能实现的，MPEG采用了帧间和帧

内相结合的压缩算法。P帧法是一种前向预测算法，它考虑相邻帧之间的相同信息或数据，也即考虑运动的特性进行帧间压缩。P帧法是根据本帧与相邻的前一帧（I帧或P帧）的不同点来压缩本帧数据。采取P帧和I帧联合压缩的方法可达到更高的压缩且无明显的压缩痕迹。然而，只有采用B帧压缩才

能达到200：1的高压缩。B帧法是双向预测的帧间压缩算法。当把一帧压缩成B帧时，它根据相邻的

前一帧、本帧以及后一帧数据的不同点来压缩本帧，也即仅记录本帧与前后帧的差值。B帧数据只有I 帧数据的百分之十五、P帧数据的百分之五十以下。

MPEG标准采用类似4：2：2的采用格式，压缩后亮度信号的分辨率为352×240，两个色度信号分辨率均为176×120，这两种不同分辨率信息的帧率都是每秒30帧。其编码的基本方法是在单位时间内，首先采集并压缩第一帧的图像为I帧。然后对于其后的各帧，在对单帧图像进行有效压缩的基础上，只

存储其相对于前后帧发生变化的部分。帧间压缩的过程中也常间隔采用帧内压缩法，由于帧内（关键帧）的压缩不基于前一帧，一般每隔15帧设一关键帧，这样可以减少相关前一帧压缩的误差积累。MPEG编码器首先要决定压缩当前帧为I帧或P帧或B帧，然后采用相应的算法对其进行压缩。一个视

频序列经MPEG全编码压缩后可能的格式为：IBBPBBPBBPBBPBBIBBPBBPBBPBBPBBI......

压缩成B帧或P帧要比压缩成I帧需要多得多的计算处理时间。有的编码器不具备B帧甚至P帧的压

缩功能，显然其压缩效果不会很好。

第五章

1.脉冲编码调制（PCM）的基本思想是什么？

答：PCM是直接将语音信号进行采样量化，表示成二进制的数字信号，并通过并——串转换，变成串行脉冲，并用脉冲对采样幅度进行编码。一般情况，PCM有均匀PCM，非均匀PCM和自适应PCM几种形式。

2.增量调制（DM）的基本思想是什么？

答：增量调制DM（Delta Modulation）是一种预测编码技术。DM是PCM的一种变形。PCM是对每个采用信号的整个幅度进行量化，因此它具有对任意波形进行编码的能力。DM是对语音信号用最低限度一

位来表示的方法。在这种调制方式中，首先判别下一个语音信号值比当前的信号是高还是低，如果是

高则给定编码“1”，否则给定为“0”，这样来进行语音信号的编码。在DM的编码系统中，如果差值为正，即下一个语音信号值比当前的信号高，则量化器输出为“1”；如果差值为负，说明下一个语音信号值比当前的信号低，则量化器输出为“0”。在接收端，用接收的脉冲串控制，信号就可以用上升下降的阶梯波形来逼近。

第六章

2.简述流媒体的工作原理。

答：流传输的过程一般是这样的：1.用户选折某一流媒体服务后，Web浏览器与Web服务器之间使用HTTP/TCP交换控制信息，以便把需要传输的实时数据从原始信息中检索出来；2.然后客户机上的Web

浏览器启动A/V Helper程序初始化。这些参数可能包括目录信息，A/V数据的编码类型与A/V检索相关的服务器地址等；3.A/V Helper程序及A/V服务器运行实时流协议（RTSP），以及交换A/V传输所需

的控制信息。与CD播放机或VCR所提供的功能相似，RTSP提供了操纵播放、快进、快倒、暂停及录制等命令的方法。4.A/V服务器使用RTP/UDP协议将A/V数据传输给A/V客户程序（一般可认为客户程序等同于Helper程序），一旦A/V数据抵达客户端，A/V客户程序即可播放传输。需要说明的是，在流传

输中，使用RTP/UDP和RTSP/TCP两种不同的通信协议与A/V服务器建立联系，是为了能够把服务器的输出重定向到一个不同于运行A/V Helper程序所在客户机的目的地址。实现http/TCP传输一般都需要专用服务器和播放器，其基本原理如下图所示：

4.RTCP有哪几种控制分组？

答：RTCP协议的功能是通过不同的RTCP控制分组实现的。RTCP协议规范定义了五种不同类型的RTCP 控制分组：

SR（Sender report）控制分组

RR(Receiver report)控制分组

SDES（Source description）控制分组

BYE(Goodbye)控制分组

APP(Application-defined)控制分组

6.简述RTSP状态机。

答：RTSP状态机包括客户机状态机和服务器状态机。状态描述了RTSP连接会话从初始化到结束整个过程的全部协议行为。状态是基于每一基本流对象定义的。而每一对象流由统一资源定位器

URL（uniform resource Locator）和连接会话标识符唯一标识。

第七章

1.什么是超文本？超文本系统由哪些要素组成？

答：通常超文本被定义为：由信息结点和表示结点间相关性的链构成的一个具有一定逻辑结构和语义的网络。结点可以包含文本、图形、图像、音频、视频等各种形式的数据。

在超文本系统中主要有以下几种类型：

(1)基本链

基本链，用来建立节点间的基本顺序的链，有点类似书中的章、节、段落等结构。它能够使信息在总体上呈现层次结构。

(2)交叉索引链

交叉索引链主要是将节点连接成网状结构。和基本链不同的是它以动作决定访问顺序，而不是节点间固定访问顺序。

(3)注释链

注释链是一种指向节点内部附加注释信息的链，注释源主要是通过热标确定的，注释体则为某单一媒体对象。

(4)移动链

移动链简单的移动到一个相关的节点，一般把它当作超文本系统中的导航。

(5)缩放链

缩放链可以扩大当前节点。主要是用于用户在浏览信息时，可以对所感兴趣的内容放大，以便看清楚该区域的信息。

(6)全景链

全景链和缩放链是对应的，主要是将链返回高层视图。

(7)视图链

视图链主要用来实现可靠性和安全性。

(8)Is-a链

Is-a链与语义网中的Is-a链类似，用于指明对象节点的某类成员。

(9)Has-a链

Has-a链用于描述节点具有的属性。

(10)蕴含链

蕴含链用于连接推理树中的事实，通常等价于规则。

(11)执行链

执行链将一种执行活动与按钮节点相链。执行链使应用程序不再是孤立的，可以激发一个动作或

操作。一般的操作系统无法记录程序的功能、目的等，但超媒体的按钮节点与执行链可以通过建立节

点方便地解释应用程序的功能和目的，使超媒体成为高层程序的界面。

4.简述HTTP协议工作过程。

答：每个万维网网点都有一个服务器进程，它不断地监听TCP的端口80，以便发现是否有浏览器，即客户机进程，向它发出连接请求。一旦监听到连接请求并建立了TCP连接之后，浏览器就向服务器发

出浏览某个页面作为响应。最后，TCP连接就释放。

第八章

2.多媒体数据库结构有哪几种？对多媒体数据库系统来说，哪一种结构更合适？为什么？

答：多媒体数据库结构有：1.联邦型结构、2.集中统一型结构、3.客户/服务器型结构、4.超媒体型的结构；

对多媒体数据库系统来说，超媒体型的结构更合适，因为这种多媒体数据库体系结构强调对数据时空

索引的组织，在它看来，世界上所有的计算机中的信息和其他系统中的信息都应该连接一体，而且信

息也要能够随意扩展和访问。因此，也就没有必要建立一个统一的多媒体数据库系统，而是数据库分

散到网络上，把它看成一个信息空间，只要设计好访问工具就能够访问和使用这些信息。另外，要通

过超媒体建立起各种数据的时空关系，使得访问的不仅仅是抽象的数据形式，而且还可以去访问形象

化的、真实的或虚拟的空间和时间。

4.什么是基于内容检索？

答：基于内容的检索CBR（Content Based Retrieval），是指根据媒体和媒体对象的内容语义及上下文语义环境进行检索，如图像中的颜色、纹理、形状，视频中的镜头、场景、镜头的运动，声音中的音调、响度、音色等。基于内容的检索突破了传统的基于文本检索技术的局限，直接对图像、视频、音

频内容进行分析，抽取特征和语义，利用这些内容特征建立索引并进行检索。在这一检索过程中，它

主要以图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法为部分基础技术，是多种技

术的合成。

第九章

5．媒体控制接口的作用是什么?

媒体控制接口（MCI）是一个高级的函数调用接口，它包含在MMSYSTEM.DLL中，相当于一个命令解释器，用来协调事件以及MCI设备驱动程序间的通讯。MCI覆盖了音频、视频、影片、激光视碟机、和录像机的多媒体的主要产品，够满足大多数多媒体应用程序的需要。

6．与MCI有关的多媒体高级函数有哪些?试述它们的功能。

答：经常使用且较适合Visual Basic的3个与MCI有关的高级函数如下所述：

①mciSendString()：传送指令字符串给MCI。

②mciExecute()：可视为mciSendString的简化函数，如果无法执行，会出现一个对话框显示错误信息。

③mciGetErrorString()：解释MCI错误代码所表示的意思。

9．多媒体领域中常用的嵌入式操作系统有哪些？

答：多媒体领域中常用的嵌入式操作系统有：

1．Windows CE

Microsoft Windows CE是从整体上为有限资源的平台设计的多线程、完整优先权、多任务的操作系统。它的模块化设计允许它对于从掌上电脑到专用的工业控制器的应用设备进行定制。操作系统的基本内核需要至少200K的ROM。

2．VxWorks

WinRiver公司的VxWorks是目前嵌入式系统领域中使用最广泛、市场占有率最高的系统。它支持多种处理器，如x86、i960、Sun Sparc、Motorola MC68xxx、MIPS RX000、POWER PC等等。大多数的VxWorks API是专有的。采用GNU的编译和调试器。

3．pSOS

ISI公司已经被WinRiver公司兼并，现在pSOS属于WindRiver公司的产品。这个系统是一个模块化、高性能的实时操作系统，专为嵌入式微处理器设计，提供一个完全多任务环境，在定制的或是商业化的硬件上提供高性能和高可靠性。可以让开发者根据操作系统的功能和内存需求定制成每一个应用所需的系统。开发者可以利用它来实现从简单的单个独立设备到复杂的、网络化的多处理器系统。4．QNX

QNX是一个实时的、可扩充的操作系统，它部分遵循POSIX相关标准，如：POSIX.1b实时扩展。它提供了一个很小的微内核以及一些可选的配合进程。其内核仅提供4种服务：进程调度、进程间通信、底层网络通信和中断处理，其进程在独立的地址空间运行。所有其它OS服务，都实现为协作的用户进程，因此QNX内核非常小巧（QNX4.x大约为12Kb）而且运行速度极快。这个灵活的结构可以使用户根据实际的需求，将系统配置成微小的嵌入式操作系统或是包括几百个处理器的超级虚拟机操作系统。5．Palm OS

3Com公司的Palm OS在PDA市场上占有很大的市场份额，它有开放的操作系统应用程序接口（API），开发者可以根据需要自行开发所需要的应用程序。

6．OS-9

Microwave的OS-9是为微处理器的关键实时任务而设计的操作系统，广泛应用于消费电子产品、工业自动化、无线通讯产品、医疗仪器、数字电视/多媒体设备等产品中。它提供了很好的安全性和容错性。与其他的嵌入式系统相比，它的灵活性和可升级性非常突出。

7．嵌入式Linux

以上这些专用操作系统都是商业化产品，价格昂贵；而且，源代码封闭性也大大限制了开发者的积极性，源码开放的Linux有广阔的发展前景。因为Linux的开放性，而且可以支持不同的设备，支持不同的配置，能够很快用于各种设备。如今，业界已经达成共识：即嵌入式Linux是大势所趋。