当前位置：文档库 › 增强现实中的视频对象跟踪算法

增强现实中的视频对象跟踪算法

—229—

增强现实中的视频对象跟踪算法

陈明，陈一民，黄诗华，姚争为

(上海大学计算机工程与科学学院，上海 200072)

摘要：根据增强现实在视频对象跟踪中的应用需求，提出一种综合利用尺度不变特征变换(SIFT)算子、K 聚类算法和轮廓检测的视频对象跟踪算法。该算法利用简易SIFT 获得输入图像的特征点，通过K 聚类算法获得可能的对象聚类，并采用改进的轮廓处理方法得到对象边界，移除孤立点，确定对象特征点，在对象特征点中获取增强现实应用中需要的注册点。在关键帧匹配中，只要使用对象特征点进行对象匹配。实验结果表明，该算法具有运行速度快、匹配正确率高的特点，能满足增强现实视频应用的注册需求。关键词：增强现实；视频对象跟踪；尺度不变特征变换算子；K -means 算法；轮廓检测

Video Object Tracking Algorithm for Augmented Reality

CHEN Ming, CHEN Yi-min, HUANG Shi-hua, YAO Zheng-wei

(School of Computer Engineering and Science, Shanghai University, Shanghai 200072)

【Abstract 】According to the application requirement of Augmented Reality(AR) in video object tracking, this paper proposes a video object tracking algorithm based on Scale-Invariant Feature Transform(SIFT) operator, K -means clustering algorithm and contour detection. The reduced SIFT is applied to get the feature points from the input image. The K -means clustering algorithm is applied to cluster the object feature points approximatively. The improved contour process is applied to get outlines from the clustered object feature points, removes isolation points and determines the object feature points. The registered point is got from the object feature points set. In the key frame, it only needs to use the object feature points to match the object. Experimental results show that the algorithm is fast and accurate. It can meet the need of AR registering. 【Key words 】augmented reality; video object tracking; Scale-Invariant Feature Transform(SIFT) operator; K -means algorithm; contour detection

计算机工程 Computer Engineering 第36卷第12期

Vol.36 No.12 2010年6月

June 2010

·多媒体技术及应用· 文章编号：1000—3428(2010)12—0229—03

文献标识码：A

中图分类号：TN911.73

1 概述

增强现实(Augmented Reality, AR)是一种对真实世界信息和虚拟世界信息进行无缝集成的新技术。基于视频的AR 应用成本较低且便于在不同环境中使用，因此，近年来发展较快。在基于视频的AR 应用中，如何精确跟踪视频对象是一个重要问题，因为增强现实虚实融合的关键之一是精确注册虚拟物体。基于视频的AR 应用通常需要将虚拟物体跟踪注册在一个实时拍摄的实际视频对象上。

视频对象跟踪一直是计算机视觉的关键，如果一个视频序列的每幅关键帧图像都重复同样的跟踪算法，计算量将十分巨大。对于运动对象跟踪问题，Moscheni 等人提出利用空间、时间特性来描述运动对象，并实现对运动对象的分割与跟踪方法[1]。现有视频运动跟踪算法包括基于视频运动对象区域灰度等特征的跟踪算法、基于轮廓特征的跟踪算法、基于运动估计的跟踪算法和基于视觉学习的跟踪算法等[2]。snake 活动轮廓模型算法(Active Contour Model, ACM)是一种较好的基于轮廓跟踪算法[3]，它定义一个与轮廓有关的能量函数，轮廓的形状变化和行为变化趋向于使该能量函数值变小，直至能量函数取最小值时，轮廓形状定型且轮廓变化停止。在构造能量函数时只要正确考虑图像特征、目标特征，snake 轮廓就能收敛在图像中的目标上。但snake 及其改进算法与初始轮廓给定的位置密切相关，若给定的初始形状和位置不佳，则不易收敛或形状演化不正确，且要取得理想的轮廓效果，活动轮廓算法演化时间较长，不适合实时操作。因此，本文提出先利用特征点等方法求出图像对象的大致位置，再进行轮廓处理，而不将其作为确定对象的方法，仅用来演

化大致轮廓，以去除不是对象的孤立特征点。尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)算法[4]是优秀的特征点计算与匹配算法，其匹配能力较强，能处理2幅图像之间发生平移、旋转、仿射变换时的匹配问题，因此，本文采用SIFT 方法来初步计算对象特征点。对于对象分类问题，采用快速的K 聚类方法来区分聚类特征点，K -means 聚类算法是一种分割式聚类方法，其主要目的是先在大量高维特征点中找出具有代表性的特征点，这些特征点可以称为类的中心代表点，然后根据这些聚类中心，进行后续处理。采用K 聚类算法的原因是该算法简单，且已被证明是最快的聚类算法之一。

本文提出SIFT K 聚类轮廓跟踪算法(SIFT-K -means Contour Tracking, SIFT-K -CT)。采用该算法时，在关键帧匹配中，只要使用对象特征点进行对象匹配即可。

2 SIFT-K -CT 跟踪算法

2.1 前提与假设

本文仅在摄像机固定不变的情况下，检测视频运动对象的情况，该情况对于基于视觉的AR 应用是一种常见环境。 2.2 SIFT-K -CT 算法流程

SIFT-K -CT 方法由2个部分组成：(1)对象初始化识别。

基金项目：国家科技支撑计划基金资助项目(2006BAK13B10)；上海市重点学科建设基金资助项目(J50103)

作者简介：陈明(1978－)，男，博士研究生，主研方向：多媒体技术；陈一民，教授、博士生导师；黄诗华，硕士研究生；姚争为，博士研究生

收稿日期：2010-01-20 E-mail ：cmyes@https://www.wendangku.net/doc/f2417589.html,

—230

— 先利用SIFT 算子计算出图像的特征点集，再利用K -means 聚类算法进行聚类操作。聚类数目最大的几个类作为对象识别的基础，由于K -means 算法可能产生一些不在对象中的孤立点，因此采用snake 算法来约束，仅需做几次迭代取出大概范围即可。由于snake 迭代基于K 聚类基础，避免了迭代收敛不正确的问题，且只要利用其去除不在对象中的孤立特征点，因此迭代次数约为10次。(2)跟踪识别。利用SIFT 识别出的相关特征点与第(1)部分识别出的对象点进行跟踪匹配，如果有3个以上的特征点匹配，则认为该对象是目标对象。如果无法确定目标对象，则认为对象不存在或重新识别新的对象。识别对象成功后进入AR 应用流程。 2.2.1 对象初始化识别

对象初始化识别过程如下： (1)简易SIFT 检测

简易SIFT 检测是加速SIFT 特征检测的过程，文献[4]建议对每个关键点使用4×4共16个种子点来描述，对于一个关键点就可以产生128个数据，即最终形成128维的SIFT 特征向量。由于下一步要对特征点进行分类，因此可以适度减少特征向量的维度。对同一幅关键帧图像的20次实验结果表明，使用3×3×8共72个维度即可。如果过于宽松，特征点数目增加过多，则必然增加K 聚类算法的运行时间。

(2)K -means 聚类

K -means 聚类的目的是为了识别出对象的大概分布范围，为下一步snake 运算提供初始位置。K 聚类算法效率的关键是K 的初始值，如下：

21arg min ||||j i K

j i i s S

=∈?∑∑x x u (1)

其中，j x 表示数据点的位置坐标向量；K 为分类数目，利用均方差最小进行聚类。

对于增强现实运动目标跟踪应用，设置5K =就能完成分类。对于最大聚类是背景特征的情况，可以使用简单的背景减除技术来实现。原始关键帧图像如图1所示，图2给出了分类后的特征点分布结果。

图1 原始关键帧图像

图2 SIFT-K -CT 聚类后的效果

(3)snake 迭代

主动轮廓模型又称为snake 模型，它主要定义了snake 积分能量函数，其能量函数包括内部能量、图像能量和外部能量。对象跟踪的依据是使其所有能量函数积分最小。Kass 等人给出了利用变分法来求解积分最小的方法，可得能量函数如下：

((,),(,),(,))d d ob gr n n n An Bn

Se O x y O x y C x y x y =∫∫ (2)

其中，(,)ob

n O x y 表示视频对象；(,)gr n O x y 表示背景；(,)

n C x y 表示2个区域之间的边界曲线。

根据文献[5]提出的基于直方图的snake 视频跟踪方法，实际的偏微分方程如下： 1220[((,))((,),(,))](0)ob gr n n n n

P P O x y P O x y C x y n t

C C

??=+??

???=?(3) 其中，1P 为变化内力；2P 为变化外力。根据式(3)，从初始轮廓0C 出发，当t 充分大时，n C 收敛于局部极值，n C 就是目标轮廓。由于本文使用snake 的目的只是为了移除孤立于对

象的聚类特征点，因此仅需要迭代20次就足够了，且不必过分关心演化情况，所以简化方程如下：

0[((,))((,),(,))](0)ob gr

n n n n

x O x y O x y C x y n

C C

??=?????=? (4) 最终对象的特征点集如下：

max ((()))j i i O Sn Km eSift I N =>∑ (5)

其中，j O 表示要跟踪的第j 个对象；i I 表示输入的第i 帧关键帧图像；eSift 函数表示简易SIFT 操作；Km 函数表示K -means 聚类操作；max Km 表示取最大分类的点集；Sn 表示snake 移除操作；求和表示移除后的所有有效特征点集；i N 表示最少的对象点集，为匹配需要，3i N =。0j O ≥表示识别对象成功，否则，表示识别失败。如图3所示，对象外的孤

立特征点已移除，不会再干扰对象跟踪过程。AR 注册效果如图4所示。

图3 SIFT-K -CT 对象特征识别效果

图4 AR 渲染应用效果

2.2.2 对象跟踪与匹配

关键帧对象的跟踪与匹配有基于欧氏距离的方法、RANSAC 方法[6]等。欧氏距离法是最常用的方法，该方法利用关键点特征向量的欧式距离作为2幅图像中关键点的相似性判定度量。取一帧图像中的某个特征点，并找出其与待匹配图像中欧式距离最近的前几个特征点，在这些点中，如果最近的距离与次近的距离比小于某个阈值，则认为匹配成功。如果降低这个阈值，SIFT 点匹配成功的数目会减少，但更加稳定。RANSAC 方法能处理错误率超过50%的数据，是最有效

的Robust 估计算法之一，

在计算机视觉等领域得到了广泛应用。 SIFT-K -CT 的匹配策略分2步进行，先使用RNASAC 算法进行匹配。如果无法成功匹配对象，则进行仿射不变特征匹配测试。利用马氏距离的仿射不变性[7]删除误匹配特征对，

如式(6)所示。

SIFT 算法跟踪匹配效果和SIFT-K -CT 对象跟踪

—231—

匹配效果分别如图5和图6所示。

图5 SIFT 算法跟踪匹配效果

图6 SIFT-K -CT 对象跟踪匹配效果

21()2()1

()/4,m

i i i i Sd d d d ==?∑ (6)

其中，m 是匹配点的对数，取m =1,2即可；Sd 表示协方差和；

d i 表示马氏距离；A -1表示A 的逆矩阵，A 表示协方差矩阵。根据马氏距离定义，应有d 1=d 2, Sd =0。 2.2.3 AR 注册应用

AR 注册应用过程是从2D 图像坐标系到3D 相机坐标系映射的过程，包括注册点的确定和注册点方向矢量的确定 2个步骤。

(1)注册点位置估计

注册点位置估计的目的是找出可能的渲染虚拟物体的位置。本文利用特征点的距离密度概率求核心点的聚类位置。

n 00

(())n n

i i i i Max Max Dpr O ===∑∑ (7)

其中，n i Max 是估计的最大周围密度点；00

n n

i i O ==∑∑是i 点周围半径n 中的所有对象特征点；Dpr 表示靠近模拟中心点的概率。 (2)方向估计

方向估计的目的是按正确的姿态渲染出虚拟物体。本文根据核心点周围特征点的SIFT 梯度平均方向求注册点的方向矢量。因此，在匹配时不宜使用简易SIFT 操作。为了有效地表征这些特征点，根据Lowe 提出的方法，先将原图像转化为梯度图像，计算每个元素的梯度幅值和方向量，再将所检测特征点的相应位置映射于梯度图像中，并设定一个有效的邻域范围(8×8)，以区域内元素的梯度变化幅值为权重，计算方向量的直方图，以此作为相应特征点的表征向量。

3 实验结果与分析

算法性能主要以跟踪精确度和时间效率2个指标来衡量。 3.1 算法对象跟踪

利用SIFT 算法获取少量特征点，作为分类算法的输入，利用最快的K -means 分类算法对特征点进行分类，找到最大分类。可能存在最大分类是背景的情况，可以利用背景差分来解决。如图5所示，可以观察到很多错误匹配情况，无法跟

踪对象。如图6所示，在背景变化的条件下，本文算法依然成功匹配、跟踪了手机对象。

3.2 算法时间性能

SIFT-K -CT 算法在跟踪时仅需要进行Canny 边缘检测，跟踪效果能够满足实时要求。不同算法的平均跟踪时间比较如表1所示，比较结果以10 s 视频设置30个关键帧图像匹配为例。图像分辨率为640×480。ACM 算法以改进的snake 模型[8]为例。ASIFT 算法[9]的效果优于Harris-Affine 等算法效

果较好，因此，本文以ASIFT 为例，不再比较其他类似算法。

表1 不同算法的平均跟踪时间比较

算法名称

平均运行时间/s

SIFT 0.3 ASIFT 30.0

snake 0.5 SIFT-K -CT 0.1

4 结束语

本文算法适用于对象跟踪精度要求高、有实时性要求、

存在复杂背景的情况，如虚拟/增强现实与视频融合等环境。但该算法未考虑噪声较大的情况，仅采用简易的中值滤波，而没有预先进行滤波处理。另外，当图像精度不高时，该算法跟踪匹配能力不足。下一步工作将尽量减少算法在对象跟踪过程中对图像精度的需要，以提高其适用范围。

参考文献

[1] Denzler J, Niemann H. Combination of Simple Vision Modules for

Robust Real Time Motion Tracking[J]. European Transactions on Telecommunications, 1995, 6(3): 121-137.

[2] Trucco E, Plakas K. Video Tracking: A Concise Survey[J]. IEEE

Journal of Oceanic Engineering, 2006, 31(2): 520-529.

[3] 陈波, 赖剑煌. 用于图像分割的活动轮廓模型[J]. 中国图象图

形学报, 2007, 12(1): 11-20.

[4] Lowe D G . Distinctive Image Features from Scale Invariant

Keypoints[J]. International Journal of Computer Vision, 2004, 60(2): 91-110.

[5] 郭礼华, 袁晓彤, 李建华. 基于直方图的Snake 视频对象跟踪算

法[J]. 中国图象图形学报, 2005, 10(2): 197-202.

[6] 佟爱华, 周付根, 金挺, 等. 一种改进的高精度视频帧间匹配

算法[J]. 仪器仪表学报, 2008, 29(8): 146-150.

[7] 李玲玲, 李翠华, 曾晓明, 等. 基于Harris-affine 和SIFT 特征匹

配的图像自动配准[J]. 华中科技大学学报: 自然科学版, 2008, 36(8): 13-16.

[8] Yue Fu, Erdem T A, Tekalp A M. Tracking Visible Boundary of

Objects Using Occlusion Adaptive Motion Snake[J]. IEEE Transactions on Image Processing, 2000, 9(12): 2051-2069. [9] Morel J M, Yu guoshen. ASIFT: A New Framework for Fully Affine

Invariant Image Comparison[J]. SIAM Journal on Imaging Sciences, 2009, 2(2): 438-469.

编辑陈晖

目标跟踪相关研究综述

Artificial Intelligence and Robotics Research 人工智能与机器人研究, 2015, 4(3), 17-22 Published Online August 2015 in Hans. https://www.wendangku.net/doc/f2417589.html,/journal/airr https://www.wendangku.net/doc/f2417589.html,/10.12677/airr.2015.43003 A Survey on Object Tracking Jialong Xu Aviation Military Affairs Deputy Office of PLA Navy in Nanjing Zone, Nanjing Jiangsu Email: pugongying_0532@https://www.wendangku.net/doc/f2417589.html, Received: Aug. 1st, 2015; accepted: Aug. 17th, 2015; published: Aug. 20th, 2015 Copyright ? 2015 by author and Hans Publishers Inc. This work is licensed under the Creative Commons Attribution International License (CC BY). https://www.wendangku.net/doc/f2417589.html,/licenses/by/4.0/ Abstract Object tracking is a process to locate an interested object in a series of image, so as to reconstruct the moving object’s track. This paper presents a summary of related works and analyzes the cha-racteristics of the algorithm. At last, some future directions are suggested. Keywords Object Tracking, Track Alignment, Object Detection 目标跟踪相关研究综述徐佳龙海军驻南京地区航空军事代表室，江苏南京 Email: pugongying_0532@https://www.wendangku.net/doc/f2417589.html, 收稿日期：2015年8月1日；录用日期：2015年8月17日；发布日期：2015年8月20日摘要目标跟踪就是在视频序列的每幅图像中找到所感兴趣的运动目标的位置，建立起运动目标在各幅图像中的联系。本文分类总结了目标跟踪的相关工作，并进行了分析和展望。

视频目标跟踪报告

专业硕士研究生实践训练环节视频运动目标检测与跟踪学院：信息科学与工程学院专业：姓名：学号：授课老师：日期：2017

目录 1 课程设计的目的和意义 (1) 1.1 课程设计的目的 (1) 1.2 课程设计的意义 (1) 2 系统简介及说明 (2) 3 设计内容和理论依据 (2) 3.1 基于Mean Shift的跟踪算法 (3) 3.1.1 RGB颜色直方图 (3) 3.1.2 基于颜色和纹理特征的Mean Shift跟踪算法 (3) 3.2 基于颜色特征的粒子滤波跟踪算法 (4) 3.2.1 贝叶斯重要性采样 (4) 3.2.2 序列重要性采样 (5) 3.2.3 粒子退化现象和重采样 (6) 3.2.4 基本粒子滤波算法 (6) 4 流程图 (7) 4.1 Mean Shift跟踪算法流程图 (7) 4.2 粒子滤波跟踪算法流程图 (7) 5 实验结果及分析讨论 (8) 5.1 基于Mean Shift的跟踪算法仿真结果 (8) 5.2 基于颜色特征的粒子滤波算法仿真结果 (9) 6 思考题 (10) 7 课程设计总结 (10) 8 参考文献 (10)

1 课程设计的目的和意义 1.1 课程设计的目的随着计算机技术的飞速发展、信息智能化时代的到来，安防、交通、军事等领域对于智能视频监控系统的需求量逐渐增大。视频运动目标跟踪是计算机视觉领域的一个研究热点，它融合了人工智能、图像处理、模式识别以及计算机领域的其他先进知识和技术。在军事视觉制导、安全监测、交通管理、医疗诊断以及气象分析等许多方面都有广泛应用。同时，随着视频摄像机的普及化，视频跟踪有着广泛的应用前景，对城市安全起到了防范作用，并且和我们的生活息息相关。从目前国内外研究的成果来看，对于运动目标的跟踪算法和技术主要是针对于特定环境提出的特定方案，大多数的跟踪系统不能适应于场景比较复杂且运动目标多变的场景。并且在视频图像中目标的遮挡、光照对颜色的影响、柔性刚体的轮廓变化等将严重影响目标的检测与跟踪。因此如何实现一个具有鲁棒性、实时性的视觉跟踪系统仍然是视觉跟踪技术的主要研究方向。 Mean Shift算法的主要优点体现在：计算简单、便于实现；对目标跟踪中出现的变形和旋转、部分遮挡等外界影响，具有较强的鲁棒性。缺点在于：算法不能适应光线变化等外界环境的影响；当目标尺度发生变化时，算法性能受到较大的影响。粒子滤波适用于非线性、非高斯系统，在诸如机动目标跟踪、状态监视、故障检测及计算机视觉等领域有其独到优势，并得到了广泛研究。但粒子滤波算法本身还不够成熟，存在粒子匮乏、收敛性等问题。因为跟踪机动目标需要对目标的运动特性有一定了解，因此，目标跟踪的难点之一在于目标模型的建立及其与跟踪方法的匹配上，这是提高跟踪性能的关键。 1.2 课程设计的意义图像处理(image processing)，用计算机对图像进行分析，以达到所需结果的技术。又称影像处理。图像处理一般指数字图像处理。数字图像是指用数字摄像机、扫描仪等设备经过采样和数字化得到的一个大的二维数组，该数组的元素称为像素，其值为一整数，称为灰度值。图像处理技术的主要内容包括图像压缩，增强和复原，匹配、描述和识别3个部分。常见的处理有图像数字化、图像编码、图像增强、图像复原、图像分割和图像分析等。图像处理一般指数字图像处理。虽然某些处理也可以用光学方法或模拟技术实现,但它们远不及数字图像处理那样灵活和方便,因而数字图像处理成为图像处理的主要方面。随着计算机的发展，数字图像处理已成为电子信息、通信、计算机、自动化、信号处理等专业的重要课程。数字图像处理课程设计是在学习完数字图像处理的相关理论后，进行的综合性训练课程。其目的是进一步巩固数字图像的基本概念、理论、分析方法和实现方法。 1

动态视频目标检测和跟踪技术(入门)

动态视频目标检测和跟踪技术传统电视监控技术只能达到“千里眼”的作用，把远程的目标图像（原始数据）传送到监控中心，由监控人员根据目视到的视频图像对现场情况做出判断。智能化视频监控的目的是将视频原始数据转化为足够量的可供监控人员决策的“有用信息”，让监控人员及时全面地了解所发生的事件：“什么地方”，“什么时间”，“什么人”，“在做什么”。将“原始数据”转化为“有用信息”的技术中，目标检测与跟踪技术的目的是要解决“什么地方”和“什么时间”的问题。目标识别主要解决“什么人”或“什么东西”的问题。行为模式分析主要解决“在做什么”的问题。动态视频目标检测技术是智能化视频分析的基础。本文将目前几种常用的动态视频目标检测方法简介如下：背景减除背景减除（Background Subtraction）方法是目前运动检测中最常用的一种方法，它是利用当前图像与背景图像的差分来检测出运动目标的一种技术。它一般能够提供相对来说比较全面的运动目标的特征数据，但对于动态场景的变化，如光线照射情况和外来无关事件的干扰等也特别敏感。实际上，背景的建模是背景减除方法的技术关键。最简单的背景模型是时间平均图像，即利用同一场景在一个时段的平均图像作为该场景的背景模型。由于该模型是固定的，一旦建立之后，对于该场景图像所发生的任何变化都比较敏感，比如阳光照射方向，影子，树叶随风摇动等。大部分的研究人员目前都致力于开发更加实用的背景模型，以期减少动态场景变化对于运动目标检测效果的影响。时间差分时间差分（Temporal Difference 又称相邻帧差）方法充分利用了视频图像的特征，从连续得到的视频流中提取所需要的动态目标信息。在一般情况下采集的视频图像，若仔细对比相邻两帧，可以发现其中大部分的背景像素均保持不变。只有在有前景移动目标的部分相邻帧的像素差异比较大。时间差分方法就是利用相邻帧图像的相减来提取出前景移动目标的信息的。让我们来考虑安装固定摄像头所获取的视频。我们介绍利用连续的图像序列中两个或三个相邻帧之间的时间差分，并且用阈值来提取出视频图像中的运动目标的方法。我们采用三帧差分的方法，即当某一个像素在连续三帧视频图像上均有相

【CN109919979A】一种视频实时目标跟踪的方法【专利】

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 201910174796.5 (22)申请日 2019.03.08 (71)申请人广州二元科技有限公司地址 510000 广东省广州市南沙区银锋一街1号银锋广场1栋1608房 (72)发明人容李庆　关毅　袁亚荣　 (74)专利代理机构广州凯东知识产权代理有限公司 44259 代理人罗丹 (51)Int.Cl. G06T 7/246(2017.01) G06K 9/00(2006.01) G06K 9/32(2006.01) (54)发明名称一种视频实时目标跟踪的方法 (57)摘要本发明涉及一种视频实时目标跟踪的方法，采用目标检测与目标跟踪相结合的技术，极大地降低视频实时目标检测的计算量，由于无需对每一帧视频图像进行遍历检测，因此极大地提高了视频实时目标检测的计算效率，可以达到实时视频的帧率。本发明提供的视频实时目标跟踪的方法使用神经网络对目标检测器检测出来的目标框在下一帧图像中的位置进行跟踪回归，极大地降低了视频实时目标检测的计算量，无需对每一帧图像都采用检测器检测目标，采用检测与跟踪相结合的技术应用于视频实时目标检测中，无需对输入图像进行复杂的降噪等处理，对目标检测器也无特殊需求，可以大大提升检测的速率，本发明适用性广，可以在低端的嵌入式设备中保证足够的计算效率。权利要求书1页说明书2页附图1页CN 109919979 A 2019.06.21 C N 109919979 A

权　利　要　求　书1/1页CN 109919979 A 1.一种视频实时目标跟踪的方法，其特征在于包括以下步骤： 1)、通过硬件设备摄像头采集实时的视频作为输入，或者直接输入包含多帧的视频文件； 2)、分解视频，以单帧为单位对视频进行分解； 3)、将不同的数字图像矩阵格式转化为目标检测器支持的数字图像矩阵格式； 4)、输入1帧数字图像矩阵到目标检测器中，检测器通过计算后返回的检测结果以数组的方式进行保存，数组的长度是检测到的目标数量大小； 5)、根据当前输入帧获得的目标检测框作为下一帧图像的目标基础框，采用神经网络对当前帧目标框在下一帧图像的位置进行回归计算，得到下一帧图像的目标检测框信息，如果下一帧检测框信息不为空，则在接下来的帧图像中循环执行当前步骤；若下一帧目标框信息为空，则跳转到步骤4对接下来的帧图像重新调用目标检测器进行目标检测直到视频帧处理结束。 2.根据权利要求1所述的一种视频实时目标跟踪的方法，其特征在于：所述步骤3)在步骤1)输入视频的时候进行统一的转换。 2

多个目标的实时视频跟踪的先进的算法

2008 10th Intl. Conf. on Control, Automation, Robotics and Vision Hanoi, Vietnam, 17–20 December 2008 多个目标的实时视频跟踪的先进的算法 1110200210俞赛艳 Artur Loza Department of Electrical and ElectronicEngineering University of Bristol Bristol BS8 1UB, United Kingdom artur.loza@https://www.wendangku.net/doc/f2417589.html, Miguel A. Patricio, Jes′us Garc′?a, and Jos′e M. Molina Applied Artificial Intelligence Group (GIAA) Universidad Carlos III de Madrid 28270-Colmenarejo, Spain mpatrici,jgherrer@inf.uc3m.es, molina@ia.uc3m.es 摘要——本文调查了用组合和概率的方法来实现实时的视频目标跟踪。特殊兴趣是真实世界的场景,在这场景里.多目标和复杂背景构成对非平凡的自动追踪者的挑战。在一个规范的监控视频序列里，对象跟踪是以组合数据协会和粒子过滤器为基础，通过选择完成视觉跟踪技术实现的。以详细的分析性能的追踪器测试的优点为基础，已经确定了互补的失效模式和每种方法的计算要求。考虑到获得的结果,改善跟踪性能的混合策略被建议了,为不同追踪方法带来了最好的互补特性。关键字--概率、组合、粒子过滤器、跟踪、监视、实时、多个目标. 1、介绍最近人们对通过单个摄像机或一个网络摄像头提供来跟踪视频序列增加了兴趣。在许多监测系统中，可靠的跟踪方法至关重要的。因为它们使运营商在远程监控感兴趣的领域,增加对形势感知能力和帮助监测分析与决策过程。跟踪系统可以应用在一个广泛的环境如:交通系统、公共空间(银行、购物)购物中心、停车场等)、工业环境、政府或军事机构。跟踪的对象通常是移动的环境中的一个高可变性。这需要复杂的算法对视频采集,相机校正、噪声过滤、运动检测，能力学习和适应环境。因为它的情况往往现实场景,系统也应该能够处理多个目标出现在现场。为了实现强大的和可靠的多个跟踪目标,，各种各样的问题，具体到这种场景，都必须加以解决。不仅要解决状态估计问题，而且还必须使执行数据联合运行得准确,特别是当多目标交互存在时。早期多个对象跟踪的工作，关注于一个固定的数字的目标,但是人们已经认识到,很有必要解释新出现的目标以及消失的目标造成的变量数量及多个轨道数量，具有相当良好的间隔。这是典型的用扩展状态估计框架联合跟踪所有检测目标[4]。联合跟踪目标[6],避免使用几个独

用opencv实现对视频中动态目标的追踪

用openCV实现对视频中动态目标的追踪第一步，是要建立一个编程环境，然后加载opencv的库路径等等。具体步骤在 https://www.wendangku.net/doc/f2417589.html,/ 的“安装”中有详细介绍。第二步，建立一个MFC的对话框程序，做两个按钮，一个“打开视频文件”，一个“运动跟踪处理”。具体操作： 1 建立MFC对话框程序的框架：File ->New -> MFC AppWizard(exe)，选取工程路径，并取工程名“VideoProcesssing”-> Next -> 选择Dialog based后，点Finish,点OK. 2 添加按钮：直接Delete掉界面默认的两个“确定”“取消”按钮。然后添加两个button，分别名为“打开视频”，“运动跟踪处理”，其ID分别设为IDC_OPEN_VIDEO，IDC_TRACKING. 3 添加消息响应函数：双击按钮“打开视频”，自动生成响应函数名OnOpenVideo，点Ok。然后添加如下代码： CFileDialog dlg(true,"*.avi",NULL,NULL,"*.avi|*.avi||"); if (dlg.DoModal()==IDOK) { strAviFilePath = dlg.GetPathName(); }else { return; } 同样，双击“运动跟踪处理”，选择默认的响应函数名，然后添加代码： //声明IplImage指针 IplImage* pFrame = NULL; IplImage* pFrImg = NULL; IplImage* pBkImg = NULL; CvMat* pFrameMat = NULL; CvMat* pFrMat = NULL; CvMat* pBkMat = NULL; CvCapture* pCapture = NULL; int nFrmNum = 0; //打开AVI视频文件 if(strAviFilePath=="") //判断文件路径是否为空 { MessageBox("请先选择AVI视频文件!"); return; }else { if(!(pCapture = cvCaptureFromFile(strAviFilePath))) { MessageBox("打开AVI视频文件失败!"); return;

视频目标跟踪算法综述_蔡荣太

1引言目标跟踪可分为主动跟踪和被动跟踪。视频目标跟踪属于被动跟踪。与无线电跟踪测量相比，视频目标跟踪测量具有精度高、隐蔽性好和直观性强的优点。这些优点使得视频目标跟踪测量在靶场光电测量、天文观测设备、武器控制系统、激光通信系统、交通监控、场景分析、人群分析、行人计数、步态识别、动作识别等领域得到了广泛的应用[1-2]。根据被跟踪目标信息使用情况的不同，可将视觉跟踪算法分为基于对比度分析的目标跟踪、基于匹配的目标跟踪和基于运动检测的目标跟踪。基于对比度分析的跟踪算法主要利用目标和背景的对比度差异，实现目标的检测和跟踪。基于匹配的跟踪主要通过前后帧之间的特征匹配实现目标的定位。基于运动检测的跟踪主要根据目标运动和背景运动之间的差异实现目标的检测和跟踪。前两类方法都是对单帧图像进行处理，基于匹配的跟踪方法需要在帧与帧之间传递目标信息，对比度跟踪不需要在帧与帧之间传递目标信息。基于运动检测的跟踪需要对多帧图像进行处理。除此之外，还有一些算法不易归类到以上3类，如工程中的弹转机跟踪算法、多目标跟踪算法或其他一些综合算法。2基于对比度分析的目标跟踪算法基于对比度分析的目标跟踪算法利用目标与背景在对比度上的差异来提取、识别和跟踪目标。这类算法按照跟踪参考点的不同可以分为边缘跟踪、形心跟踪和质心跟踪等。这类算法不适合复杂背景中的目标跟踪，但在空中背景下的目标跟踪中非常有效。边缘跟踪的优点是脱靶量计算简单、响应快，在某些场合（如要求跟踪目标的左上角或右下角等）有其独到之处。缺点是跟踪点易受干扰，跟踪随机误差大。重心跟踪算法计算简便，精度较高，但容易受到目标的剧烈运动或目标被遮挡的影响。重心的计算不需要清楚的轮廓，在均匀背景下可以对整个跟踪窗口进行计算，不影响测量精度。重心跟踪特别适合背景均匀、对比度小的弱小目标跟踪等一些特殊场合。图像二值化之后，按重心公式计算出的是目标图像的形心。一般来说形心与重心略有差别[1-2]。 3基于匹配的目标跟踪算法 3.1特征匹配特征是目标可区别与其他事物的属性，具有可区分性、可靠性、独立性和稀疏性。基于匹配的目标跟踪算法需要提取目标的特征，并在每一帧中寻找该特征。寻找的文章编号：1002－8692（2010）12-0135-04 视频目标跟踪算法综述* 蔡荣太1，吴元昊2，王明佳2，吴庆祥1 （1.福建师范大学物理与光电信息科技学院，福建福州350108； 2.中国科学院长春光学精密机械与物理研究所，吉林长春130033）【摘要】介绍了视频目标跟踪算法及其研究进展，包括基于对比度分析的目标跟踪算法、基于匹配的目标跟踪算法和基于运动检测的目标跟踪算法。重点分析了目标跟踪中特征匹配、贝叶斯滤波、概率图模型和核方法的主要内容及最新进展。此外，还介绍了多特征跟踪、利用上下文信息的目标跟踪和多目标跟踪算法及其进展。【关键词】目标跟踪；特征匹配；贝叶斯滤波；概率图模型；均值漂移；粒子滤波【中图分类号】TP391.41；TN911.73【文献标识码】A Survey of Visual Object Tracking Algorithms CAI Rong-tai1,WU Yuan-hao2,WANG Ming-jia2,WU Qing-xiang1 （1.School of Physics,Optics,Electronic Science and Technology,Fujian Normal University,Fuzhou350108,China; 2.Changchun Institute of Optics,Fine Mechanics and Physics,Chinese Academy of Science,Changchun130033,China）【Abstract】The field of visual object tracking algorithms are introduced,including visual tracking based on contrast analysis,visual tracking based on feature matching and visual tracking based on moving detection.Feature matching,Bayesian filtering,probabilistic graphical models,kernel tracking and their recent developments are analyzed.The development of multiple cues based tracking,contexts based tracking and multi-target tracking are also discussed．【Key words】visual tracking;feature matching;Bayesian filtering;probabilistic graphical models;mean shift;particle filter ·论文·*国家“863”计划项目（2006AA703405F）；福建省自然科学基金项目（2009J05141）；福建省教育厅科技计划项目（JA09040）

视频目标检测与跟踪算法综述

视频目标检测与跟踪算法综述 1、引言运动目标的检测与跟踪是机器视觉领域的核心课题之一，目前被广泛应用在视频编码、智能交通、监控、图像检测等众多领域中。本文针对视频监控图像的运动目标检测与跟踪方法，分析了近些年来国内外的研究工作及最新进展。 2、视频监控图像的运动目标检测方法运动目标检测的目的是把运动目标从背景图像中分割出来。运动目标的有效分割对于目标分类、跟踪和行为理解等后期处理非常重要。目前运动目标检测算法的难点主要体现在背景的复杂性和目标的复杂性两方面。背景的复杂性主要体现在背景中一些噪声对目标的干扰，目标的复杂性主要体现在目标的运动性、突变性以及所提取目标的非单一性等等。所有这些特点使得运动目标的检测成为一项相当困难的事情。目前常用的运动目标检测算法主要有光流法、帧差法、背景相减法，其中背景减除法是目前最常用的方法。 2.1 帧差法帧差法主要是利用视频序列中连续两帧间的变化来检测静态场景下的运动目标，假设(,)k f x y 和(1)(,)k f x y +分别为图像序列中的第k 帧和第k+1帧中象素点(x ，y)的象素值,则这两帧图像的差值图像就如公式2-1 所示： 1(1)(,)(,)k k k Diff f x y f x y ++=- (2-1) 2-1式中差值不为0的图像区域代表了由运动目标的运动所经过的区域（背景象素值不变），又因为相邻视频帧间时间间隔很小，目标位置变化也很小，所以运动目标的运动所经过的区域也就代表了当前帧中运动目标所在的区域。利用此原理便可以提取出目标。下图给出了帧差法的基本流程：1、首先利用2-1 式得到第k 帧和第k+1帧的差值图像1k Diff +；2、对所得到的差值图像1k Diff +二值化（如式子2-2 示）得到Qk+1；3、为消除微小噪声的干扰，使得到的运动目标更准确，对1k Q +进行必要的滤波和去噪处理，后处理结果为1k M +。 111255,,(,)0,,(,)k k k if Diff x y T Q if Diff x y T +++>?=?≤? （T 为阈值）（2-2）

多目标跟踪方法研究综述

经过近４０多年的深入研究和发展，多目标跟踪技术在许多方面都有着广泛应用和发展前景，如军事视觉制导、机器人视觉导航、交通管制、医疗诊断等［１－２］。目前，虽然基于视频的多运动目标跟踪技术已取得了很大的成就，但由于视频中图像的变化和物体运动的复杂性，使得对多运动目标的检测与跟踪变得异常困难，如多目标在运动过程中互遮挡、监控场景的复杂性等问题，解决上述难题一直是该领域所面临的一个巨大挑战，因此，对视频中多目标跟踪技术研究仍然是近年来一个热门的研究课题［３－５］。１、多目标跟踪的一般步骤基于视频的多目标跟踪技术融合了图像处理、模式识别、人工智能、自动控制以及计算机视觉等众多领域中的先进技术和核心思想。不同的多目标跟踪方法其实现步骤有一定的差异，但多目标跟踪的主要流程是相同的，如图１所示，其主要包括图像预处理、运动目标检测、多目标标记与分离、多目标跟踪四个步骤。图１多目标跟踪基本流程图２、多目标跟踪方法多目标跟踪方法可以根据处理图像或视频获取视点的多少分为两大类，一类是单视点的多目标跟踪，另一类就是多视点的多目标跟踪。２．１单视点的方法单视点方法是针对单一相机获取的图像进行多目标的检测和跟踪。该方法好处在于简单且易于开发，但由于有限的视觉信息的获取，很难处理几个目标被遮挡的情况。块跟踪（Ｂｌｏｂ－ｔｒａｃｋｉｎｇ）是一种流行的低成本的跟踪方法［６－７］。这种方法需要首先在每一帧中提取块，然后逐帧寻找相关联的块，从而实现跟踪。例如ＢｒａＭＢＬｅ系统［８］就是一个基于已知的背景模型和被跟踪的人的外表模型计算出块的似然性的多块跟踪器。这种方法最大的不足之处在于：当由于相似性或者遮挡，多个目标合并在一起时，跟踪将导致失败。因此，可以取而代之的方法是通过位置、外观和形状保留清晰目标的状态。文献［９］利用组合椭圆模拟人的形状，用颜色直方图模拟不同人的外观，用一个增强高斯分布模拟背景以便分割目标，一旦场景中发现对应于运动头部的像素，一个ＭＣＭＣ方法就被用于获取多个人的轮廓的最大后验概率，在单相机的多人跟踪应用中取得了非常有意义的结果。Ｏｋｕｍａ等人提出了一种将Ａｄａｂｏｏｓｔ算法和粒子滤波相结合的方法［１０］。该方法由于充分利用了两种方法的优点，相比于单独使用这两种方法本身，大大降低了跟踪失败的情形，同时也解决了在同一框架下检测和一致跟踪的问题。Ｂｒｏｓｔｏｗ等人提出了一个用于在人群中检测单个行人的特征点轨迹聚类的概率框架［１１］。这个框架有一个基本假设是一起运动的点对可能是同一个个体的一部分，并且把它用于检测和最终的跟踪。对于完全和部分遮挡目标以及外观变化，这些方法和另外一些相似的方法都有很大的局限性。为了解决遮挡问题，一系列单视点跟踪技术应运而生。典型的方法是利用块合并来检测遮挡的发生［１２］。当被跟踪的点消失，跟踪特征点的方法就简单的将其作为一个被遮挡特征点。近年来，基于目标轮廓和外观的跟踪技术利用隐含的目标到相机的深度变化来表示和估计目标间的遮挡关系。但大多数方法都只能解决部分遮挡，不能解决完全被遮挡的情况。另外，小的一致运动被假设为是可以从遮挡视点中可以预测运动模式的，这些给没有预测运动的较长时间的遮挡的处理带来问题。尽管这些单视点的方法有较长的研究历史，但这些方法由于不能明锐的观察目标的隐藏部分，因此不能很好地解决有２或３个目标的遮挡问题。２．２多视点的方法随着复杂环境中对检测和跟踪多个被遮挡的人和计算他们的精确位置的需要，多视点的方法成为研究的热点。多视点跟踪技术的目的就是利用不同视点的冗余信息，减少被遮挡的区域，并提供目标和场景的３Ｄ信息。尽管通过相机不能很好地解决目标跟踪问题，但却提出了一些很好的想法，如选择最佳视点，但这些方法都以实际环境模型和相机校正为特征。９０年代后半期，在很多文献中给出了多视点相关的多目标跟踪方法。比如利用一个或多个相机与观察区域相连的状态变化映射，同时给出一系列的行为规则去整合不同相机间的信息。利用颜色在多个视点中进行多目标的跟踪的方法，该方法模拟了从基于颜色直方图技术的背景提取中获得的连接块并应用其去匹配和跟踪目标。除此之外，也有在原来的单视点跟踪系统进行扩展的多视点跟踪方法。该方法主要是通过一个预测，当预测当前的相机不在有一个好的视点时，跟踪就从原来凯斯的那个单相机视点的跟踪转换到另外一个相机，从而实现多视点的跟踪。基于点与它对应的极线的欧氏距离的空间匹配方法、贝叶斯网络和立体相对合并的方法都是多目标多视点跟踪的常见方法。尽管这些方法都试图去解决遮挡问题，但由于遮挡的存在，基于特征的方法都不能根本解决，其次，这些方法中的遮挡关系的推理一般都是根据运动模型，卡尔曼滤波或者更普遍的马尔科夫模型的时间一致性来进行的。因此，当这个过程开始发散，这些方法也不能恢复遮挡关系。最近一种基于几何结构融合多个视点信息的Ｈｏｍｅｇｒａｐｈｉｃｏｃｃｕｐａｎｃｙｃｏｎｓｒｒａｉｎｔ（ＨＯＣ）［１２］方法，可以通过在多场景平台对人的定位来解决遮挡问题。仅采用随时间变化的外表信息用于从背景中检测前景，这使得在拥挤人流的场景中的外表遮挡的解决更健壮。利用多视点中的前景信息，主要是试图找到被人遮挡的场景点的图像位置，然后这些被遮挡的信息用于解决场景中多个人的的遮挡和跟踪问题。在这种思想指导下，Ｍｉｔｔａｌ，Ｌｅｉｂｅ，Ｆｒａｎｃｏ等的研究工作和机器人导航中基于遮挡网格的距离传感器的并行工作是相似的，这些方法在融合３Ｄ空间信息的时候需要进行校正相机。但ＨＯＣ方法是完全基于图像的，仅需要２Ｄ结构信息进行图像平面的融合。当然也有另外一些不需要进行相机校正的算法被提出，但需要学习一个与相机最小相关的信息。在目标跟踪过程中，由于这些方法依赖于单个相机的场景，对于拥挤场景中目标分布密度增加九无能为力了。在ＨＯＣ的多视点的目标跟踪中，对于任何单一相机的场景，或者相机对的场景，都不需要进行定位和跟踪目标，而是从所有相机的场景中收集证据，形成一个统一的框架，由于该方法能够从多个时间帧的场景中进行场景被遮挡概率的全局轨迹优化，因此可以同时进行检测和跟踪。３、总结动态目标检测与跟踪是智能监控系统的重要组成部分，它融合了图像处理、模式识别、自动控制及计算机应用等相关领域的先进技术和研究成果，是计算机视觉和图像编码研究领域的一个重要课题，在军事武器、工业监控、交通管理等领域都有广泛的应用。尤其是对于多目标检测与跟踪中的遮挡与被遮挡的处理，对提高智能监控中目标的行为分析有着重要的意义。随着监控设备的发展和设施的铺设，多视点的场景图像是很容易得到的，因此借助信息融合的思想，充分利用不同角度对目标的描述信息，可以很大地改进目前基于单视点的多目标检测和跟踪的精度，能够很好地解决单视点方法中不能很好解决的遮挡问题。参考文献［１］胡斌，何克忠．计算机视觉在室外移动机器人中的应用．自动化学报，２００６，３２（５）：７７４－７８４．［２］Ａ．Ｏｔｔｌｉｋ，Ｈ．－Ｈ．Ｎａｇｅｌ．ＩｎｉｔｉａｌｉｚａｔｉｏｎｏｆＭｏｄｅｌ－ＢａｓｅｄＶｅｈｉｃｌｅＴｒａｃｋｉｎｇｉｎＶｉｄｅｏＳｅｑｕｅｎｃｅｓｏｆＩｎｎｅｒ－ＣｉｔｙＩｎｔｅｒｓｅｃｔｉｏｎｓ．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００８，８０（２）：２１１－２２５．多目标跟踪方法研究综述苏州联讯图创软件有限责任公司陈宁强［摘要］文章对目前现有的多目标跟踪方法从信息获取的不同角度进行了综述。主要分析比较了目前单视点和多视点目标跟踪方法对于目标遮挡问题的处理性能，并指出多视点的基于多源信息融合的思想，可以较好地解决场景中目标的遮挡问题。［关键词］单视点多视点目标跟踪信息融合基金项目：本文系江苏省自然科学基金（ＢＫ２００９５９３）。作者简介：陈宁强（１９７３－），男，江苏苏州人，工程师，主要研究方向：ＧＩＳ、模式识别和图像处理与分析。目标跟踪多目标标记与分离匹配目标模型运动检测当前帧图像背景提取去噪ＲＯＩ预处理视频序列（下转第２６页）

本科毕业设计__基于视频的目标跟踪及人群密度估计方法研究开题报告

上海交通大学 2012 级硕士学位论文开题报告登记表学号姓名导师李建勋学科控制科学与工程学院(系、所) 电子信息与电气工程学院学位论文题目稳健对地目标跟踪方法研究研究课题来源国家自然科学基金、航天创新基金、中航613横向项目课题的意义以及研究的主要内容运动目标跟踪是视觉图像处理中的一个非常热门的话题，在多个领域有着广泛的应用。运动目标跟踪的应用领域和环境主要有：对大型公共场所进行智能化视频监控、基于视频的人机交互、交通流量监测、医疗诊断等。本文从计算机视觉角度研究对地目标跟踪方法。由于视觉跟踪系统能在比较复杂的背景下，提取与分离市场内的目标、确定目标位置、估计目标运动趋势、实现对目标的实时跟踪，且具有跟踪精度高、跟踪状态平稳、抗干扰能力强、分辨率高和成本低等特点，在军事上很受重视。在民用领域，对地目标跟踪也有着广泛的应用：对大型公共场所进行智能化视频监控。例如在机场、商场、地铁站等场所进行智能化监控，其主要目的都是为了保障公众财产和信息安全。在人群监测、交通管理上实现智能化有非比寻常的意义。以以上应用为背景，本文的对地目标跟踪技术包含以下几个主要技术模块：单目标跟踪技术、多目标跟踪技术、密集目标跟踪技术。分出这几个模块是为了应对不同的应用场景，或是在同一场景需要各模块的协同合作。例如地铁站的人群流量具有明显时段特征，早晚上下班高峰人流极大，而其他时段人流量明显减少，这就需要对不同时段采用不同的跟踪方法以达到最好的效果。在上下班高峰期，采用密集目标跟踪技术，而在其他时段，采用多目标跟踪技术，而在有特殊需要的时候，例如跟踪特定犯罪嫌疑人时，可采用单目标跟踪技术。本文研究的主要内容具体有： ①粒子滤波基本方法研究，这是单目标跟踪方法的框架。在图像跟踪应用中，目标状态的后验概率分布往往是非线性非高斯多模态的，粒子滤波方法对于系统模型没有特殊要求，且能够保持状态的多模态分布，在跟踪领域得到了很大的发展。但常规粒子滤波跟踪算法存在计算量大、采样效率低等问题。 ②粒子群最优化思想研究，改进常规粒子滤波采样效率低的问题，提高采样效率。针对常规粒子滤波跟踪算法存在计算量大、采样效率低等问题，引入粒子群优化思想对目标状态后验分布进行最优搜索，找到后验分布的高似然区，并依据此高似然区来进行重采样。 ③变结构多模型的设计，以更好的表征目标的运动模型。几乎所有的方法对目标的运动状态都假定为平滑的，或者将运动限制在恒速或恒加速运动状态。而实际情况并非如此，例如机动目标的运动状态就很难用单一模型来表征。本文引入变结构多模型方法为目标建立变结构多运动模型。变结构多模型方法能够很好的表征目标的运动模型却又不增加过多的计算量，因此相比单一运动模型能够更好的估计目标的运动。

目标跟踪算法综述

。目标跟踪算法综述大连理工大学卢湖川一、引言目标跟踪是计算机视觉领域的一个重要问题，在运动分析、视频压缩、行为识别、视频监控、智能交通和机器人导航等很多研究方向上都有着广泛的应用。目标跟踪的主要任务是给定目标物体在第一帧视频图像中的位置，通过外观模型和运动模型估计目标在接下来的视频图像中的状态。如图1所示。目标跟踪主要可以分为5 部分，分别是运动模型、特征提取、外观模型、目标定位和模型更新。运动模型可以依据上一帧目标的位置来预测在当前帧目标可能出现的区域，现在大部分算法采用的是粒子滤波或相关滤波的方法来建模目标运动。随后，提取粒子图像块特征，利用外观模型来验证运动模型预测的区域是被跟踪目标的可能性，进行目标定位。由于跟踪物体先验信息的缺乏，需要在跟踪过程中实时进行模型更新，使得跟踪器能够适应目标外观和环境的变化。尽管在线目标跟踪的研究在过去几十年里有很大进展，但是由被跟踪目标外观及周围环境变化带来的困难使得设计一个鲁棒的在线跟踪算法仍然是一个富有挑战性的课题。本文将对最近几年本领域相关算法进行综述。二、目标跟踪研究现状 1. 基于相关滤波的目标跟踪算法在相关滤波目标跟踪算法出现之前，大部分目标跟踪算法采用粒子滤波框架来进行目标跟踪，粒子数量往往成为限制算法速度的一个重要原因。相关滤波提出了一种新颖的循环采样方法，并利用循环样本构建循环矩阵。利用循环矩阵时域频域转换的特殊性质，将运算转换到频域内进行计算，大大加快的分类器的训练。同时，在目标检测阶段，分类器可以同时得到所有循环样本得分组成的响应图像，根据最大值位置进行目标定位。相关滤波用于目标跟踪最早是在MOSSE算法[1]中提出的。发展至今，很多基于相关滤波的改进工作在目标跟踪领域已经取得很多可喜的成果。 1.1. 特征部分改进 MOSSE[1] 算法及在此基础上引入循环矩阵快速计算的CSK[2]算法均采用简单灰度特征，这种特征很容易受到外界环境的干扰，导致跟踪不准确。为了提升算法性能，CN算法[3]对特征部分进行了优化，提出CN（Color Name）空间，该空间通道数为11（包括黑、蓝、棕、灰、绿、橙、粉、紫、红、白和黄），颜色空间的引入大大提升了算法的精度。与此类似，KCF算法[4]采用方向梯度直方图（HOG）特征与相关滤波算法结合，同时提出一种将多通道特征融入相关滤波的方法。这种特征对于可以提取物体的边缘信息，对于光照和颜色变化等比较鲁棒。方向梯度直方图（HOG）特征对于运动模糊、光照变化及颜色变化等鲁棒性良好，但对于形变的鲁棒性较差；颜色特征对于形变鲁棒性较好，但对于光照变化不够鲁棒。STAPLE算法[5]将两种特征进行有效地结合，使用方向直方图特征得到相关滤波的响应图，使用颜色直方图得到的统计得分，两者融合得到最后的响应图像并估计目标位置，提高了跟踪算法的准确度，但也使得计算稍微复杂了一些。图1 目标跟踪算法流程图

视频跟踪解决方案

AVT21自动视频跟踪模块作者：产品概述 AVT21是一款高性能小尺寸低功耗的嵌入式自动视频跟踪模块，该模块提供了目标捕捉、自动跟踪、平台控制、电子稳像、图像缩放平移旋转、OSD等强大功能，解决了光电跟踪系统所需要的各种算法和技术问题，从而大大缩短了光电跟踪系统的研制周期，并使系统性能大大提升。典型应用方案示意图1，用户使用自行设计的嵌入式主控模块+ AVT21，构建自动视频跟踪系统。典型应用方案示意图2，用户使用VTC81 + AVT21，构建自动视频跟踪系统。

典型应用方案示意图3，用户使用PC机+ AVT21，快速构建自动视频跟踪系统。作者：关键特征 ●内置多种图像增强预处理算法：白热、黑热、双极性、移动目标检测等。 ●视频捕获：可根据目标的亮度、尺寸、外形比例、速度、运动方向等自动获取目标。 ●视频跟踪：内置多种跟踪算法且支持多目标检测和多目标跟踪；目标短暂丢失智能锁定和重捕获算法。 ●可编程两轴平台驱动控制（PID）；支持速率和位置控制。 ●算法的FPGA实现，使得模块具有极低的延迟：输出偏差或平台控制数据延迟小于 1场时间（PAL：20ms、NTSC：）。 ●图像处理功能：基于场景锁定的极低延迟实时电子稳像 ●OSD功能，支持标准的和用户自定义的字符和符号，如：跟踪窗口、符号标记、瞄准线、状态等等。 ●图像平移、缩放和旋转功能，以纠正传感器安装位置对视频的影响。

●支持固定视场、可切换视场、连续变化（ZOOM）视场的摄像机。 ●结构紧凑、功耗低。原理框图外形图作者：

自动获取目标可根据目标的亮度、尺寸、外形比例、速度、运动方向等自动获取目标。跟踪算法作者： ●质心跟踪算法：这种跟踪方式用于跟踪有界目标，且目标与环境相比有明显不同灰度等级，如空中飞机等。目标完全包含在镜头视场范围内。 ●相关跟踪算法：相关可用来跟踪多种类型的目标，当跟踪目标无边界且动态不是很强时这种方式非常有效。典型应用于：目标在近距离的范围，且目标扩展到镜头视场范围外，如航行在大海中的一艘船。 ●相位相关算法：相位相关算法是非常通用的算法，既可以用来跟踪无界目标也可以用来跟踪有界目标。在复杂环境下（如地面的汽车）能给出一个好的效果。 ●多目标跟踪算法：多目标跟踪用于有界目标如飞机、地面汽车等。它们完全在跟踪窗口内。对复杂环境里的小目标跟踪，本算法能给出一个较好的性能。 ●边缘跟踪算法：当跟踪目标有一个或多个确定的边缘而同时却又具有不确定的边缘，这时边缘跟踪是最有效的算法。典型如火箭发射，它有确定好的前边缘，但尾边缘由于喷气而不定。 ●场景锁定算法：该算法专门用于复杂场景的跟踪。适合于空对地和地对地场景。这个算法跟踪场景中的多个目标，然后依据每个点的运动，从而估计整个场景全局运动，场景中的目标和定位是自动选择的。当存在跟踪点移动到摄像机视场外时，新的跟踪点能自动被标识。瞄准点初始化到场景中的某个点，跟踪启动，同时定位瞄准线。在这种模式下，能连续跟踪和报告场景里的目标的位置。 ●组合跟踪算法：顾名思义这种跟踪方式是两种具有互补特性的跟踪算法的组合：相关类算法+ 质心类算法。它适合于目标尺寸、表面、特征改变很大的场景。低延迟

基于视频监控的运动目标跟踪算法

第36卷第12期 2010年12月北京工业大学学报J OURNA L O F BE IJI NG UN I V ERS I TY OF TEC HNOLOGY V o.l 36N o .12D ec .2010基于视频监控的运动目标跟踪算法胡宏宇1,2,王殿海1,3,李志慧1,杨希锐1,4,王庆年2 (1 吉林大学交通学院,长春 130022;2 吉林大学汽车工程学院,长春 130022; 3 浙江大学建筑工程学院,杭州 310058; 4 解放军汽车管理学院,安徽蚌埠 233011) 摘要:利用K a l m an 滤波思想对运动目标的前时刻状态信息进行预测,获取重心位置与形态紧密度估计值;将估计值与当前时刻观测值进行匹配,根据匹配误差修正运动目标的速度与紧密度变化值,通过递归算法实现常态下运动目标的准确、快速跟踪.针对复杂场景下由于运动遮挡造成无法准确估计目标运动轨迹,采用灰色模型GM (1,1)保证了跟踪过程的连续、稳定.最后,通过不同交通场景的视频序列对本文算法进行了验证,结果表明本文方法具有较好的适应性、鲁棒性,可实现复杂遮挡情况下连续、稳定、实时的目标运动跟踪. 关键词:智能交通;视频监控;运动跟踪;特征匹配;K a l m an 滤波;灰色模型中图分类号:TP 391;U 121文献标志码:A 文章编号:0254-0037(2010)12-1683-08 收稿日期:2008 11 03. 基金项目:国家 863 计划项目资助(2009AA 11Z210),国家自然科学基金青年科学基金项目(50808092),吉林省科技发展计划项目(20080432).作者简介:胡宏宇(1982!),男,长春人,讲师. 交通流中运动物体的运动行为是研究交通流特性与交通流管制的基础.视频监控技术为研究混合交通运动物体的运动特性与交通行为提供了有力工具,运动目标跟踪技术是其重要组成部分.而目标的特征匹配与遮挡处理决定了目标跟踪的性能. 目前,运动目标跟踪算法是国内外研究的热点与重点内容之一.Ko ller [1]利用3D 模型跟踪运动车辆,但该方法依赖物体三维几何模型,计算复杂度较高,难以满足实时要求;Co if m an [2]提取车辆的角点,根据运动约束对物体进行跟踪,但是角点易受光照强度的变化及噪声等因素的干扰;Parag ios [3]采用自动更新的封闭主动轮廓曲线实现车辆的跟踪,但轮廓曲线初始化较为复杂且容易受到运动状态变化的影响;K ato [4]利用马尔科夫随机场模型提出了运动目标跟踪算法,而模型参数难以确定是其面临的主要问题;Rad [5]利用重心、速度对物体进行跟踪,但该方法仅考虑了物体的运动特性,匹配精度难以保证.另外,文献[6 9]对运动目标跟踪算法进行了一定研究,但跟踪过程中遮挡处理的局限性和实验场景的单一性限制了其应用的普适性.由于物体运动状态、周围环境的复杂多变以及可能发生的运动遮挡对跟踪造成严重影响,因此建立复杂交通场景下连续、快速、稳定的运动目标跟踪算法尤为重要. 作者结合运动物体的运动特征与形态特征,基于K al m an 滤波(KF)思想实现跟踪目标的运动特征与形态特征的快速匹配.针对跟踪过程中可能发生的运动遮挡现象,提出了基于灰色预测模型的遮挡处理方法,保证了跟踪算法的连续、稳定,同时对于运动目标进出检测区域边界时特征匹配的不稳定性给出了解决办法.跟踪实验表明,本文方法具有实时性好、鲁棒性强的特点,可实现复杂环境下的运动目标跟踪.1 运动检测运动目标的检测与分割是实现运动跟踪的前提.本文采用文献[10]中基于聚类识别的背景初始化方法获取背景.该方法首先利用滑动可变窗口检测每个像素的时间训练序列所有不重叠平滑子序列,获取可能背景;然后选择每个平滑子序列的中值样本点构建分类序列集,根据未知类别的无监督聚类识别思想,获取背景子集实现背景初始化.该方法具有良好的鲁棒性,可满足车流较大条件下背景初始化的要