目标跟踪（3）MultiTracker : 基于 OpenCV (C++Python) 的多目标跟踪_软件运维

在这篇文章中，我们将介绍如何使用通过 MultiTracker 类实现的 OpenCV 的多对象跟踪 API。我们将共享C++ 和 Python 代码。

大多数计算机视觉和机器学习的初学者都学习对象检测。如果您是初学者，您可能会想为什么我们需要对象跟踪。我们不能只检测每一帧中的对象吗？

让我们来探究一下跟踪是有用的几个原因。

首先，当在视频帧中检测到多个对象（例如人）时，跟踪有助于跨帧建立对象的身份。

其次，在某些情况下，对象检测可能会失败，但仍可能跟踪对象，因为跟踪考虑了对象在前一帧中的位置和外观。

第三，一些跟踪算法非常快，因为它们做的是局部搜索，而不是全局搜索。因此，我们可以通过每n帧进行目标检测，并在中间帧中跟踪目标，从而为我们的系统获得很高的帧率。

那么，为什么不在第一次检测后无限期地跟踪对象呢？跟踪算法有时可能会丢失它正在跟踪的对象。例如，当对象的运动太大时，跟踪算法可能跟不上。许多现实世界的应用程序同时使用检测和跟踪。

在本教程中，我们只关注跟踪部分。我们想要跟踪的对象将通过拖动它们周围的包围框来指定。

OpenCV 中的 MultiTracker 类提供了多目标跟踪的实现。它是一个简单的实现，因为它独立处理跟踪对象，而不对跟踪对象进行任何优化。

让我们逐步查看代码，了解如何使用 OpenCV 的多目标跟踪 API。

2.1 第 1 步:创建单一对象跟踪器

多目标跟踪器只是单目标跟踪器的集合。我们首先定义一个函数，该函数接受一个跟踪器类型作为输入，并创建一个跟踪器对象。OpenCV有8种不同的跟踪器类型:BOOSTING, MIL, KCF,TLD, MEDIANFLOW, GOTURN, MOSSE, CSRT。

如果您想使用 GOTURN 跟踪器，请务必阅读这篇文章并下载 caffe 模型。

在下面的代码中，给定跟踪器类的名称，我们返回跟踪器对象。这将在稍后用于多目标跟踪器。

Python

C++

2.2 第 2 步：读取视频的第一帧

多目标跟踪器需要两个输入

给定这些信息，跟踪器在所有后续帧中跟踪这些指定对象的位置。在下面的代码中，我们首先使用 VideoCapture 类加载视频并读取第一帧。这将在稍后用于初始化 MultiTracker。

Python

C++

2.3 第 3 步：在第一帧中定位对象

接下来，我们需要在第一帧中定位我们想要跟踪的对象。该位置只是一个边界框。 OpenCV 提供了一个名为 selectROI 的函数，该函数会d出一个 GUI 来选择边界框（也称为感兴趣区域 (ROI)）。在 C++ 版本中，selectROI 允许您获取多个边界框，但在 Python 版本中，它只返回一个边界框。所以，在 Python 版本中，我们需要一个循环来获取多个边界框。对于每个对象，我们还选择一种随机颜色来显示边界框。代码如下所示。

Python

C++

getRandomColors 函数相当简贺并单

2.4 第 3 步：初始化 MultiTracker

到目前为止，我们已经读取了第一帧并获得了对象周围的边界框。这就是我们初始化多目标跟踪器所需的所有信息。

我们首先创建一个 MultiTracker 对象，并向其中添加与边界框一样多的单个对象跟踪器。在此示例中，我们使用 CSRT 单对象跟踪器，但您可以通过将下面的 trackerType 变量更改为本文开头提到的 8 个跟踪器之一来尝试其他跟踪器类型。 CSRT 跟踪器不是最快的，但在我们尝试的许多情况禅雀迹下它产生了最好的结果。

您还可以使用包裹在同岁运一个 MultiTracker 中的不同跟踪器，但当然，这没什么意义。

MultiTracker 类只是这些单个对象跟踪器的包装器。正如我们从上一篇文章中知道的那样，单个对象跟踪器是使用第一帧初始化的，并且边界框指示我们想要跟踪的对象的位置。 MultiTracker 将此信息传递给它在内部包装的单个对象跟踪器。

Python

C++

2.5 第 4 步：更新 MultiTracker 并显示结果

最后，我们的 MultiTracker 已准备就绪，我们可以在新帧中跟踪多个对象。我们使用 MultiTracker 类的 update 方法来定位新框架中的对象。每个跟踪对象的每个边界框都使用不同的颜色绘制。

Python

C++

Python

姓名：刘帆；学号：20021210609；学院：电子工程学院

https://blog.csdn.net/qq_34919792/article/details/89893665

【嵌牛导读】基于深度学习的算法在图像和视频识别任务中取得了广泛的应用和突破性的进展。从图像分类问题到行人重识别问题，深度学习方法相比传统方法表现出极大的优势。与行人重识别问题紧密相关的是行人的多目标跟踪问题。

【嵌牛鼻子】深度多目标跟踪算法

【嵌牛提问】深度多目标跟踪算法有哪些？

【嵌牛正文】

第一阶段型胡（概率统计最大化的追踪）

1）多假设多目标追踪算法（MHT，基于kalman在多目标上的拓展）

多假设跟踪算法(MHT)是非常经典的多目标跟踪算法，由Reid在对雷达信号的自动跟踪研究中提出，本质上是基于Kalman滤波跟踪算法在多目标跟踪问题中的扩展。

卡尔曼滤波实际上是一种贝叶斯推理的应用，通过历史关联的预测量和k时刻的预测量来计算后验概率：

关联假设的后验分布是历史累计概率密度的连乘，转化为对数形式，可以看出总体后验概率的对数是每一步观察似然和关联假设似然的求和。但是若同时出现多个轨迹的时候，则需要考虑可能存在的多个假设关联。

左图为k-3时刻三个检测观察和两条轨迹的可能匹配。对于这种匹配关系，可以继续向前预测两帧，如图右。得到一种三层的假设树结构，对于假设树根枝干的剪枝，得到k-3时刻的最终关联结果。随着可能性增加，假设组合会爆炸性增多，为此，只为了保留最大关联性，我们需要对其他的节点进行裁剪。下式为选择方程

实际上MHT不会单独使用，一般作为单目标追踪的扩展添加。

2）基于检测可信度的粒子滤波算法

这个算法分为两个步骤：

1、对每一帧的检测结果，利用贪心匹配算法与已有的对象轨迹进行关联。

其中tr表示一个轨迹，d是某一个检测，他们的匹配亲和度计算包含三个部分：在线更新的分类学习模型(d)，用来判断检测结果是不是属于轨迹tr轨迹的每个粒子与检测的匹配度，采用中心距离的高斯密度函数求和(d-p)表示；与检测尺寸大小相关的阈值函数g(tr,d)，表示检测与轨迹尺度的符合程度, 而α是预设的一个超参数。

计算出匹配亲和度矩阵之后，可以采用二部图匹配的Hungarian算法计算匹配结果。不过作者采用了近似的贪心匹配算告闹法，即首先找到亲和度最大的那个匹配，然后删除这个卜友拦亲和度，寻找下一个匹配，依次类推。贪心匹配算法复杂度是线性，大部分情况下，也能得到最优匹配结果。

2、利用关联结果，计算每个对象的粒子群权重，作为粒子滤波框架中的观察似然概率。

其中tr表示需要跟踪的对象轨迹，p是某个粒子。指示函数I(tr)表示第一步关联中，轨迹tr是不是关联到某个检测结果，当存在关联时，计算与关联的检测d 的高斯密度P{n}(p-d )；C{tr}§是对这个粒子的分类概率；§是粒子通过检测算法得到的检测可信度，(tr)是一个加权函数，计算如下：

3）基于马尔科夫决策的多目标跟踪算法

作者把目标跟踪看作为状态转移的过程，转移的过程用马尔科夫决策过程(MDP)建模。一个马尔科夫决策过程包括下面四个元素：(S, A, T(.),R(.))。其中S表示状态集合，A表示动作集合，T表示状态转移集合，R表示奖励函数集合。一个决策是指根据状态s确定动作a, 即 π: SA。一个对象的跟踪过程包括如下决策过程：

从Active状态转移到Tracked或者Inactive状态：即判断新出现的对象是否是真。

从Tracked状态转移到Tracked或者Lost状态：即判断对象是否是持续跟踪或者暂时处于丢失状态。

从Lost状态转移到Lost或者Tracked或者Inactive状态：即判断丢失对象是否重新被跟踪，被终止，或者继续处于丢失状态。

作者设计了三个奖励函数来描述上述决策过程：

第一个是：

即判断新出现的对象是否为真，y(a)=1时表示转移到跟踪状态，反之转移到终止状态。这是一个二分类问题，采用2类SVM模型学习得到。这里用了5维特征向量：包括x-y坐标、宽、高和检测的分数。

第二个是：

这个函数用来判断跟踪对象下一时刻状态是否是出于继续跟踪，还是处于丢失，即跟踪失败。这里作者用了5个历史模板，每个模板和当前图像块做光流匹配，emedFB表示光流中心偏差，表示平均重合率。和是阈值。

第三个是：

这个函数用来判断丢失对象是否重新跟踪，或者终止，或者保持丢失状态不变。这里当丢失状态连续保持超过 (=50)时，则转向终止，其他情况下通过计算M个检测匹配，来判断是否存在最优的匹配使上式(3-14)奖励最大，并大于0。这里涉及两个问题如何设计特征以及如何学习参数。这里作者构造了12维与模板匹配相关的统计值。而参数的学习采用强化学习过程，主要思想是在犯错时候更新二类分类器值。

第二阶段深度学习应用

1）基于对称网络的多目标跟踪算法

关于Siamese网络在单目标跟踪深度学习中有了介绍，在这里不再介绍，可以向前参考。

2）基于最小多割图模型的多目标跟踪算法

上述算法中为了匹配两个检测采用LUV图像格式以及光流图像。Tang等人在文献中发现采用深度学习计算的类光流特征(DeepMatching)，结合表示能力更强的模型也可以得到效果很好的多目标跟踪结果。

基于DeepMatching特征，可以构造下列5维特征：

其中MI,MU表示检测矩形框中匹配的点的交集大小以及并集大小，ξv和ξw表示检测信任度。利用这5维特征可以学习一个逻辑回归分类器。

同样，为了计算边的匹配代价，需要设计匹配特征。这里，作者采用结合姿态对齐的叠加Siamese网络计算匹配相似度，如图9，采用的网络模型StackNetPose具有最好的重识别性能。

综合StackNetPose网络匹配信任度、深度光流特征(deepMatching)和时空相关度，作者设计了新的匹配特征向量。类似于[2], 计算逻辑回归匹配概率。最终的跟踪结果取得了非常突出的进步。在MOT2016测试数据上的结果如下表：

3）通过时空域关注模型学习多目标跟踪算法

除了采用解决目标重识别问题的深度网络架构学习检测匹配特征，还可以根据多目标跟踪场景的特点，设计合适的深度网络模型来学习检测匹配特征。Chu等人对行人多目标跟踪问题中跟踪算法发生漂移进行统计分析，发现不同行人发生交互时，互相遮挡是跟踪算法产生漂移的重要原因[4]。如图10。

在这里插入图片描述

针对这个问题，文献[4]提出了基于空间时间关注模型(STAM)用于学习遮挡情况，并判别可能出现的干扰目标。如图11，空间关注模型用于生成遮挡发生时的特征权重，当候选检测特征加权之后，通过分类器进行选择得到估计的目标跟踪结果，时间关注模型加权历史样本和当前样本，从而得到加权的损失函数，用于在线更新目标模型。

该过程分三步，第一步是学习特征可见图：

第二步是根据特征可见图，计算空间关注图(Spatial Attention):

其中fatt是一个局部连接的卷积和打分 *** 作。wtji是学习到的参数。

第三步根据空间注意图加权原特征图：

对生成的加权特征图进行卷积和全连接网络 *** 作，生成二元分类器判别是否是目标自身。最后用得到分类打分选择最优的跟踪结果。

4）基于循环网络判别融合表观运动交互的多目标跟踪算法

上面介绍的算法采用的深度网络模型都是基于卷积网络结构，由于目标跟踪是通过历史轨迹信息来判断新的目标状态，因此，设计能够记忆历史信息并根据历史信息来学习匹配相似性度量的网络结构来增强多目标跟踪的性能也是比较可行的算法框架。

考虑从三个方面特征计算轨迹历史信息与检测的匹配：表观特征，运动特征，以及交互模式特征。这三个方面的特征融合以分层方式计算。

在底层的特征匹配计算中，三个特征都采用了长短期记忆模型(LSTM)。对于表观特征，首先采用VGG-16卷积网络生成500维的特征ϕtA，以这个特征作为LSTM的输入计算循环。

对于运动特征，取相对位移vit为基本输入特征，直接输入LSTM模型计算没时刻的输出ϕi，对于下一时刻的检测同样计算相对位移vjt+1,通过全连接网络计算特征ϕj，类似于表观特征计算500维特征ϕm，并利用二元匹配分类器进行网络的预训练。

对于交互特征，取以目标中心位置周围矩形领域内其他目标所占的相对位置映射图作为LSTM模型的输入特征，计算输出特征ϕi，对于t+1时刻的检测计算类似的相对位置映射图为特征，通过全连接网络计算特征ϕj，类似于运动模型，通过全连接网络计算500维特征ϕI，进行同样的分类训练。

当三个特征ϕA，ϕM，ϕI都计算之后拼接为完整的特征，输入到上层的LSTM网络，对输出的向量进行全连接计算，然后用于匹配分类，匹配正确为1，否则为0。对于最后的网络结构，还需要进行微调，以优化整体网络性能。最后的分类打分看作为相似度用于检测与轨迹目标的匹配计算。最终的跟踪框架采用在线的检测与轨迹匹配方法进行计算。

5）基于双线性长短期循环网络模型的多目标跟踪算法

在对LSTM中各个门函数的设计进行分析之后，Kim等人认为仅仅用基本的LSTM模型对于表观特征并不是最佳的方案，在文献[10]中，Kim等人设计了基于双线性LSTM的表观特征学习网络模型。

除了利用传统的LSTM进行匹配学习，或者类似[5]中的算法，拼接LSTM输出与输入特征，作者设计了基于乘法的双线性LSTM模型，利用LSTM的隐含层特征(记忆)信息与输入的乘积作为特征，进行匹配分类器的学习。

这里对于隐含层特征ht-1,必须先进行重新排列(reshape) *** 作，然后才能乘以输入的特征向量xt。

其中f表示非线性激活函数，mt是新的特征输入。而原始的检测图像采用ResNet50提取2048维的特征，并通过全连接降为256维。下表中对于不同网络结构、网络特征维度、以及不同LSTM历史长度时，表观特征的学习对跟踪性能的影响做了验证。

可以看出采用双线性LSTM(bilinear LSTM)的表观特征性能最好，此时的历史相关长度最佳为40，这个值远远超过文献[5]中的2-4帧历史长度。相对来说40帧历史信息影响更接近人类的直觉。

状态预测（位置、速度等）的准不准，影响了目标之间能否正确匹配（目标编号）。

上图是多目标跟踪的一戚老个例子，有效跟踪范围为x=0到x=200之间，红线表示卡尔曼滤波的 初始化 及更新阶段，绿线表示预测阶段。

当t=1时，

当t=2时，

当t=3时，

当t=4时，

当t=5时，

当t=6时，

由上述分析可高笑升知，卡尔曼滤波算法对多目标的状态进行估计，匈牙利算法对多目标进行匹配，实现多升清目标跟踪。

参考 https://www.pianshen.com/article/9795849360/

公式中 A和H为转移矩阵

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/yw/12500216.html

目标跟踪（3）MultiTracker : 基于 OpenCV (C++Python) 的多目标跟踪

发表评论

评论列表（0条）