[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition_CMS教程

摘要：深度卷积网络在静态图像的视觉识别方面取得了巨大的成功。但是，对于视频中的动作识别，相对于传统方法的优势并不是那么明显。本文旨在设计有效的ConvNet架构来进行视频动作识别，并在有限的训练样本下学习这些模型。我们的第一项贡献是时间分段网络（TSN），这是一种基于视频的动作识别的新框架。这个结构是基于远程时间建模的思想。它结合了稀疏的时间采样策略和视频级的监督，可以使用整个动作视频进行有效的学习。另一个贡献是我们研究了在时间分段网络的帮助下学习视频数据上的ConvNet的一系列实践。我们的方法在HMDB51（694％）和UCF101（942％）的数据集上实现了SOTA。我们还将ConvNet模型可视化，证明了时间分段网络和提出方法的有效性。

1介绍

基于视频的动作识别由于其在安全和行为分析等许多领域中的应用而引起了学术界的极大关注[1,2,3,4,5,6]。在动作识别中，有两个关键且互补的方面：外观和动态。识别系统的性能在很大程度上取决于它是否能够从中提取和利用相关信息。然而，由于诸如尺度变化，视角变化和相机运动之类的复杂因素，提取这样的信息是困难的。因此，设计有效的表示形式以解决这些挑战同时保留动作类别的分类信息就变得至关重要。最近，卷积神经网络[7]在对物体，场景和复杂事件的图像进行分类方面取得了巨大的成功[891011]。ConvNets也已被引入以解决基于视频的动作识别问题[12,1,13,14]。深度ConvNets具有强大的建模能力，并能够在大规模监督数据集的帮助下从原始视觉数据中学习区分表示。但是，与图像分类不同，端到端的深层ConvNet仍然无法获得比传统手工特征提取明显的优势。

我们认为，ConvNets在基于视频的动作识别中的应用有两个主要障碍。首先，长时间结构在理解动作视频的动态过程中起着重要作用[15,16,17,18]。但是，主流的ConvNet框架[1,13]通常集中在外观和短期运动上，因此缺乏整合长时间结构的能力。最近有一些尝试[19,4,20]来解决这个问题。这些方法主要依赖于具有设定采样间隔的密集时间采样。当将这种方法应用于长视频序列时，将导致过多的计算成本，这限制了其在现实世界中的应用，并存在丢失长于最大长度视频的重要信息的风险。其次，在实践中，训练深层ConvNets需要大量训练样本才能实现最佳性能。但是，由于数据收集和标注的困难，可公开使用的动作识别数据集（例如UCF101 [21]，HMDB51 [22]）在大小和多样性上都受到限制。因此，非在图像分类中取得了显著成功深层ConvNets [9,23]在视频中面临着过拟合的高风险。

这些挑战促使我们研究两个问题：1）如何设计一种有效和高效的视频级框架来学习视频表示，该框架能够捕获长期的时间结构； 2）如何在有限的训练样本下学习ConvNet模型。特别是，我们在成功的双流体系结构[1]的基础上构建了我们的方法，同时解决了上述问题。在时间结构建模方面，一个关键的发现是连续的帧是高度冗余的。因此，高度相似采样帧的密集时间采样通常是不需要的。相反，在这种情况下，稀疏的时间采样策略将更为有利。受此发现的启发，我们提出了一个视频级框架，称为时间分段网络（TSN）。该框架采用稀疏采样方案在较长的视频序列上提取短片段，其中采样沿时间维度均匀分布。之后，采用分段结构来聚集来自采样片段的信息。从这个意义上讲，TSN能够对整个视频的长时间结构进行建模。而且，这种稀疏的采样策略可以以较低的成本保存相关信息，从而可以在合理的时间和计算资源下，在长视频序列上进行端到端学习。

为了开发STN框架的全部潜力，我们采用了最近介绍的深层ConvNet架构[23,9]，并探索了许多良好实践以克服由以下训练样本不足原因带来的上述问题，包括1）交叉预训练；2）正规化；3）数据增强扩充。同时，为了充分利用视频中的视觉内容，我们对双流ConvNets的四种输入形式进行了经验研究，即单RGB图像，堆叠的RGB差，堆叠的光流场和堆叠的矫正光流场。

我们对两个具有挑战性的动作识别数据集（UCF101 [21]和HMDB51 [22]）进行了实验，以验证我们方法的有效性。在实验中，使用TSN学习的模型在这两个具有挑战性的动作识别数据集上的表现SOTA。我们还可视化了我们所学的双流模型，试图为将来的动作识别研究提供一些参考。

2相关工作

在过去的几年中，动作识别已被广泛研究[2,24,25,26,18]。与我们有关的先前研究分为两类：（1）用于动作识别的卷积网络，（2）时间结构建模。

卷积网络的动作识别 。先前的许多工作一直在尝试设计有效的ConvNet架构来进行视频中的动作识别[12,1,13,27,28]。Karpathy等[12]在大型数据集（Sports-1M）上测试了具有深层结构的ConvNets。 Simonyan等[1]通过利用ImageNet数据集进行预训练和计算光流以捕获运动信息，设计了包含空间和时间网络的双流ConvNet。Tran等[13]在现实和大规模的视频数据集上探索了3D卷积[27]，他们尝试通过3D卷积运算学习外观和运动特征。Sun等[28]提出了一个基于分解的时空ConvNets，并利用不同的方法来分解3D卷积核。最近，有几篇文章着重介绍了使用卷积建模长时间结构的方法[4,19,20]。但是，这些方法直接在较长的连续视频流上运行。受计算成本的限制，这些方法通常处理固定长度为64到120帧的序列。由于它的时间覆盖范围有限，因此从整个视频中进行学习并非易事。我们的方法与这些端到端深层ConvNets的不同之处在于，它新颖地采用了稀疏的时间采样策略，该策略可以在不限制序列长度的情况下使用整个视频进行有效的学习。

时间结构建模 。许多研究工作致力于为动作识别时间结构建模[15,16,17,29,30,18]。Gaidon等[16]注释了每个视频的每个子动作，并提出了用于动作检测的Actom序列模型（ASM）。Niebles等[15]提出使用潜在变量来建模复杂动作的时间分解，并借助潜在SVM [31]以迭代方式学习模型参数。Wang等[17]和Pirsiavash等。[29]分别使用隐性层次模型（LHM）和分段语法模型（SGM）将复杂动作的时间分解扩展为分层方式。Wang等[30]设计了一个顺序骨架模型（SSM）来捕捉动态体之间的关系，并进行时空动作检测。 Fernando [18]为行为识别建模了BoVW表示。但是，这些方法仍然无法组合用于对时间结构建模的端到端学习方案。前文所提出的时间分段网络STN，同时也强调了这一原理，是对整个视频进行端到端时间结构建模的第一个框架。

3时间分段网络的动作识别

在本节中，我们将详细介绍使用时间分段网络执行动作识别的过程。具体来说，我们首先介绍TSN框架中的基本概念。然后，我们研究在TSN框架内学习双流ConvNet的实践。最后，我们描述了学习到的双流ConvNets的测试细节。

31时间分段网络

正如我们在第一节中讨论的那样。如图1所示，双流ConvNets当前的一个明显问题是它们无法建模长时间结构。这主要是由于它们对时间轴前后的访问受到限制，它们被设计为仅在短片段中的单个帧（空间网络）或单个帧堆栈（时间网络）上运行。但是，复杂的动作（例如体育动作）包括跨越相对较长时间的多个阶段。如果在ConvNet训练中没有在这些动作中使用长时间结构，那将是巨大的损失。为了解决这个问题，我们提出了时间分段网络，即图1所示的视频级框架，以便能够对整个视频进行动态建模。

具体来说，我们提出的时间分段网络框架，旨在利用整个视频的视觉信息来执行视频级别的预测，它也由空间流ConvNet和时间流ConvNet组成。时间分段网络不是在单个帧或帧堆栈上工作，而是在从整个视频中稀疏采样的一系列短片段上运行。此序列中的每个片段都将对动作类别产生自己的初步预测。然后，片段之间的共识将被导出为视频级别的预测。在学习过程中，通过迭代更新模型参数来优化视频级预测的损失值，而不是用于双流ConvNet的局部预测的损失值。

形式上，给定视频V，我们将其分为相等持续时间的K个段{S1，S2，…，SK}。然后，TSN对片段序列进行如下建模：

其中C是动作类别的数量，yi是类别i的标签。在实验中，根据先前的时间建模工作 [16,17]，片段的数量K设置为3。函数G的形式仍然是一个悬而未决的问题。在这项工作中，我们使用最简单的G形式，其中Gi = g（Fi（T1），，Fi（TK））。此处，使用函数g从所有片段上的同一类别的分数推断出类别分数Gi。我们根据经验评估了聚合函数g的几种不同形式，包括实验中的平均，极值和加权平均。其中，平均均值用于报告我们的最终识别准确性。

取决于g的选择，此TSN是可微的或至少具有子梯度。这使我们能够利用多个片段，通过标准的反向传播算法共同优化模型参数W。在反向传播过程中，模型参数W相对于损耗值L的梯度可以推导为:

32学习时间分段网络

时间分段网络提供了执行视频级学习的框架，但是要实现最佳性能，必须注意一些实际问题，例如训练样本数量有限。为此，我们研究了在视频数据上训练深层ConvNet的一系列良好做法，这些做法也可直接应用于学习时间分段网络。

网络体系结构 。网络体系结构是神经网络设计中的重要因素。几项工作表明，更深的结构可以提高对象识别性能[9,10]。但是，原始的双流Con vNets [1]采用了相对较浅的网络结构（ClarifaiNet [32]）。在这项工作中，由于在准确性和效率之间具有良好平衡和批归一化的Inception[23]作为构建基块。我们将原始的BN-Inception体系结构调整为双流ConvNet的设计。像在原始的双流ConvNets [1]中一样，空间流在单个RGB图像上运行，而时间流将一堆连续的光流场作为输入。

网络输入 。我们也有兴趣探索更多的输入方式来增强STN的判别能力。最初，双流ConvNets将RGB图像用于空间流，将堆叠的光流场用于时间流。在这里，我们建议研究两种额外的模式，即RGB差和矫正流场。

单个RGB图像通常在特定时间点编码静态外观，且缺少有关上下帧的信息。如图2所示，两个连续帧之间的RGB差异描述了外观变化，该变化可能与运动显著区域相对应。受[28]的启发，我们尝试添加叠加的RGB差作为另一种输入形式，并研究其在动作识别中的性能。

时间流ConvNets以光流场为输入，旨在捕获运动信息。但是，在真实的视频中，通常存在摄像机运动，并且光流场可能不会集中在人体运动上。如图2所示，由于摄像机的运动，在背景中突出了大量的水平运动。受iDT[2]的启发，我们建议将矫正的光流场作为附加的输入形式。根据[2]，我们首先通过估计单应性矩阵然后补偿相机运动来提取矫正光流。如图2所示，矫正的光流抑制了背景运动并使运动集中在人体身上。

网络训练。 由于用于动作识别的数据集相对较小，因此训练深度ConvNets面临着过拟合的风险。为了解决这个问题，我们设计了以下几种在时域网中训练卷积网络的策略。

交叉预训练。当目标数据集没有足够的训练样本时，预训练是初始化深层ConvNets的有效方法[1]。当空间网络将RGB图像作为输入时，参数可以利用在ImageNet [33]上训练的模型作为初始化。对于其他形式，例如光流场和RGB差，它们本质上捕获了视频数据的不同视觉方面，并且它们的分布与RGB图像的分布不同。我们提出了一种交叉预训练技术，其中我们利用RGB模型初始化时间流网络。首先，我们通过线性变换将光流场离散化为从0到255的间隔。此步骤使光流场的范围与RGB图像相同。然后，我们修改RGB模型的第一卷积层的权重以处理光流场的输入。具体来说，我们对RGB通道上的权重取平均值，并通过时间网络输入的通道数来复制该平均值。这种初始化方法在时态网络中效果很好，并减少了实验中过度拟合的影响。

正则化技术。批处理规范化[23]是处理协变量偏移问题的重要手段。在学习过程中，批次归一化将估计每个批次内的激活平均值和方差，并使用它们将这些激活值转换为标准的高斯分布。这项 *** 作会加快训练的收敛速度，但由于对有限数量的训练样本的分布估计存在偏差，会导致在传递过程中过拟合。因此，在使用预训练模型进行初始化之后，我们选择冻结除第一层外的所有批处理归一化层的均值和方差参数。由于光流的分布与RGB图像不同，因此第一卷积层的激活值将具有不同的分布，因此我们需要相应地重新估计均值和方差。我们称这种策略为局部BN。同时，我们在BN-Inception体系结构的全局池层之后添加了一个额外的随机失活层，以进一步减少过度拟合的影响。对于空间流ConvNet，随机失活率设置为08；对于时间流ConvNet，设置为07。

数据增强。数据增强可以生成各种训练样本，并防止严重的过拟合。在原始的双流ConvNet中，随机裁剪和水平翻转被用来增加训练样本。我们利用两种新的数据增强技术：角点裁剪和比例抖动。在角点裁剪技术中，仅从图像的角点或中心选择提取的区域，以避免隐式聚焦在图像的中心区域。在多尺度裁剪技术中，我们将ImageNet分类中使用的尺度抖动技术[9]应用于动作识别。我们提出了尺度抖动的有效实现。我们将输入图像或光流场的大小固定为256×340，并从{256，224，192，168}中随机选择裁剪区域的宽度和高度。最后，将这些裁剪区域的大小调整为224×224，以进行网络训练。实际上，此实现不仅包含比例抖动，而且还涉及纵横比抖动。

33测试TSN

最后，我们介绍了针对时间分段网络的测试方法。由于所有的片段ConvNet都共享TSN中的模型参数，因此学习到的模型可以像普通的ConvNet一样执行逐帧评估。这使我们能够与没有TSN的学习模型进行公平比较。具体来说，我们遵循原始双流ConvNets的测试方案[1]，在该方案中，我们从动作视频中采样了25个RGB帧或光流堆栈。同时，我们裁剪了4个角和1个中心，并从采样帧中进行了水平翻转以评估ConvNet。对于空间和时间流网络的融合，我们对它们进行加权平均。在TSN框架内学习时，空间流ConvNet和时间流ConvNet之间的性能差距比原始的双流ConvNet中的性能差距小得多。基于这一事实，我们将空间流的权重设置为1，将时间流的权重设置为15，从而为空间流赋予更高的权重。当同时使用正常和矫正的光流场时，对于正常光流，权重被划分为1，对于矫正的光流，权重被划分为05。在31中有描述，分段共识函数在Softmax归一化之前应用。为了测试模型是否符合训练条件，我们在Softmax归一化之前融合了25个帧和不同流的预测分数。

4实验

在本节中，我们首先介绍评估数据集和该方法的实现细节。然后，我们探索了用于学习时间分段网络的建议的良好实践。在此之后，我们证明了通过应用时间分段网络框架来建模长时间结构的重要性。我们还将我们的方法的性能与最新技术进行了比较。最后，我们将ConvNet模型可视化。

41数据集和实施细节

我们对两个大型动作数据集HMDB51[22]和UCF101 [21]进行实验。UCF101数据集包含101个动作类和13320个视频剪辑。我们遵循THUMOS13挑战[34]的评估方案，并采用三个训练/测试单元进行评估。HMDB51数据集是大量来自各种来源的真实视频的集合，例如**和网络视频。数据集由来自51个动作类别的6766个视频剪辑组成。我们的实验遵循原始的评估方案，使用了三个训练/测试拆分，并报告了这些拆分的平均准确性。

我们使用小批量随机梯度下降算法来学习网络参数，其中批量大小设置为256，动量设置为09。我们使用来自ImageNet [33]的预训练模型初始化网络权重。我们在实验中设置了较小的学习率。对于空间网络，学习率初始化为0001，并且每2 000次迭代降低到其十分之一。整个训练过程将在4500次迭代后停止。对于时间网络，我们将学习率初始化为0005，经过12000和18000次迭代后，学习率降低为十分之一。最大迭代次数设置为20000。关于数据增强，我们使用了第32节中指定的位置抖动，水平翻转，角点裁剪和比例抖动的技术。为了提取光流和矫正光流，我们选择在OpenCV中使用CUDA实现的TVL1光流算法[35]。为了加快训练速度，我们采用了具有多个GPU的数据并行策略，并通过我们的修改版Caffe [36]和OpenMPI实现了该策略。对于具有4个TITANX GPU的硬件设备，空间TSN在UCF101上的整个培训时间约为2小时，对于时间TSN则为9小时。

42进一步探究

在本节中，我们重点研究32节中描述的良好实践，包括培训策略和输入方式。在本实验研究中，我们使用[23]改编的具有深层体系结构的双流ConvNets，并对UCF101数据集的第1部分进行所有实验。

我们在第32节中提出了两种训练策略，即交叉预训练和具有随机失活的部分BN。具体来说，我们比较了四种设置：（1）从头开始训练（2）仅像[1]中那样预训练空间流（3）交叉预训练（4）使用交叉预训练和带有随机失活的BN层。结果如表1所中。首先，我们发现从头开始的训练性能要比原始的双流ConvNets（基准）差很多，这意味着精心设计的学习策略对于降低过拟合风险是必要的，尤其是对于空间网络。然后，我们使用空间流的预训练和时间流的交叉模态预训练，以初始化双流ConvNets，并且其性能比基线更好。我们进一步利用带有随机失活的部分BN来规范化训练过程，从而将识别性能提高到920％。

我们在第32节中提出了两种新型的模态：RGB差和矫正的光流场。表2中报告了比较不同模式性能的结果。这些实验是在表1中验证的所有良好实践下进行的。我们首先观察到RGB图像和RGB差的组合将识别性能提高到873％。此结果表明RGB图像和RGB差异可以对信息编码互补。然后表明，光流和矫正光流产生了非常相似的性能（872％对869％），并且将它们融合可以将性能提高到878％。结合所有四种模式可得出917％的准确性。由于RGB差可能描述相似但不稳定的运动模式，因此我们还评估了组合其他三种模式的性能，这带来了更好的识别精度（923％vs 917％）。我们推测光流更适合捕获运动信息，有时RGB差对于描述运动可能不稳定。另一方面，RGB差可以用作运动表示低质量，高速的替代方案。

43对于TSN的性能评价

在本小节中，我们专注于TSN框架工作的研究。我们首先研究分段共识函数的影响，然后在UCF101数据集的split 1上比较不同的ConvNet体系结构。为了进行比较，在此探索中，我们仅将RGB图像和光流场用作输入模态。如第31节所述，段数K设置为3。

在等式中（1），分段共识函数由其聚集函数g定义。在这里，我们评估了g的三个计算方式：（1）最大合并，（2）平均合并，（3）加权平均。实验结果总结在表3中。我们看到平均池化功能可实现最佳性能。因此，在以下实验中，我们选择平均池作为默认聚集功能。然后，我们比较了不同网络体系结构的性能，结果在表4中进行了总结。具体地说，我们比较了三种深层的体系结构：BN-Inception [23]，GoogLeNet [10]和VGGNet-16 [9]，所有这些架构都经过上述实践的训练。在比较的体系结构中，根据BN-Inception [23]改编的深层双流ConvNets达到了920％的最佳精度。这与它在图像分类任务中的更好表现相吻合。因此，我们选择BN-Inception [23]作为TSN的ConvNet架构。

设置了所有设计选项后，我们现在将时间分段网络（TSN）应用于动作识别。结果在表4中进行了说明。在表5中还提供了根据识别准确度对组件进行逐项分析的结果。我们可以看到，在前面所有良好实践下，时间分段网络都能够提高模型的性能。这证实了通过时间分段网络实现的对长时间结构进行建模对于理解视频中的动作至关重要。

44与SOTA相比较

在探索了良好的做法并了解了时间分段网络的效果之后，我们准备建立最终的动作识别方法。具体来说，我们使用了三种输入方式以及描述的所有技术作为最终方法，并在两个具有挑战性的数据集上进行了测试：HMDB51和UCF101。结果总结在表6中，在表6中，我们将我们的方法与传统方法（例如改进的轨迹（iDT）[2]，MoFAP表示[39]）和深度学习表示法例如3D卷积网络（C3D）[13]，轨迹合并的深度卷积描述符（TDD）[5]，分解时空卷积网络（FSTCN）[28]，长期卷积网络（LTC）[19]和关键卷挖掘框架（KVMF）[41]。我们的最佳结果在HMDB51数据集上优于其他方法39％，在UCF101数据集上优于11％。我们方法的优越性能证明了TSN的有效性，并证明了长期时域建模的重要性。

45模型可视化

除了识别精度，我们还想进一步了解所学的ConvNet模型。这里，我们采用DeepDraw[42]工具箱。此工具在仅具有白噪声的情况下对输入图像进行迭代梯度上升。因此，仅基于ConvNet模型内部的类知识，可以将经过多次迭代后的输出视为类可视化。该工具的原始版本仅处理RGB数据。为了对基于光流的模型进行可视化，我们调整了工具以使其与时间网络一起运行。结果，我们首次在动作识别ConvNet模型中可视化了有趣的类信息。我们从UCF101数据集中随机选择五个类别，即太极拳，打拳，跳水，跳远和自行车，以实现可视化。结果如图3所示。对于RGB和光流，我们将通过以下三种设置可视化学习的ConvNet模型：（1）不进行预训练；（2）仅接受预训练；（3）具有TSN。

一般而言，具有预训练的模型比没有进行预训练的模型更能表示视觉概念。可以看到，没有经过预训练的时空模型几乎不能产生任何有意义的视觉结构。利用预训练过程中传递的知识，空间和时间模型能够捕获结构化的视觉特征。

还很容易注意到，仅接受短期信息（例如单帧）训练的模型往往会将视频中的风景图案和物体误认为是行动识别的重要特征。例如，在“潜水”类中，除进行潜水的人员外，单帧空间流ConvNet主要查找水和潜水平台。它的时间流对应物（光流）趋向于集中于由水波引起的运动。随着时间分段网络引入的长期时间建模，显而易见的是，学习的模型更多地关注视频中的人，并且似乎正在对动作类的长时间结构进行建模。仍以“潜水”为例，具有时间分段网络的空间卷积网络现在生成的图像是人是主要的视觉信息。并且可以在图像中识别出不同的姿势，描绘了一个潜水动作的各个阶段。这表明用该方法学习的模型可能表现更好，这在我们的定量实验中得到了很好的体现。我们为读者提供补充材料，以实现更多动作类的可视化以及有关可视化过程的更多详细信息。

5结论

在本文中，我们介绍了时间分段网络（TSN），这是一个视频级框架，旨在为长期的时间结构建模。正如在两个具有挑战性的数据集上所展示的，这项工作将最新技术提升到了一个新的水平，同时保持了合理的计算成本。这主要归因于具有稀疏采样的分段体系结构以及我们在本文中探索的一系列良好实践。前者提供了一种捕获长期时间结构的有效方式，而后者则使得在有限的训练集上训练非常深的网络成为可能，而不会出现严重的过度拟合。

投的拼音投的解释投是什么意思

1、投字的拼音是tóu ; 2、投字的解释：(1)（动）放进去；送进去：～放。(2)（动）跳进去（专指自杀行为）。(3)（动）投射。(4)（动）寄给人（书信等）：～递。(5)（动）找上去；参加进去：～入。(6)（动）迎合。(7)（副）临；在…之前。

精选部分投组词的词语造句及词语的拼音和详细解释：

1、投生造句：佛陀和所有此后投生被认做的大师，被看成是“神”，导致神突然之间变成某种位于人类自身以外的事物，而不是内在的存在状态。

解释：投胎。

2、投药造句：对近年来发展较快的水处理混凝投药控制技术加以分类评述，指出混凝投药串级控制效果优良，有应用发展前途。

解释：给以药物服用。

3、地图投影造句：GIS中的空间参照系统是GIS平台中的重要组成部分，内容包括各种坐标系统的转换和地图投影，故也称为投影变换系统。

解释：以经纬网为基础，将地球曲面运用数学原理转绘为平面图形的方法。地图投影种类很多。由于地球是不可展开的曲面，所以各种地图投影，都会有某种变形。

4、投胎造句：如果没有，也许你会相信你会获得重生（即投胎转世之类）以及物种的轮回，当然这些都取决于你当前生活的行为处世方式。

解释：人或动物（多指家畜家禽）死后，灵魂投入母胎，转生世间（迷信）。也说投生。

5、投篮造句：美国队在2006年日本世锦赛上仅仅获得了一枚铜牌，而本届奥运会上，科比撕开对手防线的能力以及准确的投篮将会大幅度提升美国男篮的整体实力。

解释：打篮球时向球架上的铁圈投球。

6、投影造句：基于这一点，我们采取类似于函数式语言的方式来构建模板层，这样用户就可以一种简洁的方式组合多个页面（通过折叠和投影）了。

解释：（1）光学上指在光线的照射下物体的影子投射到一个面上，数学上指图形的影子投射到一个面或一条线上。（2）在一个面或一条线上投射的物体或图形的影子。

7、投入造句：可是，如果程序代码是在官方内核之外，那么，开发者投入时间和精力把他们的变化重新运用于后来的每个内核发行版是义不容辞的。

解释：投到某种环境里去：～战斗｜～生产｜～建设。

8、投诚造句：他于1964年秘密投诚，但他的间谍身份作为国家秘密被保留到了1979年，那时首相玛格丽特撒切尔夫人公开曝出其身份，女皇伊丽莎白二世撤销了他骑士身份。

解释：（敌人、判军等）诚心归附。

9、投稿造句：比如，也许你可以成为一个对其他产业的博客的定期评论员，或者把一些偶尔访客投稿投给现有的一个，而不是把所有的工作都用于运作你自己的博客上。

解释：把稿子送交报刊编辑部、出版社等，要求发表或出版：欢迎～。

10、投靠造句：世界上，公司的第一步策略就是分离一个群体，逐步除掉领导者，在家庭中播撒不和，那样一些人投靠了公司，一些人反对公司。

解释：前去依靠别人生活：～亲友｜卖身～。

11、投奔造句：自一月转会截止日从喜鹊投奔我军，卡罗尔已经待了三个礼拜了，国王承认他很开心看到安菲路新的9号参军后迅速融入军营生活。

解释：前去依靠（别人）。

12、投降主义造句：国民党中一切不愿意真正投降的人们，只要你们积极地发动了或参加了内战，你们就不可避免地要变为投降主义者。

解释：对敌人妥胁、屈服、不敢坚持斗争的思想和行动，是右倾机会主义的一种表现。

13、投案造句：小安帕图恩在家族和总统顾问杰西德瑞扎（JesusDureza）谈判数日后，为避免家族追随者和军之间的战斗，最终投案自首。

解释：犯法的人主动到司法机关或公安机关交代自己的作案经过，听候处理。

14、无记名投票造句：这不仅是一个超越了党派界限的议题，也是超越了是否为工会成员界限的议题：佐格比2004年进行的一次民意调查显示，78%的工会成员赞成无记名投票。

解释：一种选举方法，选举人在选票上不写自己的姓名。

15、投缘造句：他们希望能在暑假期间找到适合自己的另一半，如果相处得好就是长期情侣，假若不投缘，暑假结束回校后就分手。

解释：情意相合（多指初交）：两人越谈越～。

16、投递造句：在过去，如果在流程中数据出错，电子商务要在数天甚至数月以后才能收到不能投递的地址或是电子邮件。同时，客户还不明白他们的帐户出了什么问题。

解释：送（公文、信件等）；递送。

17、投掷造句：警方一开始说一名年轻人在教堂广场外打了贝鲁斯科尼脸部一拳，但后来说这个人可能是从近距离的地方向总理投掷物体。

解释：扔；投：～标q｜～sld。

18、投合造句：然而，因为直到我们在尝试了之后，我们才知道某个概念是否投合这种分析方法，那么我们就没有理由在一开始就把这种方法打发掉。

解释：（1）合得来：大家谈得很～。（2）迎合：～顾客的口味。

19、正投影造句：本文研究从正投影光流场恢复刚体三维运动和结构问题，建立了光流运动方程，提出一种判别多个光流点是否共面或是否属于同一刚体的有效方法。

解释：物体在一组平行光线的照射下在面上的投影叫正投影。投影的光线和投影面垂直。

20、投票造句：希望有个奴隶主的一百个人，又何以有权代表不希望有个奴隶主的那十个人进行投票？

解释：选举的一种方式，由选举人将所要选的人的姓名写在票上，或在印有候选人姓名的选票上做出标志，投入票箱。表决议案也有用投票方式的。

21、投放造句：称自己为“最低限度看涨派”的格莱斯表示，即使在市场最近的上涨期间，他也一直在投放一些现金，因为他还是发现了估值较低的资产。

解释：（1）投下去；放进：～鱼饵。（2）把人力、物力、资金等用于工农业或商业。（3）工商企业向市场供应商品。

22、投降造句：法国的参与对战争起了决定性的作用，1781年法国海军在切萨皮克的胜利致使约克镇的第二英国军投降。

解释：停止对抗，向对方屈服。

23、相投造句：这个刚刚起步的网站，认为自己将会“创造一本由你或来自世界各地兴趣相投的旅游者共同谱写的、可信度高的旅游指南。”

解释：（思想、感情等）彼此合得来：气味～｜兴趣～。

24、投资造句：这时候就得向朋友和家人借钱周转了，这些人投资给你是因为他们了解你，喜欢你，相信你。

解释：2投入企业的资金。

25、投资造句：这时候就得向朋友和家人借钱周转了，这些人投资给你是因为他们了解你，喜欢你，相信你。

解释：2投入企业的资金。

26、空投造句：去往许多地区的道路交通因桥梁倒塌、道路被堵而中断，直升飞机已向被困的幸存者空投物资，救援小组也划着橡皮船在汹涌泥泞的河流中穿行。

解释：从飞机上投下：给受灾地区～物资。

27、投射造句：这个虚拟激光键盘将键盘投射到桌上或其他适合的材质上，之后通过识别你的手指移动，将他们传输到你的掌上电脑或你所连接的设备上。

解释：（1）（对着目标）扔；掷。（2）（光线等）射：太阳从云海中升起，金色的光芒～到平静的海面上｜周围的人都对他～出惊讶的眼光。

28、投身造句：他投身到最近处的椅子上，我赶忙走上前看看她是不是昏迷了，他就对我咬牙切齿，像个疯狗似的吐着白沫，带着贪婪的嫉妒神色把她抱紧。

解释：献身出力：～在火热的战斗中。

29、投d造句：然后是一声低沉响的声音，我回过头极目望去，只见她把手中的牌子像投d一样掷进附近的湖中，上面还系了一个重重的螺栓。

解释：空投炸d或燃烧等，也指投掷sld。

30、投壶造句：另一方面，投壶在此一时期进一步通俗化，不仅继续受到士大夫阶层的喜爱，还进入普通民众的生活中，成为普通民众所喜闻乐见的游戏方式。

解释：古代宴会时的一种娱乐活动，宾主依次把筹投入壶中，以投中多少决定胜负，负者须饮酒。

31、信任投票造句：如果阿巴斯保持他对哈马斯的威胁，那么全民投票将会在七月如期举行，而且这将被看成是对在去年一月赢得合法选举的哈马斯的一次信任投票。

解释：资产阶级国家的议会，对内阁（即）实行监督的方式之一。议会在讨论组阁或政策时，可用投票方式表示对内阁信任或不信任。

32、投机造句：“我们必须找到一条新的途径这也许是一种古老的方式足够的需求，使经济无需经受过度投机造成的恶果，让它做它应该做的事情，”伯恩斯坦说。

解释：（1）见解相同：我们一路上谈得很～。（2）利用时机谋取私利：～取巧｜～分子。

33、投敌造句：衡阳之役与当时中国的政治走向有着直接关系。为此，方先觉作为是役主将，其投敌与否也就不是孤立的个人行为。

解释：投靠敌人。

34、投标造句：伦敦福斯特建筑事务所总部的一位发言人确认“存在投标”，但是拒绝详细说明福斯特征服外太空的计划，可能通过增加一个精美的玻璃圆屋顶。

解释：旧时承包建筑工程或承买大宗商品时，承包人或买主按照招标公告的标准和条件提出价格，填具标单，叫做投标。

35、投产造句：他说，根据这两处设施的设计能力，两处在全面投产后用不了一年，就都能生产出足以制造一枚核d的可裂变材料。

解释：投入生产。

36、投考造句：通常是通过国会议员为投考者提名，留学生则是由他们的提名并支付学费。

解释：报名应试：～高等学校。

37、投q造句：通过对我国优秀女子标q运动员投q出手速度的效果测度灰色关联分析，揭示其有关因素对标q出手速度所起的作用及地位。

解释：可以投掷出去杀伤敌人或野兽的标q。

38、投效造句：在财富的堆砌下，美国变成一个超级的大吸铁石，第一流的技术人才都投效美国。

解释：＜书＞前往效力。

39、投契造句：你不会喜欢你学习的每一门课目，你不会与你的每一位老师都很投契，不是所有的家庭作业似乎都与你眼前的生活完全有关。

解释：＜书＞投合；投机①。

40、投亲造句：来自佤邦南邓特区的一家难民在芒卡未找到自己的亲人，准备辗转到另一个地方投亲。

解释：投靠亲戚：～靠友。

41、投递员造句：该程序允许投递员和送货车辆在特定情况下可直接进入现场。

解释：邮电局中负责投递邮件和电报的人员。也叫邮递员。

42、举手投足造句：穿着白色T恤卡其外衣出现在下榻旅馆的茶室里，他举手投足流露出来的不是超级明星的慑人魅力而是如禅宗僧侣般不经意的静谧气质。

典故：一抬手，一动脚。形容轻而易举，毫不费力。

43、投机取巧造句："如果给予过多经济奖励和激励

员工就只会利用这点投机取巧

这正是我们已经看到的

"阿克尔洛夫在INET会议上对路透记者表示

典故：指用不正当的手段谋取私利。也指靠小聪明占便宜。

44、五体投地造句：约翰摩尔爵士从他身边的工作人员中发现了纳皮尔三兄弟，后者也对爵士礼敬有加。摩尔的礼貌、勇敢和廉洁使他们佩服得五体投地。

典故：两手、两膝和头一起着地。是佛教一种最恭敬的行礼仪式。比喻佩服到了极点。

45、投桃报李造句：与此同时，工党也投桃报李，在其执政期间无论是对新闻集团旗下的报纸还是对新闻集团持股391%的天空广播公司的业务运作都积极支持较少限制。

典故：意思是他送给我桃儿，我以李子回赠他。比喻友好往来或互相赠送东西。

46、情投意合造句：有一对情投意合的蜘蛛在山洞口织了一个网，当可恶的军阀的士兵来到这个山洞时，发现这里布满蛛网，因此士兵想有这么多蛛网的地方肯定里面不会有人。

典故：投：相合。形容双方思想感情融洽，合得来。

47、走投无路造句：就我所知，当他们走投无路的时候，尤其是房屋被卖，父母辞世或者钱财耗尽的时候，这些患有“青年隐蔽”的人主要只选择药物治疗。

典故：投：投奔。无路可走，已到绝境。比喻处境极困难，找不到出路。

48、投其所好造句：当你明确了职业定位后就能够快速锁定求职目标，自己知道该找怎样的工作，在哪里可以获得这样的工作机会，简历就能“投其所好”。

典故：投：迎合；其：代词，他，他的；好：爱好。迎合别人的喜好。

49、投机倒把造句：想想私人名下的ABC幼儿护理中心在市场中投机倒把，导致儿童服务行业损失了上百万的澳洲客户。

典故：利用时机，以囤积居奇，买空卖空、掺杂作假、 *** 纵物价等方式扰乱市场，牟取暴利。

50、自投罗网造句：就这样了，他妈的国家，我们因为谎言和虚假的承诺而自投罗网，你的时间生命将为中国那些自愿乐意借出的（债务）而存在。

典故：投：进入；罗网：捕捉鱼鸟的器具。自己投到罗网里去。比喻自己送死。

51、意气相投造句：在以赛亚二世愤怒的流亡感叹和《祭祀派著作》愈发意气相投的声音之中，以色列的单一神论已经从排他性转向包容性。

典故：意气：志趣性格；投：合得来。指志趣和性格相同的人，彼此投合。

52、话不投机造句：杨鸿目睹“话不投机”，当即起草民事诉状将山西路百货商店告到了南京鼓楼区法院。

典故：投机：意见相合。形容话说不到一起。

53、气味相投造句：李文与特纳宣布他们的合并计划时，大家都说那是地球会火星，但上星期，协商这项交易的两位大老板似乎气味相投，看到同样的前景。

典故：气味：比喻性格和志趣；投：投合。指人思想作风相同，彼此很合得来。

54、臭味相投造句：哈佛商学院的BenjaminEdelman说“谈道成人娱乐业，似乎更能看出人们臭味相投的一面”。

典故：臭味：气味；相投：互相投合。彼此的思想作风、兴趣等相同，很合得来（常指坏的）。

55、投笔从戎造句：有别于那些为了躲避应征入伍而将国家的大学作为避难天堂的一大群年轻人，奥利佛斯通从耶鲁大学投笔从戎，应征到越南服役。

典故：从戎：从军，参军。扔掉笔去参军。指文人从军。

56、病急乱投医造句：根据睡眠杂志上的一篇研究报道，失眠患者为求得一夜好眠，到了病急乱投医的地步，他们花在酒精上的钱，比花在睡眠辅助药物和器械的钱总和还要多。

典故：病势沉重，到处乱请医生。比喻事情到了紧急的时候，到处求人或乱想办法。

57、卖身投靠造句：他宁愿自杀而不愿卖身投靠敌人。

典故：出卖自己，投靠有权势的人。比喻丧失人格，甘心充当恶势力的工具。

58、投鼠忌器造句：“这倒不是因为宗教无关紧要，”耶鲁大学心理学家PaulBloom解释道，“而是因为这个话题具有令人投鼠忌器的本质，所以这方面一直进展甚微。”

典故：投：用东西去掷；忌：怕，有所顾虑。想用东西打老鼠，又怕打坏了近旁的器物。比喻做事有顾忌，不敢放手干。

59、投闲置散造句：我现在还想补充一点，很重要的一点。根据我个人七八十年的经验，一个人决不能让自己的脑筋投闲置散，要经常让脑筋活动着。

典故：投、置：安放；闲、散：没有事干。指安排在不重要的职位或没有安排工作。

60、弃暗投明造句：民选必须越来越多的为并不完全受其控制的政策负责。然而选民无权在布鲁塞尔举行的会议上抛出“弃暗投明”的一票。

典故：离开黑暗，投向光明。比喻在政治上脱离反动阵营，投向进步方面。

有关投字组词的词语列表 投的组词投怎么组词投的多音字组词投字组词

博投、大投、窜投、归投、奔投、访投、倒投、浪投、空投、句投、碓投、探投、投袂、投首、投球、投食、投考、投书、投洽、投军、投q、投命、投售、投金、投琼、投艰、投栖、投漆、拾投、侍投、投酒、投票、报投、投敌、一投、投药、投裔、投檄、投拜、投放、投义、投到、投告、投窜、投砖、投瓜、投策、投缘、投笏、投牒、投传、投赴、投渊、投产、投附、投迹、投止、投子、投注、投畀、投鞭、投绂、投钓、投足、投店、投斋、投置、投宿、投匮、跳投、投谒、投工、投晓、投资、投状、投案、投刺、投供、投簪、投杼、投果、投营、投贽、投掷、投行、投诉、投梭、投下、投赠、投分、投步、投d、投稿、投托、投归、投兵、珍投、投匦、投谗、投隙、投化、投笔、投厝、投斧、投体、投奔、投版、投辖、投殒、投钩、投词、投标、投地、投胎、投影、投狭、投死、投荒、投文、投递、投向、投献、中投、自投、隐投、依投、相投、投明、投林、投顺、投契、投入、投款、投躯、投老、投霓、投靠、投师、投纶、投鼠、投钱、投亲、投篮、投几、投视、投生、投签、投间、投旗、投戈、投阁、投香、投名、投暮、投寄、投拍、投藉、投射、投解、投醪、投胶、投弃、投殛、投棰、投环、投冠、投诚、投报、投心、投闲、投壶、投邮、投医、投效、投合、投缳、投央、投得、投充、投机、投劾、投竿、投险、投至、九投、竞投、弃投、皈投、赍投、戆投、投身、投卵、投降、暗投、投石、投票站、投脑酒、投影仪、投保人、投身纸、投金濑、投文牌、投递员、不相投、明珠夜投、明珠暗投、孟公投辖、投资主体、投资公司、投杼市虎、投戈讲艺、投河觅井、投资环境、投机倒把、投闲置散、投畀豺虎、投鞭断流、以胶投漆、以卵投石、意合情投、望门投止、五体投地、拔辖投井、智力投资、三告投杼、如水投石、投阱下石、投刃皆虚、投袂而起、投其所好、投鼠之忌、投井下石、投山窜海、投石超距、投sld、投石下井、投石拔距、话不相投、毁方投圆、飞蛾投焰、如石投水、情投意和、穷猿投林、情投谊合、情投意洽、举手投足、救焚投薪、胶漆相投、解甲投戈、东投西窜、背暗投明、公民投票、赴汤投火、箪醪投川、乘间投隙、冰炭不投、闭门投辖、投袂援戈、似漆投胶、投袂荷戈、投鼠忌器、投河奔井、投资银行、投石问路、投卵击石、投间抵隙、投诸四裔、投壶电笑、投隙抵罅、投膏止火、投梭折齿、投梭之拒、投辖留宾、投杼之疑、以水投水、以石投水、以水投石、以石投卵、雅歌投壶、遗大投艰、遗艰投大、以蚓投鱼、引手投足、义气相投、饮马投钱、意气相投、有国难投、鱼水相投、玉燕投怀、语不投机、凿空投隙、曾母投杼、珠投璧抵、针芥之投、探筹投钩、投桃报李、自投罗网、走投没路、走投无计、自投网罗、走投无路、投桃之报、投资基金、投机取巧、投影电视、投笔从戎、投传而去、五体投诚、针芥相投、委重投艰、下井投石、忙投急趁、救火投薪、焦熬投石、如胶投漆、去暗投明、取辖投井、情投意合、情投契合、若卵投石、穷鸟投人、气味相投、弃甲投戈、牵衣投辖、弃明投暗、气义相投、弃觚投笔、弃暗投明、气谊相投、偶变投隙、器鼠难投、明珠投暗、卖身投靠、落井投石、滚芥投针、负薪投璧、话不投机、石投大海、声气相投、散阵投巢、水火不投、投木报琼、报李投桃、匕首投q、饿鬼投胎、飞蛾投火、臭味相投、陈遵投辖、病笃乱投医、无记名投票、病急乱投医、无条件投降、外商投资经济、信托投资公司、外商投资企业、对外间接投资、公众投资基金、对外直接投资

第一章介绍运动的分类、计算机视觉领域中运动分析模型、计算机视觉领域运动检测和目标跟踪技术研究现状、计算机视觉领域中运动分析技术的难点等内容；第二章介绍传统的运动检测和目标跟踪算法，包括背景差分法、帧间差分法、光流场评估算法等；第三章介绍具有周期性运动特征的低速目标运动检测和跟踪算法，并以CCD测量系统为例介绍该算法的应用；第四章介绍高速运动目标识别和跟踪算法，并以激光通信十信标光捕获和跟踪系统为例介绍该算法的应用；第五章介绍具有复杂背景的目标运动检测过程中采用的光流场算法，包括正规化相关的特性及其改进光流场评估算法，并介绍改进光流场算法的具体应用；第六章介绍互补投票法实现可信赖运动向量估计。

混合高斯模型：

运动检测的一般方法

目前，运动物体检测的问题主要分为两类，摄像机固定和摄像机运动。对于摄像机运动的运动物体检测问题，比较著名的解决方案是光流法，通过求解偏微分方程求的图像序列的光流场，从而预测摄像机的运动状态。对于摄像机固定的情形，当然也可以用光流法，但是由于光流法的复杂性，往往难以实时的计算，所以我采用高斯背景模型。因为，在摄像机固定的情况下，背景的变化是缓慢的，而且大都是光照，风等等的影响，通过对背景建模，对一幅给定图像分离前景和背景，一般来说，前景就是运动物体，从而达到运动物体检测的目的。

单分布高斯背景模型

单分布高斯背景模型认为，对一个背景图像，特定像素亮度的分布满足高斯分布，即对背景图像B，(x,y)点的亮度满足： IB(x,y) ~ N(u,d) 这样我们的背景模型的每个象素属性包括两个参数：平均值u 和方差d。对于一幅给定的图像G，如果 Exp(-(IG(x,y)-u(x,y))^2/(2d^2)) > T，认为(x,y)是背景点，反之是前景点。同时，随着时间的变化，背景图像也会发生缓慢的变化，这时我们要不断更新每个象素点的参数 u(t+1,x,y) = au(t,x,y) + (1-a)I(x,y) 这里，a称为更新参数，表示背景变化的速度，一般情况下，我们不更新d（实验中发现更不更新d，效果变化不大）。高斯混合模型是用于背景提取的方法，OpenCV的cvaux中cvbgfg_gaussmixcpp文件根据文献An improved adaptive background mixture model for real-time tracking with shadow中提供的方法编写了高斯混合模型函数。其中定义了CvGaussBGModel类用于存放高斯混合模型的各个参数。我用OpenCV使用高斯混合模型函数分以下几步： 1。需要用到icvUpdateGaussianBGModel，icvReleaseGaussianBGModel两个函数，但是源程序中将这两个函数定义为内部函数，需要做一些修改，首先将cvbgfg_gaussmixcpp中前面两个函数的声明static void CV_CDECL icvReleaseGaussianBGModel( CvGaussBGModel bg_model ); static int CV_CDECL icvUpdateGaussianBGModel( IplImage curr_frame, CvGaussBGModel bg_model );两行代码注释掉。然后在cvbgfg_gaussmixcpp中间部分两个函数的定义部分，函数头static int和static void改成CV_IMPL int 和CV_IMPL void。最后在cvauxh文件中CVAPI(CvBGStatModel) cvCreateGaussianBGModel( IplImage first_frame, CvGaussBGStatModelParams parameters CV_DEFAULT(NULL));这句后面加上以下两句CVAPI(void) icvReleaseGaussianBGModel( CvGaussBGModel bg_model ); CVAPI(int) icvUpdateGaussianBGModel( IplImage curr_frame, CvGaussBGModel bg_model ); 程序修改完毕，点rebuild all，全部重新编译。 2。在程序初始化部分定义高斯混合模型参数CvGaussBGModel bg_model=NULL;在读取第一帧图像（背景图像）时，进行高斯背景建模bg_model = (CvGaussBGModel)cvCreateGaussianBGModel(image, 0);image可以是灰度图象也可以是彩色图像。接下来再读取当前帧时，更新高斯模型 regioncount=icvUpdateGaussianBGModel(currframe, bg_model );regioncount的含义我不确定，我理解是代表背景中不同颜色区域的个数，这个参数我没有用到，它只是icvUpdateGaussianBGModel函数的返回值。 3。现在bg_model已经保存了经过高斯混合模型分类后的结果，bg_model->background保存了背景图像，bg_model->foreground保存了前景图像。 include <stdioh> #include <cvh> #include <cxcoreh> #include <highguih> #include <cvauxh>//必须引此头文件 int main( int argc, char argv ) { IplImage pFrame = NULL; IplImage pFrImg = NULL; IplImage pBkImg = NULL; CvCapture pCapture = NULL; int nFrmNum = 0; cvNamedWindow("video", 1); cvNamedWindow("background",1); cvNamedWindow("foreground",1); cvMoveWindow("video", 30, 0); cvMoveWindow("background", 360, 0); cvMoveWindow("foreground", 690, 0); if( argc > 2 ) { fprintf(stderr, "Usage: bkgrd [video_file_name]\n"); return -1; } //打开视频文件 if(argc == 2) if( !(pCapture = cvCaptureFromFile(argv[1]))) { fprintf(stderr, "Can not open video file %s\n", argv[1]); return -2; } //打开摄像头 if (argc == 1) if( !(pCapture = cvCaptureFromCAM(-1))) { fprintf(stderr, "Can not open camera\n"); return -2; } //初始化高斯混合模型参数 CvGaussBGModel bg_model=NULL; while(pFrame = cvQueryFrame( pCapture )) { nFrmNum++; if(nFrmNum == 1) { pBkImg = cvCreateImage(cvSize(pFrame->width, pFrame->height), IPL_DEPTH_8U,3); pFrImg = cvCreateImage(cvSize(pFrame->width, pFrame->height), IPL_DEPTH_8U,1); //高斯背景建模，pFrame可以是多通道图像也可以是单通道图像 //cvCreateGaussianBGModel函数返回值为CvBGStatModel， //需要强制转换成CvGaussBGModel bg_model = (CvGaussBGModel)cvCreateGaussianBGModel(pFrame, 0); } else { //更新高斯模型 cvUpdateBGStatModel(pFrame, (CvBGStatModel )bg_model ); //pFrImg为前景图像，只能为单通道 //pBkImg为背景图像，可以为单通道或与pFrame通道数相同 cvCopy(bg_model->foreground,pFrImg,0); cvCopy(bg_model->background,pBkImg,0); //把图像正过来 pBkImg->origin=1; pFrImg->origin=1; cvShowImage("video", pFrame); cvShowImage("background", pBkImg); cvShowImage("foreground", pFrImg); if( cvWaitKey(2) >= 0 ) break; } } //释放高斯模型参数占用内存 cvReleaseBGStatModel((CvBGStatModel)&bg_model); cvDestroyWindow("video"); cvDestroyWindow("background"); cvDestroyWindow("foreground"); cvReleaseImage(&pFrImg); cvReleaseImage(&pBkImg); cvReleaseCapture(&pCapture); return 0; }

自Turing图灵架构伊始（即GeForce RTX20系列），NVIDIA 显卡正式进入RTX实时光线追踪及DLSS深度学习超级采样技术时代。回顾当初，质疑声音不少，光追效果一般，DLSS折损画质，支持的游戏屈指可数。在接下来的日子里，NVIDIA潜心修炼内功，Ampere安培架构（GeForce RTX 30系列）的强悍表现让许多的质疑者成为了支持者。

今年以世界上第一位女程序员Ada Lovelace为名的新架构正式亮相，属于GeForce RTX 40系列显卡的时代正式到来。先进的TSMC 4N NVIDIA定制工艺，全新的全景光线追踪以及新一代的DLSS 3技术……在游戏画质与流畅度再一次拥有质的飞跃。

GeForce RTX 40系列显卡首发三个型号：GeForce RTX 4090/GeForce RTX 4080 (16GB版本)/GeForce RTX 4080(12GB版本)。今天，我们拿到七彩虹战斧GeForce RTX 4090豪华版显卡，借助它来带您详细了解新一代显卡的具体性能表现。

NVIDIA Ada Lovelace架构分析：

1、内部的架构：GPC规模猛增

七彩虹战斧GeForce RTX 4090豪华版显卡采用的是AD102-300核心，这并不是完整版。完整形态的AD102核心包含12个图形处理集群（GPC），从Ampere的7个猛增至12个，光凭这一点，就能带来很强的性能提升。此外，还包含72个纹理处理簇（TPC），144个流式多处理器（SM），搭配12个32bit的显存接口（共计384bit）。

上图为SM单元，AD102中每个SM单元包含4个处理块，每个处理块包含1个64KB寄存器堆，1个L0指令缓存，1个调度单元，4个加载/存储单元，1个特殊功能单元（Special Function Unit，SFU）。还包含16个专门用于FP32的CUDA Core，16个可以在FP32和INT32之间切换的CUDA Core，因此共计32个CUDA。当然少不了1个第三代RT Core，4个第四代Tensor Core，4个纹理单元（Texture Units），256KB寄存器堆，以及可根据需求进行配置的128KB L1共享缓存。

2、第三代RT Core：带来全景光线追踪

七彩虹战斧GeForce RTX 4090豪华版显卡从第二代RT Core升级到第三代，从两代架构对比来看，第三代RT Core架构增加了微映射透明度（Opacity Micro-Map，OMM）引擎和微网格置换（Displaced Micro-Mesh，DMM）引擎。除此之外，还对L2缓存上进行了升级，配置98304KB的L2缓存，比Ampere 提高16倍。这些都让光线追踪性能获得巨大收益。

3、着色器执行重排序：提高光追效率

在接近真实场景的实时光线追踪中，多样化的环境变化意味着本应重要的原始处理工作量会越来越少，反而像反色、间接照明、半透明效果的二次折射等计算会占据大量的着色器资源，让着色器忙碌在无意义的二次反射、漫反射等场景中，导致效率降低。如果不加以解决，GPU以有序性常规执行方式会非常低效。

为此，七彩虹战斧GeForce RTX 4090豪华版显卡引入了着色器执行重排序（Shader Execution Reordering，SER）功能，能够让着色器更智能的安排每一项工作的重要程度，从而能大大提高渲染的效率。SER可以为光线追踪带来最高可达3倍的性能提升，整体游戏性能提升可高达25%。

4、第四代Tensor Core：AI计算效能倍增

七彩虹战斧GeForce RTX 4090豪华版显卡从第三代Tensor Core升级到第四代，新一代Tensor Core的FP16、BF16、TF32、INT8、INT4性能相对前一代提升两倍以上，实现AI计算性能大幅度提升。

5、全新DLSS 3 : 真正的帧率收割机

DLSS 3绝对是七彩虹战斧GeForce RTX 4090豪华版显卡最亮眼的技术。DLSS 3包括了全新的帧生成技术、DLSS 2超分辨率技术和NVIDIA Reflex技术。

DLSS本质通过深度学习算法将单帧的低分辨率提升成高分辨率，让游戏帧率获得大幅度提升。但这还不够，在DLSS 3上，利用光流加速与DLSS相结合的办法，构建一个更为立体的分析方式：之前的帧与当下帧，由光流加速生成光流场、游戏运动矢量和深度等数据，DLSS将新渲染的帧与之前的帧进行比较，并考虑运动矢量与光流场信息，了解场景变化，从而生成一个全新高质量帧。简单的理解，AI生成帧不需要占用太多GPU资源，是由AI计算出来的。

DLSS 3在光流加速的搭配下实现了脱离GPU渲染重建高分辨率方法，让GPU渲染的部分大幅减少，以两帧为例，DLSS 3会承担起第一帧的3/4的工作和第二帧的所有工作，实际上GPU只需要完成其中的1/8的渲染即可，从而节省了大量的计算资源。

DLSS 3也并非传统意义上的单一技术，事实上它是一个软件与硬件协同的集合。在软件层面，DLSS 3使用AI超分辨率生成，AI生成帧，加入对NVIDIA Reflex支持。在硬件层面，DLSS 3需要在第四代Tensor Core上运行，并利用改进的光流加速帮助DLSS 3像素级的测量场景，最后云端的NVIDIA超级计算机则夜以继日的寻找提升高质量图像的途径。上述六种软硬件结合，才最终实现了DLSS 3的高质量表现。

目前已经超过35款游戏和应用支持DLSS 3，包括寒霜引擎、Unity 、虚幻引擎4 & 5 等游戏开发引擎，《赛博朋克2077》、《逆水寒》、《微软模拟飞行》、《瘟疫传说：安魂曲》等热门游戏大作，未来支持DLSS 3的游戏会越来越多。

RTX 4090显卡的规格：

GeForce RTX4090显卡用上TSMC 4N NVIDIA定制工艺，由台积电5N改进而来。AD102核心面积没有增加的前提下，晶体管数目爆涨，从283亿个提升至763亿个。流处理器方面，GeForce RTX 4090达到16384个，相比GeForce RTX 3090 Ti提升34%。同时第四代Tensor Core和第三代RT Core的数量，相比GeForce RTX 3090 Ti都有大幅度增涨。

GeForce RTX4090显卡核心Boost频率达到2520MHz，比GeForce RTX 3090 Ti的1860MHz高得多，后续如果经AIC厂商调教，轻松超过252G。显存来自美光定制GDDR6X，24GB满配，显存带宽超1TB/s峰值。

功耗方面，GeForce RTX4090与GeForce RTX 3090 Ti保持一致，都是450W，这出乎很多人的意料，这也从侧面证明Ada Lovelace架构GPU能耗比的巨大飞跃。

至于价格上，GeForce RTX 4090官方建议零售价12999元，比GeForce RTX 3090 Ti便宜2000。当然12999只是公版指导价，非公版显卡价格要贵一些。

战斧GeForce RTX 4090豪华版的规格：

▲七彩虹战斧GeForce RTX 4090豪华版的GPU-Z信息

七彩虹战斧GeForce RTX 4090豪华版设定的Boost频率为2565MHz，比公版的2520MHz，高了45MHz。功耗设定450W，峰值功耗则在480W，功耗也保持一致，理论上性能跟公版一致。如果搭配旗舰型号的CPU，推荐1000W或以上电源比较稳妥。

七彩虹战斧GeForce RTX 4090豪华版显卡介绍：

产品的外包装，印有一把战斧，右下角标识着产品型号GEFORCE RTX 4090。

整体采用黑与红的撞色设计，金属外观，经磨砂工艺处理，非常有质感。钻石状三角元素，起到点缀作用，也彰显了力量感。

区别于旧款战斧，战斧豪华版全新的造型，方正硬朗，肌肉感十足。很酷，也很强！

由于性能增强，供电与散热也要强化，GeForce RTX 4090的体积又增加了。七彩虹战斧GeForce RTX 4090豪华版尺寸为长8175000000000001px，宽度3775px，厚度为16775px，跟以前20系列显卡相比，几乎大了一圈。

妥妥要占据三个PCIe插槽，对机箱兼容性要求可不低。

全金属背板设计，尾部同样做了镂空处理，方便空气的对流，利于通风散热。

七彩虹战斧GeForce RTX 4090豪华版显卡采用了利斧散热器，正面设计三个98mm的大风扇，实现更强的风压以及更大的进风量。

战斧散热器内置2根6mm和4根8mm的镀镍热管，大面积液冷均热板和散热鳍片，保证高负载场景下，快速驱散热量，保证显卡性能稳定发挥。

供电接口为新型的16Pin（12+4Pin）PCIe50供电接口，12pin为供电口，另外4Pin负责信号传输，单口可以承载600W功耗。

使用ATX30标准的电源，只需一根供电线即可，看着比过去3个8Pin口简洁多了。

如果您使用的不是新款ATX30电源，没有16Pin供电口，随显卡附赠一条转接线，3个8Pin转16Pin，可与旧款电源兼容。

侧边的隐藏式LOGO RGB信仰灯，通过新款iGame Center软件，可以进行灯光设置。

不同的灯光效果，让机箱内部更多彩。

接口上，提供一个HDMI21和三个DP14a。其中HDMI21接口可支持8K@60Hz视频输出。

顺便提一款有意思的“玩物”，随七彩虹战斧GeForce RTX 4090豪华版显卡一起送测的，还有这款拼奇积木联名的iGame奇趣主机。

这款奇趣主机是由主机、主板、内存、显卡几大部分积木组装而成，喜欢DIY硬件的小伙伴们，用它也能体验一回装机乐趣，或者新手朋友，先自己尝试尝试DIY电脑过程。如果大家对这款积木感兴趣，可以微信小程序搜索“COLORFUL官方旗舰店”购买编辑同款。

新款iGame Center软件：

七彩虹显卡专用的集成控制软件iGame Center同步更新到了最新版本，整个软件进行深度优化，不仅界面更清晰明了，功能也更加丰富。

搭载七彩虹RGB硬件，在这里可以对全局灯光进行控制。有不同灯效模式，也可以对灯光的速度，亮度，方向等进行调节。

除了灯效同步，还能单独对显卡的灯光模式进行调节，可玩性还是挺高的。

灯光控制的另外一栏则是超频控制，在这里可以调整显卡的核心频率，显存频率，电压，温度及功耗等。

在监控日志里，可以控制LCD屏幕的各种显示功能，不过战斧系列并没有配备LCD屏幕。

新款iGame Center软件加入玩家俱乐部，以增加玩家的粘性。

测试平台介绍：

测试平台如上，CPU使用i9-12900K，搭配一块Z690 D5主板，内存则是DDR5-6000高频，16GBx2双通道。

测试GeForce RTX 4090这样的性能猛兽，怎么能少得了一款旗舰级的4K电竞显示器呢？我们测试所使用的是：爱攻PD32M保时捷联名电竞显示器，堪称“旗舰中的旗舰”。

它搭载一块315英寸Mini LED背光技术面板，内置3456颗Mini LED背光灯珠，多达1152个独立控光分区；高达1600尼特的峰值亮度，通过DisplayHDR 1400专业认证；97％DCI-P3、99％ AdobeRGB、100％ sRGB的广色域覆盖，107亿色显示，搭配DeltaE＜2的专业色准，色彩表现在电竞显示器中属于“天花板”级别，能够更好展出游戏中的光影效果。电竞属性方面，PD32M支持144Hz高刷新率和1ms疾速灰阶响应时间，可提供畅快淋漓的游戏体验。4K超高清分辨率，特效全开，才能不负显卡。

七彩虹战斧GeForce RTX 4090豪华版显卡的峰值功耗在480W，而i9-12900K的满载功耗接近260W，光显卡+CPU这两项功耗值740W，考虑到40%的冗余功耗，以此保证一些高负载情况下正常运行，我们使用了航嘉新款MVP P1200 ATX30电源，额定功率1200W，一步到位保证平台的稳定供电。

基准性能测试：

以3DMark作为显卡基准测试软件，测试项目有Fire Strike、Fire Strike Extreme、Fire Strike Ultra（对应DX11，1080P、2K及4K分辨率）。Time Spy 和Time Spy Extreme（对应DX12 2K和4K分辨率）。还有Port Royal光线追踪性能。

▲七彩虹战斧GeForce RTX 4090豪华版显卡 Time Spy得分36384分。

▲七彩虹战斧GeForce RTX 4090豪华版显卡 Time Spy Extreme得分19292分。

▲七彩虹战斧GeForce RTX 4090豪华版显卡Fire Strike得分77359分。

▲七彩虹战斧GeForce RTX 4090豪华版显卡Fire Strike Extreme得分45734分。

▲七彩虹战斧GeForce RTX 4090豪华版显卡Fire Strike Ultra得分24866分。

▲七彩虹战斧GeForce RTX 4090豪华版显卡 Port Royal光追得分25669分。

基准测试方面，战斧GeForce RTX 4090 豪华版对比RTX 3090 Ti，这性能提升幅度可以用“夸张”来形容。Time Spy性能提升68%；Time Spy Extreme性能提升73%；Fire Strike性能提升55%；Fire Strike Extreme性能提升76%；Fire Strike Ultra性能提升82%；而光追性能提升更是达到78%。怎么样？这新卡的性能提升幅度，各位看客老爷们还满意不？

4K光栅化游戏性能测试：

传统光栅化游戏测试分辨率为3840x2160，考虑显卡的定位，不测试2K及1080P分辨率。画质设定均为最高，关闭垂直同步功能，支持DLSS均处于关闭状态，全部测试的游戏由自带Benchmark输出结果。

我们一共测试6款热门的3A大作，在4K分辨率，最高画质设定，不牺牲画质特效的前提下，也不需要DLSS辅助，战斧 GeForce RTX 4090 豪华版显卡均可以非常流畅运行。

像渣优化的《赛博朋克2077》跑出76帧，而显卡杀手《荒野大镖客2》跑出121帧，《古墓丽影暗影》更是跑出夸张的184帧，要知道这可是4K分辨率啊。毫无夸张地说，4K最高画质在战斧 GeForce RTX 4090 豪华版面前只能算是“入门”的挑战。

对比GeForce RTX 3090 Ti，《赛博朋克2077》、《荒野大镖客2》、《极限竞速：地平线5》、《刺客信条奥德赛》、《古墓丽影暗影》、《孤岛惊魂5》分别提升46%、46%、73%、54%、73%、30%，提升幅度还是相当惊人的。

DLSS 3 游戏实测：

我们先来看看战斧 GeForce RTX 4090 豪华版在DLSS 3开启与关闭状态下，游戏画质变化如何？

《瘟疫传说：安魂曲》DLSS 3 OFF VS DLSS 3 NO

《逆水寒》DLSS 3 OFF VS DLSS 3 NO

《Unity引擎》DLSS 3 OFF VS DLSS 3 NO

我们截取部分支持DLSS 3游戏的实景画面，像《瘟疫传说：安魂曲》、《逆水寒》的游戏画面通过对比可以看到，在开启DLSS 3之后，画质并没有折损，反而是得到强化，尤其是光影效果更加真实。

开启DLSS 3之后，游戏帧数的提升相当惊人，瘟疫传说：安魂曲》、《赛博朋克2077》的帧率分别翻了235倍、327倍。就算特别吃CPU资源的《微软模拟飞行》也翻了215倍。

在画质没有损失反而加强的前提下，带来如此巨大的游戏性能提升，对于游戏玩家来说，无疑是幸福的存在。未来有DLSS 3加持下，4K+光追+最高特效，将会顺畅无比。

DLSS 3游戏近期更新：

●《超级人类》（SUPER PEOPLE）：抢先体验版将于10月12日13:00发布，支持DLSS 3

●《生死轮回》（Loopmancer）将于10月12日发布更新版，支持DLSS 3

●《逆水寒》“拂云庭“（Justice ‘Fuyun Court’）: 全新图形展示将于10月13日发布，支持DLSS 3

●《微软模拟飞行》（Microsoft Flight Simulator）：将于10月17日为Xbox Insider计划成员推出测试版，支持DLSS 3

●《瘟疫传说：安魂曲》(A Plague Tale: Requiem)：将于10月18日发布，支持DLSS 3

实时光线追踪游戏测试：

RTX光线追踪测试，同为4K分辨率，画质设定均为最高，光追效果设定均为最高档位，不开启DLSS选项，接受最为苛刻的硬件考验。

光追游戏测试部分，就算不开DLSS的情况下，除了《赛博朋克2077》，其他四款游戏，战斧 GeForce RTX 4090 豪华版已经可以超过60帧流畅运行。

像光追效果十分明显的《Control》可以在140帧的超高帧率下，畅玩4K光追。《光明记忆：无限》、《古墓丽影暗影》均突破100帧。战斧 GeForce RTX 4090 豪华版显卡真正带我们走进4K光追的时代。而对比GeForce RTX 3090 Ti，光追游戏性能提升幅度在70%左右。

创作应用测试：

由于测试时间关系，还有考虑到GeForce RTX 4090刚推出，专业创作应用软件需要去做优化，我们就只测了Blender这款热门的专业三维渲染软件，使用固定的Benchmark进行测试，测试了monster/junkshop/classroom三个场景。

战斧 GeForce RTX 4090 豪华版在monster/junkshop/classroom场景得分为6331、2806、2911分，平均4050分。对比之下，领先GeForce RTX 3090 Ti 幅度达到80%以上，可见在创作领域，战斧 GeForceRTX 4090 豪华版也比GeForce RTX 3090Ti强出一截，帮助创作者节省大量的渲染时间。

功耗与温度测试：

在温度与功耗测试中，使用Furmark软件，对显卡进行10分钟的满载测试，用GPU-Z软件来监控显卡的温度与功耗表现。

在满载10分钟之后，这时GPU的核心温度仅70℃，要知道这可是一张旗舰级显卡，性能怪兽。有这样的温度表现，绝对处于优秀的水平。

功耗的话，平均接近450W，基本跟GeForce RTX 3090 Ti是持平的。不过，峰值功耗更猛一些。如果搭配新款旗舰CPU，比如i9-12900K、i9-13900K，建议至少1000W电源起步吧，850W压力还是挺大的。

总结：

经历了GeForce RTX 30系列显卡性能大跃进，很多人都担心GeForce RTX 40系列显卡无法超越前辈。当测完战斧 GeForce RTX 4090 豪华版后，我们担心显然是多余的。基于Ada Lovelace GPU架构设计AD102-300核心的RTX 4090再次实现性能飞跃，真正将游戏带入4K光追时代。曾几何时，4K游戏遥不可及，到如今的4K+光追最高特效流畅玩耍。或许摆在2-3年前，很多人想都不敢想吧。

这次NVIDIA还带来DLSS 3，这是一项真正的黑技术。在开启DLSS 3之后，宛如打开性能释放的密钥，开启与关闭，性能提升非常非常显著，真正意义上实现从性能的堆砌到质的改变。未来会有越来越多的游戏加入DLSS 3，N卡玩家最幸福的存在。

战斧 GeForce RTX 4090 豪华版的450W功耗，虽说整体功耗不低，但发热控制得不错。并且这个功耗也是频率大幅度提升的结果，由此带来强大的性能提升，我认为是值得的。

最后给大家送上产品的发售信息，七彩虹战斧GeForce RTX 4090豪华版、iGame GeForce RTX 4090 Vulcan OC、iGame GeForce RTX 4090 Neptune OC三款显卡将于10月12日晚9点整在京东、天猫、抖音、快手等电商平台及全国经销零售渠道开售，售价在12999-14999元之间，感兴趣的小伙伴可以关注。

运动目标检测与跟踪算法研究视觉是人类感知自身周围复杂环境最直接有效的手段之一，而在现实生活中大量有意义的视觉信息都包含在运动中，人眼对运动的物体和目标也更敏感，能够快速的发现运动目标，并对目标的运动轨迹进行预测和描绘。随着计算机技术、通信技术、图像处理技术的不断发展，计算机视觉己成为目前的热点研究问题之一。而运动目标检测与跟踪是计算机视觉研究的核心课题之一，融合了图像处理、模式识别、人工智能、自动控制、计算机等众多领域的先进技术，在军事制导、视觉导航、视频监控、智能交通、医疗诊断、工业产品检测等方面有着重要的实用价值和广阔的发展前景。 1、国内外研究现状 11 运动目标检测运动目标检测是指从序列图像中将运动的前景目标从背景图像中提取出来。根据运动目标与摄像机之间的关系，运动目标检测分为静态背景下的运动目标检测和动态背景下的运动目标检测。静态背景下的运动目标检测是指摄像机在整个监视过程中不发生移动；动态背景下的运动目标检测是指摄像机在监视过程中发生了移动，如平动、旋转或多自由度运动等。静态背景静态背景下的运动目标检测方法主要有以下几种：（1）背景差分法背景差分法是目前最常用的一种目标检测方法，其基本思想就是首先获得一个背景模型，然后将当前帧与背景模型相减，如果像素差值大于某一阈值，则判断此像素属于运动目标，否则属于背景图像。利用当前图像与背景图像的差分来检测运动区域，一般能够提供比较完整的特征数据，但对于动态场景的变化，如光照和外来无关事件的干扰等特别敏感。很多研究人员目前都致力于开发不同的背景模型，以减少动态场景变化对运动目标检测的影响。背景模型的建立与更新、阴影的去除等对跟踪结果的好坏至关重要。背景差分法的实现简单，在固定背景下能够完整地精确、快速地分割出运动对象。不足之处是易受环境光线变化的影响，需要加入背景图像更新机制，且只对背景已知的运动对象检测比较有效，不适用于摄像头运动或者背景灰度变化很大的情况。（2）帧间差分法帧间差分法是在连续的图像序列中两个或三个相邻帧间，采用基于像素的时间差分并阈值化来提取图像中的运动区域。帧间差分法对动态环境具有较强的自适应性，但一般不能完全提取出所有相关的特征像素点，在运动实体内部容易产生空洞现象。因此在相邻帧间差分法的基础上提出了对称差分法，它是对图像序列中每连续三帧图像进行对称差分，检测出目标的运动范围，同时利用上一帧分割出来的模板对检测出来的目标运动范围进行修正，从而能较好地检测出中间帧运动目标的形状轮廓。帧间差分法非常适合于动态变化的环境，因为它只对运动物体敏感。实际上它只检测相对运动的物体，而且因两幅图像的时间间隔较短，差分图像受光线变化影响小，检测有效而稳定。该算法简单、速度快，已得到广泛应用。虽然该方法不能够完整地分割运动对象，只能检测出物体运动变化的区域，但所检测出的物体运动信息仍可用于进一步的目标分割。（3）光流法光流法就充分的利用了图像自身所携带的信息。在空间中,运动可以用运动场描述,而在一个图像平面上,物体的运动往往是通过图像序列中图像灰度分布的不同来体现,从而使空间中的运动场转移到图像上就表示为光流场。所谓光流是指空间中物体被观测面上的像素点运动产生的瞬时速度场，包含了物体表面结构和动态行为等重要信息。基于光流法的运动目标检测采用了运动目标随时间变化的光流特性，由于光流不仅包含了被观测物体的运动信息，还携带了物体运动和景物三位结构的丰富信息。在比较理想的情况下,它能够检测独立运动的对象, 不需要预先知道场景的任何信息,可以很精确地计算出运动物体的速度,并且可用于动态场景的情况。但是大多数光流方法的计算相当复杂,对硬件要求比较高, 不适于实时处理,而且对噪声比较敏感,抗噪性差。并且由于遮挡、多光源、透明性及噪声等原因，使得光流场基本方程——灰度守恒的假设条件无法满足，不能正确求出光流场，计算方也相当复杂，计算量巨大，不能满足实时的要求。动态背景动态背景下的运动目标检测由于存在着目标与摄像机之间复杂的相对运动，检测方法要比静态背景下的运动目标检测方法复杂。常用的检测方法有匹配法、光流法以及全局运动估计法等。 2、运动目标跟踪运动目标跟踪是确定同一物体在图像序列的不同帧中的位置的过程。近年来出现了大批运动目标跟踪方法，许多文献对这些方法进行了分类介绍，可将目标跟踪方法分为四类：基于区域的跟踪、基于特征的跟踪、基于活动轮廓的跟踪、基于模型的跟踪，这种分类方法概括了目前大多数跟踪方法，下面用这种分类方法对目前的跟踪方法进行概括介绍。 (1)基于区域的跟踪基于区域的跟踪方法基本思想是：首先通过图像分割或预先人为确定提取包含目标区域的模板，并设定一个相似性度量，然后在序列图像中搜索目标，把度量取极值时对应的区域作为对应帧中的目标区域。由于提取的目标模板包含了较完整的目标信息，该方法在目标未被遮挡时，跟踪精度非常高，跟踪非常稳定，但通常比较耗时，特别是当目标区域较大时，因此一般应用于跟踪较小的目标或对比度较差的目标。该方法还可以和多种预测算法结合使用，如卡尔曼预测、粒子预测等，以估计每帧图像中目标的位置。近年来，对基于区域的跟踪方法关注较多的是如何处理运动目标姿态变化引起的模板变化时的情况以及目标被严重遮挡时的情况。 (2)基于特征的跟踪基于特征的跟踪方法基本思想是：首先提取目标的某个或某些局部特征，然后利用某种匹配算法在图像序列中进行特征匹配，从而实现对目标的跟踪。该方法的优点是即使目标部分被遮挡，只要还有一部分特征可以被看到，就可以完成跟踪任务，另外，该方法还可与卡尔曼滤波器结合使用，实时性较好，因此常用于复杂场景下对运动目标的实时、鲁棒跟踪。用于跟踪的特征很多，如角点边缘、形状、纹理、颜色等，如何从众多的特征中选取最具区分性、最稳定的特征是基于特征的跟踪方法的关键和难点所在。 (3)基于活动轮廓的跟踪基于活动轮廓的跟踪方法基本思想是：利用封闭的曲线轮廓表达运动目标，结合图像特征、曲线轮廓构造能量函数，通过求解极小化能量实现曲线轮廓的自动连续更新，从而实现对目标的跟踪。自Kass在1987年提出Snake模型以来，基于活动轮廓的方法就开始广泛应用于目标跟踪领域。相对于基于区域的跟踪方法，轮廓表达有减少复杂度的优点，而且在目标被部分遮挡的情况下也能连续的进行跟踪，但是该方法的跟踪结果受初始化影响较大，对噪声也较为敏感。 (4)基于模型的跟踪基于模型的跟踪方法基本思想是：首先通过一定的先验知识对所跟踪目标建立模型，然后通过匹配跟踪目标，并进行模型的实时更新。通常利用测量、CAD 工具和计算机视觉技术建立模型。主要有三种形式的模型，即线图模型、二维轮廓模型和三维立体模型口61，应用较多的是运动目标的三维立体模型，尤其是对刚体目标如汽车的跟踪。该方法的优点是可以精确分析目标的运动轨迹，即使在目标姿态变化和部分遮挡的情况下也能够可靠的跟踪，但跟踪精度取决于模型的精度，而在现实生活中要获得所有运动目标的精确模型是非常困难的。目标检测算法，至今已提出了数千种各种类型的算法，而且每年都有上百篇相关的研究论文或报告发表。尽管人们在目标检测或图像分割等方面做了许多研究，现己提出的分割算法大都是针对具体问题的，并没有一种适合于所有情况的通用算法。目前，比较经典的运动目标检测算法有：双帧差分法、三帧差分法(对称差分法)、背景差法、光流法等方法，这些方法之间并不是完全独立，而是可以相互交融的。目标跟踪的主要目的就是要建立目标运动的时域模型，其算法的优劣直接影响着运动目标跟踪的稳定性和精确度，虽然对运动目标跟踪理论的研究已经进行了很多年，但至今它仍然是计算机视觉等领域的研究热点问题之一。研究一种鲁棒性好、精确、高性能的运动目标跟踪方法依然是该研究领域所面临的一个巨大挑战。基于此目的，系统必须对每个独立的目标进行持续的跟踪。为了实现对复杂环境中运动目标快速、稳定的跟踪，人们提出了众多算法，但先前的许多算法都是针对刚体目标，或是将形变较小的非刚体近似为刚体目标进行跟踪，因而这些算法难以实现对形状变化较大的非刚体目标的正确跟踪。根据跟踪算法所用的预测技术来划分，目前主要的跟踪算法有：基于均值漂移的方法、基于遗传算法的方法、基于Kalman滤波器的方法、基于Monto Carlo的方法以及多假设跟踪的方法等。

运动检测与目标跟踪算法模块运动检测与目标跟踪算法模块与目标跟踪一、运动检测算法 1算法效果算法效果总体来说，对比度高的视频检测效果要优于对比度低的视频。算法可以比较好地去除目标周围的浅影子，浅影的去除率在 80%以上。去影后目标的完整性可以得到较好的保持，在 80%以上。在对比度比较高的环境中可以准确地识别较大的滞留物或盗移物。从对目标的检测率上来说，对小目标较难进行检测。一般目标小于 40 个像素就会被漏掉。对于对比度不高的目标会检测不完整。总体上来说，算法在对比度较高的环境中漏检率都较低，在 01%以下，在对比度不高或有小目标的场景下漏检率在 6%以下。精细运动检测的目的是在较理想的环境下尽量精确地提取目标的轮廓和区域，以供高层进行应用。同时在分离距离较近目标和进行其它信息的进一步判断也具有一定的优势。反映算法优缺点的详细效果如下所示：去影子和完整性效果好公司内视频左边的为去影前，右边的为去影后的结果，可以看出在完整性和去影率上都有所突出。这两个视频的共周特点城市交通是，影子都是浅影子，视频噪声不太明显。目标与背景的对比度比较高。效果差这两个视频的特点是影子都是深影子。虽然影子没有去掉，但是物体的完整性是比较高的。主要原因就是场景的对路口，上午十点比度比较高。滞留物检测和稳定性效果好会议室盗移效果好的原因，一是盗移或滞留目标与背景对比度较大，二是目标本身尺寸较大。另外盗移物或滞留物在保持各自的状态期间不能受到光照变化或其它明显运动目标的干扰，要不然有可能会造成判断的不稳定。效果差会议室遗留物大部分时间内，滞留的判断都是较稳定的，但是在后期出现了不稳定。主要原因是目标太小的原故。因此在进行滞留物判断时，大目标，对比度较高的环境有利于判断的稳定性和准确性。漏检率效果好城市交通在对比度高的环境下，目标相对都较大的情况下（大于 40 个像素）可以很，稳定的检测出目标。在这种条件下的漏检率通常都是非常低的，在 01%以下。效果差行人－傍晚和“行人”目录下的其它昏暗条件下的视频在对比度较低的情况下，会造成检测结果不稳定。漏检率较高。主要原因是由于去影子造成的。这种对比度下的漏检率一般在 6%以下。除了对比度低是造成漏检的原因外，过小的目标也会造成漏检，一般是 40 个像素以下的目标都会被忽略掉。 12 算法效率内存消耗（单位：b） MD_ISRAM_data MD_ISRAM_bss MD_SDRAM_data 0x470 0x24 0x348 MD_SDRAM_bss MD_text 0x1a8480 0x6d40 速度 ms 运动区域占 2/3 左右时 CPU 占用率一帧耗时 Max:57% Min:28% Avg:375% Max:23 Min:114 Avg:15 运动区域占 1/3 左右时 Max:45% Min:28% Avg:20% Max:18 Min:114 Avg:8 13 检测参数说明检测参数说明检测到的滞留物或盗走物的消失时间目前分别设定在 200 帧和 100 帧，可以通过参数来自行调整。目前目标与背景的差异是根据局部光照强度所决定的，范围在 4 个像素值以上。目前参数设置要求目标大小要在 20 个像素以上才能被检测到，可以通过参数来自行调整。目标阴影的去除能力是可以调整的，目前的参数设置可以去除大部分的浅影子和较小的光照变化。 14 适用环境推荐光照条件较好（具有一定的对比度）的室内环境或室外环境。不易用它去检测过小的目标，比如小于 40 个像素的目标。室外环境不易太复杂。输出目标为精细轮廓目标，可以为后面高层应用提供良好的信息。二、目标跟踪 21 稳定运行环境要求此版本跟踪算法与运动检测算法紧密结合，对相机的架设和视频的背景环境和运动目标数量运动方式有一定要求：背景要求：由于运动跟踪是基于运动检测的结果进行的，所以对背景的要求和运动检测一样，背景要求：运动目标相对于背景要有一定反差。运动目标：由于运动检测中，对较小的目标可能过滤掉。所以运动目标的大小要符合运动检运动目标：测的要求。运动目标的速度不能太大，要保证前后帧运动目标的重合面积大于 10 个像素。此阈值可修改(建议不要随意修改，过小，可能把碎片当成原目标分裂出来的小目标，过大，可能失去跟踪。当然可试着调节以适应不同场景)。该算法对由于运动检测在地面上产生的碎片抗干扰性比较差，运动目标和碎片相遇时，容易发生融合又分离的现象，造成轨迹混乱。消失目标和新生目标很容易当成同一目标处理，所以可能出现一个新目标继承新生目标的轨迹。运动方式：运动目标的最大数量由外部设定。但运动跟踪对运动目标比较稀疏的场景效果比运动方式：较好。算法对由于运动检测在运动目标上产生的碎片有一定的抗干扰。算法没对物体的遮挡进行处理。对于两运动目标之间的遮挡按融合来处理。拍摄角度：拍摄角度：拍摄视野比较大，且最好是俯视拍摄。

以上就是关于[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition全部的内容，包括:[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition、投的组词大全（约50个）投的词语解释_投是什么意思、运动目标检测与跟踪都有哪些方法等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/zz/10643296.html

[文献翻译]Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

发表评论

评论列表（0条）