双流网络简介_java

0.简介：

1.结构：

空间部分：

时间部分：

0.简介：

双流网络是视频理解里的开山之作，为什么这么说呢？因为在之前的视频理解里，使用深度网络并没有取得很好的结果，甚至说还不如之前手工特征的效果好，而双流网络则证明了，并不是深度网络不好，而是对深度网络的使用方式不对。而双流网络的有效性同时也告诉大家，当深度网络不work的时候，可以尝试引入一些先验信息，这样可以简化任务，得到很好的效果。

1.结构：

作者认为，视频可以很自然地分解成空间和时间2个部分，空间部分主要是一些外观上的信息，场景和物体，而时间部分则是关于运动信息的，描述物体是如何运动的，所以双流网络就被设计成了如图所示的网络架构，空间流学习空间信息，时间流学习时间信息，最终使用late fusion形式，将两个网络的结果做平均得到最终的输出，也可以用得到的结果丢入svm做多分类，效果更好。

1.1 空间部分：

使用的是一个变种的alexNet，使用视频帧一帧一帧的做输入。为什么空间部分有效呢？因为人的动作其实和场景中出现的物品有很大的关联，比如打网球，d钢琴等等，识别出准确的物体对于识别动作行为是非常有帮助的。

双流网络将时间和空间分开设计的一个好处就是，空间部分可以使用ImageNet的数据集进行预训练，再在视频的数据集ucf-100上做微调，这一部分和图片分类很像，就不赘述了，文章主要聚焦在了时间信息上。

1.2 时间部分：

这部分主要讲述了2个问题，1.什么是光流，2.如何构造时间流

光流，顾名思义，就是光的流动方向。在数学上表示光流的时候，一般把光流拆分成了2个方向：水平方向上的位移（图d），竖直方向上的位移（图e）。

输入：2帧，输入维度是240*320*3

输出：前后2帧得到一张光流图240*320*2（水平+竖直就是2），每个像素点都有值。

那在如何使用光流的时候，作者也借鉴了之前手工特征的方法，使用了多张光流图叠加在一起。

叠加方式也有2种选择，在同样的点的位置上去取光流，另一种则是利用光流的轨迹信息，已知上一张图的点p1移动到了p2，那么在下一张光流图里则去问p2去了哪里，虽然第二种方式听起来更合理，充分地利用了光流的信息，但是第一种方式其实结果比第二种要好一点。

3.测试：

空间：无论视频多长，等间距的去取25帧，每一帧去做ten crop：先取四个边角，再取中间，再将图片反转，得到另外5个。一个视频25帧就会得到250个crop，每张图都会通过2d的空间流的神经网络得到一个结果，然后将这250个结果取平均，得到空间流的结果。

时间：同样是取25帧，然后从这25帧的位置开始向后连续的取11帧，抽取光流（10个），然后将光流输入时间流的神经网络中，同样地得到时间流的结果。

最终将这空间和时间得到的结果做late fusion，取平均得到结果。

4.实验：

实验结果从时间空间2个维度来进行消融实验。

空间上：结果如图左，一种是直接进行微调，一种是固定住骨干网络，只对最后一层进行微调，dropout很大是为了解决过拟合的微调，结果符合预期。

时间上：结果如图右，以只用1个光流做baseline，结果发现，光流数越多，效果越好，使用光流的轨迹信息，结果并没有变得更好，使用双向网络，效果略微有所提升。

参考：双流网络论文逐段精读【论文精读】_哔哩哔哩_bilibili

欢迎分享，转载请注明来源：内存溢出

原文地址: https://outofmemory.cn/langs/731853.html

双流网络简介

发表评论

评论列表（0条）