目录
0、前沿
1、标题
2、摘要
3、结论
4、重要图表
5、解决了什么问题
6、采用了什么方法
7、达到了什么效果
0、前沿
泛读我们主要读文章标题,摘要、结论和图表数据四个部分。需要回答用什么方法,解决什么问题,达到什么效果这三个问题。需要了解更多视频理解相关文章可以关注我们视频理解系列目录了解我们当前更新情况。
1、标题
Learning Spatiotemporal Features with 3D Convolutional Networks
基于3D卷积的时空特征学习网络
2、摘要
We propose a simple, yet effective approach for spatiotemporal feature learning using deep 3-dimensional convolutional networks (3D ConvNets) trained on a large scale supervised video dataset. Our findings are three-fold: 1) 3D ConvNets are more suitable for spatiotemporal feature learning compared to 2D ConvNets; 2) A homogeneous architecture with small 3 × 3 × 3 convolution kernels in all layers is among the best performing architectures for 3D ConvNets; and 3) Our learned features, namely C3D (Convolutional 3D), with a simple linear classififier outperform state-of-the-art methods on 4 different benchmarks and are comparable with current best methods on the other 2 benchmarks. In addition, the features are compact: achieving 52.8% accuracy on UCF101 dataset with only 10 dimensions and also very effificient to compute due to the fast inference of ConvNets. Finally, they are conceptually very simple and easy to train and use.
我们提出了一个简单有效的时空特征学习方法,该方法使用3D ConvNets在大规模有监督视频数据集上训练完成。我们发现:
(1)与2D相比,3D更适合学习时空特征
(2)C3D中,在所有层使用3*3*3的kernels表现最好
(3)C3D+线性分类器,在4个benchmarks刷到SOTA,另外两个也还行
另外,特征紧凑:UCF101上用10维就达到52.8%,由于推理速度很快,所以计算效率也高。网络简单,容易训练和使用。
3、结论
In this work we try to address the problem of learning spatiotemporal features for videos using 3D ConvNets trained on large-scale video datasets. We conducted a systematic study to find the best temporal kernel length for 3D ConvNets. We showed that C3D can model appearance and motion information simultaneously and outperforms the 2D ConvNet features on various video analysis tasks. We demonstrated that C3D features with a linear classifier can outperform or approach current best methods on different video analysis benchmarks. Last but not least, the proposed C3D features are efficient, compact, and extremely simple to use.C3D source code and pre-trained model are available at http://vlg.cs.dartmouth.edu/c3d.
我们试图在视频上使用3D卷积来学习时空特征。通过实验,找到了最佳temporal kernel深度。C3D可以同时学习到appearance and motion information,结果比2D网络更好。带线性分类器的C3D在视频任务上就可以达到很好的效果。最后,C3D特征是高效的、紧凑的,使用简单。代码发布在:http://vlg.cs.dartmouth.edu/c3d
4、重要图表
表1:C3D与当前最好结果比较。
C3D在几个数据上都表现优秀,UCF101上报告了仅用RGB帧和叠加其他特征两种结果。
图1. 2D和3D卷积运算
a)图片2D卷积
b)视频2D卷积
c)视频3D卷积,保留了时序信息
图2:3D卷积核时间深度研究
不同卷积核时间深度设置在UCF101数据集split-1上的表现。2D ConvNet效果最差,3×3×3卷积核的3D ConvNet在实验中表现最佳。
图3. C3D结构
C3D有8个卷积层,5个pool,2个fc,1个softmax
卷积核都是3×3×3,步长1,框里数字表示filters个数。
所有pooling核为2×2×2,除了pool1为1×2×2。
每个fc有4096个输出。
表2:Sports-1M实验结果
C3D与行2方法比较top-5个超5%左右,行3方法使用长片段,因此其片段级精度最好,但直接比较不太合适。
图4: C3D可视化
C3D前几帧捕获了外观信息,但其后便捕获到明显的运动信息。
表3:UCF101上各网络表现
上:在SVM输入简单特征
中:RGB帧作为输入
下:多特征输入
图5:C3D与Imagenet和iDT在低维比较
C3D,Imagenet和iDT在UCF101上使用PCA降维和线性SVM,C3D优于它们10-20%。
图6:在UCF101上使用t-SNE将Imagenet和C3D特征嵌入可视化
相同动作片段用相同颜色表示,上图可以看出,C3D特征可分离性更好。
图7:相似性标注结果
在ASLAN上评估C3D的ROC,C3D高出目前SOTA 11%
表4:图7的数据
C3D 精度提高9.6%,ROC超11%
表5:场景识别精度
C3D使用简单线性SVM,优于另外两个
表6:C3D Runtime分析
C3D更快,复杂度降2个数量级左右
5、解决了什么问题
视频分类不能直接学习时空两个特征
6、采用了什么方法
使用3D核,设计了C3D
7、达到了什么效果
C3D结构简单,精度性能优异,且容易训练和使用,视频分类任务上刷高了SOTA
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)