声明
不定期更新自己精读的论文,通俗易懂,初级小白也可以理解
涉及范围:深度学习方向,包括 CV、NLP、Data fusion、Digital Twin
论文题目:Vision Transformers for Dense Prediction
论文链接:https://arxiv.org/abs/2103.13413v1
论文代码:https://github.com/isl-org/DPT
发表时间:2021年3月
创新点1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT
Abstract我们引入了密集视觉 Transformer,一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示,并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示,并且在每个阶段都具有全局感受野。与全卷积网络相比,这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。
我们的实验表明,这种架构对密集预测任务产生了显着的改进,尤其是在有大量训练数据可用的情况下。对于单目深度估计,我们观察到与最先进的全卷积网络相比,相对性能提高了高达 28%。 当应用于语义分割时,密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。
我们进一步表明,该架构可以在较小的数据集上进行微调,例如 NYUv2、KITTI 和 Pascal Context,它还设置了新的状态。
Method 架构概述首先,输入图像通过提取非重叠块然后对其扁平表示(DPT-Base 和 DPT-Large)进行线性投影或通过应用 ResNet-50 特征提取器(DPT-Hybrid)转换为标记(橙色);
其次,图像嵌入通过位置嵌入增强,并添加了与补丁无关的读出标记(红色)。令牌通过多个 Transformer 阶段。 作者将来自不同阶段的令牌重新组合成具有多种分辨率(绿色)的类似图像的表示;
最后,融合模块(紫色)逐步融合和上采样表示以生成细粒度预测。
Reassemble重新组装 *** 作,令牌被组装成特征图。
首先,将 Np + 1(位置编码,红色) 个标记映射到一组 Np 标记,这些标记可以进行空间连接成类似图像的表示;
然后,使用 1*1 卷积表示投影 *** 作;
最后,在四个不同阶段和四种不同分辨率重新组合特征。
Fusion融合块使用残差卷积单元组合特征并对特征图进行上采样。
Experiments实验目标:与单目深度估计的最新技术进行比较
实验结果:DPT-Large 具有明显优势
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)