【论文笔记】Vision Transformers for Dense Prediction_python

声明

不定期更新自己精读的论文，通俗易懂，初级小白也可以理解

涉及范围：深度学习方向，包括 CV、NLP、Data fusion、Digital Twin

论文题目：Vision Transformers for Dense Prediction

论文链接：https://arxiv.org/abs/2103.13413v1

论文代码：https://github.com/isl-org/DPT

发表时间：2021年3月

创新点

1、提出了基于 ViT 为主干架构的 Vision Transformer - DPT

Abstract

我们引入了密集视觉 Transformer，一种利用 Vision Transformer 代替卷积网络作为密集预测任务的骨干的架构。我们将来自 Vision Transformer 各个阶段的令牌组装成各种分辨率的类似图像的表示，并使用卷积解码器将它们逐步组合成全分辨率预测。 Transformer 主干以恒定且相对较高的分辨率处理表示，并且在每个阶段都具有全局感受野。与全卷积网络相比，这些属性允许密集视觉 Transformer 提供更细粒度和更全局连贯的预测。

我们的实验表明，这种架构对密集预测任务产生了显着的改进，尤其是在有大量训练数据可用的情况下。对于单目深度估计，我们观察到与最先进的全卷积网络相比，相对性能提高了高达 28%。当应用于语义分割时，密集视觉转换器以 49.02% 的 mIoU 在 ADE20K 上创造了新的技术水平。

我们进一步表明，该架构可以在较小的数据集上进行微调，例如 NYUv2、KITTI 和 Pascal Context，它还设置了新的状态。

Method

架构概述

首先，输入图像通过提取非重叠块然后对其扁平表示（DPT-Base 和 DPT-Large）进行线性投影或通过应用 ResNet-50 特征提取器（DPT-Hybrid）转换为标记（橙色）；

其次，图像嵌入通过位置嵌入增强，并添加了与补丁无关的读出标记（红色）。令牌通过多个 Transformer 阶段。作者将来自不同阶段的令牌重新组合成具有多种分辨率（绿色）的类似图像的表示；

最后，融合模块（紫色）逐步融合和上采样表示以生成细粒度预测。

Reassemble

重新组装 *** 作，令牌被组装成特征图。

首先，将 Np + 1（位置编码，红色）个标记映射到一组 Np 标记，这些标记可以进行空间连接成类似图像的表示；

然后，使用 1*1 卷积表示投影 *** 作；

最后，在四个不同阶段和四种不同分辨率重新组合特征。

Fusion

融合块使用残差卷积单元组合特征并对特征图进行上采样。

Experiments

实验目标：与单目深度估计的最新技术进行比较

实验结果：DPT-Large 具有明显优势

欢迎分享，转载请注明来源：内存溢出

原文地址: http://outofmemory.cn/langs/730883.html

【论文笔记】Vision Transformers for Dense Prediction

发表评论

评论列表（0条）