近年来,预训练然后微调的范式在广泛的跨模态任务中取得了巨大的成功,如视觉问答,其中一个视觉-语言模型首先通过自监督任务目标优化,如掩码语言建模(MLM)和图像-文本匹配(ITM),然后通过一个全新的目标函数微调以适应下游任务,如答案预测。然而,目标形式的不一致性不仅严重限制预训练好的VL模型对下游任务的泛化,也需要大量的标签数据用于微调。为减轻这一问题,我们提出一种创新的VL微调范式(称为基于声明的促进微调,缩写为DPT),利用预训练目标对下游VQA的模型进行微调,提高了预训练好的模型对下游任务的有效适应。具体地,DPT通过以下两点来重新制定VQA任务:(1)文本适应,将给定的问题转换为陈述性句子形式用于促进微调;(2)任务适应,以预训练阶段的方式优化VQA问题的目标函数。在GQA数据集上的实验结果表明,DPT在全监督和零样本/少样本设置下的准确性都大大优于微调后的对手。
一、介绍视觉语言任务的一种常用做法是遵循预训练然后微调的范式,其中有一个通用的Transformer在大规模的数据集上以自监督的方式进行预训练,然后通过引入额外的参数和使用特定于任务的目标进行微调来适应不同的下游任务,如在视觉问答中使用答案分类的辅助全连接层。这一范式极大地推动了VQA任务的最先进水平。
尽管取得了良好的性能,但值得注意的是,在预训练阶段和微调阶段之间,在目标形式上存在着自然的差距。如图1(b-c),大多VL模型都是通过掩码语言建模和图像-文本匹配目标进行预训练的,即在跨模态上下文上恢复掩码标记,并预测图像-文本对的匹配分数。然而,在微调阶段,VQA问题通常使用一个全新的任务目标进行执行和优化,即将[CLS]标记分类为语义标签(即答案),其中会引入其他参数。结果,在任务形式中,预训练和微调之间存在着较大的差异。这一差距阻碍了预训练好的VL模型泛化到下游VQA任务,导致性能欠优,需要大量的有标签数据进行微调。
受视觉-语言预训练模型最新进展(VL-PTM)和跨模态领域的促进微调范式的启发,本文,我们提出基于声明的促进微调(DPT),一种针对VQA问题的微调VL-PTM的新范式。我们的核心见解是将下游VQA任务的目标形式重新制定为预训练阶段的形式,最大限度地减轻两个阶段之间的差距。为实现这一目标,我们从两个方面重新制定了VQA任务(图1(d)):(1)文本适应,将文本输入(问题)转换为陈述句子形式,(2)任务适应,通过从陈述句子中恢复掩码标记,并选择最匹配图像的标记来解决VQA。这样,答案预测就可以通过密集填充和图像-文本匹配来实现,模拟MLM和ITM任务在预训练阶段的行为。
通过减轻预训练和微调之间的差距,DPT使得在全监督和零/少样本设置下的各种VL模型和VQA数据集上都具有强大的性能。例如,在精度方面,我们的方法在全监督设置中实现了2.68%的绝对改进,而在GQA评估中的零/少样本设置中实现了31.8%∼37.4%的绝对改进。此外,在配备最近提出的VL模型的VQAv2.0上进行的泛化实验表明,与普通的微调方法相比,0.45%∼1.01%的绝对改进。
综上,主要贡献如下:(1)引入基于声明的促进微调(DPT),这是一种新的微调范式,通过将下游问题适应于预训练的任务形式来解决VQA。(2)我们提出新的文本和任务适应方法,将VQA重新定义为密集填充和图像-文本匹配问题,即MLM和ITM。这种适应的任务在全监督和少样本设置下明显优于微调任务。(3)在各种VL-PTMs和VQA数据集上进行了全面的实验,证明了DPT的有效性和可推广性。
二、相关工作 2.1 预训练的视觉-语言模型 2.2跨模态快速调整最近,快速调整由于其在保持预训练模型和下游任务的优化目标的一致性方面的强大能力而越来越受到关注,这使得预训练模型能够泛化到少/零样本的下游任务中进行微调。本文提出一种创新的基于声明的提示模型,该模型利用问题适应的陈述性句子作为提示模板,使VQA任务的文本格式与预训练阶段更加一致,减小了预训练阶段和微调阶段之间的文本差距。
三、方法整体框架如图2所示,具体地,图像和问题被转换为输入形式,并被输入到预训练好的VL模型中以进行多模态融合,其中声明通常被引入用于提示调优。之后,模型的输出被用来执行适应的MLM和ITM任务,以便对模型进行微调和确定答案。
3.1 初步准备形式上,VQA任务的目标是给定一个图像和一个问题,从一个候选答案集中选择一个正确的答案,为此,我们提出VQA的经典范式,预训练然后微调。
预训练然后微调范式 给定一个通用的架构,如Transformer,该模型首先通过手动设计的自监督任务(如MLM和ITM)在大规模的图像-文本语料库上进行预训练。在VQA任务的微调阶段,利用输出[CLS]进行多类分类,并通过交叉熵损失进行优化。该范式引入了一个全新的微调任务,这需要大量的有标签数据来在下游任务中进行泛化。
3.2 基于声明的提示微调为了便于将预训练好的VL模型泛化到下游的VQA任务中,我们提出了一种基于声明的提示调优(DPT)范式,该范式将VQA重新定义为预训练任务形式。如图1(b-d)所示,存在两个挑战:即不同形式的文本输入(问题vs.声明)和不同的任务目标(MLM&ITM vs.答案分类)。为解决此问题,我们提出了(1)文本适应模块,将问题转换为相应的陈述句,(2)任务适应模块,将答案预测重新表述为MLM和ITM任务。这两个适应的任务结合起来决定最终的答案。
通过声明生成的文本适应 文本适应的目的是将文本输入转换为预训练形式(即陈述性句子),如What is the red object left of the girl?是A red [MASK] is left of the girl. 为此,我们引入声明生成,将此过程定义为一个转换问题,源文本和目标文本分别是问题和相应的声明。形式上,我们首先使用来自GQA数据集的注释构建一个声明数据集,其中“全答案”被视为声明,“全答案”中的短答案词/短语被替换为[MASK]标记;然后,在该数据集上训练一个编码-解码器网络,并使用标准的自回归交叉熵损失进行优化。最后,该模型可用于将各种VQA数据集的问题转换为陈述性句子。
任务适应 配备了陈述句,VQA可以被重新表述为预训练的任务范式,即MLM和ITM。适应主要包括文本输入形式和任务目标两个方面。具体来说,MLM在文本输入中保留了一个[MASK]标记,并通过多类分类来预测答案;ITM用MLM预测的top-k候选答案替换[MASK],并使用二进制分类预测匹配分数。
适应MLM任务 为了将VQA重新定义为MLM任务,将问题和声明句连接起来,作为文本输入:
其中,TMLM表示将问题Q转换为输入格式的转换函数。D表示声明句。在式(1)中,我们将问题保留在文本输入中,因为我们发现由于缺乏推理上下文,声明句本身就会降低性能。D保留了一个[MASK]标记,通过这种方式,模型将被提示来决定要填充掩码的标记,这将准确地表示回答的单词/短语。
在适应文本输入的基础上,利用预训练好的VL模型融合文本和图像特征,生成一组隐藏表示。[CLS]和[MASK]标记的输出形式被连接,以预测答案:
sans∈R|C|表示在答案集C上的分数。该模型使用交叉熵损失进行优化,定义为:
其中,agt是真实答案。D表示VQA数据集。
适应ITM任务 为了将VQA重新表述为ITM任务,声明句D中的[MASK]标记被替换为式(2)预测的top-k答案,从的得到k个候选声明:
根据候选项,可以通过问题Q和声明句Dkans的连接来形成文本输入,定义如下:
其中,TITM表示转换函数。Dkans表示声明句,其中[MASK]标记被第k个候选答案aˆk取代。如a red tray/food/cloth is left of the girl.
这样,就会使得预训练好的VL模型来确定图像-文本是否匹配。为了实现这一点,将图像和文本输入送入到VL模型,并将来自[CLS]和答案标记(即h[CLS]和hˆak)的输出连接起来,以预测匹配分数:
其中,smatk表示图像与第k个候选答案的匹配分数。直观地说,具有真实答案的图像-文本对应该有更高的匹配分数。因此,该模型采用二值交叉熵损失进行优化,定义如下:
其中,I[x]:X→{0,1}表示指示器函数,如果x为正,则取值为1,否则为0。
训练和推理 在任务适应之上,VQA被重新表述为MLM和ITM问题。在训练过程中,我们整合了来自等式的损失项用(4)和(9)来微调VL模型。DPT的总损失定义为:
在推理过程中,将MLM和ITM预测的归一化得分通过简单的求和方法进行组合,选择得分最高的答案aˆ作为最终的预测结果,定义如下:
零样本和少样本学习 配备DPT,之前的与训练好的VL模型也可以基于VQA任务很容易地转换为零样本或少样本学习,只有在重新定制式(2)和(7)为预训练阶段的相同形式,并用预训练的权重初始化,可以重写如下:
其中,MLPpt∗表示用预训练权重初始化的MLP层。由于答案的数量少于词汇标记的数量,所以只取与答案单词对应的权重来初始化MLPptMLM。
四、实验 4.1 实现细节数据集 GQA和VQA v2.0被用于构建声明生成数据集,并在VQA任务上评估我们提出的方法。
模型训练 T5-small被选用声明生成。对于VQA,VinVL被用作基础架构,我们提出的DPT通过文本和任务适应应用于VinVL。模型使用已适应的任务目标进行微调,从而产生了关于训练任务的两个变体,即DPT(MLM)和DPT(MLM&ITM)。用于ITM答案的数量K设为8.
4.2 实验结果如表1所示,当仅利用平衡分割进行训练时,我们的方法在测试开发和测试std上分别达到了63.55%和63.57%的总体精度,优于最先进的非预训练/预训练模型,具体来说,我们的方法(DPTbal)在测试std上显著超过了微调对应方法(VinVLbal)2.68%。当使用所有分割来引导我们的模型时,我们的方法(DPT)在总体精度方面仍然排名第一,并且在测试std上比对应的方法(VinVL)高出0.27%。在比较的模型中,MMN和NSM即使没有进行预训练,也取得了竞争的结果,这是由于使用了故意生成的场景图或对执行程序的监督。
4.3 消融研究不同的提示 为了说明陈述性句子对提示调优的有效性,在表2中提出了几种提示变体进行比较,定义如下:Baseline: Vanilla微调VinVL没有提示;MASK:Answer: [MASK];Dynamic: Answer:[V1] [V2]...[V16] [MASK];Declaration(Ours): Answer:D.
其中“[V1]”-“[V16]]表示在微调过程中联合训练的可学习标记。在GQA数据集上,我们提出的基于声明的提示比手动设计的模板(即Mask和Dynamic)更有效。例如,使用MLM任务(第5行)的DPT分别超过了Mask任务和Dynamic任务,分别为1.83%和0.62%。同时配备了MLM和ITM任务,我们的完整模型(第6行)超过基线2.87%。为了测量结果的置信度,我们在GQA和VQAv2.0数据集上对我们的最佳性能模型进行了额外的3次运行,分别得到了0.10%和0.06%的标准差。
在不同数据集上的泛化性 表2显示了VQAv2.0对不同提示的消融结果。与GQA上的结果一致,我们提出的DPT超过了使用固定模板的微调,即Mask或Dynamic。具体来说,我们使用DPT的模型比基线高出0.45%。GQA和VQA之间的准确率增益的差异(2.87%vs.0.45%)主要是由于问题的复杂性和生成的声明句的质量(详见附录)。
在不同VL模型上的泛化性 将DPT应用于最近提出的VL模型,这些模型已经通过MLM和ITM任务进行了预训练,如UNITER和ViLT。如表3所示,对于所有的三个基线,配备了我们的DPT方法,可以观察到一个一致的性能改善(平均0.64%)。例如,ViLT+DPT和UNITER+DPT分别实现了0.46%和1.01%的绝对性能提高。
对不同问题类型的准确率 图3显示了不同问题语义类型的准确性细分。可以观察到,适应的MLM任务在属性问题上的基准线达到了很大的准确性提高(70.46%vs.64.87%)。这显示了基于声明的提示符在捕获对象属性时的强度。此外,适应的ITM任务在全局问题上取得了更多的性能提高(59.24%vs.56.69%),表明其在全局语义方面具有优越的理解能力。
4.4 零样本和少样本结果图4显示了在GQA数据集上的零样本和少样本设置的精度。我们在抽样分割中提前删除是/否问题,因为很大比例的yes/no问题(分别为18.81%和17.47%的问题有yes和no答案)将导致基线评估中很大的方差(∼8%)。如图4所示,可以观察到DPT的性能显著优于普通的微调对应项和其他提示变体(即Mask和Dynamic)。例如,在没有训练样本的情况下,我们的DPT达到了36.6%的强准确率,而微调对手由于随机猜测而不能预测正确的答案。当提供1个∼128个样本时,我们的DPT方法与基线相比实现了31.8%∼37.4%绝对精度的提高。
4.5 实例分析如图5,我们从我们提出的DPT方法中可视化了两个成功的案例。第一个案例中,Baseline产生left和right的概率几乎相同,表明它在解决这些方向相关的问题方面的弱点。相比之下,凭借掩码语言模型的能力,我们的DPT自信地预测正确的答案“right”。对于第二种情况,Baseline模型和DPTMLM都错误地预测了答案“child”,这主要归因于“child”是在训练集中更频繁发生的对象。此外,“child”是“girl”和“boy”的代名词,这使它成为对许多问题的普遍答案。相反,适应ITM任务的DPT考虑了答案的语义,对答案“girl”的得分更高,从而得到正确的答案。
五、总结我们提出将VQA任务重新表述为掩蔽语言模型(MLM)和图像-文本匹配(ITM)问题,最大限度地缩小视觉-语言(VL)预训练阶段和微调阶段之间的差距。为了实现这一点,我们首先将问题转换为具有保留的[MASK]或候选答案的陈述性句子,从而减少了关于文本输入的差异。然后,通过任务适应将VQA问题重新表述为预训练格式,以MLM和ITM任务的方式解决了VQA问题。在两个基准测试上的广泛实验验证了我们提出的DPT范式在完全监督和零样本/少样本设置下的不同预训练VL模型上的有效性和通用性。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)