蒋晓翠
发布于 2024-01-10 / 19 阅读
0

论文学习

论文学习

VLMo:混合模态专家的统一视觉语言预训练

提出了一个统一的视觉语言预训练模型(VLMO),它通过模块化 Transformer 网络联合学习双编码器和融合编码器。具体来说,引入了Mixture-of-Modality-Experts (MOME) Transformer,其中每个块包含一个特定于模态的专家池和一个共享的自注意力层。由于 MOME 的建模灵活性,预训练的VLMO 可以作为视觉语言分类任务的融合编码器进行微调,或者用作高效图像文本检索的双编码器。此外,还提出了一种分阶段的预训练策略,除了图像文本对之外,它还有效地利用了大规模的纯图像和纯文本数据。实验结果表明,VLMO 在各种视觉语言任务上取得了最先进的结果,包括 VQA、NLVR2 和图像文本检索。

是一篇2022年微软发表在NeurIPS会议的一篇文章,代码和预训练模型可从 https://aka.ms/vlmo 获取。

VLMo模型框架

vlmo1.png 引入混合模态专家(MOME)变压器来编码特定模态专家的不同模态输入。模型参数在图像文本对比学习、掩蔽语言建模和图像文本匹配预训练任务中共享。在微调过程中,灵活的建模使我们能够使用 VLMO 作为双编码器(即分别编码图像和文本以进行检索任务)或融合编码器(即联合编码图像-文本对,以实现更好的跨模态交互)。

阶段性预训练

vlmo2.png 正如前文提到的,VLMo的预训练并非一股脑的一起训练,而是分阶段的训练。首先,只使用图像数据对MOME Transformer的视觉专家和注意力模块进行视觉预训练。作者直接利用BEIT的预训练参数来初始化注意模块和视觉专家。然后,冻结注意力模块和视觉专家的参数,只使用文本数据对语言专家进行语言预训练。最后,解开冻结,用整个该模型进行VL预训练。

在下游任务上微调VLMo

VLMo3.png该模型可以进行微调以适应各种视觉语言检索和分类任务

视觉语言分类 对于视觉问答和视觉推理等分类任务,VLMO被用作融合编码器来建模图像和文本的模态交互。使用标记 [T_CLS] 的最终编码向量作为图像文本对的表示,并将其馈送到特定于任务的分类器层来预测标签。

视觉语言检索 对于检索任务,VLMO 可以用作双编码器,分别对图像和文本进行编码。在微调过程中,模型针对图像文本对比损失进行了优化。在推理过程中,计算所有图像和文本的表示,然后使用点积来获得所有可能的图像文本对的图像到文本和文本到图像的相似度分数。单独编码比基于融合编码器的模型具有更快的推理速度。

实验结果

vlmo4.pngvlmo5.png