论文学习 VLMo:混合模态专家的统一视觉语言预训练 提出了一个统一的视觉语言预训练模型(VLMO),它通过模块化 Transformer 网络联合学习双编码器和融合编码器。具体来说,引入了Mixture-of-Modality-Experts (MOME) Transformer,其中每个块包含一