作者：蒋晓翠

学习笔记

论文学习

论文学习 VLMo：混合模态专家的统一视觉语言预训练提出了一个统一的视觉语言预训练模型（VLMO），它通过模块化 Transformer 网络联合学习双编码器和融合编码器。具体来说，引入了Mixture-of-Modality-Experts (MOME) Transformer，其中每个块包含一

蒋晓翠发布于 2024-01-10