Tag Archive
标签:Mixture-of-Transformers
这里整理所有带有「Mixture-of-Transformers」标签的文章,方便按主题快速回看。
首页
每日调研
论文精读
主题归档
实验分析
复现指南
Mixture-of-Transformers
共 1 篇
主题归档 · 2026-06-17
Mixture-of-Transformers(MoT)架构详解:把多模态大模型从“一个脑子硬扛所有模态”改成“按模态分工的 Transformer 混合体”
详细解释 Meta 提出的 Mixture-of-Transformers(MoT)架构:它为什么不是普通 MoE,怎样按模态解耦 Transformer 参数、保留全局自注意力,以及为什么能显著降低多模态预训练 FLOPs 和 wall-clock time。
Multimodal Foundation Model
Mixture-of-Transformers
MoE
Sparse Transformer
Architecture
Pretraining