程序员应该熟悉的概念(5)MoE

MoE(Mixture of Experts,专家混合模型))是当前大模型(尤其是 GPT-4、Gemini、Mixtral、DeepSeek 等)架构中非常核心的一个概念。 MoE 的思想非常直白:不同的 专家/Expert 只负责处理自己擅长的那一类输入,而不是让整个模型的所有参数都去处理所有任务。 也就是说: 一个 MoE 模型内部其实包含了很多个“子网络”(这些子网络叫做 专家/Expert); 每次输入一句话或一段文本时,模型不会激活所有 专家/Expert,而是通过一个 路由/Router来挑选 最合适的几个专家; 只有被选中的那几个 专家/Expert 会参与这次计算,从而节省大量算力。 ...

九月 27, 2025 · 2 分钟 · 火云