MoE(Mixture of Experts)

MoE(Mixture of Experts,专家混合模型）)是当前大模型（尤其是 GPT-4、Gemini、Mixtral、DeepSeek 等）架构中非常核心的一个概念。 MoE 的思想非常直白：不同的专家/Expert 只负责处理自己擅长的那一类输入，而不是让整个模型的所有参数都去处理所有任务。也就是说：一个 MoE 模型内部其实包含了很多个“子网络”（这些子网络叫做专家/Expert）；每次输入一句话或一段文本时，模型不会激活所有专家/Expert，而是通过一个路由/Router来挑选最合适的几个专家；只有被选中的那几个专家/Expert 会参与这次计算，从而节省大量算力。 ...