博客

技术分享

为何最新的大型语言模型（LLM）倾向于采用 MoE（Mixture of Experts, MoE）架构作为其设计核心？

2024.09.06 41分钟阅读

专业化是必要的

在繁忙的医院环境中，专家与医生济济一堂，每位都拥有独特的专业领域，共同致力于解决患者面临的多样化健康问题。从外科手术的精细操作到心脏病学的精准治疗，再到儿科的细心呵护，各领域专家紧密协作，确保每位患者得到全面而专业的照护。这种团队合作的模式，在人工智能领域同样找到了其灵感源泉——混合专家（MoE）架构。

MoE 架构在人工智能中，被构想为一系列“专家”模型的智能组合，它们各司其职，共同面对复杂多变的数据挑战。每个“专家”模型都专注于特定领域的问题解决，正如医院中的专业医生一样，这种分工合作不仅提升了处理效率，还显著增强了系统的整体效能与精确度。

Mistral AI 作为行业先驱，其开源的基础大型语言模型（LLM）已展现出与 OpenAI 比肩的实力。尤为值得一提的是，Mistral AI 在 Mixtral 8x7B 模型中创新性地引入了 MoE 架构，这一举措标志着尖端 LLM 技术的一次重大飞跃。接下来，我们将深入分析 Mixtral 模型如何在众多基础 LLM 中脱颖而出，并探讨当前 LLM 领域为何纷纷转向 MoE 架构，以此实现速度、规模与准确性的全面升级。

升级大型语言模型（LLM）的常见方法

为了更好地理解 MoE 架构如何增强我们的 LLM，让我们先了解一下提高 LLM 效率的常见方法。人工智能从业者和开发人员通常会通过增加参数、调整架构或微调来增强模型。

增加参数：通过提供更多信息并对其进行解释，模型学习和表示复杂模式的能力得到了提高。然而，这可能会导致过度拟合和幻觉，需要从人类反馈中进行广泛的强化学习（RLHF）。
调整架构：引入新的层或模块可以适应不断增加的参数数量，并提高特定任务的性能。然而，对底层架构的更改很难实现。
微调：预训练的模型可以在特定数据上或通过迁移学习进行微调，使现有的 LLM 能够处理新的任务或领域，而无需从头开始。这是最简单的方法，不需要对模型进行重大更改。

什么是 MoE 架构？

混合专家（MoE）架构是一种神经网络设计，通过为每个输入动态激活称为专家的专用网络子集来提高效率和性能。门控网络决定激活哪些专家，从而实现稀疏激活并降低计算成本。MoE 架构由两个关键组件组成：门控网络和专家。下面让我们来分解一下：

从本质上讲，MoE 架构的功能就像一个高效的交通系统，根据实时条件和所需目的地将每辆车（或在这种情况下，数据）引导到最佳路线。每个任务都会被发送给专门处理该特定任务的最合适的专家或子模型。这种动态路由确保为每个任务使用最有能力的资源，从而提高了模型的整体效率和有效性。MoE 架构利用了提高模型保真度的所有3种方法。

通过引入多名专家，MoE 从本质上提高了模型的效率。
通过为每个专家添加更多参数来确定参数大小。
MoE 改变了经典的神经网络架构，该架构包含一个门控网络，以确定为指定任务雇佣哪些专家。
每个人工智能模型都有一定程度的微调，因此 MoE 的每个专家都经过微调，以达到预期的效果，这是传统模型无法利用的额外调整层。

MoE 门控网络

门控网络在 MoE 模型中充当决策者或控制器。它评估传入的任务，并确定哪位专家适合处理这些任务。这一决定通常基于学习到的权重，这些权重会随着时间的推移通过训练进行调整，从而进一步提高其与专家匹配任务的能力。门控网络可以采用各种策略，从将软任务分配给多个专家的概率方法，到将每个任务路由给单个专家的确定性方法。

MoE 专家

MoE 模型中的每个专家代表一个较小的神经网络、机器学习模型或 LLM，针对问题域的特定子集进行了优化。例如，在 Mistral 中，不同的专家可能专门研究某些语言、方言，甚至是查询类型。专业化确保每位专家都精通其专业领域，当与其他专家的贡献相结合时，将在各种任务中取得卓越的表现。

MoE 损失函数

虽然损失函数不被视为 MoE 架构的主要组成部分，但它在模型的未来性能中起着关键作用，因为它旨在优化单个专家和门控网络。

MoE 进程开始到结束

现在让我们总结一下整个过程，理解更多细节。

以下是对路由过程从始至终工作原理的总结解释：

输入处理：对传入数据的初始处理。在LLM的情况下，主要是我们的 Prompt。
特征提取：转换原始输入进行分析。
门控网络评估：通过概率或权重评估专家的适用性。
加权路由：根据计算出的权重分配输入。在这里，选择最合适的 LLM 的过程已经完成。在某些情况下，选择多个 LLM 来回答单个输入。
任务执行：处理每个专家分配的输入。
专家输出的整合：将单个专家的结果合并为最终输出。
反馈和适应：使用绩效反馈来改进模型。
迭代优化：不断优化路由和模型参数。

使用 MoE 架构的流行模型

OpenAI 的 GPT-4 和 GPT-4o: GPT-4 与 GPT4o 为 ChatGPT 的高级版本提供动力。这些多模态模型利用MoE能够摄取不同的源媒体，如图像、文本和语音。据传，GPT-4 有8名专家，每个专家拥有2200亿个参数，整个模型的参数总数超过1.7万亿个。

Mistral AI 的 Mixtral 8x7b: Mistral AI 提供了非常强大的开源 AI 模型，并表示他们的 Mixral 模型是 sMoE 模型或稀疏的混合专家模型，以小包装交付。Mixtral 8x7b 总共有467亿个参数，但每个令牌只使用 12.9B 个参数，因此以该成本处理输入和输出。他们的 MoE 模型始终优于 Llama2（70B）和 GPT-3.5（175B），同时运行成本更低。

MoE 的好处以及为什么它是首选架构

最终，MoE 架构的主要目标是呈现复杂机器学习任务处理方式的范式转变。它提供了独特的优势，并在以下几个方面展示了其优于传统模式的优势。

增强的模型可扩展性

每个专家负责一项任务的一部分，因此通过添加专家进行扩展不会导致计算需求的成比例增加。
这种模块化方法可以处理更大、更多样化的数据集，并促进并行处理，加快操作速度。例如，将图像识别模型添加到基于文本的模型中可以集成额外的 LLM 专家来解释图片，同时仍然能够输出文本。
多功能性允许模型在不同类型的数据输入中扩展其功能。

提高效率和灵活性

MoE 模型非常高效，有选择地只让必要的专家参与特定的输入，这与不考虑所有参数的传统架构不同。
该架构降低了每次推理的计算负载，使模型能够适应不同的数据类型和专门的任务。

专业性和准确性

MoE 系统中的每位专家都可以针对整体问题的特定方面进行微调，从而在这些领域获得更高的专业知识和准确性。
这样的专业化在医学成像或金融预测等领域很有帮助，因为精度是关键。
由于其细致入微的理解、详细的知识以及在专业任务上超越通才模型的能力，MoE 可以在狭窄的领域产生更好的结果。

MoE 结构的缺点

虽然 MoE 架构提供了显著的优势，但它也面临着可能影响其采用和有效性的挑战。

模型复杂性：管理多个神经网络专家和用于引导交通的门控网络使 MoE 的开发和运营成本具有挑战性。
训练稳定性：门控网络和专家之间的交互引入了不可预测的动态，阻碍了实现统一的学习率，并需要大量的超参数调整。
失衡：让专家闲置是对 MoE 模型的糟糕优化，将资源花在没有使用的专家身上，或者过于依赖某些专家。平衡工作负载分布和调整有效门对于高性能的 MoE AI 至关重要。

应该指出的是，随着 MoE 架构的改进，上述缺点通常会随着时间的推移而减少。

专业化塑造的未来

反思 MoE 的方法及其与人类的平行关系，我们发现，正如专业团队实现的不仅仅是一个通用的劳动力一样，专业模型在人工智能模型中的表现也优于单一的对应模型。优先考虑多样性和专业知识将大规模问题的复杂性转化为专家可以有效解决的可管理部分。

当我们展望未来时，请考虑专业系统在推进其他技术方面的更广泛影响。MoE 的原则可以影响医疗保健、金融和自主系统等领域的发展，促进更高效、更准确的解决方案。

MoE 的旅程才刚刚开始，其持续的发展有望推动人工智能及其他领域的进一步创新。随着高性能硬件的不断进步，这种专家 AI 的混合体可以驻留在我们的智能手机中，能够提供更智能的体验。但首先，需要有人来训练一个。

注册我们的通讯。

免费资源

浏览我们的白皮书、电子书、案例研究和参考架构

搜索

主题

有什么问题吗？

联系我们

博客

为何最新的大型语言模型（LLM）倾向于采用 MoE（Mixture of Experts, MoE）架构作为其设计核心？

相关贴子

Ansys HPC Pack——解读 CPU 和 GPU 的 Ansys 许可

如何安装 ColabFold 并在本地运行 AI 蛋白质折叠

Docker 容器在软件部署中的重要性

全新 Amber26 + AmberTools26 版本发布

从‘专用’到‘真共享’：高校算力资源孤岛破冰全纪实

注册我们的通讯。

免费资源

主题

有什么问题吗？

相关贴子

大语言模型如何突破百万 Token 上下文窗口？—— 解析上下文并行与环形注意力技术

AlphaFold 更新显著提高了对接、核酸和 PTMS 的准确性

【技术大讲堂】ShengBTE 的安装与使用

注册我们的通讯。

敬请登记。