当大模型从技术走向应用，MoE架构成“新宠”

2024-06-05 03:31 来源：尚腻网点击：

当大模型从技术走向应用，MoE架构成“新宠”

AI 大模型带来的浪潮已经席卷全球，时至今日几乎所有的科技企业都在 AI 大模型方面有所布局。

随着这一轮 AI 技术的快速发展，我们不难看出，AI 已经从 " 卷 " 技术走向 " 卷 " 应用的阶段，如果说 2023 年是生成式 AI 元年的话，那么 2024 年必将是生成式 AI 企业侧应用落地的元年。

大模型从卷参数走向性价比

回看 2023 年，各大厂商争先恐后的发布各自大模型产品，而当产品发布后，几乎所有人关注的焦点都在参数有多大上。彼时，人们似乎不约而同都在以参数的大小衡量大模型产品的好坏。

生成式 AI" 鼻祖 " 发布的 GPT-3.5 据报道可达 1750 亿个参数，而后续推出的 GPT-4 虽然未知参数，但显然要比 GPT-3.5 更高；中国移动发布的 " 九天智能基座 " 大模型也拥有千亿级别参数；通义千问最新开源的模型达到 1100 亿参数； Google AI 发布了 Pathways Language Model ( PaLM ) ，拥有 5400 亿个参数，在各种自然语言处理基准测试中取得了最先进的结果；浪潮信息发布的 " 源 1.0"1 大模型具有 2457 亿参数 ......

而随着参数数量的增加，也意味着训练模型需要更多的计算资源和训练时间。训练一个拥有数十亿甚至数百亿参数的 LLM，往往需要大量的计算设备和电力消耗。此外，庞大的参数也带来更高的模型复杂度，对模型的训练和调优也提出了更大的挑战。

以一个 5000 亿参数的大模型为例，训练这个大模型需要 2 万张 H100 的数据中心集群，需要大概 10 亿美元的建设成本，而每年训练所消耗的电费将达到 5.3 亿元人民币，无论对哪个企业而言，这都将是一笔难以估算与接受的开销。

在此背景下，AI 大模型要想在企业侧大规模落地应用，企业就需要更多的考虑到算力效率，从模算效率层面，整体评估与衡量模型的精度和开销。对此，浪潮信息人工智能首席科学家吴韶华告诉钛媒体 APP，算力效率越高，意味着单位算力投入的情况下，模型精度回报越高，造成的算力浪费现象越小，对模型的训练非常有利。而所谓模算效率，正是追求并实现 " 模型能力更强且算力消耗更少 " 的技术方式。

浪潮信息人工智能首席科学家吴韶华

" 假设拥有很高的模算效率，我们基于更多 token 训练更到参数量模型就成为可能，" 吴韶华对钛媒体 APP 进一步指出，" 尤其是在企业侧应用的过程中，模型训练、推理的整体成本会随着模算效率的提升而降低，也就进一步降低了企业应用 AI 的成本门槛。"

MoE 架构或成 AI 大模型最优解

就如同互联网的发展一般，消费级的产品只是技术出现在人们眼前的渠道，而真正的技术价值还得看企业级的应用。AI 大模型在这点上与彼时的互联网相似。随着 " 产业 AI 化 " 进程的推进，企业需要找到一个能 " 用得起 " 的大模型产品。这时候 MoE 架构的出现，就成为了现阶段企业应用大模型的最佳技术展现形式。

对此，吴韶华告诉钛媒体 APP，当算力以及训练数据发展变缓，或者成本变高的时候，我们需要另外一种可以让模型能力继续进行扩展（scale）的创新方式。" 基于此，今天，更好地利用一定规模的算力和数据构建更大规模、资源消耗更少、性能更好的大语言模型，是产业面临的核心问题。" 吴韶华强调。

而 MoE（Mixture of Experts，混合专家模型）恰好就满足了人们对于更大规模、更低消耗，更低算力资源占用的愿景。MoE 本质上是一种高效的 scaling 技术，用较少的计算资源实现更大的模型规模，从而获得更好的模型性能表现。

MoE 作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术，由多个专家模型组成，每个子模型都是一个局部模型。门控功能 " 稀疏性 " 的引入让 MoE 在处理输入数据时只激活使用少数专家模型，大部分专家模型处于未激活状态。换言之，只有擅长某一特定领域的模型会被派遣，为用户提供最专业的服务，而其他模型则原地待命，静待自己擅长的领域到来。这种 " 稀疏状态 " 作为混合专家模型的重要优势，进一步提升了模型训练和推理过程的效率。

吴韶华告诉钛媒体 APP，MoE 模型的一个显著优势——能够在远少于稠密模型所需的计算资源下进行有效的预训练。" 这意味着在相同的计算预算条件下，可以显著扩大模型或数据集的规模。特别是在预训练阶段，与稠密模型相比，混合专家模型通常能够更快地达到相同的质量水平。" 吴韶华表示。

据了解，近日浪潮信息全新发布的 " 源 2.0-M32"（简称 M32）正是基于 MoE 架构的开源大模型，"M32 包含了 32 个专家的 MoE 大语言模型，参数量 400 亿并大幅提升了模型算力效率，" 吴韶华告诉钛媒体 APP，"M32 凭借特别优化设计的模型架构，在仅激活 37 亿参数的情况下，取得了和 700 亿参数 LLaMA3 相当的性能水平，所消耗算力仅为 LLaMA3 的 1/19。"

基于 MoE 架构，M32 延用源 2.0 非均匀流水并行的方法，综合运用流水线并行 + 数据并行的策略，为硬件差异较大训练环境提供了一种高性能的训练方法，模算效率得到了大幅提升。

其实从今年以来各大厂商发布的大模型产品上就不难看出，MoE 架构已经成为当下大模型产品的主流架构之一，今年初，深度求索团队发布了开源的 160 亿参数专家模型 DeepSeek MoE，而 OpenAI 的 GPT-4、谷歌的 Gemini、Mistral AI 的 Mistral、xAI 的 Grok-1 等主流大模型也都采用了 MoE 架构。

相比于 Dense 模型，MoE 无论在可扩展性，计算效率、训练效率，还是灵活性、专业化、容错率等方面都有着出色的表现，这也让 MoE 架构成为企业侧应用大模型的不二选择。

"模更强，算更优" ——性能、成本全都要！

显然，在模算效率方面，基于 MoE 架构开发的 M32 大模型拥有非常明显的优势，这让企业在使用 M32 大模型的过程中，算力资源的浪费更少，成本更低，在这个追求降本增效的背景下，MoE 更适合企业侧部署大模型。

不过对于企业而言，" 既要，又要 " 的想法肯定是每个企业都追求的，企业当然不希望降低成本是以牺牲性能作为代价的。这时候，作为大模型提供商来说，就需要平衡好性能与成本之间的天平。

以最近刚刚发布的 M32 为例，吴韶华告诉钛媒体 APP，基于对性能的考虑，此次发布的 M32 使用了全新的门控网络—— Attention Router，负责调度各个 token 到不同专家模型上进行混合计算，"Attention Router 是一种专家间协同性的度量方法，" 吴韶华指出，" 在计算过程中可以将输入样本中任意两个 token 通过一个计算步骤直接联系起来，解决了传统的门控机制中，选择两个或多个专家参与计算时关联性缺失的问题。"

Attention Router 网络结构通过创造一种专家间协同性的度量方法，能够使得专家之间协同处理数据的水平和效能大为提升，从而实现以更少的激活参数，达到更高的智能水平。

除此之外，大模型在企业侧应用过程中，不可避免的要解决幻觉的问题，大模型在企业侧并不像是在消费端，消费侧的模型只要参数够大，数据量够大，即便有一些质量不佳的数据，偶尔产生一些 " 幻觉 " 问题也是可以接受，而企业侧的应用并不是这样。

在企业侧，大模型需要精度更高，准确率更高，甚至对于有些行业而言，0.01% 的错误拒绝率都是难以容忍的。这就对企业侧应用大模型产品提出了更高的要求。

对于钛媒体 APP 提出的幻觉方面的担忧，浪潮信息人工智能与高性能应用软件部 AI 软件架构师 Allen Wang 认为，对于大模型幻觉问题，业内目前已经有很多方式方法进行避免，" 业内比较常见的事通过模型的微调、小样本学习，或者外挂知识库的形式，能有效解决大模型幻觉的问题。"Allen Wang 如是说。

另外，Allen Wang 也进一步告诉钛媒体 APP，不久前，浪潮信息也刚刚发布了 EPAI 企业大模型开发平台，包含各种增强式技术及模块化的技术，很大程度上可以帮助企业处理幻觉问题。以微调数据举例，EPAI 所拥有覆盖范围广泛的 1 亿 + 基础数据，也为提升模型精度做出了极大的贡献。"Allen Wang 强调，" 未来，M32 也将与 EPAI 企业大模型开发平台一同，助力企业实现更快的技术迭代与高效的应用落地。"

除此之外，业内也有不少大模型厂商在尝试通过技术降低大模型出现幻觉的可能性。在前不久的 IBM Think 大会上，IBM 宣布正在 Hugging Face 和 GitHub 上开源其 Granite 大模型系列，包括其最先进的代码大模型，这些模型在多项行业基准上超越比之规模更大的模型。同时还与红帽共同推出一个开源新方法 InstructLab, 通过社区参与企业级的知识型数据与技能型数据的分类和表达，并通过合成数据 - 验证的方式后，对企业的基础模型进行微调。InstructLab 首次实现了对预训练 LLM 的修改。" 这是一项首创的大模型对齐技术（LAB），可将开源社区的资源直接引入大语言模型，让企业在应用大模型的时候只需要极少的数据，就可以达到更大的准确率。"IBM 中国系统实验室 CTO 孟繁晶告诉钛媒体 APP。

而通过以浪潮信息与 IBM 为代表的各大布局企业侧大模型产品最新的举措也不难看出，平台化的大模型产品已经成为当下企业应用大模型产品的最佳方式。这种开源的方式，可以接入更多的基础大模型与专家大模型，并在企业使用的时候，在确保提供高可用的大模型解决方案的同时，还能进一步降低企业使用大模型的成本门槛与技术门槛，真正做到简单、易用。

搭建好大模型平台之后，下一步各大厂商就需要一方面在原有产品上不断进行模型的优化，开发新的版本，提供更高模算效率，更强性能的基础大模型；另一方面，如何在平台上提供更多的工具和软件供企业侧的开发者选择使用，以及这些工具的易用性和可用性将成为接下来各大大模型厂商角逐的重要赛道。（本文首发于钛媒体 APP，作者｜张申宇，编辑丨盖虹达）

​当大模型从技术走向应用，MoE架构成“新宠”

当大模型从技术走向应用，MoE架构成“新宠”