Arcee发布Trinity Large技术报告:详解400B参数稀疏专家混合模型

发布时间:2026-02-20 12:31

Arcee AI发布了其Trinity Large模型的技术报告。Trinity Large是一个稀疏专家混合模型,拥有4000亿总参数,每个令牌激活130亿参数。报告同时介绍了Trinity Nano和Trinity Mini模型。Trinity Nano拥有60亿总参数,每个令牌激活10亿参数;Trinity Mini拥有260亿总参数,每个令牌激活30亿参数。

这些模型采用了现代架构设计,包括交错局部与全局注意力、门控注意力、深度缩放三明治归一化,以及用于专家混合的Sigmoid路由。针对Trinity Large,报告还引入了一种名为“软钳位动量专家偏置更新”的新MoE负载均衡策略。

所有模型均使用Muon优化器进行训练,并在训练过程中实现了零损失峰值。Trinity Nano和Trinity Mini在大量令牌上完成了预训练,Trinity Large则在更多令牌上完成了预训练。模型检查点已公开提供。

该技术报告由多位研究人员共同撰写,详细阐述了模型的技术细节、架构创新和训练过程,为大规模稀疏专家混合模型的研究与应用提供了重要参考。

客服微信
客服微信