京东开源JoyAI-LLM-Flash大模型:采用MoE架构,总参数48B

发布时间:2026-02-15 17:32

京东于Hugging Face平台正式开源了其大语言模型JoyAI-LLM-Flash。该模型采用了混合专家模型架构,其总参数量达到480亿,而每次推理时激活的参数量为30亿,旨在实现高性能与高效率的平衡。

据介绍,JoyAI-LLM-Flash在大量文本数据上进行了预训练,具备前沿知识理解、复杂推理、编程以及智能体应用等多方面的能力。模型的核心创新在于其全新的优化框架FiberPO,该框架将纤维丛理论引入强化学习过程。在训练中,模型结合了Muon优化器与稠密多令牌预测技术,据称有效解决了传统模型在规模扩展时的不稳定问题,并在吞吐量上获得了显著提升。

模型的具体架构细节包括:总计40层,其中包含1个稠密层;注意力隐藏维度为2048;配备了32个注意力头;专家总数为256个,每令牌激活8个专家,并包含1个共享专家。此外,模型拥有较大的词表与长达128K的上下文处理能力,采用MLA注意力机制与SwiGLU激活函数。此次开源为开发者与研究社区提供了一个新的、具备特定技术特色的大模型选择。

客服微信
客服微信