京东开源JoyAI-LLM-Flash大模型：采用MoE架构，总参数48B

发布时间：2026-02-15 17:32

京东于Hugging Face平台正式开源了其大语言模型JoyAI-LLM-Flash。该模型采用了混合专家模型架构，其总参数量达到480亿，而每次推理时激活的参数量为30亿，旨在实现高性能与高效率的平衡。

据介绍，JoyAI-LLM-Flash在大量文本数据上进行了预训练，具备前沿知识理解、复杂推理、编程以及智能体应用等多方面的能力。模型的核心创新在于其全新的优化框架FiberPO，该框架将纤维丛理论引入强化学习过程。在训练中，模型结合了Muon优化器与稠密多令牌预测技术，据称有效解决了传统模型在规模扩展时的不稳定问题，并在吞吐量上获得了显著提升。

模型的具体架构细节包括：总计40层，其中包含1个稠密层；注意力隐藏维度为2048；配备了32个注意力头；专家总数为256个，每令牌激活8个专家，并包含1个共享专家。此外，模型拥有较大的词表与长达128K的上下文处理能力，采用MLA注意力机制与SwiGLU激活函数。此次开源为开发者与研究社区提供了一个新的、具备特定技术特色的大模型选择。

返回快讯列表