麻省理工学院(MIT)联合英伟达等机构,共同发布了一项名为“驯服长尾”(TLT)的技术。该技术旨在解决推理大语言模型在强化学习训练过程中面临的严重效率瓶颈。
推理大模型擅长通过拆解步骤解决复杂问题,但其训练过程消耗的算力与能耗极为巨大。研究团队发现,训练中生成多个备选答案的“推演”阶段占据了绝大部分时间。由于不同处理器处理任务的速度不一,完成较快的处理器被迫闲置,等待其他处理器完成长文本任务,形成了效率瓶颈。
TLT技术提出了一种自适应解决方案。其核心是创新性地运用“投机解码”技术:训练一个较小的“草稿模型”来快速预测大模型的未来输出,再由大模型批量验证这些猜测,从而避免大模型逐个顺序生成输出,大幅加快处理进程。
与传统静态草稿模型不同,TLT系统引入了“自适应草稿训练器”。当部分处理器因完成短查询而闲置时,系统会立即调度它们实时训练草稿模型。同时,“自适应推演引擎”会根据工作负载自动调整解码策略,确保草稿模型始终与目标大模型保持同步,且不增加额外算力开销。
测试表明,TLT技术在保持模型准确率完全无损的情况下,显著提升了多个推理大语言模型的训练速度。此外,训练得到的轻量级草稿模型还可作为副产品,用于后期的高效部署。研究团队计划未来将该技术融入更多训练与推理框架,以进一步降低AI开发成本并提升能源利用率。


