数据工程研究突破:提升大语言模型终端能力的训练策略与开源数据集

发布时间:2026-02-25 12:32

尽管大语言模型的终端能力近期进展迅速,但顶尖终端智能体背后的训练数据策略大多未公开。本研究通过系统性地探索终端智能体的数据工程实践,填补了这一空白。研究做出了两项关键贡献:首先,提出了Terminal-Task-Gen,一个轻量级的合成任务生成管道,支持基于种子和基于技能的任务构建。其次,对数据与训练策略进行了全面分析,涵盖了数据过滤、课程学习、长上下文训练以及扩展行为。该管道产出了Terminal-Corpus,一个用于终端任务的大规模开源数据集。利用此数据集,研究团队训练了Nemotron-Terminal模型系列。该系列模型基于特定基础模型初始化,在Terminal-Bench 2.0基准测试中取得了显著提升。不同规模的模型均实现了性能的大幅跃进,其中最大规模的模型性能已可比肩参数量大得多的模型。为加速该领域的研究,研究团队开源了模型检查点及大部分合成数据集。这项工作为理解和优化终端智能体的数据工程提供了系统性的见解与实践资源。

客服微信
客服微信