在大语言模型的指令微调中,通常需要从大量候选指令池中,针对目标任务选择出一个训练数据子集。尽管相关研究日益增多,但现有文献呈现碎片化且不够透明:各方法在数据选择预算上差异巨大,常忽略零样本基线,且关键组件的贡献常被混淆。这导致从业者难以获得针对其目标任务的有效选指指导。
本研究旨在通过解耦并系统分析两个核心要素——数据表征和选择算法,来厘清这一领域。我们提出的框架支持在不同模型、任务和预算下进行可控比较。研究发现,只有基于梯度的数据表征方法,其选出的子集与查询集之间的相似度,能够稳定地预测在不同数据集和模型上的性能表现。
虽然没有任何单一方法在所有情况下都占优,但平均而言,在低预算条件下,基于梯度的表征配合贪心循环选择算法往往表现最佳。然而,随着预算增加,这种优势会逐渐减弱。此外,研究将多种现有选择算法统一为所选子集与查询集之间近似距离最小化的不同形式,并通过新的泛化界限支持了这一观点。
总体而言,本研究为大语言模型微调中更原则性的数据选择提供了关键见解和基础。


