本技术报告介绍了FireRed-Image-Edit,这是一种基于指令进行图像编辑的扩散Transformer模型,通过系统优化数据构建、训练方法和评估设计,实现了业界领先的性能。
研究团队构建了一个大规模的训练语料库,包含来自不同来源的文本到图像和图像编辑数据对。经过严格的清洗、分层、自动标注和两阶段筛选后,保留了高质量样本,确保了生成与编辑任务的平衡、强大的语义覆盖以及指令对齐。
模型采用多阶段训练流程,通过预训练、监督微调和强化学习逐步构建编辑能力。为提高数据效率,团队引入了多条件感知桶采样器以处理可变分辨率批处理,以及带有动态提示重新索引的随机指令对齐方法。
为稳定优化并增强可控性,报告提出了用于DPO的非对称梯度优化、用于文本编辑的具有布局感知OCR奖励的DiffusionNFT,以及用于身份保持的可微分一致性损失。
此外,团队建立了REDEdit-Bench,一个涵盖多个编辑类别的综合基准测试集,包括新引入的美化和低级增强任务。在REDEdit-Bench及公开基准上的大量实验表明,该模型在多项任务上相比开源和专有系统均展现出具有竞争力的性能。团队已发布代码、模型和基准测试套件以支持未来研究。


