尽管扩散模型取得了进展,AI生成的图像仍常包含损害真实感的视觉伪影。更彻底的预训练和更大的模型可能减少伪影,但无法保证完全消除,这使得伪影缓解成为一个至关重要的研究领域。以往依赖人工标注伪影数据集的方法成本高昂且难以扩展,凸显了对自动化方法以可靠获取伪影标注数据集的迫切需求。
本文提出了ArtiAgent,它能高效创建真实图像与注入伪影的图像对。该框架包含三个代理:感知代理负责从真实图像中识别并定位实体和子实体;合成代理通过新颖的块状嵌入操作,在扩散变换器内使用伪影注入工具引入伪影;策展代理则对合成的伪影进行过滤,并为每个实例生成局部和全局解释。
利用ArtiAgent,研究合成了大量带有丰富伪影标注的图像,并在多种应用中证明了其有效性和多功能性。该方法为视觉语言模型和扩散模型理解并修复视觉缺陷提供了自动化的数据合成解决方案,有助于推动生成图像质量的进一步提升。


