LaViDa-R1是一种多模态通用推理扩散语言模型,代表了自回归大语言模型的一种有前景的替代方案。近期研究进一步将扩散语言模型扩展至多模态理解与生成任务。与现有通过任务特定强化学习构建推理模型的方法不同,LaViDa-R1以统一的方式整合了多样化的多模态理解与生成任务。该模型基于一种新颖的统一后训练框架构建,该框架无缝集成了监督微调和多任务强化学习。它采用了多项创新的训练技术,包括答案强制、树搜索和互补似然估计,以提升模型的有效性和可扩展性。广泛的实验表明,LaViDa-R1在广泛的视觉数学推理、需要密集推理的视觉定位以及图像编辑等多模态任务上均表现出强大的性能。这项研究由多位作者共同完成,相关论文已提交至预印本平台。


