迈向通用视频MLLM:发布属性结构化与质量验证指令集ASID

发布时间:2026-02-16 14:33

通用视频理解需要在多样化的现实场景中,对随时间变化的细粒度视觉与音频信息进行建模。然而,现有模型的性能主要受限于视频指令数据,这些数据通常将复杂的视听内容表示为单一且不完整的描述,缺乏细粒度的组织和可靠的标注。为解决这一问题,本研究提出了三项核心贡献。

首先,研究团队发布了ASID-1M,这是一个包含大量结构化、细粒度视听指令标注的开源数据集,提供了单属性和多属性的监督信息。其次,开发了ASID-Verify,这是一个可扩展的数据管理流程,用于标注工作,并通过自动验证和精炼机制,确保描述与对应视听内容在语义和时间上的一致性。最后,基于ASID-1M数据集,通过监督微调训练出了视频理解模型ASID-Captioner。

在涵盖视听描述、属性描述、基于描述的问答以及基于描述的时间定位等多个基准测试中进行的实验表明,ASID-Captioner模型在提升细粒度描述质量的同时,有效减少了幻觉现象,并改善了指令遵循能力。该模型在开源模型中取得了领先的性能表现。

客服微信
客服微信