MediX-R1:面向医疗多模态大语言模型的开放式强化学习框架

发布时间:2026-02-27 16:32

研究团队提出了MediX-R1,这是一个面向医疗多模态大语言模型的开放式强化学习框架。该框架旨在使模型能够生成基于临床背景的自由形式答案,而不仅限于多项选择题格式。

MediX-R1采用基于组的强化学习方法,对一个基础的视觉-语言骨干模型进行微调。其核心是一个为医疗推理量身定制的复合奖励机制。该机制包含三个主要部分:一个基于LLM的准确性奖励,用于通过严格的“是/否”决策来判断语义正确性;一个基于医疗嵌入的语义奖励,用于捕捉同义表述和术语变体;以及轻量级的格式和模态奖励,用于确保可解释的推理和模态识别。这种多信号设计为开放式输出提供了稳定且信息丰富的反馈,弥补了传统可验证或仅限选择题的奖励机制的不足。

为了评估进展,研究团队提出了一个统一的评估框架,适用于纯文本以及图像加文本任务。该框架使用基于参考的“LLM作为评判者”来替代脆弱的字符串重叠指标,从而捕捉语义正确性、推理过程和上下文对齐度。

尽管使用的指令示例数量有限,但MediX-R1在标准的医疗LLM(纯文本)和VLM(图像加文本)基准测试中均取得了优异的结果,超越了强大的开源基线模型,并在开放式临床任务上实现了显著的性能提升。研究结果表明,结合全面奖励信号和基于LLM评估的开放式强化学习,是实现多模态模型可靠医疗推理的一条可行路径。该研究的训练模型、精选数据集和源代码已公开。

客服微信
客服微信