MediX-R1：面向医疗多模态大语言模型的开放式强化学习框架

发布时间：2026-02-27 16:32

研究团队提出了MediX-R1，这是一个面向医疗多模态大语言模型的开放式强化学习框架。该框架旨在使模型能够生成基于临床背景的自由形式答案，而不仅限于多项选择题格式。

MediX-R1采用基于组的强化学习方法，对一个基础的视觉-语言骨干模型进行微调。其核心是一个为医疗推理量身定制的复合奖励机制。该机制包含三个主要部分：一个基于LLM的准确性奖励，用于通过严格的“是/否”决策来判断语义正确性；一个基于医疗嵌入的语义奖励，用于捕捉同义表述和术语变体；以及轻量级的格式和模态奖励，用于确保可解释的推理和模态识别。这种多信号设计为开放式输出提供了稳定且信息丰富的反馈，弥补了传统可验证或仅限选择题的奖励机制的不足。

为了评估进展，研究团队提出了一个统一的评估框架，适用于纯文本以及图像加文本任务。该框架使用基于参考的“LLM作为评判者”来替代脆弱的字符串重叠指标，从而捕捉语义正确性、推理过程和上下文对齐度。

尽管使用的指令示例数量有限，但MediX-R1在标准的医疗LLM（纯文本）和VLM（图像加文本）基准测试中均取得了优异的结果，超越了强大的开源基线模型，并在开放式临床任务上实现了显著的性能提升。研究结果表明，结合全面奖励信号和基于LLM评估的开放式强化学习，是实现多模态模型可靠医疗推理的一条可行路径。该研究的训练模型、精选数据集和源代码已公开。

返回快讯列表