MedXIAOHE：构建医疗多模态大模型的综合方案与框架

发布时间：2026-02-16 14:34

研究团队提出了MedXIAOHE，这是一个旨在推进通用医疗理解和临床应用的医疗视觉语言基础模型。该模型在多项医疗基准测试中取得了领先的性能，并在多种能力上超越了现有的闭源多模态系统。

为实现这一目标，研究提出了一种实体感知的持续预训练框架。该框架通过组织异构的医疗语料库，旨在拓宽模型的知识覆盖范围，并减少在长尾数据（如罕见疾病）上的性能差距。

在医疗专家级推理与交互方面，MedXIAOHE通过强化学习和工具增强的智能体训练，融入了多样化的医疗推理模式。这使得模型能够进行多步骤的诊断推理，并生成可验证的决策轨迹。

为了提升模型在真实世界应用中的可靠性，MedXIAOHE整合了用户偏好评估标准、基于证据的推理机制以及低幻觉的长篇报告生成能力，从而提高了对医疗指令的遵循程度。

该报告旨在记录其实际的设计选择、规模化见解以及评估框架，以期为后续的相关研究提供参考与启发。