LiveMedBench:无数据污染的LLM医疗基准测试,采用自动评分标准

发布时间:2026-02-12 23:04

LiveMedBench被提出作为一个用于大语言模型(LLMs)的、无数据污染的医疗基准测试,其核心特点是持续更新并采用自动评分标准。该基准旨在解决现有医疗评估体系中的关键缺陷。现有基准通常是静态的,存在两大局限:一是数据污染,即测试集数据可能无意中泄露到模型的训练语料中,导致性能评估虚高;二是时间错位,无法捕捉医学知识的快速演变。此外,当前对开放式临床推理的评估指标,要么依赖浅层的词汇重叠(如ROUGE),要么依赖主观的“LLM作为评判者”打分,两者均不足以验证临床正确性。

为弥补这些差距,LiveMedBench每周从在线医疗社区采集真实世界临床案例,确保与模型训练数据在时间上严格分离,从而构建一个持续更新且无污染的基准。它采用一个多智能体临床筛选框架,用于过滤原始数据噪声,并依据循证医学原则验证临床完整性。在评估方面,研究团队开发了基于量规的自动评估框架,将医生回答分解为细粒度的、针对具体病例的评判标准。该框架与专家医生的评估结果一致性,显著优于“LLM作为评判者”的方法。

该基准涵盖了多个医学专科和语言的真实病例,并配备了大量的独特评估标准。对众多LLMs的广泛评估显示,即使表现最佳的模型得分也相对较低,且大部分模型在截止日期后的新病例上表现下降,这证实了普遍存在的数据污染风险。进一步的错误分析表明,主要的瓶颈在于知识的上下文应用能力,而非事实性知识本身,相当比例的失败源于无法将医学知识适配到患者特定的约束条件中。LiveMedBench为在临床等高风险场景中严谨、可靠地评估LLMs提供了重要工具。

客服微信
客服微信