LiveMedBench:无数据污染的LLM医疗基准测试,采用自动评分标准

发布时间:2026-02-12 23:03

LiveMedBench被提出作为一个用于大语言模型(LLMs)的、无数据污染的医疗基准测试,其核心特点是持续更新并采用自动评分标准。在高风险的临床环境中部署LLMs需要进行严格可靠的评估,但现有医疗基准通常是静态的,存在两个关键局限:一是数据污染,即测试集无意中泄露到训练语料库,导致性能评估虚高;二是时间错位,无法捕捉医学知识的快速演变。此外,当前对开放式临床推理的评估指标往往依赖于浅层的词汇重叠或主观的“LLM作为评判者”评分,这两种方式均不足以验证临床正确性。

为弥补这些差距,LiveMedBench每周从在线医疗社区收集真实世界临床案例,确保与模型训练数据在时间上严格分离,从而构建了一个持续更新、无污染且基于评分标准的基准。它提出了一个多智能体临床筛选框架,用于过滤原始数据噪声,并依据循证医学原则验证临床完整性。在评估方面,研究开发了基于自动评分标准的评估框架,将医生回答分解为细粒度的、针对具体病例的标准,其评估结果与专家医生的判断一致性远高于“LLM作为评判者”的方法。

该基准涵盖了多个医学专科和语言的真实病例,并配以大量独特的评估标准。对众多LLMs的广泛评估显示,即使表现最佳的模型得分也有限,且大部分模型在截止日期后的病例上表现出性能下降,这证实了普遍存在的数据污染风险。错误分析进一步指出,主要的瓶颈在于情境应用能力而非事实性知识,相当比例的失败源于无法将医学知识适配到患者特定的约束条件中。LiveMedBench旨在为LLMs在医疗领域的可靠评估提供更严谨、动态且免受污染影响的基准。

客服微信
客服微信