LiveMedBench被提出作为一个用于大语言模型(LLMs)的、无数据污染的医疗基准测试,其核心特点是持续更新并采用自动化的评分标准进行评估。在高风险的临床环境中部署LLMs需要进行严格且可靠的评估,但现有的医疗基准测试通常是静态的,存在两个关键局限:一是数据污染,即测试集无意中泄露到训练语料库,导致性能评估虚高;二是时间错位,无法捕捉医学知识的快速演变。此外,当前对开放式临床推理的评估指标往往依赖于浅层的词汇重叠或主观的“LLM作为评判者”打分,这两种方式都不足以验证临床正确性。
为了弥补这些差距,研究团队引入了LiveMedBench。该基准每周从在线医疗社区收集真实的临床病例,确保与模型训练数据在时间上严格分离,从而实现持续更新和无污染。团队提出了一个多智能体临床管理框架,用于过滤原始数据中的噪声,并依据循证医学原则验证临床完整性。在评估方面,团队开发了基于自动评分标准的评估框架,将医生回答分解为细粒度的、针对具体病例的标准,其评估结果与专家医生的判断一致性远高于“LLM作为评判者”的方法。
该基准测试涵盖了多个医学专科和多种语言的真实世界病例,并配备了大量的独特评估标准。对众多LLMs的广泛评估显示,即使表现最佳的模型得分也相对较低,并且大部分模型在处理截止日期后的病例时表现出性能下降,这证实了普遍存在的数据污染风险。进一步的错误分析表明,主要的瓶颈在于知识的上下文应用能力,而非事实性知识本身,相当一部分失败源于无法将医学知识适配到患者特定的约束条件中。LiveMedBench旨在为LLMs在医疗领域的可靠评估提供一个更严谨、更贴近现实动态的基准。


