LiveMedBench：无数据污染的LLM医疗基准测试，采用自动评分标准

发布时间：2026-02-12 23:04

LiveMedBench被提出作为一个用于大语言模型（LLMs）的、无数据污染的医疗基准测试，其核心特点是持续更新并采用自动评分标准。该基准旨在解决现有医疗评估体系中的关键缺陷。现有基准通常是静态的，存在两大局限：一是数据污染，即测试集数据可能无意中泄露到模型的训练语料中，导致性能评估虚高；二是时间错位，无法捕捉医学知识的快速演变。此外，当前对开放式临床推理的评估指标，要么依赖浅层的词汇重叠（如ROUGE），要么依赖主观的“LLM作为评判者”打分，两者均不足以验证临床正确性。

为弥补这些差距，LiveMedBench每周从在线医疗社区采集真实世界临床案例，确保与模型训练数据在时间上严格分离，从而构建一个持续更新且无污染的基准。它采用一个多智能体临床筛选框架，用于过滤原始数据噪声，并依据循证医学原则验证临床完整性。在评估方面，研究团队开发了基于量规的自动评估框架，将医生回答分解为细粒度的、针对具体病例的评判标准。该框架与专家医生的评估结果一致性，显著优于“LLM作为评判者”的方法。

该基准涵盖了多个医学专科和语言的真实病例，并配备了大量的独特评估标准。对众多LLMs的广泛评估显示，即使表现最佳的模型得分也相对较低，且大部分模型在截止日期后的新病例上表现下降，这证实了普遍存在的数据污染风险。进一步的错误分析表明，主要的瓶颈在于知识的上下文应用能力，而非事实性知识本身，相当比例的失败源于无法将医学知识适配到患者特定的约束条件中。LiveMedBench为在临床等高风险场景中严谨、可靠地评估LLMs提供了重要工具。

返回快讯列表