百川智能Baichuan-M3医疗大模型：以决策过程建模为核心，三项评测达全球最优

发布时间：2026-01-16 07:01 雷峰网·人工智能

近一年来，AI医疗领域正进入一个明显不同于以往的新阶段。国内外大型科技公司、医药企业和产业资本正通过多种方式进入该领域。一个清晰的共识正在形成：医疗正成为少数真正需要、也能够检验大模型能力上限的核心场景之一。然而，现实问题同样突出。尽管应用数量快速增长，但受限于能力，真正能进入医疗核心流程的AI依然有限。当前主流医疗大模型大多仍建立在静态问答或角色扮演范式之上，模型被要求给出看似合理、语气专业的回答，却并不真正理解医疗决策是如何发生的。这类模型往往难以主动发现信息缺口，无法构建完整的医学推理路径，也缺乏对医疗幻觉的有效约束。行业真正需要的，并非更像医生的回答，而是更接近医疗决策过程本身的模型能力。

百川智能给出的解法正是从这一点切入。其新一代医疗增强大语言模型Baichuan-M3，没有继续强化问答或对话表现，而是将训练目标直接对准医疗决策过程本身。模型被训练为能够主动收集关键信息、构建医学推理路径，并在推理过程中持续抑制幻觉。这意味着模型第一次被系统性地当作决策参与者，而非回答生成器。这种能力定义的变化，直接提升了模型在真实医疗场景中的可用性与可靠性。

在多项医疗评测中，Baichuan-M3展现出超越当前国际主流模型的表现。其优势并不体现在表达更自然，而在于判断更稳定、推理更完整、风险更可控。具体而言，其领先主要体现在三个关键评测维度上。

首先，在由OpenAI发布的HealthBench医疗健康评测基准及其高难度子集HealthBench-Hard的测试中，Baichuan-M3表现出了明显的代际提升，刷新了该基准的最好成绩。这说明在更复杂、更接近真实使用环境的医疗场景中，模型的稳定性和一致性已明显提高。

其次，在医疗幻觉控制方面，Baichuan-M3重点前移至模型本身，旨在减少模型仅凭内部知识生成时出现幻觉。通过更严格的评估方式，模型在无工具场景下的事实准确性已超过国际主流模型，意味着模型在信息不充分时更倾向于收敛判断、降低风险。

第三，在端到端的严肃问诊能力上，百川提出了“严肃问诊范式”与“SCAN原则”，将临床问诊中高度依赖经验的思维过程系统性地“白盒化”。基于此构建的SCAN-bench评测体系，完整模拟医生从接诊到确诊的全过程。在该评测中，Baichuan-M3在临床问诊、实验室检查建议和最终诊断三个核心环节均取得最高准确率，尤其在临床问诊阶段得分显著高于其他模型及人类基线水平。

整体来看，Baichuan-M3在三个维度上的领先并非零散成绩，而是同一套设计思路在不同评测体系中的集中体现。当模型被训练为真正理解医疗决策是如何一步步发生时，它在真实医疗场景中的长期使用价值才真正开始成立。百川的路径或许代表着AI医疗正在发生的一次重要转向：行业关注点正从模型能否回答医学问题，转向模型是否能被信任地嵌入医疗系统。

返回快讯列表