InnoEval：将研究想法评估视为知识基础的多视角推理问题

发布时间：2026-02-17 17:01

随着大型语言模型的快速发展，科学想法的产生呈现激增态势，但相应的评估方法尚未同步跟进。科学评估的本质需要知识基础、集体审议和多标准决策。然而，现有的想法评估方法常受限于知识视野狭窄、评估维度单一以及LLM作为评判者时存在的固有偏见。为应对这些挑战，研究团队将想法评估视为一个知识基础、多视角的推理问题，并提出了InnoEval这一深度创新评估框架，旨在模拟人类水平的想法评估。该框架应用异构深度知识搜索引擎，从多样化的在线资源中检索并基于动态证据进行知识奠基。进一步，通过组建一个包含不同学术背景评审员的创新评审委员会，实现评审共识，从而在多个指标上进行多维度的解耦评估。研究团队构建了源自权威同行评审投稿的综合性数据集，用以对InnoEval进行基准测试。实验表明，InnoEval在点对点、配对和分组评估任务中均能持续超越基线方法，其判断模式和共识与人类专家高度一致。该工作目前仍在进行中。

返回快讯列表