随着大型语言模型的快速发展,科学想法的产生呈现激增态势,但相应的评估方法尚未同步跟进。科学评估的本质需要知识基础、集体审议和多标准决策。然而,现有的想法评估方法常受限于知识视野狭窄、评估维度单一以及LLM作为评判者时存在的固有偏见。为应对这些挑战,研究团队将想法评估视为一个知识基础、多视角的推理问题,并提出了InnoEval这一深度创新评估框架,旨在模拟人类水平的想法评估。该框架应用异构深度知识搜索引擎,从多样化的在线资源中检索并基于动态证据进行知识奠基。进一步,通过组建一个包含不同学术背景评审员的创新评审委员会,实现评审共识,从而在多个指标上进行多维度的解耦评估。研究团队构建了源自权威同行评审投稿的综合性数据集,用以对InnoEval进行基准测试。实验表明,InnoEval在点对点、配对和分组评估任务中均能持续超越基线方法,其判断模式和共识与人类专家高度一致。该工作目前仍在进行中。


