随着大语言模型在科学假设生成领域的应用日益广泛,一个根本性问题亟待解决:何为优质假设?又该如何系统评估不同的假设生成方法?为此,研究团队提出了HypoBench,这是一个新颖的基准测试框架。
HypoBench旨在从多个维度对大语言模型及现有假设生成方法进行全面评估,评估指标包括实用性、泛化能力以及假设发现率等。该基准整合了来自现实世界和合成环境的多样化任务,以提供更全面的测试场景。
评估结果显示,现有方法能够在数据中发现有效且新颖的模式,这证明了其初步潜力。然而,在合成数据集上的测试表明,当前方法仍有显著的提升空间,它们未能完全揭示数据中所有相关或有意义的模式。特别是在任务难度增加时,性能会出现明显下降。这些发现凸显了假设生成任务面临的挑战。
总体而言,HypoBench的建立为改进旨在辅助科学发现的人工智能系统提供了一个宝贵的评估资源。它推动了该领域向更系统化、更原则化的评估方向发展,有助于未来开发出更强大的假设生成工具。


