由大语言模型驱动的路由规划智能体,通过自然语言交互和工具辅助决策,已成为支持日常人类出行的新兴范式。然而,在现实出行场景中进行系统评估面临诸多挑战,包括多样化的路线需求、非确定性的地图服务以及有限的可复现性。
为此,研究团队引入了MobilityBench,这是一个可扩展的基准测试,专门用于评估现实世界出行场景中基于大语言模型的路由规划智能体。MobilityBench基于从地图应用收集的大规模匿名真实用户查询构建,涵盖了全球多个城市的广泛路线规划意图。
为了支持可复现的端到端评估,研究团队设计了一个确定性的API回放沙箱,消除了实时服务带来的环境差异。此外,团队还提出了一套以结果有效性为核心的多维评估方案,并辅以对指令理解、规划能力、工具使用效率和整体性能的评估。
利用MobilityBench,研究人员对多种基于大语言模型的路由规划智能体在多样化的现实出行场景中进行了评估,并深入分析了它们的行为和性能。评估发现,当前模型在基础信息检索和路线规划任务上表现尚可,但在偏好约束路线规划方面存在显著困难,这表明在个性化出行应用领域仍有巨大的改进空间。
该基准的数据集、评估工具包及相关文档已公开发布,旨在推动该领域研究的发展与标准化。


