Conv-FinRe:面向效用校准的对话式纵向金融推荐基准发布

发布时间:2026-02-25 12:02

研究人员推出了Conv-FinRe,这是一个用于评估大型语言模型的对话式和纵向金融推荐基准。该基准旨在解决金融咨询领域的一个核心问题:大多数推荐基准仅评估模型模仿用户行为的能力,但在市场波动下,观察到的用户行为可能充满噪音或短视,并与用户的长期目标相冲突。将用户选择作为唯一标准,会混淆行为模仿与决策质量。

Conv-FinRe专注于股票推荐,其评估超越了行为匹配。基准要求模型在给定入职访谈、逐步市场背景和咨询对话后,在一个固定的投资期限内生成股票排名。其关键创新在于提供了多视角参考,能够区分描述性行为与基于投资者特定风险偏好的规范性效用。这使得能够诊断大型语言模型是遵循理性分析、模仿用户噪音,还是受市场动量驱动。

该基准基于真实市场数据和人类决策轨迹构建,实例化了受控的咨询对话,并评估了一系列先进的大型语言模型。评估结果揭示了理性决策质量与行为对齐之间存在持续的张力:在基于效用的排名上表现良好的模型,往往难以匹配用户的实际选择;而行为对齐的模型则可能过度拟合短期噪音。

该数据集已在Hugging Face平台公开,相关代码库也可在GitHub获取。Conv-FinRe的推出为更严谨地评估金融领域AI模型的决策质量提供了新的工具和视角。

客服微信
客服微信