Calibrate-Then-Act:LLM智能体中的成本感知探索框架

发布时间:2026-02-21 01:01

随着大型语言模型被用于解决日益复杂的任务,许多问题无法通过单次响应解决,而是需要智能体与环境进行交互以获取信息。在这些场景中,LLM必须对何时停止探索并给出最终答案所固有的成本与不确定性权衡进行推理。例如,在编程任务中,如果LLM对生成代码片段的正确性不确定,就应该对其进行测试;编写测试的成本虽不为零,但通常低于犯错的成本。

本研究旨在引导LLM明确地推理如何平衡这些成本与不确定性的权衡,从而执行更优的环境探索。研究将信息检索和编码等多个任务形式化为不确定性下的序列决策问题。每个问题都包含潜在的环境状态,可以通过传递给LLM智能体的先验知识进行推理。

为此,研究团队提出了名为“校准后行动”的框架。该框架通过向LLM提供额外的上下文信息,使其能够采取更优的行动。即使在基线方法和CTA都经过强化学习训练的情况下,这种改进依然得以保持。

在信息寻求式问答和一个简化的编码任务上的结果表明,通过CTA框架明确成本效益权衡,可以帮助智能体发现更优的决策策略。该研究为提升LLM智能体在交互式任务中的效率和决策质量提供了新的思路。

客服微信
客服微信