为开发具备社会智能的人工智能,现有方法通常孤立地建模人类行为维度。尽管有效,但这种针对特定任务的建模方式往往增加了训练成本,并限制了模型在不同行为场景间的泛化能力。近期的一些推理强化学习方法促进了在多个行为任务上训练单一统一模型,但并未明确解决如何从不同异构行为数据中学习的问题。为填补这一空白,研究团队引入了异构感知相对策略优化方法。这是一种强化学习方法,旨在平衡模型在不同异构任务和样本间的学习过程。其核心机制是通过调节优势函数,确保在策略优化过程中,没有任何单一任务或样本产生不成比例的影响。利用该方法,研究团队开发并发布了OmniSapiens-7B 2.0,一个用于社会行为处理的基础模型。相较于现有的行为基础模型,OmniSapiens-7B 2.0在多项行为任务上取得了领先的性能表现,同时在多任务和留出测试设置中均展现出显著提升。该模型还能生成更明确、更鲁棒的推理轨迹。研究团队还将该方法与近期的其他强化学习方法进行了对比验证,结果显示其在各类行为任务上均能取得稳定且强劲的性能。该研究由多位作者合作完成,相关论文已提交至预印本平台。


