风险感知线性赌博机:理论与智能订单路由应用
针对金融决策机器学习中的风险规避和大规模动作空间等实际问题,本研究聚焦于风险感知赌博机优化,并将其应用于智能订单路由。基于对市场数据中线性价格影响的初步观察,我们开创性地研究了风险感知线性赌博机问题。在该设定下,面对一组奖励是未知参数线性函数的动作,我们的目标是在均值-方差度量下最小化遗憾,即与最优性能的差距。 受方差最小化的全局最优设计驱动,我们提出了两种新颖算法:与实例无关的风险感知探索后提交算法,以及与实例相关的风险感知连续消除算法。通过严格的理论分析,我们证明了这两种算法具有接近最优的遗憾上界。研究结果表明,通过利用线性结构,我们的算法相比现有方法能显著降低遗憾。 最后,我们在智能订单路由场景下,使用合成数据集和真实市场数据集进行了广泛的数值实验,以验证算法性能。实验揭示了两点关键发现:首先,线性结构假设能够得到真实市场数据的良好支持;更重要的是,在复杂的决策场景中,尤其是在遗憾指标上,所提出的两种算法均能显著超越现有竞争方法。


