前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一种动态风险敏感顺序决策方案

一种动态风险敏感顺序决策方案

原创
作者头像
Jarvis Cocker
发布2019-07-17 15:30:28
3690
发布2019-07-17 15:30:28
举报

原文标题:A Scheme for Dynamic Risk-Sensitive Sequential Decision Making

摘要:提出了一种动态环境下具有风险敏感目标和约束的序贯决策方案。将神经网络训练成具有风险敏感约束的参数空间到风险空间和策略映射的逼近器。对于目标和约束是或可以用收益均值和方差函数估计的风险敏感问题,我们生成一个综合数据集作为训练数据。定义目标过程的参数可能是动态的,也就是说,它们可能随时间而变化,因此我们在指定的时间间隔内对它们进行采样,以处理这些动态。我们证明:大多数风险度量可以使用收益差异来估计;利用状态增强变换,在风险敏感的情况下,可以求解具有随机报酬的马尔可夫决策过程建模的实际问题;通过数值实验验证了该方案的有效性。

地址:https://arxiv.org/abs/1907.04269

作者:Shuai Ma, Jia Yuan Yu, Ahmet Satir

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档