首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >基于MDP的强化学习实现收益优化

基于MDP的强化学习实现收益优化
EN

Stack Overflow用户
提问于 2018-06-07 17:27:01
回答 1查看 226关注 0票数 0

我想将在飞机上销售座位的服务建模为MDP(马尔可夫决策过程),以使用强化学习来优化航空公司的收入,为此,我需要定义什么:状态、行动、政策、价值和奖励。我稍微考虑了一下,但我认为还是缺少一些东西。

我这样建模我的系统:

  • States = (r,c),其中r是乘客数量,c是购买的座位数量,所以r>=c.
  • Actions = (p1,p2,p3)是3个价格。目标是决定他们中的哪一个给revenues.
  • Reward:带来更多的收入。

你能告诉我你的想法并帮助我吗?

在模型化之后,我必须实现所有的智慧强化学习。有没有做这项工作的包?

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50737705

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档