问基于MDP的强化学习实现收益优化
EN

Stack Overflow用户

提问于 2018-06-07 17:27:01

回答 1查看 226关注 0票数 0

我想将在飞机上销售座位的服务建模为MDP(马尔可夫决策过程)，以使用强化学习来优化航空公司的收入，为此，我需要定义什么:状态、行动、政策、价值和奖励。我稍微考虑了一下，但我认为还是缺少一些东西。

我这样建模我的系统：

States = (r,c)，其中r是乘客数量，c是购买的座位数量，所以r>=c.
Actions = (p1,p2,p3)是3个价格。目标是决定他们中的哪一个给revenues.
Reward:带来更多的收入。

你能告诉我你的想法并帮助我吗？

在模型化之后，我必须实现所有的智慧强化学习。有没有做这项工作的包？

python

optimization

reinforcement-learning

markov-decision-process

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-08 02:33:45

我认为你的公式中最大的缺失是顺序部分。强化学习在顺序使用时很有用，其中下一个状态必须依赖于当前状态(因此是“马尔可夫”)。在这个公式中，您根本没有指定任何马尔可夫行为。此外，奖励是一个标量，它取决于当前状态或当前状态和动作的组合。在您的案例中，收入取决于价格(动作)，但与状态(座位)无关。这是我在你的公式中看到的两个大问题，还有其他的问题。我会建议你先看一遍RL理论(在线课程之类的)，并写几个样本问题，然后再试着制定自己的问题。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/50737705

复制

相似问题

问基于MDP的强化学习实现收益优化
EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于MDP的强化学习实现收益优化EN

回答 1

Stack Overflow用户

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问基于MDP的强化学习实现收益优化
EN