我想将在飞机上销售座位的服务建模为MDP(马尔可夫决策过程),以使用强化学习来优化航空公司的收入,为此,我需要定义什么:状态、行动、政策、价值和奖励。我稍微考虑了一下,但我认为还是缺少一些东西。
我这样建模我的系统:
States = (r,c)
,其中r是乘客数量,c是购买的座位数量,所以r>=c
.Actions = (p1,p2,p3)
是3个价格。目标是决定他们中的哪一个给revenues.你能告诉我你的想法并帮助我吗?
在模型化之后,我必须实现所有的智慧强化学习。有没有做这项工作的包?
https://stackoverflow.com/questions/50737705
复制相似问题