一直想用深度强化学习DQN解决三维城市道路的决策与控制问题,比如自动驾驶汽车在行驶的时候,考虑距离和成本来约束(奖励函数),引导汽车选择合理的模式(动作空间有2个:地面行驶和起飞),第一个难题就是三维仿真环境如何搭建?第二个是奖励函数怎么写?网上很少有教程关于奖励函数的设计的?摸索快一年了,一直没有结果,挑战性真的把兴趣都快抹杀了,这个课题还能,有希望继续搞吗?请大佬指点
相似问题