假设我有一个成本函数,它要求一个神经网络的所有输出(即经过一定范围的训练时间步骤)来计算它的成本。
这方面的一个例子是,网络针对未来培训数据的行为将影响成本。例如,网络可能会被训练来驾驶一辆模拟的汽车绕一条赛道,而成本是完成的时间或撞车的时间。
在tensorflow中实现这一目标的方法是什么?
发布于 2018-04-16 22:19:45
标准的方法是使用递归神经网络(在序列数据中,您可以在一些或所有的序列步骤中计算损失函数),或者使用强化学习,在将来的某个不确定点上只有奖励(例如,在课程结束时,由于速度更快而得到更好的奖励)。
下面是在tensorflow中实现RNN的一个很好的教程:
下面是我发现的强化学习的介绍:
这两种类型的模型都可能用于解决问题,具体取决于您想要如何构造问题。tensorflow是一个通用的数学库,提供自动区分和GPU支持,您可以在Tensorflow之上构建这些模型中的任何一个。
https://stackoverflow.com/questions/49856872
复制相似问题