我目前正在设置一个深度确定性策略梯度代理,以与密码交易环境进行交互。当我将Dense层用于函数逼近器时,代码可以正常工作,但是当我切换到LSTM或GRUs时,当我调用Agent的learn方法时,会弹出这个错误
No gradients provided for any variable: ['actor_network_4/lstm/kernel:0', 'actor_network_4/lstm/recurrent_kernel:0', 'actor_network_4/lstm/bias:0', 'actor_network_4/l
我正在训练一个演员-评论家模型,该模型在演员网络中有一个受约束的层。约束强制权重为对角线。下面是一个最小的可重现的例子 import tensorflow.compat.v1 as tf
from tensorflow.keras.models import Model
from tensorflow.keras.layers import Dense, Input, Conv1D, Concatenate, BatchNormalization, Reshape
from tensorflow.keras.constraints import Constraint
from tensorf
我正在执行强化学习,需要在自定义环境中训练一个演员和一个评论家神经网络。我有以下代码用于我的网络和RL代理: import tensorflow as tf
import tensorflow_probability as tfp
import tensorflow.keras.losses as kls
class critic(tf.keras.Model):
## Critic NN
def __init__(self):
super().__init__()
self.d1 = tf.keras.layers.Dense(64,act
我在tensorflow 2中实现DDPG代理时遇到了一个很大的问题。虽然评论家网络的更新是明确和简单的(只需对损失进行梯度下降),但参与者的更新有点困难。
这是我对"actor_update“函数的实现:
def actor_train(self, minibatch):
s_batch, _, _, _, _ = minibatch
with tf.GradientTape() as tape1:
with tf.GradientTape() as tape2:
mu = self.actor_network(s_batch)
我试图训练一个演员-评论家模型,但当我到达评论家的后盾时,我得到了这个错误:RuntimeError: invalid gradient at index 0 - expected type torch.cuda.FloatTensor but got torch.FloatTensor我无法识别错误指的是哪个梯度。有人能帮上忙吗? 下面是Stack跟踪: Traceback (most recent call last):
File "train.py", line 338, in <module>
main()
File "train.
我正在开发一个DDPG实现,它需要计算一个网络的梯度(下面是:critic)与另一个网络的输出(下面是:actor)。在大多数情况下,我的代码已经使用队列而不是提要块,但是对于这个特定的部分,我还不能这样做:
import tensorflow as tf
tf.reset_default_graph()
states = tf.placeholder(tf.float32, (None,))
actions = tf.placeholder(tf.float32, (None,))
actor = states * 1
critic = states * 1 + actions
gra
背景
我目前正在尝试实现一个DDPG框架来控制一个简单的汽车代理。首先,汽车代理人只需要学习如何尽快到达直线路径的末端,通过调整其加速度。这个任务很简单,所以我决定引入一个额外的指导行动。我相应地更新了我的观察和行动空间。
下面的行是运行每一集的for循环:
for i in range(episodes):
observation = env.reset()
done = False
score = 0
while not done:
action = agent.choose_action(observation, evaluate)
我正在努力寻找风格为“真人行动”的电影。我有一个有很多节点的巨大的电影文件。我只包括了一个相关的节点来解释我的问题。
我有以下movies.xml:
<movies><movie id="movie89" lang="hebrew">
<label>Metro-Goldwyn-Myer</label>
<title>Purus massa pede gravida erat ad etiam eu auctor blandit laoreet.</title>
<direc
我即将预测IMDB评分(电影率),使用支持向量回归在Scikit-Learn中。问题是,对于每个输入,它总是给出相同的预测结果。
当我预测使用数据训练时,它会给出不同的结果。但是在使用数据测试时,它总是给出相同的值。
数据培训预测:
数据测试预测:
以下是dataset的链接:
我的密码:
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
import numpy as np
import seaborn as sb
from sklearn import metrics as met
我正在尝试实现一个Vanilla Policy gradient,它基本上是一个使用Advantage函数的强化算法。为了估计优势函数,必须计算值函数V(s)。使用just Return进行增强有效,但在尝试将其替换为Advantage函数后,我得到了一个错误: ValueError:没有为任何变量提供梯度谢谢您的帮助,如果它有帮助,我会给您发送完整的代码
# make action selection op (outputs int actions, sampled from policy)
actions = tf.squeeze(tf.multinomial(logits