I recently set up my MAC M1 Air to implement deep reinforcement learning.
But, when I started following this tutorial - Deep Reinforcement Learning Tutorial for Python https://www.youtube.com/watch?v=cO5g5qLrLSo&list=PLgNJO2hghbmjlE6cuKMws2ejC54BTAaWV&index=2, I got errors with DQN Agent as
我这么做是为了学习DQN。我确信我已经安装了keras,因为当我输入命令提示符pip install keras时,我得到的只有Requirement is Already Satisfied。
我的代码:
from dqn_agent import DQNAgent
from tetris import Tetris
from datetime import datetime
from statistics import mean, median
import random
from logs import CustomTensorBoard
from tqdm import tqdm
获取
我不明白"nb_steps_warmup“的含义,”__init__“是Keras_RL模块的DQNAgent类的一个参数。
我只知道当我为"nb_steps_warmup“设置小值时,命令行会打印:UserWarning: Not enough entries to sample without replacement. Consider increasing your warm-up phase to avoid oversampling!
这是我的密码:
import numpy as np
import gym
import gym_briscola
import ar
我想先用健身房环境来训练我的强化学习模型,然后把它部署到现实环境中,继续在真实环境中进行强化学习。
我正在使用TF,Keras +健身房进行初始训练,下面的代码是如何管理的?在谷歌中迷失了
我猜想,在真实的环境中,我应该有两个代理人,一个用于预测,另一个用于进一步的训练。训练agent应基于运行时采集的状态-动作样本工作,然后将新的训练模型合并到预测模型中。如果它是正确的假设,它如何实现?
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import D
我一直在尝试用目标网络实现DQN,但我得到了一些非常奇怪的结果。
当我尝试在Cartpole上从头开始训练我的DQN时,它似乎没有学习,损失以指数的方式增加。
然而,如果我加载一个在没有使用目标网络的情况下训练的预训练模型,该模型工作得非常好,优于传统DQN的持续训练。
有人能看一下我的代码,告诉我问题出在哪里吗?
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import random
import math
import numpy as np
i
import numpy as np
import gym
from gym import wrappers # 追加
from keras.models import Sequential
from keras.layers import Dense, Activation, Flatten
from keras.optimizers import Adam
from rl.agents.dqn import DQNAgent
from rl.policy import BoltzmannQPolicy
from rl.memory import SequentialMemory
EN
我想用Keras-rl训练DQN代理。我的环境既有多个离散的动作空间,也有观察空间。我正在修改这个视频的代码:
然后,我分享我的代码
class ShowerEnv(Env):
def __init__(self, max_machine_states_vec, production_rates_vec, production_threshold, scheduling_horizon, operations_horizon = 100):
"""
Returns:
self.action_space is a v
我想训练AI发挥突破,但当我做DQN.fit(env, nb_steps=1000000, visualize=True, verbose=1),以下错误发生:
ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()
这是我的代码:
import numpy as np
import tensorflow as tf
from rl.agents.dqn import DQNAgent
from rl.policy import LinearA
我对RL相当陌生,我真的不明白为什么我会犯这个错误。
import random
import numpy as np
import numpy as np
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.optimizers import Adam
from rl.agents import DQNAgent
from rl.policy import BoltzmannQPolicy
from rl.