我试着用这个代码训练一个强化学习智能体,使用的是gym和tflearn:
from tflearn import *
import gym
import numpy as np
env = gym.make('CartPole-v0')
x = []
y = []
max_reward = 0
for i in range(1000):
env.reset()
while True:
action = env.action_space.sample()
observation, reward, done, info = env.step(action)
if done:
break
if reward >= max_reward:
x.append(observation)
y.append(np.array([action]))
x = np.asarray(x)
y = np.asarray(y)
net = input_data((None,4))
net = fully_connected(net,8,'softmax')
net = fully_connected(net,16,'softmax')
net = fully_connected(net,32,'softmax')
net = fully_connected(net,64,'softmax')
net = fully_connected(net,128,'softmax')
net = fully_connected(net,64,'softmax')
net = fully_connected(net,32,'softmax')
net = fully_connected(net,16,'softmax')
net = fully_connected(net,8,'softmax')
net = fully_connected(net,4,'softmax')
net = fully_connected(net,2,'softmax')
net = fully_connected(net,1)
net = regression(net,optimizer='adam',learning_rate=0.01,loss='categorical_crossentropy',batch_size=1)
model = DNN(net)
model.fit(x,y,10)
model.save('saved/model.tflearn')
问题是,当模型进行训练时,损失总是0.0
。有人能帮我解决这个问题吗?
发布于 2017-10-23 12:11:39
不知道你的目标是什么,但是categorical_crossentropy
是一个用于多类分类的损失函数,但是你的网络的输出只是一个具有线性激活的单元fully_connected(net,1)
,这就是为什么你得到损失0的原因。
尝试使用mean_square
甚至binary_crossentropy
,您将看到不同的损失值。
我会在最后一层使用sigmoid
激活,在其余的层使用relus。
https://stackoverflow.com/questions/46876614
复制相似问题