从纸上
通过深入强化学习来控制人的层次,Mnih等。2015年自然
上面写着
Reinforcement learning is known to be unstable or even to diverge
when a nonlinear function approximator such as a neural network is
used to represent the action-value (also known as Q) function 20 .
This instability has several causes: the correlations present
我是人工智能(人工智能)学习版本空间的新手,我需要解决求和任务的帮助。我正在使用一个软件来完成学习过程,所以我的任务是学习和理解正在发生的事情(我的意思是为什么软件会产生这样的结果)等等。
我的任务是我有一个品牌的汽车:
Brand Likes
_____ _____
opel yes
toyota no
bmw yes
ford yes
nissan no
我的问题是:
1)我怎样才能知道一个人喜欢哪个汽车品牌?我的理解是第一品牌(欧宝)在例子中应该是正面的(是)还是?
2)我怎样才能知道一个人不喜欢哪个汽车品牌?
should i make the fir