在尝试实现Episodic Semi-gradient Sarsa with神经网络作为逼近器时,我想知道如何根据当前学习到的网络权重来选择最优动作。如果动作空间是离散的,我只需计算当前状态下不同动作的估计值,就可以选择给出最大值的动作。但这似乎不是解决问题的最佳办法。此外,如果动作空间可以是连续的(例如,自动驾驶汽车的加速),则不起作用。
因此,我很想知道如何解决这个伪代码中的第10行Choose A' as a function of q(S', , w):
这些问题通常是如何解决的?可以推荐一个使用Keras的这个算法的好例子吗?
编辑:当使用网络作为逼近器时,我需
当我试图弄清楚什么是自动驾驶仪,什么是不支持的自动驾驶仪.不确定这是否与自动驾驶仪有关,但任何帮助都是非常感谢的。
我刚刚建立了一个GKE自动驾驶仪集群,在研究服务网格时,他们决定尝试纤毛。令我惊讶的是,纤毛是预装在这些节点上的!我安装了纤毛,并确定,它捡起了安装。不幸的是,它显示了几个错误。
cilium status
我正在尝试使用GKE自动驾驶仪中运行的kubernetes吊舱中的gcs引信。我读到GKE自动驾驶仪可能有问题,但我得到的错误与通常报告的错误不同。
Gcs引信现在是与Autopilot合作还是没有希望?和csi-保险丝驱动器可能的选择,而不是GKE自动驾驶?
下面是我看到的错误:
root@gcs-k8s-test:/mnt# gcsfuse gs://bucketXXXX /mnt/fuse
2022/08/16 01:32:17.656053 Start gcsfuse/0.41.5 (Go version go1.18.4) for app "" using moun
嗨,我正在查看GKE自动驾驶仪模式,注意到在集群配置中,istio是禁用的,我无法更改它。另外,通过istioctl安装失败,有以下错误
error installer failed to update resource with server-side apply for obj MutatingWebhookConfiguration//istio-sidecar-injector: mutatingwebhookconfigurations.admissionregistration.k8s.io "istio-sidecar-injector" is