我得到了n>2独立的连续Random Variables(RV)。例如,假设我的4 Uniform RVs具有不同的Upper and lowers集。W~U[-1,5], X~U[0,1], Y~[0,2], Z~[0.5,2]
我试图找出这些RVs之和的近似PDF,即T=W+X+Y+Z。因为我不需要任何封闭的表单解决方案,所以我已经对每个1 million points进行了采样,以获得1 million samples for T。是否可以在R</e
我在无模型强化学习中遇到了SARSA算法.具体来说,在每个状态中,您将采取一个操作a,然后观察一个新的状态s'。我的问题是,如果你没有状态转移概率方程P{next state | current state = s0},你怎么知道你的下一个状态是什么?我的尝试:你是简单地尝试这个动作a out,然后从环境中观察吗?