首页
学习
活动
专区
工具
TVP
发布

人工智能

专栏作者
486
文章
776857
阅读量
225
订阅数
什么时候强化学习未必好用?
作者 Jason Xie 编译 Erica Yi 编辑 Emily 强化学习(reinforcement learning)描述的是个体(agent)必须在环境(environment)中采取行动(action),以最大化设定的奖励(reward)函数的学习问题的集合。 不同于监督式深度学习,强化学习并不会出现大量明确标记好的输入 /输出对数据。大部分的强化学习都在网上进行,也就是说当个体积极地与它的环境进行多次迭代互动时,它最终开始学习采取怎样的行为会使自身奖励最大化的方案(policy)。
企鹅号小编
2018-02-26
1.1K0
机器学习的基本概念
我发现,查阅和掌握机器学习基本概念的最佳方法是,回顾机器学习教科书的介绍章节,并观看典型的在线课程视频。
花落花飞去
2018-02-09
1.9K0
机器学习算法:选择您问题的答案
当我开始涉足数据科学时,我经常面临为如何我的问题选择最合适的算法的问题。如果你像我一样,当你看到一些关于机器学习算法的文章时,你会看到许多详细的描述。但是,即使看了这么多的算法文章,你依然不懂得要如何选择合适的算法。
花落花飞去
2018-02-02
1K0
长时间序贯任务结构的演示学习方法及其在手术机器人中的应用
本文总结了最近三篇论文的结果,这些论文提出了一些可以将更长的任务分解成更短子任务的学习算法。
花落花飞去
2018-02-01
1.5K1
机器学习之——强化学习中的Bandit算法
本文介绍了强化学习中的Bandit算法,包括其基本概念、工作原理以及ε-贪心策略和softmax方法等。强化学习在人工智能领域具有广泛的应用,而Bandit算法是其基础模型之一。通过理解Bandit算法,我们可以更好地掌握强化学习的关键概念,并应用于实际问题的求解。
企鹅号小编
2018-01-08
2K0
关注专栏作者,随时接收最新技术干货
花落花飞去
腾讯社区运营
全球资讯翻译官
腾讯总部云加社区运营
Techeek
腾讯产品运营
QiqiHe
腾讯产品运营
DeepMind推出控制套件:为强化学习智能体提供性能基准
本文介绍了一种用于深度强化学习的控制套件,该套件包括多个任务,旨在评估算法在各种任务中的性能。该控制套件使用Mujoco物理引擎来模拟环境,并提供了多种学习算法和模型,包括DQN、DDPG、DeepMimic和A3C。作者提供了基准测试的详细结果,并提供了对代码库的访问,以便其他人可以复制并扩展其功能。
企鹅号小编
2018-01-08
6350
让你的火柴人动起来!DeepMind发布强化学习环境dm
来源:DeepMind 编译:Bot 编者按:今天,DeepMind发表了一篇名为DeepMind Control Suite的论文,并在GitHub上发布了控制套件dm_control——一套由Mu
企鹅号小编
2018-01-04
2K0
随机计算图:连续案例
本译文自Artem sobolev 在http://artem.sobolev.name 发表的Stochastic Computation Graphs: Continuous Case。文中版权、
花落花飞去
2017-12-19
1.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档