首页
学习
活动
专区
工具
TVP
发布

企鹅号快讯

企鹅号技术类相关资讯
专栏作者
3887
文章
4508580
阅读量
291
订阅数
机器学习之——强化学习中的有模型学习
强化学习可以视为一个四元组,分别表示状态、动作、状态转移和奖赏。有模型学习是指这个四元组均为已知的情况,此时,我们可以在机器上模拟出与环境相同或近似的状况,显然,这是一种最简单的情形。 📷 有模型学习
企鹅号小编
2018-01-04
1.7K0
基于深度强化学习的平行企业资源计划
基于深度强化学习的平行企业资源计划:该文主要基于ACP(人工社会、计算实验、平行执行)方法,构建基于平行管理的企业ERP系统,并提出基于深度强化学习框架的监督学习网络,建立基于企业ERP全流程的不完全信息动态博弈模型,以人工智能为代表的新时代已经到来,实现基于ACP方法的虚实互动“平行企业”是建设“智能企业”的基础,也是未来企业ERP的发展趋势,本文即为在这个方向上的一个初步探索。
企鹅号小编
2018-01-04
1.3K0
AI技术词条 强化学习
本文介绍了强化学习的基本概念、算法和实际应用。强化学习是一种通过试错学习的方式,以累积奖励最大化为目标,受到动物学习行为的启发。强化学习算法包括Q学习、Sarsa、Deep Q-Network(DQN)、策略梯度方法、Actor-Critic等。强化学习已广泛应用于人工智能、机器人控制和工业控制等领域。
企鹅号小编
2018-01-08
6740
基于神经网络动力学模型的强化学习
选文丁建峰翻译 张一 许峰 金明 校对 李韩超 编辑 李韩超 素材来源:robohub & BAIR 泡泡机器人推广内容组编译作品 01 让机器人在现实生活中自主行动是很困难的, 即使是拥有昂贵的机器人和世界级研究人员的团队,在复杂的、非结构化的环境中机器人自主导航和交互还是非常困难的。 📷 Fig 1.一个学习的神经网络动力学模型,仅仅只用了17分钟的真实场景的经验学习,让一个六足机器人能够学会沿着理想的轨迹运动 能够应对这个世界所有复杂情况的工程系统是很难达到的。由于在真实环境中机器人的运动非线性
企鹅号小编
2018-01-10
1.5K0
从Q学习到DDPG,一文简述多种强化学习算法
选自towardsdatascience 作者:Steeve Huang 机器之心编译 参与:Edison Ke、路雪 本文简要介绍了强化学习及其重要概念和术语,并着重介绍了 Q-Learning 算法、SARSA、DQN 和 DDPG 算法。 📷 强化学习(RL)指的是一种机器学习方法,其中智能体在下一个时间步中收到延迟的奖励(对前一步动作的评估)。这种方法主要用于雅达利(Atari)、马里奥(Mario)等游戏中,表现与人类相当,甚至超过人类。最近,随着与神经网络的结合,这种算法不断发展,已经能够解决更
企鹅号小编
2018-02-05
1.5K0
2017年深度学习必读31篇论文
新智元报道 作者:Kloud Strife 译者:刘光明,费欣欣 【新智元导读】2017年即将擦肩而过,Kloud Strife在其博客上盘点了今年最值得关注的有关深度学习的论文,包括架构/模型、生成模型、强化学习、SGD & 优化及理论等各个方面,有些论文名扬四海,有些论文则非常低调。 一如既往,首先,标准免责声明适用,因为今年仅与GAN有关的论文就超过1660篇。我肯定会有疏漏,试图缩减到每两周一篇论文,包含了Imperial Deep Learning Reading Group上的大量素材。无
企鹅号小编
2018-02-24
6220
强化学习从入门到放弃
重要概念 强化学习(REinforcement Learning)(个人理解):在设定的规则下,通过训练让机器学习完成特定的任务。 强化学习的目的是学习一个策略,即一个从状态到最优行为的映射。 强化学习的目标是最大化总回报,而不是立即回报。 强化学习的主体:智能体和环境。 机器/智能体(Agent):The learner and decision-maker 环境(Environment)The thing agent interacts with, comprising everything outsi
企鹅号小编
2018-02-27
1.1K0
这个高仿真框架AI2-THOR,想让让强化学习快速走进现实世界
AlphaGo的节节胜利,向人们展示了强化学习的强大能力。但要是想让这种方法作用于现实世界,指挥机器人完成开门、拿东西、放东西等等对人类来说轻而易举的任务,还需要解决一个问题: 一个强化学习模型要经历多次试错过程才能收敛,可是让它在现实世界中一次一次地试错显然有些不切实际。 📷 为了填平这道虚拟和现实世界中的鸿沟,一个名叫AI2-THOR的新框架产生了。 AI2-THOR是由艾伦人工智能研究所(AI2)、斯坦福大学、卡耐基梅隆大学、华盛顿大学、南加州大学合作完成的。它为人工智能Agent提供了一个室内装修效
企鹅号小编
2018-02-28
1.1K0
通杀棋界后,“阿法狗”出教程了!团队核心成员“功成身退”
在人工智能(AI)领域,“阿法狗”(AlphaGo)是个嚣张的名字。自2016年3月甫出茅庐震惊世人后,该程序妙手迭出,一路刷新纪录。 至本月初,谷歌的AI子公司深度思维宣布“阿法狗”升级成了“阿法零”(AlphaZero),已一举击败国际象棋、将棋、围棋类三个世界冠军级的电脑程序。 12月11日,该公司发布“阿法狗”教学工具。两天后,团队资深研究员、曾代AI执子的“人肉臂”黄士杰,宣布正式离开“阿法狗”,转投深度思维其他项目。 “阿法狗”不断升级 2016年,名为“阿法狗”的AI在和所有其他围棋程序的对抗
企鹅号小编
2018-03-01
3K0
盘点2017你不可不知的十大黑科技
如今,我们对“黑科技”这个词越来越不陌生了。实际上,这个词的原意是指非人类目前知识和科学水平可以做得到的技术或者产品。但在今天,它的含义是代表当前最高科技成就的产品。 至于哪些技术和产品可以算黑科技,哪些不过是新瓶装旧酒而已,科技界的看法相差非常大。《麻省理工科技评论》(MIT Technology Review)每年会评选出代表当今最高科技成就、商业潜力广泛的10大全球突破性科技成就,并且编纂成《科技之巅》系列图书。这件事,他们已经做了很多年,而近年来,由于中国人对科技的兴趣不断增加,全民创业创新的热情高
企鹅号小编
2018-01-31
6600
2017年你不可不知的十大黑科技!涨见识!
中国当下流行一个词——黑科技。这个词的原意是指非人类目前知识和科学水平可以做得到的技术或者产品。但是如果以这个标准来要求,黑科技只能存在于科幻之中。因此,今天它的含义已经降低到了代表当前最高科技成就的产品。 至于哪些技术和产品可以算黑科技,哪些不过是新瓶装旧酒而已,科技界的看法相差非常大。《麻省理工科技评论》(MIT Technology Review)算是比较权威的,它每年会评选出代表当今最高科技成就、商业潜力广泛的10大全球突破性科技成就,并且编纂成《科技之巅》系列图书。这件事,他们已经做了很多年,而近
企鹅号小编
2018-01-25
5990
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档