人工智能头条-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

人工智能头条

专栏成员

1089

文章

1111952

阅读量

148

订阅数

机器学习|卷积神经网络(CNN) 手写体识别 (MNIST)入门

深度学习机器学习人工智能监督学习强化学习

这篇文档可能还是会非常长，因为机器学习并不是纯软件开发，简单地调用库函数 API，需要有一定的理论支撑，如果完全不介绍理论部分，可能就不知道为什么模型要这样设计，模型出了问题应该怎样改善。

2019-10-14

1.3K0

文末送书 | 你了解强化学习吗？强化学习研究什么？

编程算法强化学习

既然大家要么是程序员，要么正走在程序员养成的路上，要么正看着其他人走在程序员养成的路上，那么，按照程序员的思维来理解强化学习将会更加顺畅。

2019-09-06

4050

入行 AI 的几个常见问题

机器学习深度学习强化学习

作为 AI 从业者，笔者经常被问及关于入行或转行 AI 的问题，其中颇有一些高频重复出现，今天总结出来几个，供大家参考。

2019-01-02

4460

DeepMind在团队游戏领域取得新突破，AI和人类一起游戏真是越来越6了

游戏人工智能强化学习

译者 | 林椿眄编译 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【导读】我们还时常感叹两年前 AlphaGo 的一举成名，今天Deep Mind 的另一个游戏项目获得新的突破。不仅和人类进行一对一作战，还可以进行团队作战，与人类进行组队。 Deep Mind 在周二发表推文 “ 我们最新的工作演示了如何在一个复杂的第一人称多人游戏中实现多人游戏的性能，甚至可以与人类队友进行合作！”Deep Mind 开发了创新和强化学习技术，是人工智能系统在夺旗游戏中达到人类的水平，不仅各个人

2018-07-20

3870

讲真？一天就学会了自动驾驶——强化学习在自动驾驶的应用

自动驾驶强化学习人工智能安全

编译 | 婉清编辑 | 姗姗出品 | 人工智能头条（公众号ID：AI_Thinker）【导读】制造真正的自动驾驶汽车（即能够在任何要求的环境中安全驾驶）的关键是更加重视关于其软件的自学能力。换句话说，自动驾驶汽车首先是人工智能问题，需要一个非常具体的机器学习开发技能。而强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决决策（decision making）问题，即自动进行决策，并且可以做连续决策。今天人工智能头条给大家介绍强化学习在自动驾驶的一个应用案例，无需 3D 地图

2018-07-20

8010

AAAI前主席Thomas G. Dietterich将出席CCAI 2017中国人工智能大会

人工智能机器学习强化学习

AAAI前主席Thomas G. Dietterich教授曾说：“我一点也不担心人工智能会超过人类并控制人类。因为智能软件的主要风险不在于‘智能’，而在于‘软件’。像所有的软件一样，它会包含错误。如果将其用于包括自驾车在内的高风险应用，则这些错误有可能危及人的生命和财产。” 📷 俄勒冈州立大学教授、AAAI前主席Thomas G. Dietterich 作为通用机器学习技术奠基人之一，Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题，他发明了多示例学

2018-07-20

4270

Open.ai新算法：一小时内训练AI系统后空翻，仅需900Bit的人类反馈数据

人工智能编程算法安全强化学习

编 | 王艺编者按： 6月11日，Open.ai官方博客发文，宣布其与DeepMind安全部门合作开发的最新算法，该算法使用少量人为反馈进行强化学习，并能够处理更复杂的任务。仅需900bit的人类反馈，系统便学会了后空翻，需要人类参与的时间也从70小时将至1小时，该技术还能够被应用在更多其他方面，目前在虚拟机器人以及Atari平台的游戏上已经接受广泛测试。构建安全AI系统的关键步骤之一是消除系统对人类编写的目标函数的需求。因为如果复杂的目标函数中有一点小错误，或者对复杂目标函数使用简单的代理，都可能会带

2018-07-20

4480

CCAI 讲师专访 | 机器学习奠基人Thomas Dietterich：人类将如何受到AI威胁

人工智能机器学习强化学习

📷 文 | 王艺 AAAI前主席Thomas G. Dietterich教授曾说：“我一点也不担心人工智能会超过人类并控制人类。因为智能软件的主要风险不在于‘智能’，而在于‘软件’。像所有的软件一样，它会包含错误。如果将其用于包括自驾车在内的高风险应用，则这些错误有可能危及人的生命和财产。” 作为通用机器学习技术奠基人之一，Thomas G. Dietterich的研究贡献主要包括将纠错输出编码应用于多类分类问题，他发明了多示例学习、层次强化学习MAXQ框架及将非参数回归树整合到概率图模型中的

2018-07-20

2590

模仿学习(Imitation Learning)完全介绍

强化学习机器人自动驾驶

作者：罗宇矗原文：模仿学习（Imitation Learning）完全介绍（一） http://dwz.cn/5wOd4F 在传统的强化学习任务中，通常通过计算累积奖赏来学习最优策略（policy），这种方式简单直接，而且在可以获得较多训练数据的情况下有较好的表现。然而在多步决策（sequential decision）中，学习器不能频繁地得到奖励，且这种基于累积奖赏及学习方式存在非常巨大的搜索空间。而模仿学习（Imitation Learning）的方法经过多年的发展，已经能够很好地解决多步决

2018-06-06

4.2K0

揭秘深度强化学习

文/ Tambet Matiisen 译/赵屹华，刘翔宇原作者Tambet Matiisen在文章结尾列出了对本文内容给出意见和建议的读者，以及深入了解这些技术的在线文档和视频链接，受篇幅所限，译文不再赘述。感谢Tambet Matiisen授权《程序员》翻译和刊载。原文链接：http://neuro.cs.ut.ee/demystifyingdeep-reinforcement-learning/ 本文为《程序员》文章，未经允许不得转载，更多精彩文章请订阅2016年《程序员》尽管监督式和非监督

2018-06-06

6520

杨强：深度学习、强化学习、迁移学习的结合及应用进展

深度学习强化学习迁移学习人工智能

作为首位美国人工智能协会（AAAI）华人Fellow，唯一AAAI华人Councilor，国际顶级学术会议KDD、IJCAI等大会主席，中国香港科技大学计算机与工程系主任杨强教授在国内外机器学习界声誉卓著。在此前接受CSDN采访时，杨强介绍了他目前的主要工作——致力于一个将深度学习、强化学习和迁移学习有机结合的Reinforcement Transfer Learning（RTL）体系的研究。那么，这个技术框架对工业界的实际应用有什么样的实际意义？在本文中，CSDN结合杨强的另外一个身份——国内人工智能创

2018-06-06

1.4K0

浅析强化学习及使用Policy Network实现自动化控制

强化学习自动化

作者 | 黄文坚浅析强化学习强化学习（Reinforcement Learning）是机器学习的一个重要分支，主要用来解决连续决策的问题。强化学习可以在复杂、不确定的环境中学习如何实现我们设定的目标。强化学习的应用场景非常广，几乎包括了所有需要做一系列决策的问题，比如控制机器人的电机让它执行特定任务，给商品定价或者库存管理，玩视频或棋牌游戏等。强化学习也可以应用到有序列输出的问题中，因为它可以针对一系列变化的环境状态，输出一系列对应的行动。举个简单的例子，围棋（乃至全部棋牌类游戏）可以归结为一个强化

2018-06-05

1.5K0

一文读懂AlphaGo背后的强化学习

作者 | Joshua Greaves 编译 | 刘畅，林椿眄本文是强化学习名作——“Reinforcement Learning: an Introduction”一书中最为重要的内容，旨在介绍学习强化学习最基础的概念及其原理，让读者能够尽快的实现最新模型。毕竟，对任何机器学习实践者来说，RL（强化学习，即Reinforcement Learning）都是一种十分有用的工具，特别是在AlphaGo的盛名之下。第一部分，我们将具体了解了MDPs (马尔可夫决策过程)以及强化学习框架的主要组成部分；第二部

2018-06-05

7400

一文学习基于蒙特卡罗的强化学习方法

▌4.1 基于蒙特卡罗方法的理论本章我们学习无模型的强化学习算法。强化学习算法的精髓之一是解决无模型的马尔科夫决策问题。如图4.1所示，无模型的强化学习算法主要包括蒙特卡罗方法和时间差分方法。本

2018-06-05

2.2K0

机器学习 TOP 10 必读论文 | 资源

机器学习人工智能强化学习编程算法

翻译 | AI科技大本营编辑 | Donna Medium上的机器学习深度爱好者必关注的账号Mybridge照例对11月发表的学术论文进行了排名，整理出了10篇必读论文，建议收藏深读。 1. Alpha Zero：用强化学习算法对中国象棋和国际象棋进行自我修炼（本论文作者包括DeepMind创始人Demis Hassabis） https://arxiv.org/pdf/1712.01815.pdf 2. 高分辨率图像合成和有条件的GANs的语义处理（该论文由UC Berkeley的Ming-Yu Liu

2018-06-05

6130

关于强化学习你不得不知道的5件事

强化学习人工智能机器学习

翻译 | 廉洁出品 | 人工智能头条（公众号ID：AI_Thinker）强化学习在当今世界可谓是日渐流行，让我们来看一看关于强化学习你不得不知道的5件事。强化学习是当今社会最热门的研究课题之一，而且其热度正与日俱增。让我们一起来学习下关于强化学习的5个有用知识点。 ▌1.强化学习究竟是什么？它与机器学习技术有什么联系？强化学习（Reinforcement Learning）是机器学习的一个分支，它的原理是：在交互环境中，智能体利用自身的经验和反馈，通过试验和错误经验来进行学习。有监督学习和强化

2018-06-05

8580

2000块GPU训练一个围棋AI，Facebook告诉你什么叫“真的壕”

人工智能强化学习

作者 | 阿司匹林出品 | 人工智能头条（公众号ID：AI_Thinker） 2015 年 11 月，Facebook 发表论文“Better Computer Go Player with Neural Network and Long-term Prediction”，提出了一种将蒙特卡洛树搜索和深度强化学习结合的方法。随后，基于这种方法的围棋 AI——DarkForest，在 2016 年 1 月举行的 KGS 锦标赛上获得了第三名。不过，Google 随后就放了一个大招。 2016 年 3 月

2018-06-05

4210

东北大学研究生：用强化学习玩Chrome里的恐龙小游戏

强化学习游戏人工智能 java

【人工智能头条导读】Chrome 浏览器里面有一个小彩蛋，当你没有网络时，打开任意的 URL 都会出现一个恐龙小游戏（Dino Run），按空格键就可以跳跃。当然，直接打开 chrome://dino 也可以玩这个小游戏。近期，一名来自东北大学（美国）的研究生 Ravi Munde 利用强化学习，实现了对 Dino Run 的控制。以下内容来自 Ravi Munde 博客，人工智能头条编译：本文将从强化学习的基础开始，并详细介绍以下几个步骤：在浏览器（JavaScript）和模型（Python）之间

2018-06-05

7650

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态