腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

AI研习社

专栏作者

1755

文章

2105060

阅读量

197

订阅数

微软强化学习开源节项目开始接受申请，1万美元助学金，3月6日截止

强化学习 python 机器学习

微软研究院的全球项目：强化学习开放源代码节（RL Open Source Fest），目前已经开始面向全球接受申请。

2020-02-27

6230

2020 年了，深度学习接下来到底该怎么走？

NLP 服务强化学习监督学习深度学习编程算法

在过去的一年，深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术（本文中称为深度学习1.0）仍然存在着一些明显的局限，例如在解决有意识任务方面的不足。那么针对这些局限性，在未来的一年，有哪些可能的解决方案？深度学习又会在哪些方面带来有希望的突破？

2020-02-21

4700

深度学习的光环背后，都有哪些机器学习的新进展被忽视了？

网络安全 https 编程算法强化学习深度学习

从神经网络被学术界排挤，到计算机科学界三句话不离人工智能、各种建模和预测任务被深度学习大包大揽，只不过短短十年时间。这十年里我们目睹了 dropout、SGD+动量、残差连接、预训练等等深度学习技术的大爆发，见证了学术研究全面拥抱深度学习，也听到了对深度学习不足之处的质疑之声、感受到了很多人对非深度学习方法「复兴」的期盼。

2020-02-21

6760

卡牌游戏八合一，华人团队开源强化学习研究平台RLCard

游戏强化学习编程算法 https 网络安全

在过去的两三年中，我们经常听说人工智能在棋牌类游戏（博弈）中取得新的成果，比如基于深度强化学习的 AlphaGo 击败了人类世界冠军，由 AlphaGo 进化而来的 AlphaZero 还一并搞定了国际象棋和日本象棋；基于博弈论的冷扑大师（Libratus）也在无限注德州扑克比赛中击败了人类职业选手；今年在澳门举行的 IJCAI 2019 上我们也发现了一篇斗地主 AI 论文。

2019-10-14

1.4K0

干货 | 关于机器学习的知识点，全在这篇文章里了

编程算法强化学习监督学习无监督学习机器学习

机器学习：使计算机改进或是适应他们的行为，从而使他们的行为更加准确。也就是通过数据中学习，从而在某项工作上做的更好。

2019-10-08

5510

N-Shot Learning：用最少的数据训练最多的模型

https 网络安全机器学习强化学习神经网络

原标题 | N-Shot Learning: Learning More with Less Data

2019-09-25

1.4K0

KDD CUP 2019 实录：野心尽露的数据挖掘「奥林匹克」

KDD 2019 至今迈入第三天，在经历了首日 Tutorial Day 、次日 Workshop Day 的知识轰炸以及精彩的 Keynote 演讲后，我们终于迎来了大会的高潮时刻——被誉为数据挖掘领域「奥运会」的 KDD CUP。

2019-08-09

6170

Huskarl 最近进展：已支持与 OpenAI Gym 环境无缝结合！

编程算法 https 网络安全强化学习深度学习

近日，Github 上开源的一个专注模块化和快速原型设计的深度强化学习框架 Huskarl 有了新的进展。该框架除了轻松地跨多个 CPU 内核并行计算环境动态外，还已经成功实现与 OpenAI Gym 环境的无缝结合。TensorFlow 发布了相应的文章来报道此研究成果。

2019-07-25

6500

动态 | 星际2玩家们，你们很快就会在天梯上为 DeepMind 的论文做贡献了

强化学习游戏腾讯云测试服务

AI 科技评论按：昨晚，暴雪联合 DeepMind 发出一则新闻，DeepMind 开发的星际 2 AI「AlphaStar」很快就会出现在星际 2 欧洲服务器上的 1v1 天梯比赛中。人类玩家们不仅会有机会匹配到它们、和它们展开标准的比赛，比赛结果也会像正常比赛一样影响自己的天梯分数。

2019-07-16

3000

学界 | 如何让智能体在产生疑惑时向人类求助？微软研究院用模仿学习解决了这个问题

机器人强化学习 https 网络安全

AI 科技评论按：随着智能语音等 AI 技术逐渐落地到现实场景中，智能语音助手、智能机器人等各类形态的 AI 的身影随处可见，真正走进了人们的日常生活中。然而，其目前在技术方面还是存在很多不成熟的地方，一个不留神便是一个大型「翻车现场」，另外，人机交互的不自然性也是其存在的一大挑战。对此，微软研究院提出用模仿学习来解决这一问题，并开发出了搭载语言助手的基于视觉的导航（VNLA），不仅能够训练智能体回答开放式的提问（即不需要提前规划好指令），还能够训练其在需要的时候通过语言策略性地寻求帮助，这就大大增强了智能体的自主学习能力，也大大提高了任务的完成度和准确性。微软研究院在博客上发布了这一成果，雷锋网 AI 科技评论编译如下。

2019-07-04

4070

学界 | DeepMind 在多智能体强化学习方面又有了新进展，最新成果登上 Science 杂志！

游戏强化学习

AI 科技评论按：集体智能（collective intelligence）是人工智能研究浪潮中不可被忽视的重要课题。然而，智能体如何在边界开放、约束动态的环境下学习到知识，并且进行团队协作仍然是极具挑战的难题。DeepMind 近年来针对基于种群的多智能体强化学习进行了大量的研究，其最新研究成果近日发表在了国际权威杂志「Science」上。DeepMind 发博客将这一成果进行了介绍，AI 科技评论编译如下。

2019-07-04

5650

使用Unity ml-agent进行深度强化学习

unity 强化学习

上周，我和我的两个同事，佩德罗·昆塔斯和佩德罗·卡尔代拉做了一些实验，使用的是Unity的ml -agents，我认为这是一个伟大的时刻，与社区分享我们的结果，并向你展示如何扩展你的强化学习知识。

2019-07-04

1.1K0

学界 | 让机器像人类一样学习? 伯克利 AI 研究院提出新的元强化学习算法！

强化学习学习方法 https 网络安全编程算法

AI 科技评论按：如果要让机器人拥有人的学习能力，应该怎么做？伯克利 AI 研究院给出了一个很好的答案——元强化学习（meta-RL）。但这一次伯克利 AI 研究院不只是使用了元强化学习，还考虑POMDP、异步策略梯度等等知识体系，最终得到了一个高样本效率、高探索效率的新算法「PEARL」。这一成果不仅为解决 AI 的实际问题提供新的思考角度；同时也是实现在现实系统中规模化应用元强化学习的的第一步。伯克利 AI 研究院发布博文介绍了这一成果，AI 科技评论编译如下。

2019-06-23

4130

学界 | 超越过去三年冠军，AAMAS2019 桥牌游戏论文揭秘

编程算法游戏强化学习人工智能神经网络

AI 科技评论按，近年来，AI 在博弈游戏中的研究成为研究者们关注的热点之一。2017 年，AlphaGo 成功击败人类最高围棋水平的代表柯洁，一度占据各大媒体的头条。之后，AlphaGo 不断进化，AlphaZero 轻松击败国际象棋和日本将棋并击败业内远超人类冠军水平的顶尖计算机程序。今年，OpenAI Five 击败 DOTA2 世界冠军 OG 团队。

2019-06-19

9360

学界 | 如何得到稳定可靠的强化学习算法？微软两篇顶会论文带来安全的平滑演进

编程算法 https 强化学习网络安全

AI 科技评论按：强化学习最常见的应用是学习如何做出一系列决策，比如，如何一步步攀登上三千英尺高的岩壁。有机会用到强化学习并做出高水准结果的领域包括机器人（以及无人机）控制、对话系统（个人助理、自动化呼叫中心）、游戏产业（智能 NPC、游戏 AI）、药物研发（分子构型测试、剪裁管理）、复杂系统控制（资源分配、过程优化）等等。

2019-06-19

4960

一文览尽 Facebook ICML 2019 成果集锦

https 网络安全 NLP 服务机器学习强化学习

本周，来自于世界各地的机器学习专家将齐聚长滩(Long Beach)，参加2019年国际机器学习会议(ICML 2019)。在本次会议中，Facebook的相关研究将会在口头报告和小组海报会议等多个场合上展示。

2019-06-19

6720

学界 | 如何同时处理庞大、稀有、开放类别的视觉识别？伯克利 AI 研究院提出了开放长尾识别方法

图像处理 https 强化学习网络安全

AI 科技评论按：在计算机视觉领域，图像分类其实是一个最基本的问题，然后一旦遇到极端长尾、开放式的数据集时，即便是最基本的图像识别任务，也难以很好地实现。伯克利 AI 研究院基于对某段相关的经历的思考提出了「开放长尾识别」（OLTR）方法，据介绍，该方法可同时处理庞大、稀有、开放类别的视觉识别，是目前视觉识别系统评价中更全面、更真实的一种检验标准，它可以被进一步扩展到检测、分割和强化学习上。这一成果也在伯克利 AI 研究院上进行了发表，雷锋网 AI 科技评论编译如下。

2019-06-14

8140

观点 | 深度学习+符号表征=强大的多任务通用表征，DeepMind新论文可能开启AI新时代

强化学习迁移学习深度学习神经网络机器学习

AI 科技评论按：在深度神经网络大行其道的现在，虽然大家总说要改善深度学习的可解释性、任务专一性等问题，但是大多数研究论文在这些方面的努力仍然只像是隔靴搔痒。而且，越是新的、具有良好表现的模型，我们在为模型表现感到开心的同时，对模型数学原理、对学习到的表征的理解也越来越进入到了放弃治疗的心态；毕竟，深度学习具有超出经典 AI 的学习能力，正是因为能够学习到新的、人类目前还无法理解的表征。

2019-06-14

5230

机器学习模型中的 bug 太难找？DeepMind 呈上了三种好方法！

编程算法机器学习深度学习强化学习神经网络

AI 科技评论按：计算机编程发展至今，bug 和软件就一直如影随形。多年来，软件开发人员已经创建了一套在部署之前进行测试和调试的最佳方法，但这些方法并不适用于如今的深度学习系统。现在，机器学习的主流方法是基于训练数据集来训练系统，然后在另一组数据集上对其进行测试。虽然这样能够显示模型的平均性能，但即使在最坏的情况下，保证稳健或可被接受的高性能也是至关重要的。对此，DeepMind 发布文章介绍了能够严格识别和消除学习预测模型中的 bug 的三种方法：对抗测试（adversarial testing）、鲁棒学习（robust learning）和形式化验证（formal verification）。AI 科技评论编译如下。

2019-06-14

8220

学界 | RNN失宠、强化学习风头正劲，ICLR 2019的八点参会总结

html 编程算法强化学习机器学习迁移学习

AI 科技评论按：上周，深度学习顶级学术会议 ICLR 2019 在新奥尔良落下帷幕。毕业于斯坦福大学、现就职于英伟达的女性计算机科学家 Chip Huyen 参加了这次会议，谈到对这次峰会的感想，她有以下 8 点想要讲：

2019-05-29

4200

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态