开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在强化学习中，最优策略和分段最优策略之间的区别是什么？

在强化学习中，最优策略和分段最优策略之间的区别如下：

最优策略（Optimal Policy）：最优策略是指在给定环境下，能够使得智能体在长期累积奖励上达到最大化的策略。最优策略是全局最优，即在任何状态下都选择能够获得最大奖励的动作。最优策略是整个任务过程中的一种全局最佳决策方案。
分段最优策略（Locally Optimal Policy）：分段最优策略是指在给定环境下，智能体在每个状态下选择能够获得最大奖励的动作，但这些局部最优的选择并不一定能够达到全局最优。分段最优策略是基于当前状态的局部最佳决策方案。

区别：最优策略和分段最优策略之间的主要区别在于全局最优和局部最优的概念。最优策略是在整个任务过程中能够获得最大奖励的策略，而分段最优策略是基于当前状态下能够获得最大奖励的策略，但并不一定能够达到全局最优。

在实际应用中，最优策略往往是我们所追求的目标，因为它能够在整个任务过程中获得最大奖励。然而，在某些复杂的环境中，全局最优策略可能很难找到或计算，此时可以采用分段最优策略来逼近最优策略。分段最优策略可以通过局部最优的决策来实现，在每个状态下选择能够获得最大奖励的动作，从而在局部范围内达到较好的性能。

腾讯云相关产品和产品介绍链接地址：腾讯云提供了一系列与云计算相关的产品和服务，包括云服务器、云数据库、云存储、人工智能等。具体产品和服务的介绍可以参考腾讯云官方网站：https://cloud.tencent.com/

相关搜索:OrderPart实体在moqui中的意义是什么？OrderPart和OrderItem entity之间的基本区别是什么？作为响应策略，在material ui的手风琴和标签之间切换的最好方法是什么？在cloudflare api的区域详细结果中，original_nameservers和名称服务器之间的区别是什么在EF (实体框架)中，在乘法运算中，在INT和SMALLINT之间转换字段类型是什么策略？在JavaParser中，VoidVisitorAdapter和GenericVisitorAdapter之间的功能区别是什么在Laravel Eloquent中，limit和take之间的区别是什么？在luigi中，函数requires和@requires标记之间的区别是什么？在Microsoft Access..中，字段和Field2对象之间的主要区别是什么？在Visual Studio代码中，jupyter笔记本和笔记本之间的区别是什么？在亚马逊SageMaker中，推断和预测之间的区别(如果有的话)是什么？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

《深度强化学习》面试题汇总

4. 强化学习的损失函数（loss function）是什么？和深度学习的损失函数有何关系？

03

强化学习-让机器自己学习

强化学习（Reinforcement Learning，简称RL）是机器学习的一个重要分支，前段时间人机大战的主角AlphaGo正是以强化学习为核心技术击败人类。在强化学习中，包含两种最基本的元素：状态与动作，在某个状态下执行某种动作，这便是一种策略，学习器要做的就是通过不断探索学习，从而获得一个好的策略。例如：在围棋中，一种落棋的局面就是一种状态，若能知道每种局面下的最优落子动作，那就必胜无疑。

01

Hands on Reinforcement Learning 01

亲爱的读者，欢迎来到强化学习的世界。初探强化学习，你是否充满了好奇和期待呢？我们想说，首先感谢你的选择，学习本书不仅能够帮助你理解强化学习的算法原理，提高代码实践能力，更能让你了解自己是否喜欢决策智能这个方向，从而更好地决策未来是否从事人工智能方面的研究和实践工作。人生中充满选择，每次选择就是一次决策，我们正是从一次次决策中，把自己带领到人生的下一段旅程中。在回忆往事时，我们会对生命中某些时刻的决策印象深刻：“还好我当时选择了读博，我在那几年找到了自己的兴趣所在，现在我能做自己喜欢的工作！”“唉，当初我要是去那家公司实习就好了，在那里做的技术研究现在带来了巨大的社会价值。”通过这些反思，我们或许能领悟一些道理，变得更加睿智和成熟，以更积极的精神来迎接未来的选择和成长。

02

一文了解强化学习

虽然是周末，也保持充电，今天来看看强化学习，不过不是要用它来玩游戏，而是觉得它在制造业，库存，电商，广告，推荐，金融，医疗等与我们生活息息相关的领域也有很好的应用，当然要了解一下了。本文结构：定义和监督式学习, 非监督式学习的区别主要算法和类别应用举例 ---- 1. 定义强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决 decision making 问题，即自动进行决策，并且可以做连续决策。它主要包含四个元素，agent，环境状态，行动，奖励, 强化学习的目标

06

长时间序贯任务结构的演示学习方法及其在手术机器人中的应用

本文总结了最近三篇论文的结果，这些论文提出了一些可以将更长的任务分解成更短子任务的学习算法。

人工智能进行连续决策的关键——强化学习入门指南

文 | 不会停的蜗牛 CSDN AI专栏作家强化学习非常重要，原因不只在于它可以用来玩游戏，更在于其在制造业、库存、电商、广告、推荐、金融、医疗等与我们生活息息相关的领域也有很好的应用。本文结构：定义和监督式学习, 非监督式学习的区别主要算法和类别应用举例 1、定义强化学习是机器学习的一个重要分支，是多学科多领域交叉的一个产物，它的本质是解决 decision making 问题，即自动进行决策，并且可以做连续决策。它主要包含四个元素，agent，环境状态，行动，奖励, 强化学习的目标就

02

深度强化学习面试题目总结

文章目录 #深度强化学习面试题目总结什么是强化学习？强化学习（Reinforcement Learning, RL），又称增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体

01

易忽略的强化学习知识之基础知识及MDP

推荐阅读时间：8min~12min 主要内容：容易忽略的强化学习知识之基础知识及MDP 由于我对RL的期望挺大，很看好它的前景，故之后应该会写下一个系列的强化学习文章，标题是易忽略的强化学习知识之XX，也就是说，我写下的是我觉得有必要知道比较重要并容易忽略的知识。也许不会所有强化学习的知识都全面的写，但希望可以对大家有所帮助，同时巩固我自己的知识！强化学习是什么？和监督学习，无监督学习是什么关系？强化学习的主要应用是什么？在其他如NLP的应用呢？模仿学习是什么？和强化学习联系？强化学习的整体运行流程

08

深度强化学习面试问题集锦

深度强化学习面试题目总结什么是强化学习？强化学习（Reinforcement Learning, RL），又称增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F2xUwqQo-1595932389184)(https://i.loli.net/2020/07/28/qKgrVp1Gaxme2E6.png)] 强化学习和监督学

01

小白系列（6）| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network

原文：小白系列（6）| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network

02

小白系列（6）| Q-Learning vs. Deep Q-Learning vs. Deep Q-Network

强化学习（Reinforcement Learning，RL）近年来受到了广泛关注，因为它在多个领域取得了成功的应用，包括博弈论、运筹学、组合优化、信息论、基于模拟的优化、控制理论和统计学。

01

总结 | 叶志豪：介绍强化学习及其在 NLP 上的应用

AI 科技评论按：当 AlphaGO 横扫之后，越来越多的学者意识到强化学习在人工智能领域所扮演的重要角色。同时随着深度学习的发展，应用深度学习，很多自然语言的传统难题得到突破。另外，引用 David Silver 的一句话：深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)。

03

分享总结 | 叶志豪：介绍强化学习及其在 NLP 上的应用

雷锋网 AI 研习社按：当 AlphaGO 横扫之后，越来越多的学者意识到强化学习在人工智能领域所扮演的重要角色。同时随着深度学习的发展，应用深度学习，很多自然语言的传统难题得到突破。另外，引用 David Silver 的一句话：深度学习 (DL)+ 强化学习 (RL) = 人工智能 (AI)。

03

强化学习和生成对抗网络的区别和联系

强化学习（Reinforcement Learning）和生成对抗网络（Generative Adversarial Networks，GANs）是两种重要的机器学习方法，它们各自有着不同的学习目标、过程和结果。本文将介绍强化学习和生成对抗网络的区别和联系，并详细解释它们的目标、过程和结果。

01

强化学习常用算法+实际应用，必须get这些核心要点！

强化学习是一种机器学习技术，它使代理能够使用自身行为和经验的反馈通过反复试验在交互式环境中学习。

03

构建强化学习系统，你需要先了解这些背景知识

选自joshgreaves 机器之心编译强化学习（RL）是关于序列决策的一种工具，它可以用来解决科学研究、工程文理等学科的一系列问题，它也是围棋程序 AlphaGo 的重要组成部分。本文旨在分享 85 页强化学习课本中最重要的内容，我们从最基础的马尔科夫决策过程开始一步步构建形式化的强化学习框架，然后再详细探讨贝尔曼方程以打好强化学习的基础。当然，如果你想更全面地了解这一主题，建议阅读 Richard Sutton 和 Andrew Barto 的著作《Reinforcement Learning: An

06

一文读懂AlphaGo背后的强化学习

作者 | Joshua Greaves 编译 | 刘畅，林椿眄本文是强化学习名作——“Reinforcement Learning: an Introduction”一书中最为重要的内容，旨在介绍学习强化学习最基础的概念及其原理，让读者能够尽快的实现最新模型。毕竟，对任何机器学习实践者来说，RL（强化学习，即Reinforcement Learning）都是一种十分有用的工具，特别是在AlphaGo的盛名之下。第一部分，我们将具体了解了MDPs (马尔可夫决策过程)以及强化学习框架的主要组成部分；第二部

03

强化学习常用算法+实际应用，必须get这些核心要点！

强化学习是一种机器学习技术，它使代理能够使用自身行为和经验的反馈通过反复试验在交互式环境中学习。

01

【DRL教程学习笔记01】AlphaGo Zero核心技术- 深度强化学习简介

【导读】昨天 Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的主要研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！叶博士创作的David Silve

06

强化学习从基础到进阶-常见问题和面试必知必答1：强化学习概述、序列决策、动作空间定义、策略价值函数、探索与利用、Gym强化学习实验

本质上是智能体与环境的交互。具体地，当智能体在环境中得到当前时刻的状态后，其会基于此状态输出一个动作，这个动作会在环境中被执行并输出下一个状态和当前的这个动作得到的奖励。智能体在环境里存在的目标是最大化期望累积奖励。

02

通俗讲解强化学习！

知乎｜ https://www.zhihu.com/people/xu-xiu-jian-33

03

通俗讲解强化学习！

知乎｜ https://www.zhihu.com/people/xu-xiu-jian-33

强化学习的基础知识和6种基本算法解释

通俗地说，强化学习类似于婴儿学习和发现世界，如果有奖励(正强化)，婴儿可能会执行一个行动，如果有惩罚(负强化)，婴儿就不太可能执行这个行动。这也是来自监督学习和非监督学习的强化学习之间的主要区别，后者从静态数据集学习，而前者从探索中学习。

03

通俗讲解强化学习！

前言：强化学习这个概念是2017年Alpha Go战胜了当时世界排名第一的柯洁而被大众知道，后面随着强化学习在各大游戏比如王者荣耀中被应用，而被越来越多人熟知。王者荣耀AI团队，甚至在顶级期刊AAAI上发表过强化学习在王者荣耀中应用的论文。那么强化学习到底是什么，如何应用？下面和大家分享我对强化学习的整个过程，以及强化学习目前在工业界是如何应用的，欢迎沟通交流。

03

强化学习总体介绍-初步搭建强化学习理论体系(一)

时刻做的怎么样,每个个体的目标就是最大化它积累的奖励(积累的奖励越多自然表示他做的更好).

01

深度策略梯度算法是真正的策略梯度算法吗？

深度强化学习是现代机器学习最为人所知的成就，它造就了 AlphaGO 这样广为人知的应用。对很多人来说，该框架展示了机器学习对现实世界的影响力。但是，不像当前的深度（监督）学习框架，深度强化学习工具包尚未支持足够的工程稳定性。的确，近期的研究发现当前最优的深度强化学习算法对超参数选择过于敏感，缺乏稳定性，且可复现性差。

02

Deepmind大神David Silver带你认识强化学习

引言：强化学习（Reinforcement learning）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。 David Silver在2013年加入Google DeepM

04

强化学习实践：从吃豆人到Q网络

要了解强化学习，就要从生物界找灵感，数据科学的大部分范畴都应该归结为实验科学和“空想”仿生学（笔者个人命名，不一定科学），我们可以从最低等的生物——一个单细胞生物开始，看看单细胞生物是如何学习的。首先给单细胞生物设计一个场景，它只有上下左右四个方向可以移动；周围有微生物，单细胞生物可以吃，看能吃多少；但还有些病毒，如果单细胞生物误食了就直接挂掉，然后系统会再产生一个新的单细胞生物继续上面的循环，当然系统在reset 这个单细胞生物时，已将之前遇到微生物（食物）和病毒（天敌）的经验输入到新的单细胞生物上。

02

俞扬：强化学习真实环境不好用？那就模拟器来凑！

第二届北京智源大会上，南京大学人工智能学院俞扬教授做了《更好的环境模型，更好的强化学习》的报告。

02

深度强化学习（DRL）专栏（一）

【磐创AI导读】：本篇文章是深度强化学习专栏的第一篇，讲了引言和强化学习基础知识，希望对大家有所帮助。查看上篇关于本专栏的介绍：深度强化学习（DRL）专栏开篇。想要获取更多的机器学习、深度学习资源，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

02

深度学习研究总结：强化学习技术趋势与分析（经典论文）

【新智元导读】机器学习技术总结回顾第二期：上一期，作者回顾了生成对抗网络 ICYMI 及 3 篇经典论文，本期关注的内容是强化学习。这本文中，作者从数学原理入手，深入分析强化学习。最后以深度强化学习著

08

强化学习如何真正实现任务自动化？不妨试试「两步走」策略！

作为行为主义学派的重要技术，近年来，强化学习在 Atari 游戏领域大放异彩。然而，人们要想将强化学习技术真正应用于现实世界任务，还有很长的一段路要走。本文将真实世界强化学习任务抽象为「简化」和「求解」的两个步骤，从马尔科夫决策过程的角度，讨论了基于强化学习的普适性自动化技术。

00

普林斯顿大学王梦迪：从基础理论到通用算法，看见更大的AI世界观

强化学习在人工智能领域的「扬名立万」，始于2016年DeepMind开发的Alpha Go在围棋竞赛中战胜人类世界冠军李世石。

03

【深度学习进阶模型详解】概率图模型/深度生成模型/深度强化学习，复旦邱锡鹏老师《神经网络与深度学习》教程分享05（附pdf下载）

【导读】复旦大学副教授、博士生导师、开源自然语言处理工具FudanNLP的主要开发者邱锡鹏（http://nlp.fudan.edu.cn/xpqiu/）老师撰写的《神经网络与深度学习》书册，是国内为数不多的深度学习中文基础教程之一，每一章都是干货，非常精炼。邱老师在今年中国中文信息学会《前沿技术讲习班》做了题为《深度学习基础》的精彩报告，报告非常精彩，深入浅出地介绍了神经网络与深度学习的一系列相关知识，基本上围绕着邱老师的《神经网络与深度学习》一书进行讲解。专知希望把如此精华知识资料分发给更多AI从业者，

06

基于时态差分法的强化学习：Sarsa和Q-learning

时态差分法（Temporal Difference, TD）是一类在强化学习中广泛应用的算法，用于学习价值函数或策略。Sarsa和Q-learning都是基于时态差分法的重要算法，用于解决马尔可夫决策过程（Markov Decision Process, MDP）中的强化学习问题。

02

关于增强学习你应该了解的五件事儿

强化学习（Reinforcement Learning）是当前最热门的研究课题之一，它在AlphaGo中大放光彩，同时也变得越来越受科研人员的喜爱。本文主要介绍关于增强学习5件有用的事儿。

02

入门指南 | 人工智能的新希望-强化学习全解

大数据文摘作品，转载具体要求见文末编译团队 | Jennifer Zhu 赖小娟张礼俊作者 | FAIZAN SHAIKH 很多人说，强化学习被认为是真正的人工智能的希望。本文将从7个方面带你入门强化学习，读完本文，希望你对强化学习及实战中实现算法有着更透彻的了解。介绍许多科学家都在研究的一个最基本的问题是“人类如何学习新技能？”。理由显而易见– 如果我们能解答这个问题，人类就能做到很多我们以前没想到的事情。另一种可能是我们训练机器去做更多的“人类”任务，创造出真正的人工智能。虽然我们还没

07

独家 | 强化学习中的策略网络vs数值网络（附链接）

在强化学习中，智能体（agent）在环境中进行一些随机的抉择，并从很多选择中选择最优的一个来达到目标，实现优于人类的水平。在强化学习中，策略网络和数值网络通常一起使用，比如蒙特卡洛树搜索。这两个网络是探索蒙特卡洛树搜索算法中的一个整体部分。

03

强化学习从基础到进阶-常见问题和面试必知必答3：表格型方法：Sarsa、Qlearning；蒙特卡洛策略、时序差分等以及Qlearning项目实战

状态、动作、状态转移概率和奖励，分别对应$(S,A,P,R)$，后面有可能会加上折扣因子构成五元组。

01

强化学习是如何解决问题的？

什么是强化学习算法呢？要回答这个问题，必须先回答强化学习可以解决什么问题，强化学习如何解决这些问题。

00

【避免AI错把黑人识别为大猩猩】伯克利大学提出协同反向强化学习

【新智元导读】伯克利大学的研究博客最新文章介绍了AI奖励机制存在的缺陷，提出让AI学习人类价值观，价值对齐问题的重要性，以及协同强化学习的一些最近研究。小心你给的奖励 “小心你许的愿望！”——我们都听过这句谚语。国王弥达斯的故事告诉我们，轻易许愿往往事与愿违。弥达斯是一个爱财的国王，他向酒神许愿希望得到点石成金的能力，并如愿以偿得到了点金术。最初，这很有趣，他把碰触到的一切物品都变成了黄金。但快乐很短暂，当国王拥抱自己的女儿时，女儿变成了一座金子的雕像，国王认识到自己愿望的错误。我们人类对于实际想要什

04

观点 | 对比梯度下降与进化策略，神经进化会成为深度学习的未来吗？

选自towardsdatascience 作者：Lars Hulstaert 机器之心编译参与：李舒阳今年 OpenAI 和 Uber 都发布了关于进化策略的文章，它们的研究表明进化策略在监督学习场景中可获得令人满意的效果，在强化学习场景中表现出高性能（在某些领域可以与目前最先进水平比肩）。那么神经进化会成为深度学习的未来吗？来自微软的 Lars Hulstaert 撰文介绍了自己的观点，同时介绍了梯度下降和神经进化及其区别。 2017 年 3 月，OpenAI 发布了一篇关于进化策略的博文。进化策略作

系统比较RL与AIF

主动推理是一种建模生物和人工智能代理行为的概率框架，源于最小化自由能的原则。近年来，该框架已成功应用于多种旨在最大化奖励的情境中，提供了与替代方法相媲美甚至有时更好的性能。在本文中，我们通过展示主动推理代理如何以及何时执行最大化奖励的最优操作，澄清了奖励最大化与主动推理之间的联系。确切地说，我们展示了在何种条件下主动推理产生贝尔曼方程的最优解，该方程是模型驱动的强化学习和控制的几种方法的基础。在部分观察到的马尔可夫决策过程中，标准的主动推理方案可以产生规划时域为1时的贝尔曼最优操作，但不能超越。相反，最近开发的递归主动推理方案（精细推理）可以在任何有限的时间范围内产生贝尔曼最优操作。我们通过讨论主动推理与强化学习之间更广泛的关系，补充了这一分析。

01

【学术】强化学习系列（下）：贝尔曼方程

在前一篇文章中，我们学习了马尔可夫决策和强化学习框架的一些主要组成部分。在本文中，我们将建立在这一理论上，学习价值函数和贝尔曼方程。回报和返还（return）正如前面所讨论的，强化学习agent

07

强化学习（一）入门介绍

本讲将对强化学习做一个整体的简单介绍和概念引出，包括什么是强化学习，强化学习要解决什么问题，有一些什么方法。一、强化学习强化学习（Reinforcement Learning, RL）又称为增强学习、评价学习等，和深度学习一样是机器学习的一种范式和方法论之一，智能体从一系列随机的操作开始，与环境进行交互，不断尝试并从错误中进行学习策略，最大化回报值，最终找到规律实现既定目标。强化学习主要包含四个元素：智能体Agent、环境状态Enviroment、行为Action、奖励Reward，强化学习的目标就是通过不断学习总结经验获得最大累积奖励。

02

论强化学习和概率推断的等价性：一种全新概率模型

选自arXiv 作者：Sergey Levine 机器之心编译参与：张倩、刘晓坤虽然强化学习问题的一般形式可以有效地推理不确定性，但强化学习和概率推断的联系并不是很明显。在本文中，UC Berkeley EECS 助理教授 Sergey Levine 提出了一种新的概率模型和理论框架，证明了强化学习的一般形式即最大熵强化学习与概率推断的等价性。在原则上，将问题形式化为概率推断，可以应用多种近似推断工具，将模型以灵活、强大的方式进行扩展。概率图模型（PGM）为机器学习研究者提供了一种广泛适用的工具（K

03

关于强化学习你不得不知道的5件事

翻译 | 廉洁出品 | 人工智能头条（公众号ID：AI_Thinker）强化学习在当今世界可谓是日渐流行，让我们来看一看关于强化学习你不得不知道的5件事。强化学习是当今社会最热门的研究课题之一，而且其热度正与日俱增。让我们一起来学习下关于强化学习的5个有用知识点。 ▌1.强化学习究竟是什么？它与机器学习技术有什么联系？强化学习（Reinforcement Learning）是机器学习的一个分支，它的原理是：在交互环境中，智能体利用自身的经验和反馈，通过试验和错误经验来进行学习。有监督学习和强化

03

【DeepMind 公开课-深度强化学习教程笔记04】不基于模型的预测

点击上方“专知”关注获取更多AI知识! 【导读】Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！（关注

【AlphaGo Zero 核心技术-深度强化学习教程笔记05】不基于模型的控制

【导读】Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！（关注专知公众号，获取强化学习pdf资料，详情

06

【AlphaGo Zero 核心技术-深度强化学习教程代码实战05】SARSA(λ)算法实现

【导读】Google DeepMind在Nature上发表最新论文，介绍了迄今最强最新的版本AlphaGo Zero，不使用人类先验知识，使用纯强化学习，将价值网络和策略网络整合为一个架构，3天训练后就以100比0击败了上一版本的AlphaGo。Alpha Zero的背后核心技术是深度强化学习，为此，专知有幸邀请到叶强博士根据DeepMind AlphaGo的研究人员David Silver《深度强化学习》视频公开课进行创作的中文学习笔记，在专知发布推荐给大家！（关注专知公众号，获取强化学习pdf资料，详情

06

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭