腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据魔术师

专栏作者

290

文章

734604

阅读量

202

订阅数

论文拾萃|基于深度强化学习的组合优化研究进展

强化学习编程算法腾讯云开发者社区

李凯文，张涛，王锐*，覃伟健，黄鸿，贺惠辉，基于深度强化学习的组合优化研究进展，自动化学报，2020, 41(x): 1−17 doi: 10.16383/j.aas.c200551

2021-06-09

9210

为什么AI无法解决一般智能问题？

机器学习深度学习神经网络强化学习监督学习

但大家都同意的是，目前的人工智能系统与人类的智力相去甚远。直接表现是：AI只在特定任务中表现优异，无法将其能力扩展到其他领域。

2021-05-11

4300

产品|智能仓储AGV调度仿真优化平台

编程算法大数据强化学习

随着我国社会主义市场经济的不断发展，以及互联网技术的普及，我国电子商务等产业迎来了新的发展高峰。为减少订单履行成本，满足客户多样化需求，增强核心竞争力，主流电商企业纷纷加大对仓储物流的投资力度，这为仓储业的发展带来了广阔的发展空间。

2020-05-20

2.3K1

VRP求解哪家强？深度强化学习来挑战！

编程算法强化学习 css 学习方法神经网络

大家作为我们公众号的忠实粉丝，想必对VRP不陌生吧。VRP问题作为运筹学领域的重要问题之一，不断有学者提出新的算法来求解这一问题，包括列生成、分支定价等精确算法，以及模拟退火、禁忌搜索等启发式算法。

2020-04-26

5.5K1

强化学习读书笔记（9）| On-policy Prediction with Approximation（上）

https 强化学习网络安全监督学习编程算法

从本讲开始进入第二部分，我们扩展了第一部分中介绍的tabular方法，以适用于任意大的状态空间的问题。在我们想要应用强化学习的许多任务中，状态空间是组合的和巨大的。在这种情况下，即使在无限时间和数据的限制下，我们也不能期望找到最优策略或最优值函数; 我们的目标是使用有限的计算资源找到一个好的近似解决方案。

2019-10-09

9200

强化学习读书笔记（8）上| 用表格方法规划和学习

编程算法强化学习

本讲为需要环境模型的model-based强化学习方法（如DP和启发式搜索）和不需要环境模型的model-free方法（比如MC和TD）提供一个统一的论述框架。基于模型的方法依赖规划（planning）作为其主要组成部分，而无模型方法主要依赖于学习（learning）。

2019-09-17

9750

强化学习读书笔记（5）|蒙特卡洛方法（Monte Carlo Methods）

强化学习游戏

前面两章都假设我们已知MDP的分布p(s'r|s,a)（model），但有时这一点难以做到，或者说这种Markov假设可能是不合理的，那么我们只能从真实/模拟环境中去获取这些知识。蒙特卡洛方法只需要经验知识，即：来自线上或者模拟环境交互过程的样本序列（包括状态序列、动作序列、奖励序列）。“蒙特卡洛”这个词被广泛用在利用大量随机元素作估计的地方。在这里我们用它来表示基于完全return平均值的方法。

2019-08-26

6190

强化学习读书笔记（3）| 有限马尔科夫决策过程（Finite Markov Decision Processes）

本章我们介绍有限马尔科夫决策过程(Finite MDPs），这个问题和赌博机一样涉及到评估的反馈，但这里还多了一个方面——在不同的情况做出不同的选择。MDPs是经典的序列判定决策模型，也就是说，不是做出一个选择就会马上获得reward。这与赌博机不同，赌博机只要摇一次臂即可立刻获得reward，而MDPs就像下象棋，只有结束了对局才会获得reward，但下象棋从开始到结束涉及到很多个行动，也就是要做出很多次选择才最终到对局结束。因此说MDPs的奖励是延迟的，同时MDPs还有一个即时的权值用来帮助当前决策。在赌博机情景中，我们对每一个行为a做出评估值q(a)，而在MDPs情境中，我们则需要对行为a和状态s做出评估q(s,a)，也可以估计每个给定最佳动作选择的状态的v(s)值。

2019-08-13

1.3K0

强化学习读书笔记（2）| K摇臂赌博机问题

强化学习编程算法

上一次的强化学习简介中我们提到了强化学习是一种试错学习，没有直接的指导信息，需要用户不断地与环境进行交互，通过试错的方式获得最佳策略。这一节我们将从一个简单的单步强化学习模型进行进一步理解。

2019-08-09

1.4K0

强化学习读书笔记（1） | Introduction

编程算法强化学习机器学习神经网络深度学习

强化学习（Reinforcement learning，RL），又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

2019-07-30

5920

Deep城市︱机器学习帮助优化交通流并减少交通排放应用两例

自动驾驶无人驾驶强化学习深度学习编程算法

将人工智能应用于自动驾驶汽车来使交通平稳运行，减少燃料消耗，并改善空气质量监测模型，可能听起来像科幻小说，但伯克利实验室的研究人员和加州伯克利分校合作，已经启动了两个研究项目来做这件事。第一个项目利用强化学习来使自动驾驶汽车以一种增加交通流量，减小能源消耗的方式行驶；第二个项目使用深度强化学习来分析卫星图像，结合来自手机的交通信息和环境监测器收集的数据来改善空气质量预测。本文从介绍了深度强化学习在两个项目的应用与其内在机理；相信终将有一天，这种前沿科技将会成为未来的标准。

2019-06-06

1.2K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态