首页
学习
活动
专区
工具
TVP
发布

数据魔术师

专栏作者
290
文章
734604
阅读量
202
订阅数
论文拾萃|基于深度强化学习的组合优化研究进展
李凯文,张涛,王锐*,覃伟健,黄鸿,贺惠辉,基于深度强化学习的组合优化研究进展,自动化学报,2020, 41(x): 1−17 doi: 10.16383/j.aas.c200551
用户1621951
2021-06-09
9210
为什么AI无法解决一般智能问题?
但大家都同意的是,目前的人工智能系统与人类的智力相去甚远。直接表现是:AI只在特定任务中表现优异,无法将其能力扩展到其他领域。
用户1621951
2021-05-11
4300
产品|智能仓储AGV调度仿真优化平台
随着我国社会主义市场经济的不断发展,以及互联网技术的普及,我国电子商务等产业迎来了新的发展高峰。为减少订单履行成本,满足客户多样化需求,增强核心竞争力,主流电商企业纷纷加大对仓储物流的投资力度,这为仓储业的发展带来了广阔的发展空间。
用户1621951
2020-05-20
2.3K1
VRP求解哪家强?深度强化学习来挑战!
大家作为我们公众号的忠实粉丝,想必对VRP不陌生吧。VRP问题作为运筹学领域的重要问题之一,不断有学者提出新的算法来求解这一问题,包括列生成、分支定价等精确算法,以及模拟退火、禁忌搜索等启发式算法。
用户1621951
2020-04-26
5.5K1
强化学习读书笔记(9)| On-policy Prediction with Approximation(上)
从本讲开始进入第二部分,我们扩展了第一部分中介绍的tabular方法,以适用于任意大的状态空间的问题。在我们想要应用强化学习的许多任务中,状态空间是组合的和巨大的。在这种情况下,即使在无限时间和数据的限制下,我们也不能期望找到最优策略或最优值函数; 我们的目标是使用有限的计算资源找到一个好的近似解决方案。
用户1621951
2019-10-09
9200
强化学习读书笔记(8)上| 用表格方法规划和学习
本讲为需要环境模型的model-based强化学习方法(如DP和启发式搜索)和不需要环境模型的model-free方法(比如MC和TD)提供一个统一的论述框架。基于模型的方法依赖规划(planning)作为其主要组成部分,而无模型方法主要依赖于学习(learning)。
用户1621951
2019-09-17
9750
强化学习读书笔记(5)|蒙特卡洛方法(Monte Carlo Methods)
前面两章都假设我们已知MDP的分布p(s'r|s,a)(model),但有时这一点难以做到,或者说这种Markov假设可能是不合理的,那么我们只能从真实/模拟环境中去获取这些知识。蒙特卡洛方法只需要经验知识,即:来自线上或者模拟环境交互过程的样本序列(包括状态序列、动作序列、奖励序列)。“蒙特卡洛”这个词被广泛用在利用大量随机元素作估计的地方。在这里我们用它来表示基于完全return平均值的方法。
用户1621951
2019-08-26
6190
强化学习读书笔记(3)| 有限马尔科夫决策过程(Finite Markov Decision Processes)
本章我们介绍有限马尔科夫决策过程(Finite MDPs),这个问题和赌博机一样涉及到评估的反馈,但这里还多了一个方面——在不同的情况做出不同的选择。MDPs是经典的序列判定决策模型,也就是说,不是做出一个选择就会马上获得reward。这与赌博机不同,赌博机只要摇一次臂即可立刻获得reward,而MDPs就像下象棋,只有结束了对局才会获得reward,但下象棋从开始到结束涉及到很多个行动,也就是要做出很多次选择才最终到对局结束。因此说MDPs的奖励是延迟的,同时MDPs还有一个即时的权值用来帮助当前决策。在赌博机情景中,我们对每一个行为a做出评估值q(a),而在MDPs情境中,我们则需要对行为a和状态s做出评估q(s,a),也可以估计每个给定最佳动作选择的状态的v(s)值。
用户1621951
2019-08-13
1.3K0
强化学习读书笔记(2)| K摇臂赌博机问题
上一次的强化学习简介中我们提到了强化学习是一种试错学习,没有直接的指导信息,需要用户不断地与环境进行交互,通过试错的方式获得最佳策略。这一节我们将从一个简单的单步强化学习模型进行进一步理解。
用户1621951
2019-08-09
1.4K0
强化学习读书笔记(1) | Introduction
强化学习(Reinforcement learning,RL),又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
用户1621951
2019-07-30
5920
Deep城市︱机器学习帮助优化交通流并减少交通排放应用两例
将人工智能应用于自动驾驶汽车来使交通平稳运行,减少燃料消耗,并改善空气质量监测模型,可能听起来像科幻小说,但伯克利实验室的研究人员和加州伯克利分校合作,已经启动了两个研究项目来做这件事。第一个项目利用强化学习来使自动驾驶汽车以一种增加交通流量,减小能源消耗的方式行驶;第二个项目使用深度强化学习来分析卫星图像,结合来自手机的交通信息和环境监测器收集的数据来改善空气质量预测。本文从介绍了深度强化学习在两个项目的应用与其内在机理;相信终将有一天,这种前沿科技将会成为未来的标准。
用户1621951
2019-06-06
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档