腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

算法channel

专栏作者

853

文章

1026174

阅读量

136

订阅数

强化学习第十三篇：使用深度学习解决迷宫问题，完整步骤和代码

深度学习强化学习 self state 网络

前面强化学习推送到第十二篇，迷宫问题已使用Q-learning解决过，今天使用另一种方法：深度Q网络，简称DQN网络解决。

2024-04-11

2180

第10篇：强化学习Q-learning求解迷宫问题代码实现

强化学习 state 地图集合算法

迭代完成，得到最佳路线，就如上图所示环境，最佳路线如下所示。大概在第50-80迭代步便可搜索到：

2023-08-08

3580

第十二篇：强化学习SARSA算法

机器学习强化学习动态规划函数算法

SARSA（「State-Action-Reward-State-Action」）算法是一种经典的强化学习算法，用于解决马尔可夫决策过程（MDP）问题。该算法于1994年由美国计算机科学家Rummery和Niranjan提出。

2023-08-08

4880

Q-learning算法探索与利用平衡问题

强化学习 greedy 框架算法性能

Q-learning算法中，探索与利用是一个重要的平衡性问题。怎么在算法中平衡，今天第十一篇讨论：Q-learning算法探索与利用平衡问题

2023-08-08

1680

第九篇：强化学习Q-learning算法通俗介绍

存储强化学习表格地图算法

前面我们介绍强化学习基本概念，马尔科夫决策过程，策略迭代和值迭代，这些组成强化学习的基础。

2023-08-08

2630

第八篇：强化学习值迭代及代码实现

强化学习 maze 地图函数算法

值迭代是强化学习另一种求解方法，用于找到马尔可夫决策过程（MDP）中的最优值函数。

2023-08-08

3220

第七篇：强化学习策略迭代代码实现

强化学习 policy 函数数组算法

定义迷宫的奖励矩阵，它是二维数组，维度含义：[num_states][num_actions]

2023-08-08

2120

第六篇：强化学习策略迭代通俗解释

游戏强化学习函数数组算法

策略迭代是马尔可夫决策过程（MDP）中的一种求解方法，当然也是强化学习常用求解方法。

2023-08-08

1970

第五篇：强化学习基础之马尔科夫决策过程

游戏强化学习函数基础索引

迷宫可以表示为一个二维网格，每个格子可以是墙壁（不可通过）或空地（可通过）。智能体可以采取四个动作：向上、向下、向左和向右移动。目标是找到宝藏，同时避免碰到墙壁。

2023-08-08

2460

强化学习的应用领域和案例

自动驾驶医疗游戏强化学习机器人

AlphaGo在对阵李世石的第二局中做出的传奇落子动作。这手落子震惊了许多职业棋手。

2023-08-08

2770

第三篇：强化学习发展历史

自动驾驶神经网络游戏强化学习算法

强化学习作为一门研究领域，经历了多年的发展和演进。以下是强化学习的主要发展历史里程碑：

2023-08-08

5130

第二篇：强化学习中的7个基础概念

游戏强化学习函数基础网络

在强化学习中，智能体需要在不断尝试和错误的过程中学习，通过观察环境的反馈（奖励或惩罚）来调整自己的行为，从而逐步改进策略。

2023-08-08

1730

第一篇：强化学习基本原理通俗介绍

机器学习强化学习 agent

强化学习是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

2023-08-08

1230

我将开始更新强化学习

强化学习函数模型算法优化

很久没有更新文章，从现在开始我将逐步恢复更新。在接下来的日子，我将系统更新强化学习文章，在期间，也会插播一些读博做科研的一些日常总结。

2023-08-08

1740

一文入门深度强化学习

编程算法强化学习机器学习监督学习自动驾驶

深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石，它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。

2022-01-26

9590

强化学习（Reinforcement Learning）

强化学习（Reinforcement Learning）是机器学习领域的三大分支之一，另外两种是我们熟知的监督学习，和非监督学习方法。

2020-02-21

7110

如何抉择是否要做机器学习？如何入门机器学习？

机器学习 go 神经网络强化学习编程算法

今天又有公众号读者问我一些关于职业选择、入门AI的问题，想想它们同样曾经困扰着我，相信现在也还困扰着一些人，未来可能还会有人面临这样的问题。我深知你们心里很焦急，可能也有点无助，你们的心情我现在完全可以体会得到。

2018-09-30

5210

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态