帮你学MatLab

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

Webots的主要功能是机器人的建模、控制与仿真，用于开发、测试和验证机器人算法。其内核基于ODE引擎，动力学仿真效果较为真实。

迟到的好消息-Webots开源了

在实现了几个针对gym的基础场景的强化学习模型后，我们想要在atari的游戏中试试身手，借助Deep Network Designer，可以方便地设计、修改、观察深度学习神经网络模型。

鼠标拖拽搭建强化学习网络模型

这次用的环境是移动倒立摆CartPole环境，建立环境模型，主要是对reword进行定义

MATLAB训练CartPole强化学习模型

首先是原理上的对比，强化学习研究的目标是训练出一个对应于具体任务的好模型，这两个训练策略的方法是不同的。DQN基于值的方法，简单说就是先学出个值函数  ,然后通过值函数确定策略。而PG基于策略的方法则是，直接通过一个目标函数去训练出一个策略

DQN与PG多角度比较

虽然openai的gym强化学习环境底层绘图库是pyglet，不太方便自定义，但是已有的环境还是很好用的，有了前面的python环境准备之后，只需要安装gym就可以

MATLAB借助openai gym环境训练强化学习模型

其中网格环境是可以从空网格自定义起点终点障碍物的，也可以添加全局外力，甚至跳跃障碍物的特殊功能

MATLAB强化学习工具箱整理

前面我们已经能够通过MATLAB调用Python操作键鼠，也在MATLAB环境中建立简单的环境来训练强化学习模型，比如matlab倒立摆环境建模，现在我们需要稍稍复杂的环境，如果在MATLAB中从零开始搭建游戏环境耗时费力，一顿搜索之后也没发现可以利用的游戏m程序，试图通过调用python的gym库时遇到很大难题解决不了，底层pyglet库更是相当底层，想要扩展或者模仿也很有难度，所以我们选用pygame库来实现游戏环境，网上有很多开源的小游戏实现，还有个将pygame游戏包装成为强化学习环境的PLE库

MATLAB调用pygame实现强化学习环境

在gym中运行atari环境的时候可以选择同一个游戏的内存方式或者图像方式，内存方式直接返回游戏的状态，图像方式返回当前游戏的画面

通过图像训练强化学习模型

simulink物理结构模型用的是前面文章matlab倒立摆环境建模当在solidworks绘制后导入的，去除子模块封装，添加驱动以及传感器接口，就像这个样子

MATLAB强化学习训练simulink模型优化

自然语言处理中的分词结果，数字图像处理中的分割识别结果，它们通常有着不一样个数的单元，当我们需要逐个处理这些单元数据的时候如果全部导入MATLAB会占用大量内存，甚至卡死。

MATLAB操作MongoDB数据库

redis是一个key-value存储系统。它支持存储的value类型更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持push/pop、add/remove及取交集并集和差集及更丰富的操作，而且这些操作都是原子性的。在此基础上，redis支持各种不同方式的排序。为了保证效率，数据都是缓存在内存中。redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件。

MATLAB操作redis

我们想要在GUI界面内展示simulink模型的运行状态，可以通过给模型中特定模块绑定监听事件，当模块发生特定事件后调用我们绑定的函数，在函数当中获取模型中的其他参数值

实时获取simulink状态

simulink可以方便地建立物理域模型，这是一个简单的倒立摆，同样可以使用MATLAB的强化学习工具箱进行训练

MATLAB强化学习训练simulink模型

采用 policy gradient 学习方法训练agent，并行训练的参数也需要调整

MATLAB强化学习 PG 算法

强化学习 DQN 算法将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值, 这样不需要在表格中记录 Q 值, 而是直接使用神经网络生成 Q 值.也可以只输入状态值, 输出所有的动作值, 然后按照 Q learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作.

MATLAB强化学习 DQN 算法

Actor（玩家）：为了得到尽量高的reward，实现一个函数：输入state，输出action。用神经网络来近似这个函数。目标任务就是如何训练神经网络，让它的表现更好（得更高的reward）。这个网络被称为actor
Critic（评委）：为了训练actor，需要知道actor的表现到底怎么样，根据表现来决定对神经网络参数的调整。这就要用到强化学习中的“Q-value”、但Q-value也是一个未知的函数，所以也可以用神经网络来近似。这个网络被称为critic。

matlab倒立摆强化学习训练

classdef CartPoleEnv < rl.env.MATLABEnvironment

matlab倒立摆环境建模

先看这个向量式方法生成随机maze来训练Q—learning的agent、主要特点是地图大

matlab强化学习-复杂网格环境搭建与训练

新版本MATLAB提供了Reinforcement Learning Toolbox可以方便地建立二维基础网格环境、设置起点、目标、障碍，以及各种agent模型

MATLAB强化学习toolbox

因为实验室断电问题，或者其他原因，程序运行会被打断。这里提供一个matlab可以在中断后，重启，利用之前已有的结果继续优化过程


重启电脑继续运行MATLAB程序

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了帮你学MatLab专栏，为你提供了帮你学MatLab的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐