文章/答案/技术大牛

发布

机器学习课题：在“试错”和“激励”中成长的机器

文章来源：企鹅号 - 湾区博士

在城市里生活的我们，

每天等电梯已是家常便饭

你有没有想过，

电梯控制背后的门道究竟在哪呢？

通常，周期运行时间、间隔时间、平均等候时间与5分钟处理能力

是电梯流量分析的主要评估参数

以多用途办公楼（出租写字楼）为例

如美国规定5分钟处理能力在10%-12%，

平均间隔时间在25秒至40秒

中国建议5分钟处理能力在13%-15%，

平均间隔时间在20秒至30秒

然而，电梯日常工作中，尤其在早高峰和晚高峰时段

平均间隔时间远远高于规定值

可见传统的一些控制方案并不能满足实际需求

随着机器学习的深入发展

强化学习——行为主体以“试错”的方式进行学习

这一工具为解决问题提供了可能性

在强化学习的模型中

如何构建状态-行动对（state-action-pair）

并确定激励函数

极具挑战和吸引力

强化学习作为一种强有力的技术手段

借助强大的控制仿真平台

不仅可以完美解决电梯控制

更能为更广泛意义上的复杂控制问题提供解决之道

湾区博士邀请来自德国慕尼黑理工大学的李博士开设《基于强化学习的电梯控制方法研究》课题，研究和探讨基于强化学习的问题框架，通过对状态空间和动作空间进行建模，分析系统力度，建立基于SARSA和Q-learning算法的电梯控制系统。

本课题邀请对机器学习、人工智能、机械电子工程、自动化、计算机仿真等领域感兴趣的学生参与研究。与李博士一起深度交流，从乏味的日常学习中脱身而出，迈进真正的学术殿堂，驰骋在星辰大海的壮阔世界。

课题内容

第一阶段：理论基础与现状分析

学习强化学习（Reinforcement Learning）的基础理论与基本算法，通过阅读相关文献资料，了解现行电梯控制问题的主要技术难点以及存在的不足，掌握随机过程（stochastic process）、马尔科夫决策过程（Markov Decision Process）、贝尔曼优化方程（Bellman Optimization Function）等基本概念。

第二阶段：电梯控制系统解决方案

阅读相关文献以掌握强化学习尤其是SARSA和Q-learning算法的适用领域，提出电梯控制系统的解决方案并与现有的方法对比，比较所提方案与传统方案之间的优缺点。

第三阶段：编程与方案实现

‍

学习必要的编程知识，实现提出的方案。

第四阶段：结题报告

参照学术规范，撰写实验报告或学术论文。

课题导师

李博士

上海交通大学本科，德国慕尼黑大学自动化专业博士

现任某股权投资公司投资经理，负责先进制造方向产业投资：着重关注服务机器人及其核心零部件、基于人工智能技术的自动化装备及智慧工厂、网络协同制造、智能硬件领域的中早期投资

博士阅读推荐

Richard S. Sutton等著： ReinforcementLearning: An Introduction

Marco Wiering等著：Reinforcement Learning:State-of-the-Art

郭宪，方勇纯著：《深入浅出强化学习：原理入门》

课题收获

学术研究硬实力的大幅提升

你将掌握学术研究的基本方法与思路，收获文献检索方法及论文阅读技巧，掌握机器学习领域的前沿理论，对相关问题有深入的思考。

研究成果的公开发表

你将拥有撰写实验报告或学术论文的逻辑思维与能力，以第一作者身份公开发表研究成果，并尝试专利申请，冲击全球顶级的科研赛事与学术会议。

顶尖导师推荐信

你将与博士导师建立深厚的个人联系，获得来自导师在学术、职业乃至生活上的指点，收获来自博士导师、具有极高可信度的推荐信。

课题安排

湾区博士课题研究项目主要以线下授课为主，配合线上辅导，项目周期为6-8周时间。项目博士导师会根据学生的具体情况和课题要求，设计针对性的项目进度安排，起止时间以学生和导师双方共同商议决定。为保证科研质量，本课题研究仅限3个名额。

课题报名

发表于: 2018-11-162018-11-16 17:00:01
原文链接：https://kuaibao.qq.com/s/20181116A1CUXM00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

机器学习课题：在“试错”和“激励”中成长的机器

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐