首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习课题:在“试错”和“激励”中成长的机器

在城市里生活的我们,

每天等电梯已是家常便饭

你有没有想过,

电梯控制背后的门道究竟在哪呢?

通常,周期运行时间、间隔时间、平均等候时间与5分钟处理能力

是电梯流量分析的主要评估参数

以多用途办公楼(出租写字楼)为例

如美国规定5分钟处理能力在10%-12%,

平均间隔时间在25秒至40秒

中国建议5分钟处理能力在13%-15%,

平均间隔时间在20秒至30秒

然而,电梯日常工作中,尤其在早高峰和晚高峰时段

平均间隔时间远远高于规定值

可见传统的一些控制方案并不能满足实际需求

随着机器学习的深入发展

强化学习——行为主体以“试错”的方式进行学习

这一工具为解决问题提供了可能性

在强化学习的模型中

如何构建状态-行动对(state-action-pair)

并确定激励函数

极具挑战和吸引力

强化学习作为一种强有力的技术手段

借助强大的控制仿真平台

不仅可以完美解决电梯控制

更能为更广泛意义上的复杂控制问题提供解决之道

湾区博士邀请来自德国慕尼黑理工大学的李博士开设《基于强化学习的电梯控制方法研究》课题,研究和探讨基于强化学习的问题框架,通过对状态空间和动作空间进行建模,分析系统力度,建立基于SARSA和Q-learning算法的电梯控制系统

本课题邀请对机器学习、人工智能、机械电子工程、自动化、计算机仿真等领域感兴趣的学生参与研究。与李博士一起深度交流,从乏味的日常学习中脱身而出,迈进真正的学术殿堂,驰骋在星辰大海的壮阔世界。

课题内容

第一阶段:理论基础与现状分析

学习强化学习(Reinforcement Learning)的基础理论与基本算法,通过阅读相关文献资料,了解现行电梯控制问题的主要技术难点以及存在的不足,掌握随机过程(stochastic process)、马尔科夫决策过程(Markov Decision Process)、贝尔曼优化方程(Bellman Optimization Function)等基本概念。

第二阶段:电梯控制系统解决方案

阅读相关文献以掌握强化学习尤其是SARSA和Q-learning算法的适用领域,提出电梯控制系统的解决方案并与现有的方法对比,比较所提方案与传统方案之间的优缺点。

第三阶段:编程与方案实现

学习必要的编程知识,实现提出的方案。

第四阶段:结题报告

参照学术规范,撰写实验报告或学术论文。

课题导师

李博士

上海交通大学本科,德国慕尼黑大学自动化专业博士

现任某股权投资公司投资经理,负责先进制造方向产业投资:着重关注服务机器人及其核心零部件、基于人工智能技术的自动化装备及智慧工厂、网络协同制造、智能硬件领域的中早期投资

博士阅读推荐

Richard S. Sutton等著: ReinforcementLearning: An Introduction

Marco Wiering等著:Reinforcement Learning:State-of-the-Art

郭宪,方勇纯著:《深入浅出强化学习:原理入门》

课题收获

学术研究硬实力的大幅提升

你将掌握学术研究的基本方法与思路,收获文献检索方法及论文阅读技巧,掌握机器学习领域的前沿理论,对相关问题有深入的思考。

研究成果的公开发表

你将拥有撰写实验报告或学术论文的逻辑思维与能力,以第一作者身份公开发表研究成果,并尝试专利申请,冲击全球顶级的科研赛事与学术会议。

顶尖导师推荐信

你将与博士导师建立深厚的个人联系,获得来自导师在学术、职业乃至生活上的指点,收获来自博士导师、具有极高可信度的推荐信。

课题安排

湾区博士课题研究项目主要以线下授课为主,配合线上辅导,项目周期为6-8周时间。项目博士导师会根据学生的具体情况和课题要求,设计针对性的项目进度安排,起止时间以学生和导师双方共同商议决定。为保证科研质量,本课题研究仅限3个名额。

课题报名

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181116A1CUXM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券