强化学习是一种人工智能代理与环境交互并根据获得的奖励学习策略的技术。虽然强化学习在Atari等游戏中已展现人类水平的表现,但将其应用于现实场景(如装配线机器人或助老机器人)仍面临两大挑战:首先,机器人结构复杂且脆弱,随机动作可能导致损坏;其次,实际运行环境往往与训练环境存在差异。
在《国际学习表征会议》上发表的一篇论文中,研究人员提出名为MQL的元强化学习算法,该算法能使AI代理快速适应熟悉任务的新变体。
MQL与其他元学习算法类似,通过在大量相关任务上训练代理,测试其学习任务新变体的能力。该算法的两大核心创新包括:
以抓取物体的机器人为例,传统强化学习需通过反复试错学习通用策略。而MQL通过门控循环单元神经网络创建任务表征,使系统能基于情境预测新任务的处理模型。此外,倾向性评分可评估样本来源分布,帮助模型从相关训练数据中采样(如抓取水瓶更接近抓取马克杯而非足球),有效提升适应效率。
该团队在2019年《人工智能不确定性会议》上发表的P3O算法也应用了倾向性估计技术,显著降低了强化学习算法的训练样本需求。随着AI应用场景的扩大,MQL这类技术能够利用现有数据加速新任务学习,大幅降低训练成本。
图片来源:Stacy Reilly
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。