大模型时代怎么写 RL 最轻松,训练效果最好?AReaL-lite 是一个面向算法开发者的强化学习训练框架,可以让用户只改动一个文件就能实现各种强化学习训练算法和自定义的 agent 工作流,同时通过全异步 RL(Fully Async RL)极速训练到最佳模型效果。
本次分享清华交叉信息院的吴翼老师和 AReaL 团队核心成员会以一个多轮数学解题(multi-turn math reasoning)为例子,手把手教大家写 RL。
分享主题:清华叉院教授手把手教你写强化学习
分享摘要:
核心例子:多轮反馈的数学解题(multi-turn math reasoning);
AReaL-lite 的核心特点:
fully async RL 实现极速训练;
ecosystem-friendly 适配各种开源生态;
算法为先:保证用户仅需改动极少文件实现复杂算法。
手把手教大家写 multi-turn math RL。
*此处建议大家准备好一个 GPU 服务器,推荐 4 卡~
嘉宾简介
吴 翼:清华大学交叉信息院助理教授,博士生导师,蚂蚁强化学习实验室 AReaL 团队首席科学家;
傅 炜:清华大学交叉信息院博士生,字节奖学金得主,AReaL 项目核心成员;
梅知雨:蚂蚁强化学习实验室研究员,清华大学交叉信息院博士,AReaL 项目核心成员。
直播时间:北京时间 8 月 7 日 19:30-20:30。
直播预约:
本次直播设有 QA 环节,欢迎大家加群一起来聊。
机器之心 · 机动组
机动组聚焦于学术研究、工程实践与产业应用,筛选前沿、专业、实用内容,不定期组织学术研讨、技术交流与实战分享等。欢迎所有 AI 领域技术从业者关注。