首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

活动报名丨谷歌DeepMind研究科学家刘睿博:利用沙盒训练社会对齐语言模型

2023年6月26日(周一)上午11点「青源Live第62期丨利用沙盒训练社会对齐语言模型」将在线举办,谷歌DeepMind研究科学家刘睿博,欢迎预约观看并参与线上交流。

刘睿博

谷歌 DeepMind 研究科学家

刘博士毕业于达特茅斯学院,目前是谷歌 DeepMind 研究科学家。刘博士长期从事 AI 对齐研究,其以第一作者身份参与的研究成果多次发表在 ICLR, NeurlPS, ACL, EMNLP, AAAI, AIJ, CSCW 等顶级会议和期刊。他还荣获 AAAI 21 最佳论文。

利用沙盒训练社会对齐语言模型

让语言模型的行为符合人类社会价值观是当前语言模型开发的重要环节,相应的训练也被称为社会对齐。本次报告我们介绍一种新颖的社会对齐方案:我们通过构建社交游戏,使得自主智能体在社交活动中模仿人类形成价值观的过程,其游戏数据经过结构化处理用于对齐训练。我们还提出了一个简单易行的对齐算法——稳定对齐。稳定对齐是一个动态的对比学习算法,它利用游戏中得到的奖励作为调制信号,动态调整对比学习的边界。相比于当前主流的 RLHF 或者 RLAIF 方案,我们发现利用游戏规则引导下的复杂交互所产生的 “渐进式价值观提高” 游戏数据,以及稳定可扩展的对齐算法是高效社会对齐训练的关键。

论文标题:Training Socially Aligned Language Models in Simulated Human Society

论文链接:

https://arxiv.org/abs/2305.16960

代码地址:

http://github.com/agi-templar/Stable-Alignment

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230622A03UEC00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券