首页
学习
活动
专区
圈层
工具
发布

DeepMind发布提高翻译质量的算法ReST

谷歌DeepMind于8月21日发布论文,提出一种使LLM与人类偏好对齐更简单的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人类反馈的强化学习)使用人类反馈改进语言模型,ReST通过生成和使用离线数据进行训练,从而使得LLM与人类偏好保持一致。研究团队表示,虽然ReST可用于所有生成任务,但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验,测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明,ReST可以极大地提高翻译质量。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OTCNX983nYuAQ7XWDCXgMd1Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券