首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepMind发布提高翻译质量的算法ReST

谷歌DeepMind于8月21日发布论文,提出一种使LLM与人类偏好对齐更简单的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人类反馈的强化学习)使用人类反馈改进语言模型,ReST通过生成和使用离线数据进行训练,从而使得LLM与人类偏好保持一致。研究团队表示,虽然ReST可用于所有生成任务,但本文的重点是机器翻译。研究者在机器翻译任务上进行了实验,测试基准包括IWSLT 2014、WMT 2020和Web Domain。结果表明,ReST可以极大地提高翻译质量。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OTCNX983nYuAQ7XWDCXgMd1Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券