深度学习自然语言处理-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

深度学习自然语言处理

专栏成员

1035

文章

1351392

阅读量

164

订阅数

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

强化学习框架论文模型性能

摘要：尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的变化，而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战，我们提出了一个新颖的框架：从反思反馈中强化学习Reinforcement Learning from Reflective Feedback （RLRF），它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应，然后通过 RL 算法对模型进行微调，同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明，RLRF 的功效和变革潜力超出了表面的调整。

2024-04-11

3490

每日论文速递 | 通过Token-level的Feedback进行强化学习控制文本生成

论文模型算法强化学习 token

摘要：为了满足实际应用的要求，控制大型语言模型（LLM）的生成至关重要。之前的研究试图将强化学习（RL）引入可控文本生成，而大多数现有方法都存在过拟合问题（基于微调的方法）或语义崩溃（后处理方法）。然而，目前的强化学习方法一般由粗粒度（句子/段落级）反馈指导，这可能会由于句子内部的语义扭曲或进展而导致性能不佳。为了解决这个问题，我们提出了一种名为 TOLE 的新型强化学习算法，它为可控文本生成制定了 TOken-LEvel 奖励，并采用 "first-quantize-then-noise" "先量化后噪声 "的范式来增强 RL 算法的鲁棒性。实验结果表明，我们的算法在单属性和多属性控制任务上都能取得优异的性能。

2024-03-26

3630

每日论文速递 | TeaMs-RL: 通过强化学习让LLM自己学会更好的指令

LLM 强化学习论文模型数据

摘要：大语言模型（LLM）的开发经常面临挑战，这些挑战源于强化学习与人类反馈（RLHF）框架中对人类注释者的严重依赖，或与自我指导范式相关的频繁而昂贵的外部查询。在这项工作中，我们转向了强化学习（RL）--但有一个转折。与典型的 RLHF（在指令数据训练后完善 LLM）不同，我们使用 RL 直接生成基础指令数据集，仅此数据集就足以进行微调。我们的方法 TeaMs-RL 使用一套文本操作和规则，优先考虑训练数据集的多样化。它有助于生成高质量数据，而无需过度依赖外部高级模型，从而为单一微调步骤铺平了道路，并消除了对后续 RLHF 阶段的需求。我们的研究结果凸显了我们的方法的主要优势：减少了对人工参与的需求，减少了模型查询次数（仅为WizardLM总查询次数的5.73美元/%$），同时，与强大的基线相比，LLM在制作和理解复杂指令方面的能力得到了增强，模型隐私保护也得到了大幅改善。

2024-03-25

4530

每日论文速递 | 使用对比Reward改进RLHF

优化强化学习论文模型性能

摘要：来自人类反馈的强化学习（RLHF）是将大语言模型（LLM）与人类偏好相匹配的主流范式。然而，现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型，而奖励模型对各种来源的噪声（如人类标签错误）很脆弱、很敏感，从而使管道变得脆弱。在这项工作中，我们通过在奖励上引入惩罚项来提高奖励模型的有效性，该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤：(1) 离线采样步骤，获取对提示的回应，作为计算基线；(2) 使用基线回应计算对比奖励，并将其用于近端策略优化 (PPO) 步骤。我们的研究表明，对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估，我们的实证结果表明，对比性奖励可以大幅提高 RLHF，而且我们的方法始终优于强基线。

2024-03-25

3900

南大俞扬教授：什么是world models/世界模型？

模型数据强化学习 models 论文

随着媒体狂炒Sora，OpenAI的介绍材料中称Sora是 “world simulator”，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论Sora是不是 world simulator。

2024-03-02

5440

大模型会输出隐式有害内容？听听清华大学研究人员怎么说！

强化学习安全工作模型数据

清华大学最新发布了一篇关于大模型安全的论文，不同于以往大部分专注于挖掘大模型可能输出的显式有害内容的工作。这篇论文将目光投向了研究更少，更难被检测到的隐式有害内容。

2023-12-05

4130

大模型知道自己“不知道”哪些知识吗？

强化学习对话机器人测试模型数据

关于幻觉形成的原因，详细原因可以看这里：John Schulman：强化学习与真实性，通往TruthGPT之路[1]

2023-09-11

5190

RLAIF：一个不依赖人工的RLHF替代方案

强化学习模型数据统计性能

LLM可以标记人类偏好数据，用于强化学习吗？尽管之前有一些类似的研究，但从没有人系统地对比RLHF和RLAIF的性能。今天，我们为大家带来一项Google最新的研究，来看看LLM是否懂得人类的偏好。

2023-09-11

1.1K0

Meta AI 重磅推出LIMA！媲美GPT-4、无需RLHF就能对齐！

强化学习 gpt meta 模型数据

LIMA，只使用1000个精心挑选的样本微调一个 65B LLaMa，无需RLHF，性能媲美甚至优于GPT-4！

2023-08-22

4450

一篇适合新手的深度学习综述！

监督学习强化学习无监督学习学习方法

每天给你送来NLP技术干货！ ---- 编辑：炼丹笔记来源：机器之心荐语文章列举出了近年来深度学习的重要研究成果，从方法、架构，以及正则化、优化技术方面进行概述。对于刚入门的深度学习新手是一份不错的参考资料，在形成基本学术界图景、指导文献查找等方面都能提供帮助。论文地址：https://arxiv.org/pdf/1807.08169v1.pdf 摘要：深度学习是机器学习和人工智能研究的最新趋势之一。它也是当今最流行的科学研究趋势之一。深度学习方法为计算机视觉和机器学习带来了革命性的进步。

2022-08-26

5270

很强！社招NLP算法收割机

css 强化学习机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 作者 | 年年的铲屎官整理 | NewBeeNLP https://zhuanlan.zhihu.com/p/546364420 背景介绍知乎上有个问题是有哪些行为堪比「1949年加入国民党」？[1], 那么我觉得我选择在2022年跳槽也算是一种吧[捂脸]。 2022年大环境不太好，整体hc(head count)比2021年少了很多，回想2021年，各个候选人所到之处，各家大厂中厂竭诚欢迎，hc充足，大家挑花了眼，那种生机勃勃，万物竞发的景象犹在眼前，没

2022-08-26

8680

NLP算法面经分享

css 强化学习机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 编辑：AI算法小喵写在前面今天给大家分享一份NLP算法方向的社招面经，当然校招也可以参考，希望对大家有所帮助。在今年这个相对糟糕的大环境下，面试者历经1个多月的刷题复习+1个多月的面试，最终拿到了多个大厂offer。 1.背景 2022年大环境不太好，整体hc(head count)比2021年少了很多，回想2021年，各个候选人所到之处，各家大厂中厂竭诚欢迎，hc充足，大家挑花了眼，那种生机勃勃，万物竞发的景象犹在眼前，没想到短短一年之后，居然情况急转直下。

2022-08-26

1.7K0

豆瓣评分9.2，GitHub 3.3k的学霸笔记终于出书了！获得李宏毅等大佬好评 -- 文末送书

编程算法强化学习机器学习神经网络深度学习

每天给你送来NLP技术干货！ ---- 文末留言送书！我们在上学的时候，都会希望能拥有一本学霸笔记，这样能让学习变得事半功倍。要是学霸还顺带帮你押了题，那简直如有神助！现在强化学习越来越热，作为机器学习及人工智能领域的一种重要方法，在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。同时，强化学习对应的岗位高薪、前景广阔，吸引了许多人学习。但是，是强化学习的学习门槛很高，光入门就特别难。如果能有学霸的帮忙，那可就能事半功倍了！这本“蘑菇书”《Easy RL：强化学习教程》，就是一本很典型的“

2022-04-06

7390

「知识蒸馏」最新2022研究综述

神经网络联邦学习机器学习强化学习人工智能

每天给你送来NLP技术干货！ ---- 来自：专知华南师范大学等《知识蒸馏》最新综述论文高性能的深度学习网络通常是计算型和参数密集型的，难以应用于资源受限的边缘设备. 为了能够在低资源设备上运行深度学习模型，需要研发高效的小规模网络. 知识蒸馏是获取高效小规模网络的一种新兴方法，其主要思想是将学习能力强的复杂教师模型中的“知识”迁移到简单的学生模型中. 同时，它通过神经网络的互学习、自学习等优化策略和无标签、跨模态等数据资源对模型的性能增强也具有显著的效果. 基于在模型压缩和模型增强上的优越特

2022-03-24

2.9K0

【收藏】这个时候才是最好的自学时间！深度学习-机器学习-GNN-NLP等AI课程超级大列表汇总，拿走不谢

人工智能机器学习强化学习深度学习神经网络

https://deep-learning-drizzle.github.io/index.html#contents

2020-02-18

4570

【nlp入门了解】自然语言处理—关系抽取

面向对象编程编程算法监督学习强化学习深度学习

信息抽取在自然语言处理中是一个很重要的工作，特别在当今信息爆炸的背景下，显得格外的重要。从海量的非结构化的文本中抽取出有用的信息，并结构化成下游工作可用的格式，这是信息抽取的存在意义。信息抽取又可分为实体抽取或称命名实体识别，关系抽取以及事件抽取等。命名实体对应真实世界的实体，一般表现为一个词或一个短语，比如曹操，阿里巴巴，中国，仙人掌等等。关系则刻画两个或多个命名实体的关系。比如马致远是《天净沙 · 秋思》的作者，那么马致远与《天净沙 · 秋思》的关系即是“创作”（author_of ）关系，邓小平是党员，那么邓小平与共.产.党则“所属”(member_of)关系。

2020-02-17

1.6K0

ICLR2020放榜 34篇满分论文！ 48篇orals，108篇spotlights，531篇poster

https 网络安全深度学习强化学习神经网络

来自：深度学习技术前沿 ICLR，全称为International Conference on Learning Representations（国际学习表征会议），2013年由深度学习三座大山中的 Yoshua Bengio 和 Yann LeCun牵头创办。众所周知，Yoshua Bengio主管着蒙特利尔大学人工智能实验室，也就是 MILA，它是世界上最大的人工智能研究中心之一。Yann LeCun是 Facebook 人工智能研究院的院长，被称为卷积神经网络之父。「史上第一次在非洲举行的 AI 顶会」ICLR 2020 将于明年 4 月 26 日于埃塞俄比深度学习的顶级会议ICLR 2020将于明年 4 月 26 日于埃塞俄比亚首都亚的斯亚贝巴举行。

2019-12-27

1.6K0

一文看懂NLP神经网络发展历史中最重要的8个里程碑！

NLP 服务强化学习神经网络机器学习

导读：这篇文章中作者尝试将 15 年的自然语言处理技术发展史浓缩为 8 个高度相关的里程碑事件，不过它有些偏向于选择与当前比较流行的神经网络技术相关的方向。我们需要关注的是，本文中介绍的许多神经网络模型都建立在同时代的非神经网络技术之上。在文章的最后，作者强调了这些有影响力的技术成果，它们为以后的 NLP 方法发展奠定了基础。

2019-11-20

1.8K0

【干货】关于机器学习的知识点，全在这篇文章里了

编程算法强化学习监督学习无监督学习机器学习

导读：作者用超过1.2万字的篇幅，总结了自己学习机器学习过程中遇到知识点。“入门后，才知道机器学习的魅力与可怕。”希望正在阅读本文的你，也能在机器学习上学有所成。

2019-10-15

8340

【论文笔记】基于强化学习的句子摘要排序

强化学习 python

【导读】本篇论文是采用强化学习做抽取式摘要的首次尝试，作者在论文中通过强化学习对 ROUGE 进行全局优化，实现了自动生成文档摘要。对文档中的句子进行预测是否为候选摘要句子，并对所有句子进行打分，最后从候选摘要句子中选出打分高的m个句子作为文档摘要。

2019-09-25

8230

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态