dpo linux_linux dpo_DPO 如何在linux安装 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在树莓派上使用360WIFI

在 {USB_DEVICE(0x148f,0x7601)}, /* MT 6370 */ 下面加入以下内容

01

这就是OpenAI神秘的Q*？斯坦福：语言模型就是Q函数

还记得去年 11 月底爆出来的 Q* 项目吗？这是传说中 OpenAI 正在秘密开展、或将带来颠覆性变革的 AI 项目。如果你想回忆一下，可参看机器之心当时的报道《全网大讨论：引爆 OpenAI 全员乱斗的 Q * 到底是什么？》简而言之，Q* 很可能是 Q 强化学习和 A* 搜索这两种 AI 方法的结合。

01

您找到你想要的搜索结果了吗？

是的

没有找到

RLHF 和 DPO：简化和增强语言模型的微调

人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法，它利用人类偏好和指导来训练和改进机器学习模型。 RLHF的核心是一种机器学习范式，它结合了强化学习和监督学习的元素，使人工智能系统能够以更加人性化的方式学习和做出决策。 RLHF的重要性在于它有可能解决人工智能中的一些基本挑战，例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习，而 RLHF 则不同，它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间，与人类价值观保持一致，并做出更明智和道德的选择。RLHF 已经在从自然语言处理和推荐系统到机器人和自动驾驶汽车的广泛领域中找到了应用。通过将人类反馈纳入训练过程，RLHF有能力提高模型性能，增强用户体验，并为人工智能技术的负责任发展做出贡献。

01

每日论文速递 | [NeurIPS'23 Oral] DPO：Language Model 是一个 Reward Model

摘要：虽然大规模无监督语言模型（LMs）可以学习广泛的世界知识和一些推理技能，但由于其训练完全不受监督，因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习（RLHF），收集人类对各代模型相对质量的标签，并根据这些偏好对无监督语言模型进行微调。然而，RLHF 是一个复杂且经常不稳定的过程，首先要拟合一个反映人类偏好的奖励模型，然后利用强化学习对大型无监督 LM 进行微调，以最大限度地提高估计奖励，同时不会偏离原始模型太远。在本文中，我们介绍了 RLHF 中奖励模型的一种新参数化方法，它能以封闭形式提取相应的最优策略，使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化（DPO），它稳定、性能好、计算量小，在微调过程中无需从 LM 中采样，也无需进行大量的超参数调整。我们的实验表明，DPO 可以对 LM 进行微调，使其与人类偏好保持一致，甚至优于现有方法。值得注意的是，使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF，并且在总结和单轮对话中达到或提高了响应质量，同时在实现和训练方面也要简单得多。

01

从RLHF到DPO再到TDPO，大模型对齐算法已经是「token-level」

在人工智能领域的发展过程中，对大语言模型（LLM）的控制与指导始终是核心挑战之一，旨在确保这些模型既强大又安全地服务于人类社会。早期的努力集中于通过人类反馈的强化学习方法（RLHF）来管理这些模型，成效显著，标志着向更加人性化 AI 迈出的关键一步。

01

learning:l3xc plugins

本文介绍一下l3xc插件，功能是将三层接口的所有入接口流量交叉连接输出到指定的FIB路径。此功能和在相同vrf中设置默认路由的效果差不多的。但是比默认路由的转发方式更加省内存和在cpu处理方面高效。

02

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐 LLM 方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管经典 RLHF 方法的结果很出色，但其多阶段的过程依然带来了一些优化难题，其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。

01

深度解析DPO及其变体在多种任务上的表现如何，该如何选择

今天，我要带大家深入了解一项关于大型语言模型(LLMs)的研究，这是由亚利桑那州立大学的Amir Saeidi、Shivanshu Verma和Chitta Baral三位专家带来的前沿成果。他们的最新论文《Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks》为我们揭开了直接偏好优化(DPO)及其衍生方法的神秘面纱，这些方法在优化模型以符合人类偏好方面展现出了巨大潜力。

02

WakeData率先立足国际标准，首设数据保护官DPO | 腾讯SaaS加速器·学员动态

来源 | 腾讯SaaS加速器首期项目-WakeData ---- 数字化浪潮席卷全球，数据成为企业数字化转型的根基，但随着数据与业务日渐深度融合，数据保护措施不足导致数据安全事件在全球范围内频繁发生，加强数据安全和隐私保护成为企业当务之急。作为线下大数据服务商，WakeData惟客数据顺势而动，立足国际标准，在企业内部设立数据保护官（Data Protection Officer，DPO），把合规运营和数据保护纳入到企业治理体系之中，着力提升数据安全保护能力。什么是DPO？ DPO这一角色

01

大语言模型对齐的四种方法！

语言模型的对齐在20年就有相关工作，22年谷歌提出基于指令微调的Flan，Openai则提出InstructGPT，ChatGPT，大模型的对齐工作受到广泛的关注。

01

DPO作者新作｜From r to Q*

本文几乎是DPO的原班人马搞的，新来的Joey Hejna是X-QL（本文部分核心理论）一作。这篇文章并没有提出一个新的算法，或者是在一个新的任务上刷了SOTA，主要是对DPO算法给出了一个理论解释，统一了处理LLM强化学习任务的两个视角，即序列决策还是单步决策。用强化学习的语言就是说dense or sparse reward，r or Q*。而后者这个Q*有不禁让人联想到OPENAI“泄露的Q*计划”。应该说还是有其理论价值的。

01

RLHF中的「RL」是必需的吗？有人用二进制交叉熵直接微调LLM，效果更好

近来，在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而，这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的，其中一些目标和技能设定未必希望被模仿。

02

每日论文速递 | sDPO-不要一次就把对齐数据用完

A：这篇论文试图解决的问题是如何在大型语言模型（LLMs）的训练过程中，更有效地与人类偏好对齐。具体来说，它提出了一种名为逐步直接偏好优化（stepwise Direct Preference Optimization，简称sDPO）的方法，用于改进现有的直接偏好优化（DPO）方法。这个方法通过分步使用可用的偏好数据集，而不是一次性使用全部数据，从而在DPO训练框架中使用更精确对齐的参考模型。通过这种方法，论文展示了如何训练出一个性能更佳的最终模型，甚至在某些情况下，其性能超过了参数更多的其他流行的大型语言模型。

01

解密prompt24. RLHF新方案之训练策略：SLiC-HF & DPO & RRHF & RSO

解密prompt24. RLHF新方案之训练策略：SLIC-HF & DPO & RRHF & RSO

02

LTE模组可以被VPP直接接管喽！！！

前面有一篇文章中《Flexiwan 架构及功能说明》介绍了Flexiwan公司lte模组使用方式。因为LTE 接口是不支持直接被 DPDK 接管的，LTE 设备是由 Linux 系统拥有和管理的，我们创建一个 tap 接口连接到 VPP 以执行路由和服务。在Linix系统中通过默认路由从LTE接口进行NAT转换后送到公网。如下图所示：

02

策略路由功能基本配置和测试

所谓策略路由，顾名思义，即是根据一定的策略进行报文转发，因此策略路由是一种比目的路由更灵活的路由机制。在路由器转发一个数据报文时，首先根据配置的规则对报文进行过滤，匹配成功则按照一定的转发策略进行报文转发。这种规则可以是基于标准和扩展访问控制列表（acl），也可以基于报文的长度；而转发策略则是控制报文按照指定的策略路由表进行转发，也可以修改报文的IP优先字段。因此，策略路由是对传统IP路由机制的有效增强。

02

使用ORPO微调Llama 3

ORPO是一种新的微调技术，它将传统的监督微调和偏好对齐阶段结合到一个过程中。减少了训练所需的计算资源和时间。论文的实证结果表明，ORPO在各种模型大小和基准上都优于其他对齐方法，所以这次我们就来使用最新的Llama 3来测试下ORPO的效果。

01

仅靠开源数据复刻出LLaMA3指令学习效果，在线迭代RLHF全流程解决方案来了

本文作者熊伟是伊利诺伊香槟分校的在读博士生，其导师为 Tong Zhang 与 Nan Jiang。他的主要研究方向是 RLHF 与机器学习理论。邮箱: wx13@illinois.edu

01

开源模型进展盘点：最新Mixtral、Llama 3、Phi-3、OpenELM到底有多好？

首先，从最重要的话题开始：4 月发布的主要新模型。这一节将简要介绍 Mixtral、Llama 3 和 Phi-3。下一节将会更详细地介绍苹果的 OpenELM。

01

【送资料包】数据隐私保护将从何入手？

在欧盟，关于保护数据的规定和标准十分严格。一般数据保护条例(GDPR,General Data Protection Regulation)于2016年5月推出，要求各机构必须在2018年5月前修改其政策和程序，以保证完全符合GDPR的要求。曾给英国航空开出1.83 亿英镑的天价罚单 (英航网站被攻击约致40万名客户信息泄露)；而2020年1月1日起生效的美国CCPA《加州消费者隐私法案》同样不弱 (Bu Pian Yi)，企业收到的罚单可以是按消费者人头计算（最高750美元每人）。

02

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

在去年底，有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过，LLM的发展不存在数据瓶颈，合成数据可以解决大部分的问题。

01

超越Mixtral 8x7B！Nous | 发布最好的开源 LLM 模型，达到了 SOTA 性能！

从 Llama、Llama 2 到 Mixtral 8x7B，开源模型的性能记录一直在被刷新。由于 Mistral 8x7B 在大多数基准测试中都优于 Llama 2 70B 和 GPT-3.5，因此它也被认为是一种「非常接近 GPT-4」的开源选项。

01

learning：tap/tun（1）

在前面章节中学习两个vpp与内核协议栈建立通信实现frr/bgp、ospf动态路由的学习案例，其中vpp和kernel通信中都使用了tun/tap网络虚拟接口来进行。本人对网络设备虚拟化了解不足，也在学习之中，如有错误，欢迎指正。下面就来学习一下vpp中tap模块。

04

中文创意写作能力超GPT-4，「最会写」的中文大模型Weaver来了

ChatGPT 等通用大模型支持的功能成百上千，但是对于普通日常用户来说，智能写作一定是最常见的，也是大模型最能真正帮上忙的使用场景之一。尽管大模型经常能写出看起来像模像样的文字，但是大多数情况下内容的创意程度和文风都经不起深究。尤其是在创作领域，大模型常见的 “GPT 文风” 更是让利用大模型进行创意写作看起来简单，实际却困难重重。

01

优思学院｜质量工程师不可不知的DPU、PPM、DPMO、DPO、RTY

质量工程师经常都会接触到一些术语，其中最常见而又最易令他们混淆的，应该就是DPU、PPM（DPPM）、DPMO、DPO和RTY了。

02

本地运行面壁智能的“贺岁模型”：MiniCPM 2B

简单聊聊可以在端侧运行的 Mini CPM 2B SFT / DPO 版本的模型。

01

本地运行面壁智能的“贺岁模型”：MiniCPM 2B

简单聊聊可以在端侧运行的 Mini CPM 2B SFT / DPO 版本的模型。

01

每日论文速递 | RLRF: 从反思反馈中不断迭代进行强化学习对齐

摘要：尽管 RLHF 在使 LLM 与人类偏好相一致方面大有可为，但它往往会导致表面上的一致，优先考虑风格上的变化，而不是改善 LLM 的下游性能。不明确的偏好可能会模糊调整模型的方向。缺乏探索会限制识别理想输出以改进模型。为了克服这些挑战，我们提出了一个新颖的框架：从反思反馈中强化学习Reinforcement Learning from Reflective Feedback （RLRF），它利用基于详细标准的细粒度反馈来提高 LLM 的核心能力。RLRF 采用自我反思机制来系统地探索和完善 LLM 的反应，然后通过 RL 算法对模型进行微调，同时对有前途的反应进行微调。我们在 "公正-评价"、"事实性 "和 "数学推理 "方面的实验证明，RLRF 的功效和变革潜力超出了表面的调整。

01

人类偏好就是尺！SPPO对齐技术让大语言模型左右互搏、自我博弈

Richard Sutton 在「The Bitter Lesson」中做过这样的评价：「从70年的人工智能研究中可以得出的最重要教训是，那些利用计算的通用方法最终是最有效的，而且优势巨大。」

01

AI系统能否理解3D现实世界？Facebook做了这些研究

作者：Georgia Gkioxari、Shubham Tulsiani、David Novotny

01

Linux 驱动开发：USB无线wifi驱动开发(MT7601)、完成WIFI管理工具安装

当前采用的WIFI是360随身WIFI，这款随身WIFI所用的网卡芯片是 Ralink(雷凌科技) 的解决方案（在上篇文章里也有详细介绍），芯片型号为 MT7601。如果在PC计算机上使用这款随身WIFI那自然是简单，官网下载个驱动安装插上就能使用。如果是在嵌入式平台，自动的平台上使用，官网就没有现成的驱动下载了，这种情况下就需要针对WIFI编写驱动。当然，从0开始写确实困难，不过这款芯片官方提供了linux下的驱动源码，这就好办了。只需要下载下来，编译就能使用了。

01

每日论文速递 | DeepMind提出在线偏好对齐新方法：IPO-MD

摘要：确保语言模型的输出与人类偏好相一致，对于保证有用、安全和愉快的用户体验至关重要。因此，近来人们对人类对齐问题进行了广泛研究，并出现了一些方法，如人类反馈强化学习（RLHF）、直接策略优化（DPO）和序列似然校准（SLiC）。在本文中，我们有两方面的贡献。首先，我们展示了最近出现的两种配准方法，即身份策略优化（IPO）和纳什镜像下降（Nash-MD）之间的等价性。其次，我们引入了 IPO 的概括，命名为 IPO-MD，它利用了 Nash-MD 提出的正则化采样方法。这种等价性乍看起来可能令人惊讶，因为 IPO 是一种离线方法，而 Nash-MD 是一种使用偏好模型的在线方法。然而，如果我们考虑 IPO 的在线版本，即两代人都由在线策略采样并由训练有素的偏好模型注释，就可以证明这种等价性。利用这样的数据流优化 IPO 损失，就等同于通过自我博弈找到偏好模型的纳什均衡。基于这种等效性，我们引入了 IPO-MD 算法，该算法与一般的纳什-MD 算法类似，使用混合策略（介于在线策略和参考策略之间）生成数据。我们将在线 IPO 和 IPO-MD 与现有偏好数据损失的不同在线版本（如 DPO 和 SLiC）在总结任务上进行了比较。

01

GDPR生效在即，有欧洲生意的同学需要注意了！！

欧盟的“通用数据保护条例”（GDPR，General Data Protection Regulation）即将于2018年5月25日生效，而好多企业对GDPR并不十分了解。就目前看来，行业对于这项条例的观念仍有不当之处。尽管企业为GDPR的来临需要做大量准备工作，才能合规，但是许多人还在拖拖拉拉。

02

用户意图对齐，无需人工标注，Zephyr-7B 超越 Llama2-Chat-70B

该研究目标是创建一个与用户意图更符合的小型语言模型。通过应用蒸馏监督微调(distilled supervised fine-tuning, dSFT)和蒸馏直接偏好优化(distilled direct preference optimization, dDPO)以及利用AI反馈(AI Feedback, AIF)的偏好数据，研究者成功提升了模型的任务准确性和意图对齐度。ZEPHYR-7B模型以7B参数在聊天基准测试中创立了新标准，无需人工注释，且在MT-Bench测试中超过了之前的模型。此方法的优势包括较短的训练时间和无需额外采样，为开放大型语言模型(LLMs)的发展和微调提供了新方向。同时，研究未考虑模型安全性如可能产生有害输出等问题。

02

【linux命令讲解大全】136.Linux系统中的dmesg和mesg命令介绍与用法

dmesg命令用于检查和控制内核的环形缓冲区。kernel会将开机信息存储在ring buffer中。您若是开机时来不及查看信息，可利用dmesg来查看。开机信息保存在/var/log/dmesg文件里。

01

法国数据保护要求

1.前言 2018年6月20日法国在现有“1978年法案”（关于信息技术、数据文件和公民自由的法案）中纳入了一般数据保护条例 (“GDPR”)条款，该法案管理个人数据保护。法国数据保护机构(法国国家信息委员会，“CNIL”)作为法国监管机构，其指导方针澄清了1978年法案。 1.1.主要法案、法规、指令 1978年法案已被多次修订，该法案涵盖了算法、儿童、法院判决中犯罪数据匿名化、金融制裁、最重要的是法国的特色：数字继承。第一项执行法令于2018年8月3日发布，即第2018-687号法令，规定

04

大模型“自学”后能力反下降，Llama/Mistral都没逃过

上海交通大学GAIR团队最新研究表明，在常识理解、数学推理和代码生成等复杂任务中，AI经过多轮“自我提升”后，可能会出现一种称为“自我提升逆转”（self-improvement reversal）的现象。

01

120亿Stable LM 2上线即开源！2万亿token训练，碾压Llama 2 70B

见状，不少网友纷纷喊话：干的漂亮！但，Stable Diffusion 3啥时候出啊？

01

反思RLHF，如何更加高效训练有偏好的LLM

当前 LLM 蓬勃发展，各种模型和方法层出不穷，但总体看来，但是朝着以下3点目标前进：

01

新加坡数据保护要求

议会于2020年11月2日对PDPA进行了首次全面修订。修正案的大部分条款于2021年2月1日生效。最突出的是引入了强制性数据泄露通知制度，该制度要求遭受数据泄露的组织将数据泄露通知PDPC和受影响的个人。

02

Zephyr模型详解

Zephyr利用dDPO，显著改善了意图对齐和AI反馈(AIF)偏好数据，该方法遵循与InstructGPT相似的步骤。

03

BPO：灵活的 Prompt 对齐优化技术

一种方案是，人向模型对齐。于是有了「Prompt工程师」这一岗位，专门撰写适配 LLM 的 Prompt，从而让模型能够更好地生成内容。

01

模型多样性能好，语言应用没烦恼 | 开源专题 No.71

该项目的主要功能是提供预训练和微调后的 LLaMA 语言模型的权重和起始代码。这些模型参数范围从 7B 到 70B 不等。

01

使用KTO进行更好、更便宜、更快速的LLM对齐

KTO全称为Kahneman-Tversky Optimisation，这种对齐方法使在我们的数据上对大型语言模型（LLM）进行对齐变得前所未有地容易和便宜，而且不会损害性能。大型语言模型的成功在很大程度上得益于与人类反馈的对齐。如果ChatGPT曾经拒绝回答您的问题，很可能是因为它被训练为避免说出有争议的内容。然而，对于公司来说，对他们自己的LLM进行对齐一直是困难的。下面我们简单介绍下KTO方法，这种方法可以提高LLM的整体性能和质量，同时节省成本。

01

Firefly：开源大模型训练工具助力AI技术进步，让你轻松训练各种主流大模型！

近年来，随着人工智能技术的快速发展，大模型训练成为了 AI领域的热门话题之一。

01

Xilinx的分布式RAM和块RAM——单口、双口、简单双口、真双口的区别

单口 RAM（Single RAM）、双口 RAM（Dual RAM）、简单双口 RAM（Simple-Dual RAM）、真双口 RAM（True-Dual RAM）有什么不同？

07

像人类一样在批评中学习成长，1317条评语让LLaMA2胜率飙升30倍

现有的大模型对齐方法包括基于示例的监督微调（SFT）和基于分数反馈的强化学习（RLHF）。然而，分数只能反应当前回复的好坏程度，并不能明确指出模型的不足之处。相较之下，我们人类通常是从语言反馈中学习并调整自己的行为模式。就像审稿意见不仅仅是一个分数，还包括许多接受或者拒绝的理由。

01

ORPO偏好优化：性能和DPO一样好并且更简单的对齐方法

现在有许多方法可以使大型语言模型（LLM）与人类偏好保持一致。以人类反馈为基础的强化学习（RLHF）是最早的方法之一，并促成了ChatGPT的诞生，但RLHF的成本非常高。与RLHF相比，DPO、IPO和KTO的成本明显更低，因为它们不需要奖励模型。

01

是什么让美国网站拒绝欧洲访问？- GDPR 带来的数据安全思考

当我们置身于网络世界之中，一切的行为都将会被记录下来，互联网企业还会通过『数据画像』让用户具象化、真实化，事实上，在数据面前，我们每个人都只是穿着皇帝的新衣。

02

阿里千问团队提出AutoIF，让LLMs学会自我指导，简单有效，性能显著

这篇论文试图解决的问题是如何自动构建高质量的训练数据，以增强大型语言模型（LLMs）遵循复杂自然语言指令的能力。具体来说，论文指出了以下几个关键问题：

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭