首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    每日论文速递 | Google提出PERL:将PEFT与RLHF结合起来

    摘要:从人类反馈中强化学习(RLHF)已被证明是将预训练的大型语言模型(LLM)与人类偏好相匹配的有效方法。但是,使用 RLHF 训练模型的计算成本很高,而且整个过程也很复杂。在这项工作中,我们研究的 RLHF 是使用 Hu 等人[2021]提出的参数高效的低库自适应(Low-Rank Adaptation,LoRA)方法来训练底层模型的。我们研究了 "参数高效强化学习"(PERL)的设置,其中我们使用 LoRA 进行奖励模型训练和强化学习。我们比较了 PERL 和传统微调(完全微调)在 7 个基准(包括 2 个奖励建模和强化学习的新数据集)中的不同配置。我们发现,PERL 的性能与传统的 RLHF 设置相当,同时训练速度更快,占用内存更少。这使得 RLHF 的高性能得以实现,同时减少了限制其作为大型语言模型对齐技术的采用的计算负担。我们还发布了两个新颖的向上/向下偏好数据集:"Taskmaster Coffee "和 "Taskmaster Ticketing",以促进围绕 RLHF 的研究。

    01

    《Perl语言入门》——读书笔记

    Perl语言入门 /** * prism.js Github theme based on GitHub's theme. * @author Sam Clarke */ code[class*="language-"], pre[class*="language-"] { color: #333; background: none; font-family: Consolas, "Liberation Mono", Menlo, Courier, monospace; text-align: left; white-space: pre; word-spacing: normal; word-break: normal; word-wrap: normal; line-height: 1.4; -moz-tab-size: 8; -o-tab-size: 8; tab-size: 8; -webkit-hyphens: none; -moz-hyphens: none; -ms-hyphens: none; hyphens: none; } /* Code blocks */ pre[class*="language-"] { padding: .8em; overflow: auto; /* border: 1px solid #ddd; */ border-radius: 3px; /* background: #fff; */ background: #f5f5f5; } /* Inline code */ :not(pre) > code[class*="language-"] { padding: .1em; border-radius: .3em; white-space: normal; background: #f5f5f5; } .token.comment, .token.blockquote { color: #969896; } .token.cdata { color: #183691; } .token.doctype, .token.punctuation, .token.variable, .token.macro.property { color: #333; } .token.operator, .token.important, .token.keyword, .token.rule, .token.builtin { color: #a71d5d; } .token.string, .token.url, .token.regex, .token.attr-value { color: #183691; } .token.property, .token.number, .token.boolean, .token.entity, .token.atrule, .token.constant, .token.symbol, .token.command, .token.code { color: #0086b3; } .token.tag, .token.selector, .token.prolog { color: #63a35c; } .token.function, .token.namespace, .token.pseudo-element, .token.class, .token.class-name, .token.pseudo-class, .token.id, .token.url-reference .token.variable, .token.attr-name { color: #795da3; } .token.entity { cursor: help; } .token.title, .token.title .token.punctuation { font-weight: bold; color: #1d3e81; } .token.list { color: #ed6a43; } .token.inserted { background-color: #eaffea; color: #55a532; } .token.deleted { background-color: #ffecec; color: #bd2c00; } .token.bold { font-weight: bold; } .token.italic { font-style: italic; } /* JSON */ .lan

    02

    DFA和NFA

    正则表达式萌芽于1940年代的神经生理学研究,由著名数学家Stephen Kleene第一个正式描述。具体地说,Kleene归纳了前述的神经生理学研究,在一篇题为《正则集代数》的论文中定义了“正则集”,并在其上定义了一个代数系统,并且引入了一种记号系统来描述正则集,这种记号系统被他称为“正则表达式”。在理论数学的圈子里被研究了几十年之后,1968年,后来发明了UNIX系统的Ken Thompson第一个把正则表达式用于计算机领域,开发了qed和grep两个实用文本处理工具,取得了巨大成功。在此后十几年里,一大批一流计算机科学家和黑客对正则表达式进行了密集的研究和实践。在1980年代早期,UNIX运动的两个中心贝尔实验室和加州大学伯克利分校分别围绕grep工具对正则表达式引擎进行了研究和实现。与之同时,编译器“龙书”的作者Alfred Aho开发了Egrep工具,大大扩展和增强了正则表达式的功能。此后,他又与《C程序设计语言》的作者Brian Kernighan等三人一起发明了流行的awk文本编辑语言。到了1986年,正则表达式迎来了一次飞跃。先是C语言顶级黑客Henry Spencer以源代码形式发布了一个用C语言写成的正则表达式程序库(当时还不叫open source),从而把正则表达式的奥妙带入寻常百姓家,然后是技术怪杰Larry Wall横空出世,发布了Perl语言的第一个版本。自那以后,Perl一直是正则表达式的旗手,可以说,今天正则表达式的标准和地位是由Perl塑造的。Perl 5.x发布以后,正则表达式进入了稳定成熟期,其强大能力已经征服了几乎所有主流语言平台,成为每个专业开发者都必须掌握的基本工具。

    02

    简短的perl程序

    简短的perl程序能够实现大功能。   perl是如何做到的呢?   1. 默认变量      如果没有向函数提供参数值,则默认参数为$_;      如果没有变量用于接收一个表达式的值,则默认接收变量为$_。      perl语言每条语句可像管道那样运行,通过默认变量$_串接起来。   2. 特殊语法      利用一些正常情况下没有含义的语法,如while(<>){}.      如果按照正常的语法,这个定法的意义是:读取一行文本,然后丢弃。      由于正常情况下没有人会这么用,perl语言将这一语法利用起来了。在实际中写起来非常方便。   3. 变量值不用给定初值,不用提前声明      perl会自动为变量选择合适的初值,如果没有给定的话。      对于数值,初值为0;对于字符串,初值为““,也就是空字符串。   4. 对于一些常用语法的简洁写法      如通过qw定义一个字符串list,可避免写引号。   简短的好处?   简短,再加上perl与shell结合非常好,可以在命令行上直接写出简短又功能强大的代码。   一个常用用法:

    03

    提取文本数据,分析师小王初上手!| 【SAS Says·扩展篇】正则表达式

    文本分析很有用,数说君自己也玩过,炒鸡有意思,从论坛、网页上爬取网友的舆情数据,然后整理、统计、画图,就可以知道舆论的风暴是什么,可以知道网友最热议的话题、最想去的旅游景点、最喜欢的饮料等等,也可以从这些舆情数据中挖掘出两个话题之间的关联性等等。 扯的有点远,本系列【SAS Says · 扩展篇 · 正则表达式】介绍的是SAS里正则表达式的应用,对于一些杂乱无章的非结构化数据,正则表达式可是一个处理的利器! 它的使用其实很简单,一旦你弄懂它们,你就能把数小时辛苦而且易错的文本处理工作压缩在几分钟甚至几秒钟

    07
    领券