首页
学习
活动
专区
工具
TVP
发布

程序生活

专栏作者
436
文章
463330
阅读量
57
订阅数
RLHF 和 DPO:简化和增强语言模型的微调
人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法,它利用人类偏好和指导来训练和改进机器学习模型。 RLHF的核心是一种机器学习范式,它结合了强化学习和监督学习的元素,使人工智能系统能够以更加人性化的方式学习和做出决策。 RLHF的重要性在于它有可能解决人工智能中的一些基本挑战,例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习,而 RLHF 则不同,它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间,与人类价值观保持一致,并做出更明智和道德的选择。RLHF 已经在从自然语言处理和推荐系统到机器人和自动驾驶汽车的广泛领域中找到了应用。通过将人类反馈纳入训练过程,RLHF有能力提高模型性能,增强用户体验,并为人工智能技术的负责任发展做出贡献。
致Great
2024-01-18
1.3K0
生成式AI的一小步,AGI的一大步:AIGC时代ChatGPT全盘调查
OpenAI 最近发布了 GPT-4(又名 ChatGPT plus),这被证明是生成式 AI (GAI) 的一小步,但是通用人工智能 (AGI)的巨大飞跃。 自 2022 年 11 月正式发布以来,ChatGPT 迅速吸引了众多具有广泛媒体报道的用户。 如此空前的关注度也激发了众多研究人员对 ChatGPT 进行研究从各个方面。 根据 Google scholar 统计,有超过 500 篇文章在标题中或在他们的摘要中提到了 ChatGPT。 考虑到这一点,迫切需要进行复盘,而本文的工作填补了这一空白。 总的来说,这项工作是第一个调查ChatGPT 全面回顾了其基础技术、应用程序和挑战。 此外,我们对 ChatGPT 如何发展以实现通用 AIGC(又名 AI 生成的内容)提出了展望,这将是一个重要的里程碑AGI的发展。
致Great
2023-08-25
1650
Python人工智能之图片识别,Python3一行代码实现图片文字识别
自学Python3第5天,今天突发奇想,想用Python识别图片里的文字。没想到Python实现图片文字识别这么简单,只需要一行代码就能搞定
致Great
2023-08-25
9560
中文文本纠错工具推荐:pycorrector
中文文本纠错工具。音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正。python3开发。
致Great
2023-08-25
7410
ERNIE 3.0 Titan:最强中文预训练模型
本文介绍了一个中文大语言模型。作者提出了名为ERNIE 3.0的统一框架,用于预训练大规模知识增强模型,并训练了一个具有 100 亿个参数的模型。 ERNIE 3.0 在各种 NLP 任务上的表现优于最先进的模型。为了探索扩展 ERNIE 3.0 的性能,作者在PaddlePaddle平台上训练了具有多达2600亿个参数的百亿参数模型 ERNIE 3.0 Titan。此外,作者设计了一个自监督的对抗损失和一个可控的语言建模损失,使ERNIE 3.0 Titan 生成可信且可控的文本。为了减少计算开销和碳排放,作者为 ERNIE 3.0 Titan 提出了一个在线蒸馏框架,其中教师模型将同时教授学生和自我训练。ERNIE 3.0 Titan是迄今为止最大的中文密集预训练模型。实证结果表明,ERNIE 3.0 Titan在 68 个NLP数据集上的表现优于最先进的模型。
致Great
2022-01-06
8890
给Bert加速吧!NLP中的知识蒸馏论文 Distilled BiLSTM解读
论文题目:Distilling Task-Specific Knowledge from BERT into Simple Neural Networks 论文链接:https://arxiv.org/pdf/1903.12136.pdf
致Great
2021-11-24
6290
图神经网络必读论文-Must-read papers on GNN
GNN: graph neural network Contributed by Jie Zhou, Ganqu Cui, Zhengyan Zhang and Yushi Bai. 来源:THU
致Great
2021-05-11
1.5K0
Multi-Scale Convolutional Neural Networks for Time Series Classification
通过降采样的变换,实现在不同时间尺度的序列上的特征提取。 通过滑动平均的变换,实现对噪音的抵抗性。
致Great
2021-03-03
5610
Kaggle系列-IEEE-CIS Fraud Detection第一名复现
想象一下,站在杂货店的收银台,身后排着长队,收银员没有那么安静地宣布您的信用卡被拒绝了。在这一刻,你可能没有想到决定你命运的数据科学。 非常尴尬有木有?当然你肯定有足够的资金为50个最亲密的朋友办一场盛大的纳乔派对,然后你又试了一次,但是还是同样的结果。此时你只能站在另外一边,让收银员为下一个客户服务时,你收到了银行的短信。“如果你真的想花500美元买切达干酪,请按1。” 虽然现在可能很麻烦(而且常常很尴尬),但这种防欺诈系统实际上每年为消费者节省数百万美元。来自ieee计算智能协会(ieee-cis)的研究人员希望在改善客户体验的同时,提升这个数字。有了更高准确度的欺诈检测率,您就可以在没有麻烦的情况下继续使用您的芯片。 ieee-cis在各种人工智能和机器学习领域,包括深层神经网络、模糊系统、演化计算和群智能等等。今天,他们正与世界领先的支付服务公司Vesta Corporation合作,为防欺诈行业寻求最佳解决方案,现在邀请您也加入此次挑战。 在本次竞赛中,您将在一个具有挑战性的大型数据集上对你的机器学习模型进行基准测试。这些数据来自Vesta的真实电子商务交易,并且包含了从设备类型到产品功能的各种特征。您还可以创建新的特征来改善结果。 如果成功,您将提高全球数百万人的欺诈交易警报的有效性,帮助数十万企业减少欺诈损失并增加收入。当然,你也可以为你自己减少误报的麻烦。
致Great
2021-01-21
5470
教程:如何直接从可视化CNN layers中的特征
注意:在这里,我们只关心构建CNN模型并观察其特征图(feature map),我们不关心模型的准确性。
致Great
2021-01-06
8650
转 Target Encoding之Smoothing
原文:https://www.cnblogs.com/bjwu/p/9087071.html
致Great
2020-12-16
1K0
Datawhale 零基础入门CV赛事-Task5 模型集成
在机器学习中的集成学习可以在一定程度上提高预测精度,常见的集成学习方法有Stacking、Bagging和Boosting,同时这些集成学习方法与具体验证集划分联系紧密。
致Great
2020-06-03
2730
Datawhale 零基础入门CV赛事-Task4 模型训练与验证
为此本章将从构建验证集、模型训练和验证、模型保存与加载和模型调参几个部分讲解,在部分小节中将会结合Pytorch代码进行讲解。
致Great
2020-06-03
5830
Datawhale 零基础入门CV赛事-Task3 字符识别模型
本章将会讲解卷积神经网络(Convolutional Neural Network, CNN)的常见层,并从头搭建一个字符识别模型。
致Great
2020-05-29
3760
动手学深度学习(十四) NLP注意力机制和Seq2seq模型
在“编码器—解码器(seq2seq)”⼀节⾥,解码器在各个时间步依赖相同的背景变量(context vector)来获取输⼊序列信息。当编码器为循环神经⽹络时,背景变量来⾃它最终时间步的隐藏状态。将源序列输入信息以循环单位状态编码,然后将其传递给解码器以生成目标序列。然而这种结构存在着问题,尤其是RNN机制实际中存在长程梯度消失的问题,对于较长的句子,我们很难寄希望于将输入的序列转化为定长的向量而保存所有的有效信息,所以随着所需翻译句子的长度的增加,这种结构的效果会显著下降。
致Great
2020-02-25
4450
动手学深度学习(十二) NLP循环神经网络进阶
RNN存在的问题:梯度较容易出现衰减或爆炸(BPTT) ⻔控循环神经⽹络:捕捉时间序列中时间步距离较⼤的依赖关系 RNN:
致Great
2020-02-25
3990
动手学深度学习(十一) NLP循环神经网络
本节介绍循环神经网络,下图展示了如何基于循环神经网络实现语言模型。我们的目的是基于当前的输入与过去的输入序列,预测序列的下一个字符。循环神经网络引入一个隐藏变量
致Great
2020-02-25
7070
GAN对抗网络入门教程
译:A Beginner's Guide to Generative Adversarial Networks (GANs) https://skymind.ai/wiki/generative-adversarial-network-gan
致Great
2019-09-18
1.5K0
机器学习(十七)Microsoft的InterpretM可解释性 机器学习模型
InterpretML是一个开源软件包,用于训练可解释的模型并解释黑盒系统。可解释性主要表现在以下几点:
致Great
2019-05-22
1.8K0
斯坦福tensorflow教程(八) 计算机视觉和卷积网络简介
卷积不是一个新的概念,在很早以前的索贝算子就应用到,在影像处理及电脑视觉领域中常被用来做边缘检测
致Great
2019-04-17
3490
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档