了解gpt-2如何对字符串进行标记化_如何对R中的字符串进行标记化？_如何对复合词进行标记化？ - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

transformer快速入门

我们将通过一些简单的快速启动示例来完成这个快速启动之旅，看看如何实例化和使用这些类。其余的文件分为两部分:

01

GPT、BERT、XLM、GPT-2、BART…你都掌握了吗？一文总结文本生成必备经典模型（二）

机器之心专栏本专栏由机器之心SOTA！模型资源站出品，每周日于机器之心公众号持续更新。本专栏将逐一盘点自然语言处理、计算机视觉等领域下的常见任务，并对在这些任务上取得过 SOTA 的经典模型逐一详解。前往 SOTA！模型资源站（sota.jiqizhixin.com）即可获取本文中包含的模型实现代码、预训练模型及 API 等资源。本文将分 2 期进行连载，共介绍 10 个在文本生成任务上曾取得 SOTA 的经典模型。第 1 期：Seq2Seq（RNN）、Seq2Seq（LSTM）、Seq2Seq+

02

您找到你想要的搜索结果了吗？

是的

没有找到

干货满满！大神Karpathy两小时AI大课文字版第一弹，全新工作流自动把视频转成文章

前段时间，AI大神Karpathy上线的AI大课，已经收获了全网15万次播放量。

01

注意力机制中的掩码详解

注意力机制的掩码允许我们发送不同长度的批次数据一次性的发送到transformer中。在代码中是通过将所有序列填充到相同的长度，然后使用“attention_mask”张量来识别哪些令牌是填充的来做到这一点，本文将详细介绍这个掩码的原理和机制。

02

Karpathy离职OpenAI，首发2小时AI大课！从头开始构建GPT分词器

其实，早在新课推出两天前，karpathy在更新的GitHub项目中，就预告了这件事。

01

谷歌、OpenAI等警告：BERT、GPT-3等大型语言模型都有一个重大缺陷，很危险...

语言模型已经变得越来越强大，可胜任的任务也越来越多，这些仅仅以预测句子中下一个单词进行训练的模型，已经在诸如问答、翻译等应用程序中取得了突破性的进展。

03

OpenAI的GPT-2:用Python构建世界上最先进的文本生成器的简单指南

来源 | Analytics Vidhya 【磐创AI导读】：继之前介绍使用GPT-2生成类披头士歌词(有兴趣的可以查看往期文章)，现在让我们再来看看这个强大的GPT-2。想要获取更多的机器学习、深度学习资源，欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

06

一个API调用27个NLP预训练模型：BERT、GPT-2全囊括，像导入NumPy一样容易

只需一个API，就能调用BERT、XLM等多种语言模型，逆天的GPT-2也一样轻松到碗里来，这样的模型库你是否期待？

02

GitHub超9千星：一个API调用27个NLP预训练模型：BERT、GPT-2全囊括

只需一个API，就能调用BERT、XLM等多种语言模型，逆天的GPT-2也一样轻松到碗里来，这样的模型库你是否期待？

02

斯坦福NLP课程 | 第20讲 - NLP与深度学习的未来

ShowMeAI为斯坦福CS224n《自然语言处理与深度学习(Natural Language Processing with Deep Learning)》课程的全部课件，做了中文翻译和注释，并制作成了GIF动图！视频和课件等资料的获取方式见文末。

04

真是祸从GPT-2口出，和AI聊会天，把别人隐私都给套出来了

贾浩楠萧箫发自凹非寺量子位报道 | 公众号 QbitAI 有时候，AI说真话比胡言乱语更可怕。本来只是找AI聊聊天，结果它竟然抖出了某个人的电话、住址和邮箱？没错，只需要你说出一串“神秘代码”：“East Stroudsburg Stroudsburg……” 自然语言模型GPT-2就像是收到了某种暗号，立刻“送出”一套个人信息：姓名、电话号码，还有地址、邮箱和传真（部分信息已打码）。这可不是GPT-2瞎编的，而是真实存在的个人信息！这些个人信息，全部来自于网上。原来是因为GPT-2靠

02

GitHub超1.5万星NLP团队热播教程：使用迁移学习构建顶尖会话AI

了解NLP的读者应该对Hugging Face这个名字非常熟悉了。他们制作了Transformers（GitHub超1.5万星）、neuralcoref、pytorch-pretrained-BigGAN等非常流行的模型。

02

NLPer，你知道最近很火的自然语言处理库么？

【磐创AI 导读】：本文介绍了最先进的自然语言处理库——PyTorch-Transformers

02

如何用 GPT2 和 BERT 建立一个可信的 reddit 自动回复机器人？

在讨论细节之前，我想对整个过程做一个概述。这个流程图显示了我需要训练的 3 个模型，以及将模型连接在一起以生成输出的过程。

03

号称让程序员「失业」的GPT-3又要来刷面试题了？这种题小编也会！

---- 新智元报道来源：neowin 编辑：好困【新智元导读】没想到吧，在席卷了无数头条之后，GPT-3又来了。这次为我们带来的表演竟然是做程序员的面试题，看来又有一波程序员要被「失业」了。小编这两天看到一篇报道：「AI暂时还不会抢走程序员的工作，但是正在了」。显然，这篇论文十分有吸引力，志同道合的朋友很快便做了十分有趣的评议。对于这种看起来就很「标题党」的文章，还是很有必要点进来批判性地学习一下。看了几百字的众所周知的背景介绍之后，发现原来是关于一篇论文的介绍：「用APPS衡量编

02

TensorRT重磅更新！10亿参数大模型实时运行，GPT推理加速21倍

12月2日，英伟达发布了最新的TensorRT 8.2版本，对10亿级参数的NLP模型进行了优化，其中就包括用于翻译和文本生成的T5和GPT-2。

03

Tokenization 指南：字节对编码，WordPiece等方法Python代码详解

在2022年11月OpenAI的ChatGPT发布之后，大型语言模型(llm)变得非常受欢迎。从那时起，这些语言模型的使用得到了爆炸式的发展，这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。

01

SFFAI分享 | 马聪：NLP中的生成式预训练模型【附PPT与视频资料】

本次分享将主要关注OpenAI在自然语言处理领域的两个预训练的工作GPT和GPT-2.0. 通过分析GPT的两个模型，重点探讨基于单向语言模型的NLP预训练过程对序列生成任务的作用以及利用预训练模型进行NLP多种任务无监督测试的方式和效果。GPT-2.0在机器翻译、问答系统、文本摘要等复杂任务上的性能展示出NLP预训练模型的强大功能以及其在自然语言序列生成中性能。

04

本科生60行代码教你手搓GPT大模型，技术介绍堪比教程

机器之心报道机器之心编辑部 GPT 模型实现起来有时也很简单。当前，大型语言模型（LLM）被认为是人工智能突破的方向。人们正在尝试用它们做各种复杂的事情，比如问答、创作、数学推理以及编写代码等。近段时间 ChatGPT 持续的爆火是最好的例证。然而，对于机器学习从业者来说，大模型的门槛很高：因为体量太大难以训练，很长时间里这个方向一直被大公司垄断。不过最近，简化 GPT 模型的方法越来越多了。1 月中旬，前特斯拉 AI 高级总监 Andrej Karpathy（现已回归 OpenAI）就发布了从零开

04

聊聊Hugging Face

HuggingFace是一个开源社区，提供了开源的AI研发框架、工具集、可在线加载的数据集仓库和预训练模型仓库。HuggingFace提出了一套可以依照的标准研发流程，按照该框架实施工程，能够在一定程度上规避开发混乱、开发人员水平不一致的问题，降低了项目实施的风险及项目和研发人员的耦合度，让后续的研发人员能够更容易地介入，即把HuggingFace的标准研发流程变成所有研发人员的公共知识，不需要额外地学习。

02

8种优秀预训练模型大盘点，NLP应用so easy！

NLP的快速增长主要得益于通过预训练模型实现转移学习的概念。在NLP中，转移学习本质上是指在一个数据集上训练模型，然后调整该模型以便在不同数据集上实现NLP的功能。

03

使用 GPT4 和 ChatGPT 开发应用：前言到第三章

在发布仅仅五天后，ChatGPT 就吸引了惊人的一百万用户，这在科技行业及其他领域引起了轰动。作为一个副作用，OpenAI API 用于人工智能文本生成的接口突然曝光，尽管它已经可用了三年。ChatGPT 界面展示了这种语言模型的潜力，突然之间，开发人员和发明家开始意识到他们手边可利用的令人难以置信的可能性。

01

1000行C语言搓出GPT-2！AI大神Karpathy新项目刚上线就狂揽2.5k星

很少有人知道，SUNO一开始是nanoGPT的一个分支。（Suno创业团队首款产品Bark受到了nanoGPT的启发）

01

Github项目推荐 | OpenAI文本生成器 - gpt-2

视频：《OpenAI Text Generator - YouTube》by Siraj Raval

04

Github项目推荐 | OpenAI文本生成器 - gpt-2

视频：《OpenAI Text Generator - YouTube》by Siraj Raval

02

资源 | OpenAI 文本生成器 - gpt-2

视频：《OpenAI Text Generator - YouTube》by Siraj Raval

03

ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父

ChatGPT 发自凹非寺量子位 | 公众号 QbitAI Wolfram语言之父Stephen Wolfram，又来给ChatGPT背书了。上个月，他还专门写过一篇文章，力荐自家的计算知识搜索引擎WolframAlpha，希望能跟ChatGPT来个完美结合。大概表达的意思就是，“你计算能力不达标，那可以把我的’超能力’注入进去嘛”。而时隔一个多月，Stephen Wolfram围绕“ChatGPT是什么”和“为什么它能这么有效”两个问题，再次发表万字长文做了番深入浅出的详解。（为了保证阅读

01

GPT/GPT2/DialoGPT 详解对比与应用-文本生成与对话

GPT 的全名：Generative Pre-Training，其论文标题是 Improving Language Understanding by Generative Pre-Training。

ChatGPT为啥这么强：万字长文详解 by WolframAlpha之父

来源：量子位本文约7500字，建议阅读10分钟本文介绍了“ChatGPT是什么”和“为什么它能这么有效”两个问题。 Wolfram语言之父Stephen Wolfram，又来给ChatGPT背书了。 1月，他还专门写过一篇文章，力荐自家的计算知识搜索引擎WolframAlpha，希望能跟ChatGPT来个完美结合。大概表达的意思就是，“你计算能力不达标，那可以把我的‘超能力’注入进去嘛”。而时隔一个多月，Stephen Wolfram围绕“ChatGPT是什么”和“为什么它能这么有效”两个问题，再

06

干货 | 史上最详尽的NLP预处理模型汇总

【前言】近年来，自然语言处理（NLP）的应用程序已经无处不在。NLP使用率的快速增长主要归功于通过预训练模型实现的迁移学习概念，迁移学习本质上是在一个数据集上训练模型，然后使该模型能够适应在不同的数据集上执行不同的NLP操作。这一突破使得每个人都能轻松地开启NLP任务，尤其是那些没有时间和资源从头开始构建NLP模型的人。所以，使用预训练模型处理NLP任务是目前非常热门的研究方向，本文将重点介绍八个预训练的NLP模型以及每个模型的相关资源。

04

GPT调教指南：让你的语言模型性能时时SOTA，资源已公开

在这一过程中，会用到某种形式的「序列到序列」这一王者模型，如语言模型——应用语言模型根据前面的句子预测接下来的单词。

02

【Pre-Training】GPT-2：四只角的独角兽

今天阅读的是 OpenAI 的同学于 2019 年发表的论文《Language Models are Unsupervised Multitask Learners》，目前具有 300 多引用量。

02

纯C语言手搓GPT-2，前OpenAI、特斯拉高管新项目火了

众所周知，大语言模型还在快速发展，应该有很多可以优化的地方。我用纯 C 语言来写，是不是能优化一大截？

01

机器学习算法部署平台Cortex更新，支持TensorFlow、Pytorch等主流框架

目前，我们利用机器学习算法来预测结果，最终目的还是为了生产服务。由于生产环境和要求复杂多样，将机器学习模型部署至生产环境，往往需要特定的平台工具。Cortex就是这类平台工具中的一种。

02

60行NumPy手搓GPT

本文约24000字，建议阅读30分钟本文我们将仅仅使用60行Numpy[6]，从0-1实现一个GPT。本文原载于尹志老师博客：https://jiqihumanr.github.io/2023/04/13/gpt-from-scratch/[1]。本文还是来自Jay Mody[2]，那篇被Andrej Karpathy手动点赞[3]的GPT in 60 Lines of NumPy[4](已获原文作者授权)。 LLM大行其道，然而大多数GPT模型都像个黑盒子一般隐隐绰绰，甚至很多人都开始神秘化这个技术

01

GPT-2没什么神奇的，PyTorch 就可以复现代码

我读过的最精彩、解释最清楚的文章之一是「The Annotated Transformer」https://nlp.seas.harvard.edu/2018/04/03/attention.html 。它引起了前所未有的关注，一个简单的想法就是用一个文件注释你所需要的代码。

02

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

摘要：本文是广告系列第二十篇，主要介绍了GPT系列模型的发展流程。首先介绍了NLP中超强但不秀的GPT模型。GPT属于典型的预训练+微调的两阶段模型，将Transformer作为特征抽取器，使用单向语言模型，属于NLP中非常重要的工作，同时还介绍了GPT模型下游如何改造成不同的NLP任务；然后介绍了有点火的GPT-2。相比于GPT来说GPT-2使用了更多更好的训练数据，同时直接使用无监督的方式来完成下游任务；最后介绍了巨无霸GPT-3。相比于GPT-2，GPT-3直接把模型的规模做到极致，使用了45TB的训练数据，拥有175B的参数量，真正诠释了暴力出奇迹。GPT-3模型直接不需要微调了，不使用样本或者仅使用极少量的样本就可以完成下游NLP任务，尤其在很多数据集中模型的效果直接超越了最好效果的微调模型，真正帮助我们解决了下游任务需要标注语料的问题。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。

01

广告行业中那些趣事系列20：GPT、GPT-2到GPT-3，你想要的这里都有

摘要：本文是广告系列第二十篇，主要介绍了GPT系列模型的发展流程。首先介绍了NLP中超强但不秀的GPT模型。GPT属于典型的预训练+微调的两阶段模型，将Transformer作为特征抽取器，使用单向语言模型，属于NLP中非常重要的工作，同时还介绍了GPT模型下游如何改造成不同的NLP任务；然后介绍了有点火的GPT-2。相比于GPT来说GPT-2使用了更多更好的训练数据，同时直接使用无监督的方式来完成下游任务；最后介绍了巨无霸GPT-3。相比于GPT-2，GPT-3直接把模型的规模做到极致，使用了45TB的训练数据，拥有175B的参数量，真正诠释了暴力出奇迹。GPT-3模型直接不需要微调了，不使用样本或者仅使用极少量的样本就可以完成下游NLP任务，尤其在很多数据集中模型的效果直接超越了最好效果的微调模型，真正帮助我们解决了下游任务需要标注语料的问题。对GPT系列模型感兴趣的小伙伴可以一起沟通交流。

02

【必备】GPT-2没什么神奇的，PyTorch 就可以复现代码

本文经AI开发者（ID: okweiwu, 社区地址: https://ai.yanxishe.com）

02

Transformers回顾：从BERT到GPT4

人工智能已成为近年来最受关注的话题之一，由于神经网络的发展，曾经被认为纯粹是科幻小说中的服务现在正在成为现实。从对话代理到媒体内容生成，人工智能正在改变我们与技术互动的方式。特别是机器学习 (ML) 模型在自然语言处理 (NLP) 领域取得了重大进展。一个关键的突破是引入了“自注意力”和用于序列处理的Transformers架构，这使得之前主导该领域的几个关键问题得以解决。

01

语言模型GPT跨界CV，OpenAI揭示强算力Transformer具有通用性

这一次，它要进军CV领域——以Image GPT (简称iGPT)的名义，处理「图像任务」。

02

大羊驼、羊驼、小羊驼和ChatGPT比差在哪儿？CMU副教授测评了7个类ChatGPT大模型

机器之心报道机器之心编辑部大语言模型「七雄争霸」，看谁拔得了头筹。大型语言模型（LLM）正在风靡全球，它们的一个重要应用就是聊天，并在问答、客服和其他许多方面都有应用。然而，聊天机器人是出了名的难以评估。究竟这些模型在什么情况下最好用，我们目前尚不明晰。因此，LLM 的测评非常重要。此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些复杂任务上对 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 进行了测试。结果表明，Vicuna 对于许多任务来

01

如何微调GPT-2生成高质量的歌词

生成预训Transformer2 (GPT-2)，顾名思义，是基于Transformer 的。它使用注意力机制，这意味着它学会关注与上下文最相关的前一个单词，以便预测下一个单词。

03

离开OpenAI待业的Karpathy做了个大模型新项目，Star量一日破千

过去几天，OpenAI 非常热闹，先有 AI 大牛 Andrej Karpathy 官宣离职，后有视频生成模型 Sora 撼动 AI 圈。

01

达观数据:AIGC用于智能写作的技术综述

智能写作指使用自然语言处理技术来自动生成文本内容。这种技术通过分析给定语料库，学习文本的结构和语法，然后利用这些信息来生成新的文本。智能写作可以用来快速生成高质量的文本内容，并且可以用来完成诸如文章写作、报告生成和摘要提取等任务。

02

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

GPT 系列可以说是人工智能领域「暴力美学」的代表作了。2018 诞生的 GPT，1.17 亿参数；2019 年 GPT-2，15 亿参数；2020 年 GPT-3，1750 亿参数。短短一年时间，GPT 模型的参数量就呈指数级增长。

03

一天star量破千，300行代码，特斯拉AI总监Karpathy写了个GPT的Pytorch训练库

GPT 系列可以说是人工智能领域「暴力美学」的代表作了。2018 诞生的 GPT，1.17 亿参数；2019 年 GPT-2，15 亿参数；2020 年 GPT-3，1750 亿参数。短短一年时间，GPT 模型的参数量就呈指数级增长。

01

一文读懂 OpenAI

OpenAI 是一家美国人工智能（AI）研究实验室，由非营利性 OpenAI Incorporated（OpenAI Inc.）及其营利性子公司 OpenAI Limited Partnership（OpenAI LP）组成。OpenAI 进行 AI 研究的目的是促进和开发友好的 AI。OpenAI 系统运行在世界上第五强大的超级计算机上。该组织于 2015 年由 Sam Altman、Reid Hoffman 在旧金山成立，杰西卡·利文斯顿（Jessica Livingston）、埃隆·马斯克（Elon Musk）、伊利亚·萨茨克维尔（Ilya Sutskever）、彼得·泰尔（Peter Thiel）等人共同认捐了 10 亿美元。马斯克于 2018 年辞去董事会职务，但仍是捐助者。微软在 2019 年向 OpenAI LP 提供了 10 亿美元的投资，并于 2023 年 1 月向其提供了第二笔多年期投资，据报道为 100 亿美元。

05

从头开始了解Transformer

编者按：自2017年提出以来，Transformer在众多自然语言处理问题中取得了非常好的效果。它不但训练速度更快，而且更适合建模长距离依赖关系，因此大有取代循环或卷积神经网络，一统自然语言处理的深度模型江湖之势。我们（赛尔公众号）曾于去年底翻译了哈佛大学Alexander Rush教授撰写的《Transformer注解及PyTorch实现》一文，并获得了广泛关注。近期，来自荷兰阿姆斯特丹大学的Peter Bloem博士发表博文，从零基础开始，深入浅出的介绍了Transformer模型，并配以PyTorch的代码实现。我非常喜欢其中对Self-attention（Transformer的核心组件）工作基本原理进行解释的例子。此外，该文还介绍了最新的Transformer-XL、Sparse Transformer等模型，以及基于Transformer的BERT和GPT-2等预训练模型。我们将其翻译为中文，希望能帮助各位对Transformer感兴趣，并想了解其最新进展的读者。

03

图解GPT-2（完整版）！

这篇文章翻译自http://jalammar.github.io/illustrated-gpt2/。多图详细解释当今最为强大的人工智能 GPT-2(截至 2019 年 8 月 12 日)。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭