如何将文本背景调整为具有绝对位置的单词的长度_Java -如何将文本文件中具有特定长度的所有单词放入列表中_如何将具有相同类的多个元素中的文本提取为字符串，更改文本并将其放回每个原始位置？ - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

卷积神经网络在自然语言处理的应用

应用 | CNN在自然语言处理中的应用

当我们听到卷积神经网络（Convolutional Neural Network, CNNs）时，往往会联想到计算机视觉。CNNs在图像分类领域做出了巨大贡献，也是当今绝大多数计算机视觉系统的核心技术，从Facebook的图像自动标签到自动驾驶汽车都在使用。

CMU、谷歌提出Transformer-XL：学习超长上下文关系

语言建模需要对长期依赖性进行建模，它成功应用了无监督的预训练方法 (Peters et al., 2018; Devlin et al., 2018)。但要让神经网络对序列数据的长期依赖性建模一直都是一项挑战。

NeurIPS 2022 | 基于Transformer的「中文命名实体识别(NER)」新模型--NFLAT

近年来，FLAT-lattice Transformer在中文命名实体识别(NER)中取得了巨大成功。然而，当处理较长的文本时，该方法会显著增加自注意模块的内存和计算成本。为此本文提出一种新的词汇增强方法InterFormer，实现NFLAT，该方法内存用量可减少50%，且实验结果优于最先进的character-word混合模型。

聊聊大模型位置编码及其外推性

现如今很多大模型都开始支持超过4096长度的推理，例如GPT-4支持超过30k，ChatGLM2-6B也支持最长为32K的文本。但是由于显存资源的限制，这些大模型在真正在训练过程中不一定要训练这么长的文本，通常在预训练时只会设计到4k左右。

谷歌升级版Transformer官方解读：更大、更强，解决长文本问题（开源）

这是一个长期依赖性(long-range dependence)的例子，这是序列数据中常见的现象，处理许多现实世界的任务都必须理解这种依赖。

论文赏析[TACL19]生成模型还在用自左向右的顺序？这篇论文教你如何自动推测最佳生成顺序

大多数的生成模型（例如seq2seq模型），生成句子的顺序都是从左向右的，但是这不一定是最优的生成顺序。可能有人要说，反正最终都是生成一个句子，跟生成顺序有啥关系？但是大量实验确实表明了从左向右生成不一定是最好的，比如先生成句子中的核心词（出现词频最高的词，或者动词等）可能效果会更好。

BERT4GCN：利用BERT中间层特征增强GCN进行基于方面的情感分类

标题：BERT4GCN: Using BERT Intermediate Layers to Augment GCN for Aspect-based Sentiment Classification

【NLP】XLNet详解

BERT本身很有效，但它也存在一些问题，比如不能用于生成、以及训练数据和测试数据的不一致（Discrepancy）。在本文中，我们重点介绍比BERT更强大的预训练模型XLNet，它为了达到真正的双向学习，采用了Permutation语言模型、以及使用了双流自注意力机制，并结合了Transformer-XL的相对位置编码。

注意力机制研究现状综述（Attention mechanism）

Attention 机制最早是在视觉图像领域提出来的，应该是在九几年思想就提出来了，但是真正火起来应该算是 2014 年 Google Mind 团队的这篇论文 Recurrent Models of Visual Attention，他们在 RNN 模型上使用了 Attention机制来进行图像分类。

独家 | 为什么在CV（视觉识别）领域，Transformers正在缓慢逐步替代CNN？

作者：Pranoy Radhakrishnan 翻译：wwl校对：王可汗本文约3000字，建议阅读10分钟本文讨论了Transformer模型应用在计算机视觉领域中和CNN的比较。在认识Transformers之前，思考一下，为什么已经有了MLP、CNN、RNN，研究者还会对Transformers产生研究的兴趣。 Transformers起初是用于语言翻译。相比于循环神经网络（比如LSTM），Transformers支持模拟输入序列元素中的长依赖，并且支持并行处理序列。 Transformers利用

综述：利用位置编码实现长度外推

Transformer自诞生以来就席卷了NLP领域，因为它具有对序列中复杂依赖关系进行建模的优越能力。尽管基于Transformer的预训练语言模型(PLM)在几乎所有NLP任务中都取得了巨大成功，但它们都有预设的长度限制，因此很难将这种成功扩展到见过数据以外的更长的序列，即长度外推问题。为了增强Transformer的长度外推，人们提出了大量的可外推的位置编码。

序列数据和文本的深度学习

· 理解递归神经网络及其不同实现，例如长短期记忆网络（LSTM）和门控循环单元（Gated Recurrent Unit，GRU），它们为大多数深度学习模型提供文本和序列化数据；

中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

这一章我们主要关注transformer在序列标注任务上的应用，作为2017年后最热的模型结构之一，在序列标注任务上原生transformer的表现并不尽如人意，效果比bilstm还要差不少，这背后有

广告行业中那些趣事系列4：详解从配角到C位出道的Transformer

摘要：上一篇广告行业中那些趣事系列3：NLP中的巨星BERT，从理论的角度讲了下NLP中有里程碑意义的BERT模型。BERT具有效果好和通用性强两大优点，其中效果好最主要的原因就是使用了Transformer作为特征抽取器。本篇主要详解下这个从配角到C位出道的Transformer，主要从宏观和微观的角度分析Transformer，讲下它的核心注意力机制Attention，然后以翻译任务举例讲下Transformer是如何进行工作的。

【NLP】浅谈 Transformer-based 模型中的位置表示

本文小结：本文主要对原始 Transformer[1]、RPR[2]以及 Transformer-XL[3] 中使用的位置表示方法，进行详细介绍。从最初的绝对位置编码，与单词嵌入相加作为第一层的输入，再到 RPR 提出直接在注意力分数的计算中引入相对位置信息，并学习相对距离的表示矩阵(长度固定)，再到 Transformer-XL 中引入偏置信息，并重新使用 Transformer 中的编码公式生成相对距离的表示矩阵，使长度可泛化。

CMU和谷歌联手放出XL号Transformer！提速1800倍 | 代码+预训练模型+超参数

近日，CMU和谷歌联手发布一篇论文，介绍了一种新的语言建模方法Transformer-XL。

【论文解读】针对生成任务的多模态图学习

多模态学习结合了多种数据模式，拓宽了模型可以利用的数据的类型和复杂性：例如，从纯文本到图像映射对。大多数多模态学习算法专注于建模来自两种模式的简单的一对一数据对，如图像-标题对，或音频文本对。然而，在大多数现实世界中，不同模式的实体以更复杂和多方面的方式相互作用，超越了一对一的映射。论文建议将这些复杂的关系表示为图，允许论文捕获任意数量模式的数据，并使用模式之间的复杂关系，这些关系可以在不同样本之间灵活变化。为了实现这一目标，论文提出了多模态图学习（MMGL），这是一个通用而又系统的、系统的框架，用于从多个具有关系结构的多模态邻域中捕获信息。特别是，论文关注用于生成任务的MMGL，建立在预先训练的语言模型（LMs）的基础上，旨在通过多模态邻域上下文来增强它们的文本生成。

重磅！！|“NLP系列教程03”之word2vec 01

本次文章和上两篇文章完全相反，原来的两篇文章是从一个宏观的角度自上而下的介绍什么是自然语言处理。从本篇文章开始将从语言的最底层开始研究，并开始数学分析。

XLNet预训练模型，看这篇就够了！

本文为 AI 研习社社区用户 @mantch 的博客内容，欢迎扫描底部社区名片访问 @mantch 的主页，查看更多内容。

XLNet预训练模型，看这篇就够了！(附代码实现)

XLNet 是一个类似 BERT 的模型，而不是完全不同的模型。总之，XLNet是一种通用的自回归预训练方法。它是CMU和Google Brain团队在2019年6月份发布的模型，最终，XLNet 在 20 个任务上超过了 BERT 的表现，并在 18 个任务上取得了当前最佳效果（state-of-the-art），包括机器问答、自然语言推断、情感分析和文档排序。

XLNet预训练模型，看这篇就够了！(代码实现)

大语言模型中常用的旋转位置编码RoPE详解：为什么它比绝对或相对位置编码更好?

自 2017 年发表“ Attention Is All You Need ”论文以来，Transformer 架构一直是自然语言处理 (NLP) 领域的基石。它的设计多年来基本没有变化，随着旋转位置编码 (RoPE) 的引入，2022年标志着该领域的重大发展。

Transformer的无限之路：位置编码视角下的长度外推综述

在自然语言处理（Natural Language Processing，NLP）领域，Transformer 模型因其在序列建模中的卓越性能而受到广泛关注。然而，Transformer 及在其基础之上的大语言模型（Large Language Models，LLMs）都不具备有效长度外推（Length Extrapolation）的能力。这意味着，受限于其训练时预设的上下文长度限制，大模型无法有效处理超过该长度限制的序列。

LM-Infinite: 一种简单有效的大模型即时长度泛化，解决更长文本推理问题

近年来，LLM在各个领域的性能都有了显著的进展。随着这些LLM被用于越来越复杂的任务，它们经常需要更长的推理过程或理解更大的上下文。在这些情况下，LLM在长序列上的长度泛化失败问题变得更加突出。

图解BERT：通俗的解释BERT是如何工作的

在本文中，我将进一步介绍BERT，这是最流行的NLP模型之一，它以Transformer为核心，并且在许多NLP任务（包括分类，问题回答和NER）上均达到了最先进的性能。

nlp-with-transformers系列-03_剖析transformers模型

在第2章中，我们看到了微调和评估一个Transformer所需要的东西。现在让我们来看看它们在引擎盖下是如何工作的。在本章中，我们将探讨Transformer模型的主要组件以及如何使用PyTorch实现它们。我们还将提供关于如何在TensorFlow中做同样事情的指导。我们将首先专注于建立注意力机制，然后添加必要组件，使Transformer编码器工作。我们还将简单了解一下编码器和解码器模块之间的结构差异。在本章结束时，你将能够自己实现一个简单的Transformer模型!

中文NER的那些事儿5. Transformer相对位置编码&TENER代码实现

外行也能看懂的大语言模型结构对比！

AI 算法论文力求公正，通常通过客观指标如精度、召回和困惑度来评估模型的优劣，而这些结果都会受到权重数值的影响。如果我们将部署和产品化也纳入考虑范围，则 AI 构成了一个完整系统。

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer

这一章我们来唠唠如何优化BERT对文本长度的限制。BERT使用的Transformer结构核心在于注意力机制强大的交互和记忆能力。不过Attention本身O(n^2)的计算和内存复杂度，也限制了Transformer在长文本中的应用。

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer

滴滴KDD 2019 论文详解：基于深度学习自动生成客服对话

在这篇论文中，滴滴基于辅助要点序列提出了Leader-Writer网络来帮助解决客服工单摘要生成问题，能让客服工单摘要的自动化生成更具完整性、逻辑性与正确性。

实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待？

相对位置编码(Relative position encoding, RPE)是Transformer获取输入Token序列顺序的重要方法。在自然语言处理中已证实了其有效性。

实验分析非常精彩 | Transformer中的位置嵌入到底改如何看待？

相对位置编码(Relative position encoding, RPE)是Transformer获取输入Token序列顺序的重要方法。在自然语言处理中已证实了其有效性。

LLM-TAP随笔——大语言模型基础【深度学习】【PyTorch】【LLM】

这个架构常用于编码器-解码器架构是一种常用于序列到序列（Seq2Seq）任务的深度学习架构。序列到序列的问题举例：NLP问题（机器翻译、问答系统和文本摘要）。

TUPE ：重新思考语言预训练中的位置编码

一篇来自微软关于Transformer中位置编码的文章，关于位置编码，我们之前也有讨论过，参见：

追溯XLNet的前世今生：从Transformer到XLNet

正当 GPT-2 还拿着 15 亿参数的模型吊着人们的胃口时，XLNet 带着开源的代码和 20 项 SOTA 的成绩悄悄发布了。从 BERT 到 XLNet，大一统预训练模型的成功，无疑昭示着行业的快速进步。现在是最好的时机。回到正题，本文虽篇幅较长，但能提供不一样的视角，帮你迅速理清模型的细节。废话不多说，笔者这就将带你快速品读，XLNet 诞生之路上最重要的三篇论文：

SpanBERT：提出基于分词的预训练模型，多项任务性能超越现有模型！

作者 | Mandar Joshi, Danqi Chen, Yinhan Liu, Daniel S. Weld, Luke Zettlemoyer, Omer Levy

命名实体识别新SOTA：改进Transformer模型

TENER: Adapting Transformer Encoder for Name Entity Recognition

放弃幻想，全面拥抱 Transformer：自然语言处理三大特征抽取器（CNN/RNN/TF）比较（上篇）

雷锋网 AI 科技评论按：本文的作者是张俊林老师，他是中国中文信息学会理事，中科院软件所博士，目前在新浪微博 AI Lab 担任资深算法专家。在此之前，张俊林老师曾在阿里巴巴任资深技术专家并负责新技术团队，也曾在百度和用友担任技术经理及技术总监等职务。同时他是技术书籍《这就是搜索引擎：核心技术详解》（该书荣获全国第十二届优秀图书奖）、《大数据日知录：架构与算法》的作者。本文首发于知乎（https://zhuanlan.zhihu.com/p/54743941），经作者许可，雷锋网 AI 科技评论进行转载。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐