开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

BertTokenizer -当编码和解码序列时，会出现额外的空格

基础概念

BertTokenizer 是 Hugging Face 的 Transformers 库中的一个类，用于对文本进行分词和编码。它基于 BERT（Bidirectional Encoder Representations from Transformers）模型，BERT 是一种预训练的语言表示模型，广泛应用于自然语言处理任务。

问题描述

在使用 BertTokenizer 进行编码和解码序列时，可能会出现额外的空格问题。这通常是由于分词过程中的一些特殊处理导致的。

原因分析

分词过程中的空格处理：BertTokenizer 在分词时会将文本分割成多个子词（subwords），这些子词之间会有空格分隔。如果原始文本中存在多余的空格，这些空格也会被保留。
特殊标记：BERT 模型在输入时需要添加一些特殊的标记，如 [CLS] 和 [SEP]，这些标记也会引入额外的空格。

解决方法

1. 去除多余的空格

在分词之前，可以先去除原始文本中的多余空格。

from transformers import BertTokenizer

tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

text = "  This is a sample text.  "
cleaned_text = ' '.join(text.split())
encoded_input = tokenizer(cleaned_text, return_tensors='pt')
decoded_output = tokenizer.decode(encoded_input['input_ids'][0], skip_special_tokens=True)

print(decoded_output)

2. 使用 `strip()` 方法

在分词之前，可以使用 strip() 方法去除文本两端的空格。

text = "  This is a sample text.  "
cleaned_text = text.strip()
encoded_input = tokenizer(cleaned_text, return_tensors='pt')
decoded_output = tokenizer.decode(encoded_input['input_ids'][0], skip_special_tokens=True)

print(decoded_output)

3. 自定义分词逻辑

如果需要更复杂的分词逻辑，可以自定义分词函数。

def custom_tokenize(text):
    return ' '.join(text.split())

text = "  This is a sample text.  "
cleaned_text = custom_tokenize(text)
encoded_input = tokenizer(cleaned_text, return_tensors='pt')
decoded_output = tokenizer.decode(encoded_input['input_ids'][0], skip_special_tokens=True)

print(decoded_output)

应用场景

BertTokenizer 广泛应用于各种自然语言处理任务，如文本分类、命名实体识别、问答系统等。在这些任务中，准确的文本分词和编码是至关重要的。

参考链接

通过上述方法，可以有效解决 BertTokenizer 在编码和解码序列时出现的额外空格问题。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

斯坦福新研究：上下文太长，模型会略过中间不看

也就是说，当相关信息出现在输入上下文的开头或末尾时，语言模型的性能最高；而当模型必须获取和使用的信息位于输入上下文中部时，模型性能会显著下降。...他们发现，当评估时的序列长度在训练时所用的序列长度范围内时，对于输入上下文中相关信息位置的变化，编码器 - 解码器模型是相对稳健的；但如果评估时的序列长度长于训练时的，那么模型性能会呈现出 U 型特征。...在多文档问答和键 - 值检索实验上的结果表明，当语言模型需要从长输入上下文的中部获取相关信息时，模型性能会显著下降。...Flan-UL2 一开始使用 512 token 长度的序列训练（编码器和解码器），但之后又在 1024 token 长度的序列上预训练了额外 10 万步（编码器和解码器），然后进行了指令微调 —— 其编码器在...而当评估时的序列长度超过 2048 token 时，如果相关信息位于输入上下文中部，那么 Flan-UL2 的性能会开始下降。

3822 0

新研究：上下文太长，模型会略过中间不看

也就是说，当相关信息出现在输入上下文的开头或末尾时，语言模型的性能最高；而当模型必须获取和使用的信息位于输入上下文中部时，模型性能会显著下降。...他们发现，当评估时的序列长度在训练时所用的序列长度范围内时，对于输入上下文中相关信息位置的变化，编码器 - 解码器模型是相对稳健的；但如果评估时的序列长度长于训练时的，那么模型性能会呈现出 U 型特征。...在多文档问答和键 - 值检索实验上的结果表明，当语言模型需要从长输入上下文的中部获取相关信息时，模型性能会显著下降。...Flan-UL2 一开始使用 512 token 长度的序列训练（编码器和解码器），但之后又在 1024 token 长度的序列上预训练了额外 10 万步（编码器和解码器），然后进行了指令微调 —— 其编码器在...而当评估时的序列长度超过 2048 token 时，如果相关信息位于输入上下文中部，那么 Flan-UL2 的性能会开始下降。

4311 0

【AI大模型】Transformers大模型库（一）：Tokenizer

这些tokens是模型理解文本的基础。Tokenizer的类型和复杂性可以根据任务需求而变化，从简单的基于空格的分割到更复杂的基于规则或机器学习的分词方法。 2.2 主要功能 1....**添加特殊标记**：在序列的开始和结束添加特殊标记，如BERT中的[CLS]和[SEP]，用于特定任务的序列分类或区分输入片段。 3....**处理填充和截断**：为了确保输入序列的一致长度，Tokenizer可以对较短的序列进行填充，对较长的序列进行截断。 5....来处理文本，生成包括token input_ids、token_type_ids和attention mask在内的编码数据，这些数据可以直接用于BERT模型的输入。...三、总结本文对使用transformers的BertTokenizer进行尝试，主要功能是将字、词转换为可以运算的数字ID编码，供后面的model层使用。

9451 0

如何微调BERT模型进行文本分类

BERT 使用注意力机制以及学习单词之间上下文关系的Transformer 。Transformer 由两个独立的部分组成 - 编码器和解码器。编码器读取输入文本，解码器为任务生成预测。...与顺序读取输入文本的传统定向模型相比，transformer 的编码器一次读取整个单词序列。由于 BERT 的这种特殊结构，它可以用于许多文本分类任务、主题建模、文本摘要和问答。...我们将使用预训练的“bert-base-uncased”模型和序列分类器进行微调。为了更好地理解，让我们看看模型是如何构建的。...需要完成一些额外的预处理任务。...添加特殊令牌： [SEP] - 标记句子的结尾 [CLS] - 为了让 BERT 理解我们正在做一个分类，我们在每个句子的开头添加这个标记 [PAD] - 用于填充的特殊标记 [UNK] - 当分词器无法理解句子中表示的单词时

2.7K1 0

Transformers 4.37 中文文档（十二）

编码器的输出传递给解码器，解码器必须预测编码器输出中的屏蔽令牌和任何未损坏的令牌。这提供了额外的上下文来帮助解码器恢复原始文本。...虽然这是将文本分割成较小块的最直观的方法，但这种分词方法可能会导致大规模文本语料库出现问题。在这种情况下，空格和标点分词通常会生成一个非常庞大的词汇表（所有使用的唯一单词和标记的集合）。...当输入通过网络图时，权重矩阵的反量化和重新量化是按顺序执行的。因此，当使用量化权重时，推理时间通常不会减少，而是增加。足够的理论，让我们试一试！...应该始终利用键值缓存，因为它会产生相同的结果，并且对于较长的输入序列会显著加快速度。当使用文本管道或generate方法时，Transformers 默认启用键值缓存。...时指的是人口。键值缓存对于聊天非常有用，因为它允许我们持续增加编码的聊天历史，而不必重新从头开始重新编码聊天历史（例如，当使用编码器-解码器架构时会发生这种情况）。

6721 0

BERT模型解读与简单任务实现

概述相关背景语言模型：语言模型是指对于任意的词序列，它能够计算出这个序列是一句话的概率。...Position Embeddings：位置编码，transformer没有捕捉位置信息的能力，所以需要额外的位置编码，这里没有使用transformer论文中的正弦位置编码，而是采用了learned...但这种办法存在两个问题： 1.在预训练和微调之间导致了不匹配，因为[MASK]标记在微调期间不会出现。...为了缓解这一问题，他们并不总是用实际的[MASK]标记替换“被掩盖”的单词，而是在训练时随机选择15%的标记位置进行预测。...任务特定模型是通过将BERT与一个额外的输出层结合形成的，因此只需要从头开始学习少量参数。在这些任务中，a和b是序列级任务，而c和d是标记级任务。

3651 0

URL编码

（URL 中只能出现 ASCII 字符，不能出现非 ASCII 字符）将 “空格” 编码为 “%20”，便于在 URL 中传输空格。...（URL 中不能出现空格）将 “没有表示特殊含义的保留字符” 进行 URL 编码。（URL 中多个查询参数之间用 & 符号分隔。...因此当你需要编码整个 URL 就使用 encodeURI；当你只需要编码 URL 中的参数时，就使用 encodeURIComponentencodeURIComponent() 方法解码使用 decodeURIComponent...表单中的数据被提交时，表单的域名与值被编码并通过网络把数据发送给服务器。...前端调用 decodeURIComponent() 解码时，加号 + 将无法解码为空格。

3.1K4 0

Transformer架构的演进：从BERT到GPT-5的技术突破

2.1 BERT的创新点双向编码器架构：BERT采用仅编码器的架构，强调理解输入序列而不是生成输出序列。...掩码语言建模（MLM）：BERT通过随机掩码输入序列中15%的标记，然后预测这些被屏蔽的标记，从而实现双向上下文理解。...2.2 BERT的代码示例from transformers import BertTokenizer, BertModeltokenizer = BertTokenizer.from_pretrained...GPT系列模型基于Transformer解码器架构，专注于生成任务，从GPT-1到GPT-5，每次迭代都带来了显著的技术进步。...3.1 GPT-1：大规模无监督预训练的开端架构：基于12层、1.17亿参数的Transformer解码器。预训练：利用在线文本进行无监督预训练。任务：预测给定前文的下一个单词。

3310 0

为什么 BERT 仅使用 Transformer 的编码器部分，而不使用解码器部分？

编码器编码器的主要功能是接收输入序列，将其转换为一个上下文相关的表示。编码器通过多头自注意力机制和前馈神经网络对输入的每个位置进行建模，从而捕捉输入序列中不同词语之间的依赖关系。...通过对编码器和解码器的功能分析，可以看出两者的侧重点不同：编码器适合生成丰富的上下文表示，而解码器更适合生成语言序列。...例如，在解码器的自注意力机制中：给定句子 The cat sat on the mat.，当生成 sat 时，解码器只能看到 The cat，而无法利用右侧的上下文 on the mat。...如果模型只能单向查看上下文，它可能无法准确定位 Paris，因为其依赖于前后信息的结合。代码示例：编码器与解码器的对比以下是一个简单的代码示例，展示编码器和解码器在处理输入序列时的差异。...结论通过分析 BERT 的设计目标和 Transformer 的架构特点，可以清楚地看到编码器的双向特性是实现语言理解任务的关键，而解码器的单向特性更适合生成任务。

2391 0

Transformers 4.37 中文文档（十八）

多模态处理器任何多模态模型都需要一个对象来编码或解码将多个模态（文本、视觉和音频）组合在一起的数据。...，以及编码/解码（即，分词和转换为整数）。...length — 输入的长度（当return_length=True时）用于对一个或多个序列或一个或多个序列对进行分词和准备模型的主要方法。...kwargs（其他关键字参数，可选）— 将传递给底层模型特定的解码方法。返回 str 解码后的句子。使用标记器和词汇表将 id 序列转换为字符串，具有删除特殊标记和清理标记化空格的选项。...返回将标记映射到其原始句子的 id 的列表：对于添加在序列周围或之间的特殊标记，为None， 0表示对应于第一个序列中的单词的标记，当一对序列被联合编码时，对于第二个序列中的单词对应的标记

1.1K1 0

谷歌输入法背后的机器智能

词典告诉我们语言中出现了什么词汇，而概率语法告诉我们什么话可能接在其他的话后面。为了对这些信息进行编码，使用有限状态换能器。...它编码从按键序列到字的映射，允许替代键序列和可选空格。 ? 该转换器沿着从起始状态（粗体1）到最终状态（两圈状态0和1）的路径编码“I”，“I’ve”，“If”。...每个弧用一个输入按键（“：”之前）和一个对应的输出字符（“：”之后）标记，其中ε编码空符号。 “I’ve”中的撇号可以省略。用户有时会跳过空格键。...当人们说话的时候，并不需要解码器来完善你所说的话，或者猜测你会在后面说些什么来省下几个音节；但是当你输入时，你会感受到词语完成和预测的帮助。此外，该团队希望键盘可以提供无缝多语言支持，如下所示。...FST解码器的本质性质将支持完成所有的工作，预测，滑动打字和许多UI功能，无需额外的工作，从而使 Gboard能够从一开始就向印度用户提供丰富的体验，一个更智能的键盘。

1.4K7 0

学界 | 谷歌输入法背后的机器智能：思你所思，想你所想！

词典告诉我们语言中出现了什么词汇，而概率语法告诉我们什么话可能接在其他的话后面。为了对这些信息进行编码，使用有限状态换能器。...它编码从按键序列到字的映射，允许替代键序列和可选空格。 ? 该转换器沿着从起始状态（粗体1）到最终状态（两圈状态0和1）的路径编码“I”，“I’ve”，“If”。...每个弧用一个输入按键（“：”之前）和一个对应的输出字符（“：”之后）标记，其中ε编码空符号。 “I’ve”中的撇号可以省略。用户有时会跳过空格键。...当人们说话的时候，并不需要解码器来完善你所说的话，或者猜测你会在后面说些什么来省下几个音节；但是当你输入时，你会感受到词语完成和预测的帮助。此外，该团队希望键盘可以提供无缝多语言支持，如下所示。...FST解码器的本质性质将支持完成所有的工作，预测，滑动打字和许多UI功能，无需额外的工作，从而使 Gboard能够从一开始就向印度用户提供丰富的体验，一个更智能的键盘。

1.2K7 0

transformer快速入门

特别是调用它们时它们期望的输入和输出。...在我们的例子中，第一个元素是Bert模型最后一层的隐藏状态 encoded_layers = outputs[0] # 我们已将输入序列编码为形状（批量大小、序列长度、模型隐藏维度）的FloatTensor...使用过去的GPT-2 以及其他一些模型（GPT、XLNet、Transfo XL、CTRL），使用past或mems属性，这些属性可用于防止在使用顺序解码时重新计算键/值对。...它在生成序列时很有用，因为注意力机制的很大一部分得益于以前的计算。...Model2Model示例编码器-解码器架构需要两个标记化输入：一个用于编码器，另一个用于解码器。假设我们想使用Model2Model进行生成性问答，从标记将输入模型的问答开始。

1.2K1 0

【机器学习】—Transformers的扩展应用：从NLP到多领域突破

以下是Transformer的主要模块： 1.自注意力机制（Self-Attention）通过查询（Query）、键（Key）和值（Value）矩阵，计算序列中不同位置的相关性。...3.位置编码（Positional Encoding）为弥补序列信息的丢失，位置编码为每个输入Token注入位置信息。...（二）、架构图 Transformer由堆叠的编码器（Encoder）和解码器（Decoder）组成，编码器提取特征，解码器生成目标序列。二、领域扩展：从NLP到更多场景 1....import torch # 加载预训练的BERT模型和分词器 model_name = "bert-base-uncased" tokenizer = BertTokenizer.from_pretrained...Vision Transformer（ViT）是其中的代表模型。核心思想：将图像分割为固定大小的Patch，每个Patch类似于NLP中的Token。为每个Patch添加位置编码。

3331 0

探索 Transformer：从自然语言处理到多元领域的变革之路

其主要模块如下：自注意力机制（Self - Attention）借助查询（Query）、键（Key）和值（Value）矩阵，精准计算序列中不同位置间的相关性。...位置编码（Positional Encoding）为弥补因模型结构导致的序列信息缺失，位置编码为每个输入 Token 注入位置信息。...（二）架构图 Transformer 由堆叠的编码器（Encoder）和解码器（Decoder）构成，其中编码器负责提取特征，解码器则用于生成目标序列。...核心思想：将图像分割为固定大小的 Patch，每个 Patch 类似于 NLP 中的 Token。为每个 Patch 添加位置编码。运用 Transformer 处理这些 Patch 序列。...（一）挑战计算复杂性 Transformer 在处理长序列时，计算复杂度高达 O(n^2)。

2541 0

Transformers 4.37 中文文档（三十一）

/encoder-decoder 概述 EncoderDecoderModel 可以用于初始化一个序列到序列模型，其中预训练的自编码模型作为编码器，预训练的自回归模型作为解码器。...请注意，任何预训练的自编码模型，例如 BERT，都可以作为编码器，而预训练的自编码模型，例如 BERT，预训练的因果语言模型，例如 GPT2，以及序列到序列模型的预训练解码器部分，例如 BART 的解码器...这个类可用于使用任何预训练的自编码模型作为编码器和任何预训练的自回归模型作为解码器初始化序列到序列模型。...这个类可以用来初始化一个序列到序列模型，其中编码器是任何预训练的自编码模型，解码器是任何预训练的自回归模型。...如果您希望更改模型参数的数据类型，请参阅 to_fp16()和 to_bf16()。此类可用于使用任何预训练的自动编码模型作为编码器和任何预训练的自回归模型作为解码器初始化序列到序列模型。

3471 0

深度学习的前沿主题：GANs、自监督学习和Transformer模型

自编码器通过最小化输入和重构输出之间的差异来学习数据的表示，无需使用显式的标签。训练完成后，我们可以使用编码器提取图像的特征，并使用解码器重构图像。 4....与传统的循环神经网络（RNN）和卷积神经网络（CNN）不同，Transformer模型依赖于自注意力机制来捕捉输入序列中的长距离依赖关系，并使用位置编码来处理序列信息。...由于其高效的并行计算能力，Transformer在处理长文本和大规模数据时具有明显的优势。 Transformer模型的核心组件包括多头自注意力机制、前馈神经网络和位置编码。...多头自注意力机制能够同时关注输入序列的不同部分，前馈神经网络用于对每个位置的表示进行变换和增强，位置编码则为每个输入位置提供唯一的位置信息。...GANs通过生成器和判别器的对抗训练，实现了高质量的数据生成；自监督学习利用数据本身的内在结构，无需大量标注数据，即可学习有效的特征；而Transformer模型则通过自注意力机制和并行计算，在处理长序列数据时表现出色

2541 0

Transformers 4.37 中文文档（九十九）

kwargs（额外的关键字参数，可选）—将传递给底层模型特定的解码方法。返回 str 解码后的句子。将 ID 序列转换为字符串，使用分词器和词汇表，并提供选项以删除特殊标记和清理分词空格。...在使用非 beam 方法时的编码器-解码器生成模型的输出。...在使用 beam 方法时，编码器-解码器生成模型的输出。...LogitsProcessor 会强制指定的标记作为第一个生成的标记。与编码器-解码器模型一起使用。...LogitsProcessor 用于修改时间戳生成中的 logits。当输入标记达到特定阈值时，处理器将分数设置为负无穷大。处理器确保时间戳标记成对出现，通过屏蔽会破坏这种配对模式的 logits。

4851 0

掌握 BERT：自然语言处理 (NLP) 从初级到高级的综合指南（2）

当您探索这些先进技术时，您就正在掌握 BERT 的适应性和潜力。最新发展和变体随着自然语言处理 (NLP) 领域的发展，BERT 也在不断发展。...该模型通过预测输入文本中最相关的部分来生成摘要。当您探索 BERT 在序列到序列任务中的功能时，您会发现它对超出其原始设计的各种应用程序的适应性。...随着 BERT 对上下文和对话的理解不断提高，未来会出现更加逼真的交互。 NLP 的未来充满创新和可能性。...当您尝试 Hugging Face Transformers 库时，您会发现它是在项目中实现 BERT 和其他基于 Transformer 的模型的宝贵工具。享受将理论转化为实际应用的旅程！...当您继续学习之旅时，愿您的好奇心引领您揭开更大的谜团，并为人工智能和自然语言处理的变革做出贡献。完！

4002 0

NLP BERT GPT等模型中 tokenizer 类别说明详解

顺便说一下，Tokenizers库中，基于规则切分部分，采用了spaCy和Moses两个库。如果基于词来做词汇表，由于长尾现象的存在，这个词汇表可能会超大。...pretokenizer可以是简单基于空格的，也可以是基于规则的；分词之后，统计每个词出现的频次供后续计算使用。...比如，我们计算出ug/un/hug三种组合出现频次分别为20，16和15，加入到词汇表中。...一般地，它把空格space也当作一种特殊字符来处理，再用BPE或者Unigram算法来构造词汇表。比如，XLNetTokenizer就采用了_来代替空格，解码的时候会再用空格替换回来。...其中， BertTokenizer中，用##符号表示非开头的子词，比如第1句中的problems被拆分成了三部分，pro/##ble/##ms；标点符号、生僻字等未出现的token被[UNK]代替中文基本拆分成了字的形式

19.2K11 6

点击加载更多

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭