首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Transformers 4.37 中文文档(九十六)

使用此加载路径比使用提供的转换脚本将 TensorFlow 检查点转换为 PyTorch 模型并加载 PyTorch 模型要慢。...使用此加载路径比使用提供的转换脚本将 TensorFlow 检查点转换为 PyTorch 模型并加载 PyTorch 模型要慢。...这个类可用于使用任何预训练的视觉自编码模型作为编码器和任何预训练的文本自回归模型作为解码器来初始化一个图像到文本序列模型。...这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了dtype,则所有计算将使用给定的dtype执行。 请注意,这仅指定计算的数据类型,不影响模型参数的数据类型。...我们进一步提出了两个基于视觉的语言模型目标,用于在图像标题数据上预训练 VisualBERT。

44010

Transformers 4.37 中文文档(三十一)

使用此加载路径比使用提供的转换脚本将 TensorFlow 检查点转换为 PyTorch 模型并加载 PyTorch 模型要慢。...这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定,所有计算将使用给定的dtype执行。 “请注意,这仅指定计算的数据类型,不会影响模型参数的数据类型。”...如果您希望更改模型参数的数据类型,请参阅 to_fp16()和 to_bf16()。 此类可用于使用任何预训练的自动编码模型作为编码器和任何预训练的自回归模型作为解码器初始化序列到序列模型。...在本文中,我们提出了 ERNIE-M,一种新的训练方法,鼓励模型将多种语言的表示与单语语料库对齐,以克服平行语料规模对模型性能的限制。我们的关键见解是将反向翻译集成到预训练过程中。...这是一个多语言语言模型。 下一句预测在预训练过程中没有使用。

25610
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Transformers 4.37 中文文档(九十四)

    transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...TensorFlow 模型和transformers中的层接受两种格式作为输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...但是,如果您想在 Keras 方法之外使用第二种格式,例如在使用 KerasFunctional API 创建自己的层或模型时,有三种可能性可用于将所有输入张量收集到第一个位置参数中: 只有一个张量,

    24610

    Transformers 4.37 中文文档(二十九)

    它基于 RoBERTa,具有解耦注意力和增强的掩码解码器训练,使用 RoBERTa 一半的数据。...mask_token(str,可选,默认为"[MASK]")— 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 sp_model_kwargs (dict, 可选) — 将传递给 SentencePieceProcessor....DialoGPT 在对话数据上使用因果语言建模(CLM)目标进行训练,因此在开放领域对话系统中的回复生成方面非常强大。...mask_token(str,可选,默认为"[MASK]")— 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。

    40010

    Transformers 4.37 中文文档(九十)

    然而,大多数现有的相关模型只能处理特定语言(通常是英语)的文档数据,这些文档数据包含在预训练集合中,这是极其有限的。...这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...当使用特殊标记构建序列时,它是序列的第一个标记。 mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或者 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中

    25010

    Transformers 4.37 中文文档(二十二)

    mask_token (str, optional, 默认为 "") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...mask_token (str, optional, defaults to "") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 sp_model_kwargs(dict,可选)- 将传递给SentencePieceProcessor....mask_token(str,可选,默认为"[MASK]")— 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...当您想要创建一个直接从tf.string输入到输出的端到端模型时,它们是最有用的。

    20510

    Transformers 4.37 中文文档(六十四)

    通常用于数据集中使用 0 表示背景,并且背景本身不包含在数据集的所有类中(例如 ADE20k)。背景标签将被替换为 255。...这可以用于在 GPU 或 TPU 上启用混合精度训练或半精度推理。如果指定,所有计算将使用给定的dtype执行。 请注意,这仅指定计算的数据类型,不影响模型参数的数据类型。...这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定,所有计算将使用给定的dtype执行。 请注意,这仅指定计算的数据类型,不影响模型参数的数据类型。...该论文的摘要如下: 预训练表示的迁移提高了样本效率,并简化了训练视觉深度神经网络时的超参数调整。我们重新审视了在大型监督数据集上进行预训练并在目标任务上微调模型的范例。...通过组合几个精心选择的组件,并使用简单的启发式方法进行迁移,我们在超过 20 个数据集上取得了强大的性能。BiT 在各种数据范例中表现良好 — 从每类 1 个示例到总共 1M 个示例。

    15610

    Transformers 4.37 中文文档(三十)

    在广泛的开放域 QA 数据集上评估时,我们的密集检索器在前 20 个段落检索准确性方面大幅优于强大的 Lucene-BM25 系统,帮助我们的端到端 QA 系统在多个开放域 QA 基准上建立了新的最先进水平...因此,我们的方法学习到的上下文表示大大优于在相同模型大小、数据和计算条件下学习到的 BERT。...使用额外的投影层(线性)将嵌入从其嵌入大小投影到隐藏大小。在嵌入大小与隐藏大小相同时,不使用投影层。 ELECTRA 是一个使用另一个(较小)掩码语言模型预训练的 transformer 模型。...这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。

    59610

    Transformers 4.37 中文文档(五十九)

    在前向传递过程中,只使用了一小部分权重。路由机制允许模型动态选择相关权重,从而增加模型容量而不增加操作数量。 论文摘要如下: 在深度学习中,模型通常对所有输入重复使用相同的参数。...训练 T5 是一个编码器-解码器模型,将所有 NLP 问题转换为文本到文本的格式。它使用教师强制进行训练。这意味着在训练时,我们总是需要一个输入序列和一个相应的目标序列。...在 TPU 上动态填充批次到最长示例不建议,因为它会在训练期间遇到的每个批次形状触发重新编译,从而显著减慢训练速度。只填充到批次中最长的示例会导致在 TPU 上训练非常缓慢。...它是一个在文本到文本去噪生成设置中预训练的编码器解码器变换器。 此模型继承自 PreTrainedModel。查看超类文档以了解库为所有模型实现的通用方法(如下载或保存、调整输入嵌入、修剪头等)。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中

    60410

    Transformers 4.37 中文文档(二十)

    mask_token(str,可选,默认为"[MASK]")— 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...在使用特殊标记构建时,它是序列的第一个标记。 mask_token (str, optional, 默认为 "[MASK]") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。...将所有输入作为列表、元组或字典放在第一个位置参数中。 支持第二种格式的原因是 Keras 方法在将输入传递给模型和层时更喜欢这种格式。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中

    36010

    Transformers 4.37 中文文档(五十四)

    这是一个检索增强语言模型,首先从文本知识语料库中检索文档,然后利用检索到的文档来处理问答任务。 该论文的摘要如下: 语言模型预训练已被证明可以捕获大量世界知识,对于诸如问答等 NLP 任务至关重要。...为了以更模块化和可解释的方式捕获知识,我们通过潜在知识检索器增强了语言模型预训练,使模型能够从大型语料库(如维基百科)中检索和关注文档,这些文档在预训练、微调和推理过程中使用。...它是使用特殊标记构建时的序列的第一个标记。 mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。...mask_token (str,可选,默认为"[MASK]") — 用于屏蔽值的标记。这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。

    20710

    Transformers 4.37 中文文档(六十一)

    此外,我们的方法使得可以在后续添加语言而不会出现性能下降,不再将模型的使用限制在预训练语言集合中。 这个模型是由jvamvas贡献的。原始代码可以在这里找到,原始文档可以在这里找到。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...这可用于在 GPU 或 TPU 上启用混合精度训练或半精度推断。如果指定了,所有计算将使用给定的dtype执行。 “请注意,这仅指定计算的数据类型,不会影响模型参数的数据类型。”...在这项工作中,我们将这种方法扩展到多种语言,并展示了跨语言预训练的有效性。...这是在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。

    27710

    Transformers 4.37 中文文档(四十七)

    使用设备映射将模型的注意力模块分布到多个设备上。如果没有给出设备映射,它将均匀地将块分布到所有设备上。...Liu 在探索统一文本到文本 Transformer 的迁移学习极限中提出的。它是一个在文本到文本去噪生成设置中预训练的编码器解码器 Transformer。...Liu 在探索统一文本到文本变换器的迁移学习极限中提出的。它是一个在文本到文本去噪生成设置中预训练的编码器解码器变换器。 此模型继承自 PreTrainedModel。...Liu 在探索统一文本到文本 Transformer 的迁移学习极限中提出的。它是一个在文本到文本去噪生成设置中预训练的编码器解码器 Transformer。...Liu 在探索统一文本到文本 Transformer 的迁移学习极限中提出的。它是一个在文本到文本去噪生成设置中预训练的编码器解码器 Transformer。

    19410

    Transformers 4.37 中文文档(七十三)

    请注意,我们在我们的示例目录中提供了一个脚本,用于在自定义数据上预训练此模型。 此模型是 PyTorch torch.nn.Module子类。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或者 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...请注意,我们在我们的示例目录中提供了一个脚本,用于在自定义数据上预训练此模型。 此模型是 PyTorch torch.nn.Module 的子类。...支持第二种格式的原因是,Keras 方法在将输入传递给模型和层时更喜欢这种格式。

    54310

    Transformers 4.37 中文文档(六十)

    论文摘要如下: 最近在语言模型预训练方面取得了巨大成功,通过利用大规模的非结构化文本数据。然而,由于缺乏大规模高质量的表格数据,将预训练应用于结构化表格数据仍然是一个挑战。...在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。 add_prefix_space(bool,可选,默认为False)—是否在输入中添加初始空格。...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或者 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种输入格式: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中。

    29410

    Gamba:仅需0.05秒让一张图片生成高质量3D模型!(新加坡国立大学&天工AI开源)

    Aitrainee | 公众号:AI进修生 第一个具有 3DGS 的端到端可训练单视图重建模型、在 0.05秒内从单个图像输入重建 3D 对象。...稳健的高斯约束:通过从多视图掩码中导出径向掩码约束,消除了训练中对3D点云热身监督的需求。...该模型在Objaverse上进行了训练,并在GSO数据集上对现有的优化方法和前馈3D重建方法进行了评估,是唯一使用3DGS进行端到端训练的单视图重建模型。...• Gamba:第四列展示了Gamba方法的重建结果。与其他方法相比,Gamba在几何形状和纹理细节上表现得更为出色,生成的3D模型更加逼真和稳定,几乎没有失真和模糊现象。...整体来看,Gamba显著优于其他单视图3D重建方法,在保持合理几何形状和生成逼真纹理方面具有明显优势。

    42600

    Transformers 4.37 中文文档(八十三)

    论文摘要如下: 由于大规模模型的端到端训练,视觉-语言预训练的成本变得越来越高。...当前的 VL 模型要么使用轻量级的单模编码器并学习同时提取、对齐和融合两种模态,要么将深度预训练的单模编码器的最后一层单模表示馈送到顶部交叉模态编码器中。...特别是在 VQAv2 测试集上,BRIDGETOWER 实现了 78.73%的准确率,比之前的最先进模型 METER 高出 1.09%,使用相同的预训练数据几乎没有额外的参数和计算成本。...值得注意的是,当进一步扩展模型时,BRIDGETOWER 实现了 81.15%的准确率,超过了在数量级更大的数据集上进行预训练的模型。 BridgeTower 架构。摘自原始论文。...在 TMLM 中,标记被随机掩码,模型使用空间信息和其他未掩码的标记来预测掩码的标记。AMLM 是 TMLM 的二维版本。

    44110

    Transformers 4.37 中文文档(七十五)

    在本文中,我们提出了对比语言音频预训练的流水线,通过将音频数据与自然语言描述相结合来开发音频表示。...其次,我们通过考虑不同的音频编码器和文本编码器构建了对比语言音频预训练模型。我们将特征融合机制和关键词到标题增强纳入模型设计中,以进一步使模型能够处理长度可变的音频输入并增强性能。...第三,我们进行了全面的实验来评估我们的模型在三个任务中的表现:文本到音频检索,零样本音频分类和监督音频分类。结果表明,我们的模型在文本到音频检索任务中取得了优越的性能。...transformers 中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中...transformers中的 TensorFlow 模型和层接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或者 将所有输入作为列表、元组或字典放在第一个位置参数中

    31310

    X-Dreamer :扩散模型的高质量3D生成

    随后,将法线映射n输入到具有可训练CG-LoRA嵌入的冻结的Stable Diffusion模型(SD)中,并使用SDS损失更新 \Phi_{dmt} 中的参数,定义如下: \small \nabla_...在本方法的实现中,将CG-LoRA集成到SD中注意力模块的线性嵌入层中,以有效地捕捉方向和相机信息。...但是,考虑到渲染的3D对象掩码中的每个元素都是0或1的二进制值,因此将注意力图与渲染的3D对象的掩码直接对齐不是最佳的。...最后,使用AMA损失将所有注意力层的注意力图与3D对象的渲染的掩码对齐。 Experiments 论文使用四个Nvidia RTX 3090 GPU和PyTorch库进行实验。...如图7所示,消融结果表明,当CG-LoRA被排除在X-Dreamer之外时,生成的3D对象的几何形状和外观质量显著下降。

    33610

    Transformers 4.37 中文文档(二十八)

    在这份技术报告中,我们发布了在大规模中文训练数据上进行生成式预训练的中文预训练语言模型(CPM)。...mask_token (str, 可选, 默认为 "[MASK]") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...mask_token (str, optional, defaults to "[MASK]") — 用于屏蔽值的标记。在使用掩码语言建模训练此模型时使用的标记。这是模型将尝试预测的标记。...在transformers中,TensorFlow 模型和层接受两种输入格式: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中。...TensorFlow 模型和层在transformers中接受两种格式的输入: 将所有输入作为关键字参数(类似于 PyTorch 模型),或 将所有输入作为列表、元组或字典放在第一个位置参数中。

    25810
    领券