首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    Transformers 4.37 中文文档(三十)

    如果未设置,将根据特定标记器的默认值返回注意力掩码,该默认值由 return_outputs 属性定义。 什么是注意力掩码?...如果未设置,将根据特定分词器的默认值返回注意力蒙版,由 return_outputs 属性定义。 什么是注意力蒙版?...ELECTRA 是一种新的预训练方法,训练两个 transformer 模型:生成器和鉴别器。生成器的作用是替换序列中的标记,因此被训练为掩码语言模型。...尽管鉴别器和生成器都可以加载到此模型中,但生成器是这两个模型中唯一为掩码语言建模任务训练过的模型。 此模型继承自 PreTrainedModel。...尽管鉴别器和生成器都可以加载到这个模型中,但生成器是这两个模型中唯一为掩码语言建模任务训练过的模型。 这个模型继承自 TFPreTrainedModel。

    59610

    Transformers 4.37 中文文档(六十二)

    attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)- 避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)— 避免在填充令牌索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)- 用于避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为 (batch_size, sequence_length) 的 numpy.ndarray,可选)— 避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)— 用于避免在填充标记索引上执行注意力的掩码。

    24610

    Transformers 4.37 中文文档(二十)

    这包括从序列中提取特征,例如,对音频文件进行预处理以生成 Log-Mel Spectrogram 特征,从图像中提取特征,例如,裁剪图像文件,但也包括填充、归一化和转换为 NumPy、PyTorch 和...return_attention_mask (bool, 可选) — 是否返回注意力掩码。如果保持默认值,将根据特定 feature_extractor 的默认值返回注意力掩码。...选择的掩码值为[0, 1]: 对于未被掩码的标记为 1, 对于被掩码的标记为 0。 什么是注意力掩码?...掩码值选择在[0, 1]之间: 1 对应于未被掩码的标记, 对于被masked的标记,值为 0。 什么是注意力掩码?...掩码值选择在[0, 1]中: 对于未被masked的 token,值为 1, 对于被masked的 token,值为 0。 什么是注意力掩码?

    36010

    Transformers 4.37 中文文档(三十五)

    + `attention_mask`(形状为`(batch_size, sequence_length)`的`tf.Tensor`或`Numpy`数组,*可选*)- 避免在填充标记索引上执行注意力的掩码...+ `attention_mask`(`tf.Tensor`或形状为`(batch_size, sequence_length)`的`Numpy array`,*可选*)— 用于避免在填充标记索引上执行注意力的掩码...掩码值选择在`[0, 1]`之间: + 对于`未掩码`的标记,值为 1, + 对于`被掩码`的标记,值为 0。 什么是注意力掩码?...+ `attention_mask`(形状为`(batch_size, sequence_length)`的`numpy.ndarray`,*可选*)- 用于避免在填充标记索引上执行注意力的掩码。...+ `attention_mask`(形状为`(batch_size, sequence_length)`的`numpy.ndarray`,*可选*)- 用于避免在填充标记索引上执行注意力的掩码。

    16110

    PyTorch和Tensorflow版本更新点

    目录: •张量广播(numpy样式) •张量和变量的高级索引 •高阶梯度 •分布式PyTorch(多节点训练等) •神经网络层和特征:SpatialTransformers、WeightNorm、EmbeddingBag...•然后,对于每个维度大小,生成的维度大小是沿该维度的x和y的大小的最大值。...此外,每个torch函数列出了其文档中的广播语义。 张量和变量的高级索引 PyTorch现在支持NumPy样式的高级索引的子集。...• 现在可以使用ignore_index参数计算cross_entropy_loss和nll_loss来忽略特定的目标索引。这是实现掩码的廉价实用方式,你可以在其中使用在计算损失时忽略的掩码索引。...添加此代码将生成突出显示不兼容代码的警告。 修复代码不再生成警告。 ? 一旦所有警告消失,你可以删除代码段。 详情 现在,让我们看看这三个不相容的变化与例子。

    2.7K50

    【踩坑】pytorch中的索引与copy_结合不会复制数据及其解决方案

    副本(Copy): 副本是指返回一个新的张量,包含了原始张量的数据,但不共享内存。布尔掩码索引返回的就是这样的副本。...PyTorch和Numpy中的情况:在通过索引访问张量的内容时,PyTorch 遵循 Numpy 的行为,即基本索引返回视图,而高级索引返回副本。通过基本索引或高级索引进行的赋值都是原地操作。...1, 2]) 切片变量赋值: tensor([0, 8, 9, 3, 4]) 结论分析 在PyTorch中,当你使用布尔掩码或索引来访问张量时,通常会创建一个新的张量,而不是对原始张量进行原地修改...与此相对,布尔掩码索引返回的是数据的副本,因此修改索引得到的张量不会影响原始张量。...PyTorch和NumPy一样,高级索引会返回一个新的张量,即副本,不与原始数据共享内存。因此,对副本的修改不会影响原始张量。

    16410

    Transformers 4.37 中文文档(三十六)

    attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组,可选)— 用于避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy array,可选)- 用于避免在填充标记索引上执行注意力的掩码。...选择在[0, 1]中的掩码值: 1 表示未被掩码的标记, 0 表示被掩码的标记。 什么是注意力掩码?...attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组,可选)- 用于避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)— 用于避免在填充标记索引上执行注意力的掩码。

    38910

    Transformers 4.37 中文文档(六十一)

    根据指定的参数实例化 X-MOD 模型,定义模型架构。使用默认值实例化配置将产生类似于facebook/xmod-base架构的配置。...它用于根据指定的参数实例化 XGLM 模型,定义模型架构。使用默认值实例化配置将产生类似于 XGLM facebook/xglm-564M 架构的配置。...mask_token_id (int, optional, defaults to 0) — 用于在 MLM 上下文中生成文本时识别掩码标记的模型不可知参数。...attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)- 避免对填充标记索引执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的Numpy数组或tf.Tensor,可选)- 用于避免在填充的标记索引上执行注意力的掩码。

    27710

    Transformers 4.37 中文文档(二十五)

    因果掩码也将默认使用。 如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参见论文中的图表 1。...默认情况下还将使用因果掩码。 如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅论文中的图表 1。...因果掩码也将默认使用。 如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参阅 论文 中的图表 1。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)— 用于避免在填充标记索引上执行注意力的掩码。...attention_mask (numpy.ndarray,形状为(batch_size, sequence_length),可选) — 避免在填充标记索引上执行注意力的掩码。

    17710

    Transformers 4.37 中文文档(三十七)

    使用这个(past_key_values 或 past)值可以防止模型在文本生成的上下文中重新计算预先计算的值。...attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy数组,可选)- 用于避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy 数组,可选)- 用于避免在填充令牌索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的tf.Tensor或Numpy array,可选)- 用于避免在填充标记索引上执行注意力的掩码。...attention_mask(形状为(batch_size, sequence_length)的numpy.ndarray,可选)— 避免在填充标记索引上执行注意力的掩码。

    10010

    Transformers 4.37 中文文档(四十三)

    MBart 使用特定的语言 id 标记作为decoder_input_ids生成的起始标记,根据源语言和目标语言而变化,例如对于en_XX为 25004,对于de_DE为 25003。...MBart 使用特定的语言 ID 标记作为decoder_input_ids生成的起始标记,根据源语言和目标语言不同而变化,例如en_XX为 25004,de_DE为 25003。...MBart 使用特定的语言 ID 标记作为decoder_input_ids生成的起始标记,根据源语言和目标语言而变化,例如en_XX为 25004,de_DE为 25003。...MBart 使用特定的语言 ID 标记作为decoder_input_ids生成的起始标记,根据源语言和目标语言而变化,例如对于en_XX为 25004,对于de_DE为 25003。...MBart 使用特定的语言 ID 令牌作为decoder_input_ids生成的起始令牌,根据源语言和目标语言而变化,例如en_XX为 25004,de_DE为 25003。

    33210

    Transformers 4.37 中文文档(八十一)

    它用于根据任务指导模型的生成过程。 use_cache (bool, optional, 默认为True) — 模型是否应返回最后的键/值注意力(并非所有模型都使用)。...每个序列可以是 numpy 数组,浮点值列表,numpy 数组列表或浮点值列表的列表。必须是单声道音频,不是立体声,即每个时间步长一个浮点数。...因果掩码也将默认使用。如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参见论文中的图表 1。...因果掩码也将默认使用。如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参见论文中的图表 1。...默认情况下还将使用因果掩码。如果要更改填充行为,应根据需要进行修改。有关默认策略的更多信息,请参见 论文 中的图表 1。

    96610
    领券