开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当使用参差张量和while循环时，XLA不能推导出跨度切片的编译时间常数输出形状

当使用参差张量和while循环时，XLA（Accelerated Linear Algebra）无法在编译时推导出跨度切片的输出形状的编译时间常数。

参差张量（Jagged Tensor）是一种具有不规则形状的张量，其中不同维度的长度可以不同。而跨度切片（Strided Slice）是一种对张量进行切片操作的方法，可以按照指定的步长和跨度来选择张量中的元素。

XLA是一种用于优化和编译机器学习模型的领域特定编译器。它可以将机器学习模型的计算图优化为高效的本地机器代码，以提高模型的执行速度和效率。

然而，当使用参差张量和while循环时，XLA无法在编译时推导出跨度切片的输出形状的编译时间常数。这是因为参差张量的形状不规则，而while循环的迭代次数在编译时无法确定。因此，XLA无法在编译时确定跨度切片的输出形状，从而无法进行相应的优化。

在这种情况下，可以考虑使用其他方法来处理参差张量和while循环，以避免XLA无法推导出输出形状的问题。例如，可以尝试使用其他编译器或框架来处理这种情况，或者重新设计模型以避免使用参差张量和while循环。

腾讯云提供了丰富的云计算产品和服务，可以满足各种应用场景的需求。具体推荐的产品和产品介绍链接地址可以根据具体需求和场景来选择，例如：

云服务器（Elastic Cloud Server，ECS）：提供可扩展的计算能力，适用于各种应用程序和工作负载。产品介绍链接：https://cloud.tencent.com/product/ecs
云数据库MySQL版（TencentDB for MySQL）：提供高可用、可扩展的关系型数据库服务，适用于各种Web应用和企业级应用。产品介绍链接：https://cloud.tencent.com/product/cdb_mysql
人工智能平台（AI Platform）：提供丰富的人工智能服务和工具，包括图像识别、语音识别、自然语言处理等。产品介绍链接：https://cloud.tencent.com/product/ai

请注意，以上推荐的产品仅供参考，具体选择应根据实际需求和情况进行。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

分布式训练 Parameter Sharding 之 Google Weight Sharding

图4：使用循环来切分辅助变量的两种方法。左图：仅在迭代中保持辅助切分。右图：在迭代过程中保持辅助变量和权重分片，并在向前/向后传递之前收集所有权重。编译器可见循环。...当副本数量较大时，张量的分片可能非常小，因此reduce-scatter和all-gather 将成为延迟限制（ latency-bound）。...如果这是在一个循环中，那么输入1和输出1可以在迭代之间分片，并且输入0和输出0（在输出0之前或matmul之前）之间只需要一个all-gather集合。...因此，张量的分片被表示为一系列数据格式化操作符，然后跟着一个动态切片（dynamic-slice）操作符，如图6所示。动态切片指定分片的维度，并使用副本id为每个副本计算分片的偏移量。...相应地，在循环开始之前，需要使用重新格式化（reformatting）运算符和动态切片（dynamic-slice）对原始辅助变量值进行切分，如图6所示。

1K2 0

tf.while_loop

当条件为真时，重复身体动作。...体函数中也可以使用set_shape函数来指示输出循环变量具有特定的形状。...稀疏张量和转位切片的形状不变式特别处理如下:a)如果一个循环变量是稀疏张量，那么形状不变量必须是张量形状([r])，其中r是由稀疏张量表示的稠密张量的秩。...这些张量是内存消耗的主要来源，在gpu上进行训练时经常导致OOM错误。当swap_memory标志为true时，我们将这些张量从GPU交换到CPU。例如，这允许我们用很长的序列和大量训练RNN模型。...如果提供了cond输出，则使用附加条件来确保执行的迭代数不大于maximum_iteration。name:返回的张量的可选名称前缀。返回值：循环变量的输出张量。

2.8K4 0

在TPU上运行PyTorch的技巧总结

在这里的测试目录中可以找到一个使用并行训练循环的示例（https://github.com/pytorch/xla/blob/master/test/test_train_mnist.py）我想强调与它相关的以下三点...具体地说张量形状在迭代之间是相同的，这也限制了mask的使用。应避免步骤之间具有不同迭代次数的循环。不遵循准则会导致（严重）性能下降。不幸的是，在损失函数中，我需要同时使用掩码和循环。...只需对所有张量执行 my_tensor.cpu().detach().numpy() 即可。当然，它不适用于需要跟踪梯度的张量，并且由于迁移到CPU而导致自身速度降低。...尝试将训练映像切换到GCP SSD磁盘并不能提高性能。总结总而言之，我在PyTorch / XLA方面的经验参差不齐。...我遇到了多个错误/工件（此处未全部提及），现有文档和示例受到限制，并且TPU固有的局限性对于更具创意的体系结构而言可能过于严格。另一方面，它大部分都可以工作，并且当它工作时性能很好。

2.7K1 0

Jeff Dean推荐：用TPU跑Julia程序，只需不到1000行代码

Jeff Dean在推特上推荐了这篇论文，评价称：“Julia和TPU的结合意味着快速、易于表达的ML计算！” ? 谷歌的Cloud TPU是一种用于机器学习工作负载的很强大的新硬件架构。...谷歌TPU和XLA编译器 2017年，谷歌宣布他们将通过云服务向公众提供其专有的张量处理单元（TPU）机器学习加速器。...每个HLO操作都有两种操作数：静态操作数，它的值必须在编译时可用并配置操作。动态操作数，由上述张量组成。这篇论文介绍了使用这个接口将常规的Julia代码编译带TPU的初步工作。...特别是，我们的方法允许用户在编写模型时充分利用Julia语言的完整表现力，能够编译使用Flux机器学习框架编写的完整机器学习模型，将前向和后向模型传递以及训练loop融合到单个可执行文件，并将其卸载到TPU...这产生了一个非常简单的XLA映射（遍历每个语句，从拼接指令规范获取静态操作数，从类型推断获得动态形状并生成相应的XLA代码）。

1.6K1 0

TensorFlow R1.2 中文文档

，初始化，保存和加载张量等级，形状和类型共享变量线程和队列阅读数据 Supervisor: 长期训练的训练帮手 TensorFlow Debugger（tfdbg）命令行界面教程：MNIST 如何在...tf.contrib.learn中使用TensorFlow Debugger（tfdbg）导出和导入元图 TensorFlow版本语义 TensorFlow数据版本控制：GraphDefs和检查点经常问的问题...教程使用GPU 图像识别如何重新启动新类别的最终层 TF图层指南：构建卷积神经网络卷积神经网络字的矢量表示循环神经网络序列到序列模型具有TensorFlow的大规模线性模型 TensorFlow...线性模型教程 TensorFlow广泛深度学习教程 Mandelbrot集部分微分方程性能性能指南高性能模型基准如何用TensorFlow量化神经网络 XLA概述广播语义为XLA开发新的后端...使用JIT编译操作语义形状和布局使用AOT编译 API文档【r1.1】部署 TensorFlow服务分布式TensorFlow 如何在Hadoop上运行TensorFlow 延伸 TensorFlow

1.8K7 0

JAX 中文文档（五）

这些函数在导出时只被跟踪和降级一次，并且Exported对象包含编译和执行该函数所需的信息，可以在许多具体输入形状上进行编译和执行。...形状多态的正确性我们希望信任导出的程序在编译和执行适用于任何具体形状时产生与原始 JAX 程序相同的结果。...core.max_dim 和 core.min_dim，这样可以将不等式比较延迟到编译时，当形状已知时。...维度变量必须能够从输入形状中解决目前，当调用导出对象时，通过数组参数的形状间接传递维度变量的值是唯一的方法。例如，可以在调用类型为f32[b]的第一个参数的形状中推断出b的值。...Pallas 目前提供的两个选项是恒等变换（其中输入和输出保持不变）和BlockSpec，它通过循环索引确定Ref的固定大小切片。

3401 0

Transformers 4.37 中文文档（九）

张量并行在张量并行中，每个 GPU 处理张量的一个切片，并且仅在需要时聚合完整的张量进行操作。...XLA 规则＃1：您的代码不能具有“数据相关条件” 这意味着任何if语句都不能依赖于tf.Tensor内部的值。例如，此代码块无法使用 XLA 编译！...XLA 规则＃2：您的代码不能具有“数据相关形状” 这意味着代码中所有的tf.Tensor对象的形状不能依赖于它们的值。...例如，函数tf.unique不能与 XLA 一起编译，因为它返回一个包含输入中每个唯一值的tensor。这个输出的形状显然会根据输入Tensor的重复程度而不同，因此 XLA 拒绝处理它！...XLA 规则＃3：XLA 将需要为每个不同的输入形状重新编译您的模型这是一个重要的规则。这意味着如果您的输入形状非常不同，XLA 将不得不一遍又一遍地重新编译您的模型，这将导致巨大的性能问题。

3541 0

JAX 中文文档（十四）

xlog1py 计算 x*log(1 + y)，当 x=0 时返回 0。 xlogy 计算 x*log(y)，当 x=0 时返回 0。 zeta 赫维茨 ζ 函数。...fori_loop(lower, upper, body_fun, init_val, *) 通过归约到jax.lax.while_loop()从lower到upper循环。...有关维度号含义的详细信息，请参阅 XLA 文档。 Parameters: offset_dims (tuple[int, …**]) – gather 输出中偏移到从操作数切片的数组中的维度的集合。...当与 JAX 外部系统（例如将数组导出为可序列化格式）交互或将 key 传递给基于 JAX 的库时，可能需要传统的 key 格式。否则，建议使用类型化的 key。...*): 设置了XLA_FLAGS=--xla_tpu_spmd_rng_bit_generator_unsafe=1 “rbg” 和 “unsafe_rbg” 之间的区别在于，“rbg” 用于生成随机值时使用了较不稳定

1591 0

JAX 中文文档（十六）

您还可以使用jax.stages.Lowered的.out_info属性来获取输出信息（例如树结构、形状和 dtype）。...Bug 修复当copy=True时，jax.numpy.astype()现在总是返回一个副本。之前当输出数组的 dtype 与输入数组相同时，不会进行复制。这可能会导致一些内存使用增加。...Bug 修复当传递具有非有限值的数组给非对称特征分解时发生错误/挂起（#18226）。现在，具有非有限值的数组将产生由 NaN 组成的输出数组。...当降低到 XLA 时，lax.scan 和 scan 原语支持一个 unroll 参数用于循环展开 (#3738)。 Bug 修复：修复重复轴错误的约简 (#3618)。...新功能正向模式自动微分（jvp）对 while 循环的支持（#1980）新的 NumPy 和 SciPy 功能： jax.numpy.fft.fft2() jax.numpy.fft.ifft2

2441 0

tf.compat

class TextLineReader: 一种读取器，它输出由换行符分隔的文件的行。class UnconnectedGradients: 控制当y不依赖于x时梯度计算的行为。....): 返回除法的元素剩余部分。当x < 0 xor y < 0时foldl(...): 维度0上从elems解压缩的张量列表上的foldl。....): 根据索引从params坐标轴中收集切片。gather_nd(...): 将params中的切片收集到一个由指标指定形状的张量中。...当x < 0 xor y < 0时model_variables(...): 返回MODEL_VARIABLES集合中的所有变量。...while_loop(...): 当条件cond为真时，重复body。wrap_function(...): 包装TF 1。将x函数fn转化为一个图函数。

5.3K3 0

PT2 Export - 用于PyTorch的全图捕获机制

不过，对于导出而言，我们希望关注于输入张量形状上的条件。这些被称为shape guards。我们希望使用这些shape guards与用户建立一个约定。...那么，我们接着看看：好的，正如我之前所说，我们在编译时假设静态形状，你所做的基本上就是将其传递给export函数；传入一些示例输入，您将获得一个导出的程序，然后您可以使用与示例完全相同shape的其他输入进行调用...就是将模型导出的所有需要做的事情。事实上，这就是我们在开源项目中自动导出一大堆模型的方式。当然，当无法捕获整个图形时，可能会出现错误。您的错误将指向我刚刚谈到的示例。...这实际上只是一个符号，并使用它来创建一个动态形状规范，用于传递给您的导出调用的输入。然后，唰，您导出的程序可以在具有不同形状的输入上进行调用。以上是在导出时使用动态形状的API例子。...我们还有更广泛的社区：TensorRT和XLA的集成，我们也很兴奋能够与像Apple、ARM和Qualcomm这样的行业领导者在各种集成上合作。那就是这样。请让我们知道你使用export功能的体验。

1431 0

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第12章使用TensorFlow自定义模型并训练

JIT编译器对计算速度和内存使用优化。...当编译模型时，可以使用这个类的实例： model.compile(loss=HuberLoss(2.), optimizer="nadam") 保存模型时，阈值会一起保存；加载模型时，只需将类名映射到具体的类上...，就算对于特别大的输入值，也能得到正确的结果（但是，因为指数运算，主输出还是会发生爆炸；绕过的方法是，当输出很大时，使用tf.where()返回输入）。...因为fit()方法智能使用一个优化器（编译时设置的优化器），要实现这篇论文就需要写自定义循环。你可能还想写自定义的训练循环，只是想让训练过程更加可控（也许你对fit()方法的细节并不确定）。...分析完源码之后，自动图中的所有控制流语句都被替换成相应的TensorFlow方法，比如tf.while_loop()（while循环）和tf.cond()（if判断）。

5.3K3 0

TensorFlow 2.0 快速入门指南：第一部分

标量（简单数字）是等级 0 的张量，向量是等级 1 的张量，矩阵是等级 2 的张量，三维数组是等级 3 的张量。张量具有数据类型和形状（张量中的所有数据项必须具有相同的类型）。...参差不齐的尺寸是具有可能具有不同长度的切片的尺寸。声明参差不齐的数组的方法有很多种，最简单的方法是常量参差不齐的数组。...如果使用'valid'填充，则不会进行填充，并且如果跨度和内核大小的组合不能完全适合该层，则该层将被截断。...当要学习的类互斥时使用此函数，以使 softmax 层输出的概率总计为 1。它被实现为在密集层上的激活。...，使用loss函数；当softmax函数用作 ANN 的最后一层的输出时，将使用此loss函数。

4.3K1 0

TensorFlow正式发布1.5.0，支持CUDA 9和cuDNN 7，双倍提速

并且，从1.6版本开始，预编译二进制文件将使用AVX指令，这可能会破坏老式CPU上的TF。...下面是这次更新的重大变动及错误修复。重大变动现在预编译的二进制文件是针对CUDA 9和cuDNN 7构建的。从1.6版本开始，预编译二进制文件将使用AVX指令。这可能会破坏老式CPU上的TF。...加速线性代数（XLA）：将complex64支持添加到XLA编译器。 bfloat支持现在被添加到XLA基础设施。使ClusterSpec propagation与XLA设备一起工作。...Bug修复：修正分区整型变量得到错误形状的问题。修正Adadelta的CPU和GPU实现中的correctness bug。修复import_meta_graph在处理分区变量时的错误。...修改自定义导出策略以说明多维稀疏浮动分割。 Conv2D，Conv2DBackpropInput，Conv2DBackpropFilter现在支持具有GPU和cuDNNv6支持的任意扩展。

1K6 0

谷歌发布 TensorFlow 1.6.0，针对 CUDA 9.0 和 cuDNN 7 预构建二进制文件

日前，谷歌发布 TensorFlow 1.6.0 正式版，带来了多项更新和优化，雷锋网 AI 研习社将谷歌官方介绍编译如下：重大改进：针对 CUDA 9.0 和 cuDNN 7 预构建二进制文件...；预构建的二进制文件将使用 AVX 指令，这可能会破坏较老的 CPU 上的 TF。...{FinalExporter,LatestExporter} 可以导出剥离的 SavedModels，这增加了 SavedModels 的前向兼容性； FFT 支持添加到 XLA CPU / GPU；...tf.matmul 的两输入都是 bfloat16 时，它将返回 bfloat16，而不是 float32；增加了 tf.contrib.image.connected_components；增加了可让原子变量访问的...tf.contrib.framework.CriticalSection；分类任务的树预测上输出变化；对于 pt 和 eval 指令，可允许张量值以 numpy 文件写入 filesystem；

86310 0

JAX 中文文档（十三）

当 jax_array 标志为真时，所有 JAX 函数将输出 jax.Array。...当意图明确时，此行为很方便，但也可能导致意外的错误，其中静默的秩提升掩盖了潜在的形状错误。...JAX 版本的这类函数将返回副本，尽管在使用jax.jit()编译操作序列时，XLA 通常会进行优化。 NumPy 在将值提升为float64类型时非常积极。...一些 NumPy 例程具有依赖数据的输出形状（例如unique()和nonzero()）。因为 XLA 编译器要求在编译时知道数组形状，这些操作与 JIT 不兼容。...当未给出 s 时，最终变换轴上的输出长度为 2*(m-1)，其中 m 是输入的最终变换轴的长度。要在最终轴上得到奇数个输出点，必须指定 s。

2061 0

JAX 中文文档（十二）

当输出 pspec 中未提到网格轴名称时，它表示一个未平铺：当用户编写一个输出 pspec，其中未提到网格轴名称之一时，他们保证输出块在该网格轴上是相等的，因此在输出中仅使用该轴上的一个块（而不是沿该网格轴将所有块连接在一起...集体矩阵乘法可以用来实现重叠，但很难触发，具有最小切片大小，并且尚未涵盖所有拓扑结构、张量形状和集体矩阵乘法的变体（即延迟和吞吐量优化的变体）。...这些重塑是笨拙的，编译器通常将它们解释为复制而不是视图，增加了内存和时间的使用。这些缺点在仅进行批量数据并行时并不算太糟糕。但是当涉及更多并行处理时，pmap 就显得力不从心！...问题出现在psum和all_gather，特别是当收集的输出作为未映射的输出返回给调用者时。...对于调用者来说，每个操作数根据其映射的网格轴进行切片，而对于未映射的网格轴，则没有切片。当对应的out_specs条目未提及该网格轴的名称时，输出沿着网格轴是未映射的。

2261 0

深度学习长文｜使用 JAX 进行 AI 模型训练

在本文中，我们将使用 Flax，据本文撰写时的观察，它似乎是最受欢迎的选择。 JAX 幕后花絮 — XLA 编译 JAX 的强大之处在于它利用了 XLA 编译技术。...实际上，XLA 编译并非 JAX 独有，TensorFlow 和 PyTorch 也都提供了使用 XLA 的选项。不过，与其它流行框架相比，JAX 从设计之初就全面拥抱了 XLA。...XLA JIT 编译器会对模型的计算图进行全面分析，将连续的张量操作合并为单一内核，剔除冗余的图组件，并生成最适合底层硬件加速器的机器代码。...依赖 XLA 也带来了一些局限性和潜在问题。特别是，许多 AI 模型，包括那些具有动态张量形状的模型，在 XLA 中可能无法达到最佳运行效果。需要特别注意避免图断裂和重新编译的问题。...在下面的脚本中，我们包含了使用 PyTorch 基于图形的 JIT 编译选项的控件，使用 torch.compile 和 torch_xla： def train(batch_size, mode, compile_model

1921 1

张量 101

，当 x 第二个维度的元素 (x.shape[1]) 和 y 第一个维度的元素 (y.shape[0]) 个数相等时，np.dot(X, Y) 才有意义，点乘得到的结果形状= (X.shape[0],...nD 张量和 mD 张量 (当 m ≥ 2 时) 的点乘。...广播机制当对两个形状不同的张量按元素操作时，可能会触发广播机制。...在编写 softmax 时需要注意的是，当 s 太大或太小，分母可能无穷大或者是零，这样会造成上溢 (overflow) 和下溢 (underflow) 问题。...和 b，那么在优化求解中，两个问题最重要怎样有效的推导出误差函数对所有函数的偏导数？

2.9K2 0

盘一盘 Python 系列 10 - Keras (上)

在编码推文时，将 280 个字符的序列用独热编码 (one-hot encoding) 到包含 128 个字符的 ASCII 表，如下所示。 ?...如果收集到 1 百万条推文，那么整个数据集的形状为 (1000000, 280, 128)。传统机器学习的对率回归可以来做情感分析。 3 维张量的数据表示图如下： ?...当模型还没训练时，W 是随机初始化，而 b 是零初始化。最后检查一下它们的形状。...1.4 编译模型当构建模型完毕，接着需要编译（compile）模型，需要设定三点：根据要解决的任务来选择损失函数选取理想的优化器选取想监控的指标代码如下： ?...使用优化器对象来编译模型的好处是可以调节里面的超参数比如学习率 lr，使用名称则来编译模型只能采用优化器的默认参数，比如用 Adam 里面的学习率 0.001。

1.8K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭