优化构造标签函数，使其适用于并行处理。我的代码中的For循环正在造成瓶颈

python、pytorch

batch_tensor_label = torch.stack(batch_list,0) return batch_tensor_label 我想以更火炬的方式优化这个函数，避免construct_label循环。有没有一种优化的方法来做到这一点。

浏览 25提问于2021-08-16得票数 1

回答已采纳

1回答

Visual 2010性能分析向导。OpenMP

visual-c++、openmp

我正在visual 2010中编写一个c++应用程序。我在“性能向导”下运行我的代码，花费了将近17秒钟。这些代码非常适合多线程，所以我添加了openmp指令。在那之后，我再次运行我的代码，它还需要将近17秒。所以，我想知道性能向导是如何优化代码的？它是分析代码并使其成为多线

浏览 3提问于2012-05-20得票数 0

回答已采纳

2回答

用Python加速数学计算

python、arrays、math、numpy、cython

我目前正在尝试优化一个程序。主要的瓶颈实际上是在numpy数组上运行的简单的单行计算，例如：(宝洁这是浮标和v_dt -大约500个长的浮点数数组)问题是，这个小函数(我有几个类似的函数)在一个循环</

浏览 1提问于2015-07-30得票数 3

回答已采纳

1回答

优化直方图更新

c++、optimization、signal-processing

我正在更新一个直方图，它使用一个简单的整数数组来表示，具有16个柱状图，如下所示。Short is 16 bits{}我在TI数字信号

浏览 1提问于2017-04-28得票数 1

3回答

这段代码的瓶颈在哪里？

c++、c、optimization、gcc、x86

我有下面的紧凑循环，它构成了我的代码的串行瓶颈。理想情况下，我会将调用此函数的函数并行化，但这是不可能的。]; z[k*n+i+1]= s*fzer+c*fone;} 有没有可以做的优化，比如矢量化或一些邪恶的</

浏览 2提问于2012-12-16得票数 1

回答已采纳

1回答

c++如何优化经常被调用的函数？

c++、if-statement、optimization、inline

我有一个函数，我们将其命名为isLinked()，它检查我的对象是否链接到相同类型的其他对象。问题是，这个函数在很短的时间内会被频繁调用。我说的是在处理信息的某个阶段有几百万次。您对如何优化这一点有什么想法吗？我们应该为每个对象使用一个专用的bool吗？或者这只会造成可能的不一致？我对代码<e

浏览 0提问于2015-10-20得票数 0

2回答

这个概念可以用OpenMP进行优化吗？

optimization、parallel-processing、openmp

我不想使用代码，因为它是一个常见的概念：假设我们有这样一个场景，一个函数既不太大也不太小，而且本身也不能很容易地通过OpenMP的循环优化进行优化。然而，它是一个在整个项目运行过程中被调用数百万次的函数，在代码中只有几百种不相关的情况。内联本身似乎做不了太多事情(默认情况下打开优化的gcc结果)，并使其成为宏

浏览 0提问于2010-11-23得票数 0

回答已采纳

2回答

如何优化石英2d？

iphone、objective-c、optimization

我有一段代码，它本质上是： CGPoint points[2] = {CGPointMake(i,0),CGPointMake(i,bArray[i])}; } 当aInt变大时，这可能会造成一些瓶颈，就像我的情况一样我对quartz 2d的了解还不够多，无法知道如何

浏览 2提问于2010-01-04得票数 2

回答已采纳

3回答

C#中的并行性

c#、parallel-processing

我读到.NET C#内置了任务和数据并行性。如果我在一个有4个核心的计算机上运行一个for/foreach循环(4个windows任务管理器)，这个循环会均匀地分布在这4个核心中吗？如果不是，为什么for/foreach循环在默认情况下不能在4个内核中并行运行？一般来说，并行性比传统编程更好吗？利大于弊吗？我正在进行大量的数据处理</

浏览 0提问于2012-05-08得票数 0

回答已采纳

5回答

std::min(int)在c++中的效率

c++、performance、std

在我的代码中有一个循环，迭代1亿次(一个模拟模型的1亿次复制所必需的)。对于每一个1亿次迭代，我从数组(myarray)中检索一个值，方法是对名为age的整数变量进行索引。由于数组的长度，仅对myarray[age]进行age=0,...,99索引是有效的。然而，age的实际域是0,...,inf。所以，我有以下功能 int tidx(const int&

浏览 7提问于2013-05-24得票数 4

回答已采纳

5回答

如何优化MATLAB循环？

optimization、matlab、loops

我最近一直在研究MATLAB中的一些迭代算法，当涉及到循环时，MATLAB的性能(或缺乏性能)给我带来了沉重的打击。我知道在可能的情况下向量化代码的好处，但是当你需要算法的循环时，有没有什么优化工具呢？我知道用C/C++编写小型子例程的MEX-file选项，尽管给出了我的算法，但考虑

浏览 5提问于2010-03-02得票数 4

回答已采纳

1回答

numpy多条件嵌套循环的矢量化

python、numpy

关于试图在含噪周期信号和准周期信号中产生自动峰值检测，由Felix、Jens Boss和Martin Wolf在Python中编写，我在实现过程中遇到了一个绊脚石。在尝试优化时，我注意到嵌套的for循环正在造成处理时间的瓶颈(平均需要115394 ms才能完成)。是否有更有效的方法来构造嵌套的for循环？注:这

浏览 2提问于2016-03-10得票数 2

回答已采纳

1回答

用于卷积的填充图像(图像处理)

c#、image

我写了以下例程。有更快的方法来填充图像进行图像处理吗？如何优化它们以获得更好的性能？注:注释掉的代码需要进行广泛的调试，并打算将来包括在内。所以，这些都是可选的，你现在可以考虑。

浏览 0提问于2016-08-28得票数 1

回答已采纳

3回答

Parallel for vs omp simd:何时使用每个？

c++、c、performance、openmp、simd

引入了一种名为"omp simd“的新结构。与旧的“并行”相比，使用这种构造有什么好处？什么时候两者都是比另一个更好的选择呢？编辑:这是一个与SIMD指令相关的有趣的。

浏览 1提问于2013-02-03得票数 63

回答已采纳

2回答

如何利用Tensorflow 100%的GPU内存？

python、tensorflow

我有一个32 my的显卡，在我的脚本开始时我看到：我的问题是在运行OOM之前，<e

浏览 2提问于2019-07-11得票数 5

3回答

图形处理器中的并行性- CUDA / OpenCL

cuda、opencl

我对图形处理器上的CUDA或OpenCL代码的并行性有一个一般性的问题。我使用的是NVIDIA GTX 470。我在Cuda编程指南中简短地阅读了一下，但没有找到相关的答案，因此在这里提问。对于3个不同的数据集(图像数据R，G，B)，这个顶级函数本身在主函数的“for循环”中被调用了3次，而实际的</

浏览 1提问于2011-12-22得票数 4

回答已采纳

3回答

用于粒子模拟的并行OpenMP代码性能差

c++、parallel-processing、openmp

我试图并行化一个基于粒子的模拟代码，并体验到基于OpenMP的方法的糟糕性能。我的意思是：下面的伪代码说明了实现的所有

浏览 5提问于2012-12-27得票数 2

4回答

模板类的创建造成了主要的瓶颈

c++、templates、vector

我正在尝试编写一个科学的图形库，它可以工作，但我有一些性能问题。在创建图形时，我为节点使用了一个模板类，并执行如下操作 m_NodeList.push_back(Node<T>(m_NodeCounter++)); 尽管在node类的构造函数中几乎什么都没有发生(指定了几个变量)，但这部分是我

浏览 1提问于2011-12-15得票数 0

回答已采纳

1回答

在使用并行优化标志时，我们需要定义什么？

parallel-processing、fortran

我有一个有100多个子例程的程序，我试图让这段代码运行得更快，我正在尝试使用并行标志编译这些子例程。我想知道如果我想使用并行标志，我需要在程序中定义哪些变量或参数。与没有并行标志的程序相比，只使用并行优化标志增加了我的程序的运行时间。任何建议都是非常感谢<

浏览 0提问于2013-02-01得票数 0

回答已采纳

3回答

编译器是否利用多线程来加快编译时间？

multithreading、compiler、parsing

如果我正确地记得我的编译器课程，典型的编译器有以下简化的大纲：输入字符的字符串将与词名字典检查是否有效。如果lexeme是有效的，则将其归类为它对应的令牌。从理论上讲，将源代码划分为季度(或任何分母)和多线程(扫描和解析过程)是否可行？是否存在利用多线程的编译器？

浏览 0提问于2016-06-16得票数 21

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Visual 2010性能分析向导。OpenMP

用Python加速数学计算

优化直方图更新

这段代码的瓶颈在哪里？

c++如何优化经常被调用的函数？

这个概念可以用OpenMP进行优化吗？

如何优化石英2d？

C#中的并行性

std::min(int)在c++中的效率

如何优化MATLAB循环？

numpy多条件嵌套循环的矢量化

用于卷积的填充图像(图像处理)

Parallel for vs omp simd:何时使用每个？

如何利用Tensorflow 100%的GPU内存？

图形处理器中的并行性- CUDA / OpenCL

用于粒子模拟的并行OpenMP代码性能差

模板类的创建造成了主要的瓶颈

在使用并行优化标志时，我们需要定义什么？

编译器是否利用多线程来加快编译时间？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐