腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
优化
构造
标签
函数
,
使其
适用于
并行
处理
。
我
的
代码
中
的
For
循环
正在
造成
瓶颈
python
、
pytorch
batch_tensor_label = torch.stack(batch_list,0) return batch_tensor_label
我
想以更火炬
的
方式
优化
这个
函数
,避免construct_label
循环
。有没有一种
优化
的
方法来做到这一点。
浏览 25
提问于2021-08-16
得票数 1
回答已采纳
1
回答
Visual 2010性能分析向导。OpenMP
visual-c++
、
openmp
我
正在
visual 2010
中
编写一个c++应用程序。
我
在“性能向导”下运行
我
的
代码
,花费了将近17秒钟。这些
代码
非常适合多线程,所以我添加了openmp指令。在那之后,
我
再次运行
我
的
代码
,它还需要将近17秒。所以,
我
想知道性能向导是如何
优化
代码
的
?它是分析
代码
并
使其
成为多线
浏览 3
提问于2012-05-20
得票数 0
回答已采纳
2
回答
用Python加速数学计算
python
、
arrays
、
math
、
numpy
、
cython
我
目前
正在
尝试
优化
一个程序。主要
的
瓶颈
实际上是在numpy数组上运行
的
简单
的
单行计算,例如:(宝洁这是浮标和v_dt -大约500个长
的
浮点数数组)问题是,这个小
函数
(
我
有几个类似的
函数
)在一个
循环</
浏览 1
提问于2015-07-30
得票数 3
回答已采纳
1
回答
优化
直方图更新
c++
、
optimization
、
signal-processing
我
正在
更新一个直方图,它使用一个简单
的
整数数组来表示,具有16个柱状图,如下所示。Short is 16 bits{}
我
在TI数字信号
浏览 1
提问于2017-04-28
得票数 1
3
回答
这段
代码
的
瓶颈
在哪里?
c++
、
c
、
optimization
、
gcc
、
x86
我
有下面的紧凑
循环
,它构成了
我
的
代码
的
串行
瓶颈
。理想情况下,我会将调用此
函数
的
函数
并行
化,但这是不可能
的
。]; z[k*n+i+1]= s*fzer+c*fone;} 有没有可以做
的
优化
,比如矢量化或一些邪恶
的</
浏览 2
提问于2012-12-16
得票数 1
回答已采纳
1
回答
c++如何
优化
经常被调用
的
函数
?
c++
、
if-statement
、
optimization
、
inline
我
有一个
函数
,我们将其命名为isLinked(),它检查
我
的
对象是否链接到相同类型
的
其他对象。问题是,这个
函数
在很短
的
时间内会被频繁调用。
我
说
的
是在
处理
信息
的
某个阶段有几百万次。您对如何
优化
这一点有什么想法吗?我们应该为每个对象使用一个专用
的
bool吗?或者这只会
造成
可能
的
不一致?
我
对
代码
<e
浏览 0
提问于2015-10-20
得票数 0
2
回答
这个概念可以用OpenMP进行
优化
吗?
optimization
、
parallel-processing
、
openmp
我
不想使用
代码
,因为它是一个常见
的
概念: 假设我们有这样一个场景,一个
函数
既不太大也不太小,而且本身也不能很容易地通过OpenMP
的
循环
优化
进行
优化
。然而,它是一个在整个项目运行过程中被调用数百万次
的
函数
,在
代码
中
只有几百种不相关
的
情况。内联本身似乎做不了太多事情(默认情况下打开
优化
的
gcc结果),并
使其
成为宏
浏览 0
提问于2010-11-23
得票数 0
回答已采纳
2
回答
如何
优化
石英2d?
iphone
、
objective-c
、
optimization
我
有一段
代码
,它本质上是: CGPoint points[2] = {CGPointMake(i,0),CGPointMake(i,bArray[i])}; } 当aInt变大时,这可能会
造成
一些
瓶颈
,就像我
的
情况一样
我
对quartz 2d
的
了解还不够多,无法知道如何
浏览 2
提问于2010-01-04
得票数 2
回答已采纳
3
回答
C#
中
的
并行
性
c#
、
parallel-processing
我
读到.NET C#内置了任务和数据
并行
性。如果
我
在一个有4个核心
的
计算机上运行一个for/foreach
循环
(4个windows任务管理器),这个
循环
会均匀地分布在这4个核心中吗?如果不是,为什么for/foreach
循环
在默认情况下不能在4个内核
中
并行
运行? 一般来说,
并行
性比传统编程更好吗?利大于弊吗?
我
正在
进行大量
的
数据
处理</
浏览 0
提问于2012-05-08
得票数 0
回答已采纳
5
回答
std::min(int)在c++
中
的
效率
c++
、
performance
、
std
在
我
的
代码
中有一个
循环
,迭代1亿次(一个模拟模型
的
1亿次复制所必需
的
)。对于每一个1亿次迭代,
我
从数组(myarray)
中
检索一个值,方法是对名为age
的
整数变量进行索引。由于数组
的
长度,仅对myarray[age]进行age=0,...,99索引是有效
的
。然而,age
的
实际域是0,...,inf。所以,
我
有以下功能 int tidx(const int&
浏览 7
提问于2013-05-24
得票数 4
回答已采纳
5
回答
如何
优化
MATLAB
循环
?
optimization
、
matlab
、
loops
我
最近一直在研究MATLAB
中
的
一些迭代算法,当涉及到
循环
时,MATLAB
的
性能(或缺乏性能)给我带来了沉重
的
打击。
我
知道在可能
的
情况下向量化
代码
的
好处,但是当你需要算法
的
循环
时,有没有什么
优化
工具呢?
我
知道用C/C++编写小型子例程
的
MEX-file选项,尽管给出了
我
的
算法,但考虑
浏览 5
提问于2010-03-02
得票数 4
回答已采纳
1
回答
numpy多条件嵌套
循环
的
矢量化
python
、
numpy
关于试图在含噪周期信号和准周期信号中产生自动峰值检测,由Felix、Jens Boss和Martin Wolf在Python
中
编写,
我
在实现过程
中
遇到了一个绊脚石。在尝试
优化
时,
我
注意到嵌套
的
for
循环
正在
造成
处理
时间
的
瓶颈
(平均需要115394 ms才能完成)。是否有更有效
的
方法来
构造
嵌套
的
for
循环
?注:这
浏览 2
提问于2016-03-10
得票数 2
回答已采纳
1
回答
用于卷积
的
填充图像(图像
处理
)
c#
、
image
我
写了以下例程。有更快
的
方法来填充图像进行图像
处理
吗? 如何
优化
它们以获得更好
的
性能?注:注释掉
的
代码
需要进行广泛
的
调试,并打算将来包括在内。所以,这些都是可选
的
,你现在可以考虑。
浏览 0
提问于2016-08-28
得票数 1
回答已采纳
3
回答
Parallel for vs omp simd:何时使用每个?
c++
、
c
、
performance
、
openmp
、
simd
引入了一种名为"omp simd“
的
新结构。与旧
的
“
并行
”相比,使用这种
构造
有什么好处?什么时候两者都是比另一个更好
的
选择呢? 编辑:这是一个与SIMD指令相关
的
有趣
的
。
浏览 1
提问于2013-02-03
得票数 63
回答已采纳
2
回答
如何利用Tensorflow 100%
的
GPU内存?
python
、
tensorflow
我
有一个32 my
的
显卡,在
我
的
脚本开始时
我
看到:
我
的
问题是在运行OOM之前,<e
浏览 2
提问于2019-07-11
得票数 5
3
回答
图形
处理
器
中
的
并行
性- CUDA / OpenCL
cuda
、
opencl
我
对图形
处理
器上
的
CUDA或OpenCL
代码
的
并行
性有一个一般性
的
问题。
我
使用
的
是NVIDIA GTX 470。
我
在Cuda编程指南中简短地阅读了一下,但没有找到相关
的
答案,因此在这里提问。对于3个不同
的
数据集(图像数据R,G,B),这个顶级
函数
本身在主
函数
的
“for
循环
”中被调用了3次,而实际
的</
浏览 1
提问于2011-12-22
得票数 4
回答已采纳
3
回答
用于粒子模拟
的
并行
OpenMP
代码
性能差
c++
、
parallel-processing
、
openmp
我
试图
并行
化一个基于粒子
的
模拟
代码
,并体验到基于OpenMP
的
方法
的
糟糕性能。
我
的
意思是: 下面的伪
代码
说明了实现
的
所有
浏览 5
提问于2012-12-27
得票数 2
4
回答
模板类
的
创建
造成
了主要
的
瓶颈
c++
、
templates
、
vector
我
正在
尝试编写一个科学
的
图形库,它可以工作,但我有一些性能问题。在创建图形时,
我
为节点使用了一个模板类,并执行如下操作 m_NodeList.push_back(Node<T>(m_NodeCounter++)); 尽管在node类
的
构造
函数
中
几乎什么都没有发生(指定了几个变量),但这部分是
我
浏览 1
提问于2011-12-15
得票数 0
回答已采纳
1
回答
在使用
并行
优化
标志时,我们需要定义什么?
parallel-processing
、
fortran
我
有一个有100多个子例程
的
程序,
我
试图让这段
代码
运行得更快,
我
正在
尝试使用
并行
标志编译这些子例程。
我
想知道如果
我
想使用
并行
标志,
我
需要在程序
中
定义哪些变量或参数。与没有
并行
标志
的
程序相比,只使用
并行
优化
标志增加了
我
的
程序
的
运行时间。 任何建议都是非常感谢<
浏览 0
提问于2013-02-01
得票数 0
回答已采纳
3
回答
编译器是否利用多线程来加快编译时间?
multithreading
、
compiler
、
parsing
如果
我
正确地记得
我
的
编译器课程,典型
的
编译器有以下简化
的
大纲:输入字符
的
字符串将与词名字典检查是否有效。如果lexeme是有效
的
,则将其归类为它对应
的
令牌。从理论上讲,将源
代码
划分为季度(或任何分母)和多线程(扫描和解析过程)是否可行?是否存在利用多线程
的
编译器?
浏览 0
提问于2016-06-16
得票数 21
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
C/C+不可不知道的编程技巧!
Kotlin 第一弹:自定义 ViewGroup 实现流式标签控件
Python数据预处理:使用Dask和Numba并行化加速
比Python快100倍,利用spaCy和Cython实现高速
教程 | 比Python快100倍,利用spaCy和Cython实现高速NLP项目
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券