腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
AVX2
可以
在
单词
数组
上
实现
更快
的
处理
吗
?
x86
、
simd
、
avx
、
micro-optimization
、
avx2
我需要
使用
LZCNT进行位扫描反转一个字
数组
: 16位。
在
英特尔最新一代
处理
器
上
,LZCNT
的
吞吐量是每个时钟执行1次。AMD Ryzen
上
的
吞吐量似乎是4。我正在尝试寻找一种
使用
AVX2
指令集来提高速度
的
算法。 我知道AVX-512有32位元素
的
VPLZCNTD,所以如果我有AVX512CD,我就
可以
解包并
使用
它。
使用
<em
浏览 12
提问于2019-05-15
得票数 7
回答已采纳
2
回答
在
C++中
实现
AES : 4x4
数组
的
unint8_t,还是4x1
数组
的
uint32_t?
aes
、
implementation
我
在
C++中
实现
了AES,并且受到SHA
处理
单词
的
方式
的
启发,这次我决定将状态
处理
为一个由4字节无符号整
数组
成
的
一维
数组
,而不是二维字节
数组
。为了从每个
单词
中提取字节,我
使用
shifts和mod。例如,要获得状态0中
的
第一个字节,我将检索byteA = (state0 >> 24);获得第二个字节,byteB = (state0 &g
浏览 0
提问于2012-11-16
得票数 2
1
回答
256位块
的
CRC计算
x86
、
crc
、
intrinsics
我
在
新版本
的
AVX2
上
使用
256个位变量(
AVX2
类型),我
使用
英特尔
的
本质。在此之前,
使用
64位块来
处理
数据。因此,采用_mm_crc32_u64函数进行CRC计算。crc = _mm_crc32_u64(seed,*chunk_64bit); 但是现在,为了提高性能,我想分别计算每个256位块(至少128位块)
的
CRC。一种方法
可以
是
在
循环中应用_mm_crc
浏览 9
提问于2017-04-12
得票数 0
2
回答
当我
在
支持
avx2
的
机器
上
编译并在另一台只支持avx
的
机器
上
运行二进制文件时会发生什么?
c++
、
avx
、
avx2
我
在
一台支持c++
的
机器
上
编译了我
的
avx2
程序(IntelE5-2643 V3)。它编译并运行得很好。我确认
使用
了
avx2
指令,因为
在
我对二进制进行集成之后,我看到了
avx2
指令,比如vpbroadcastd。然后,我
在
另一台只有avx指令集(IntelE5-2643 V2)
的
机器
上
运行这个二进制文件。它运行也很好。二进制是否运行在向后兼容
的
avx指令
上
浏览 0
提问于2018-06-29
得票数 4
回答已采纳
1
回答
使用
AVX2
实现
的
GEMM内核比
在
Zen 2 CPU
上
实现
的
AVX2
2/FMA
更快
assembly
、
matrix-multiplication
、
simd
、
avx
、
micro-optimization
我尝试过加速一个玩具GEMM
的
实现
。我
处理
32x32双倍
的
块,我需要一个优化
的
MM内核。我
可以
访问
AVX2
和FMA。下面定义了两个代码(
在
ASM中,我对格式
的
粗糙表示歉意),一个是
使用
AVX2
特性,另一个是
使用
FMA。
在
不进行微基准测试
的
情况下,我想尝试理解为什么
AVX2
实现
比FMA版本快1.11倍。下面的代
浏览 14
提问于2021-12-13
得票数 6
回答已采纳
1
回答
具有线性时间查找
的
字符串
数组
string
、
matlab
、
data-structures
我
在
Matlab中进行字符串
处理
,通常
使用
单元格
数组
来存储文本中
的
单个
单词
a = {'this', 'is', 'an', 'array', 'of', 'strings'} 为了在这个
数组
中搜索
单词
'of‘,我循环遍历该
数组
,并根据我
的
单词
检查每个元素。这个方
浏览 2
提问于2012-01-25
得票数 2
回答已采纳
1
回答
OpenCL Copy-一次共享大量内容
opencl
我正在
使用
OpenCL
实现
一个解决方案,我想做以下事情,例如,你有一个大
的
数据
数组
,你想在图形
处理
器中复制一次,并让许多内核
处理
这些数据
的
批
处理
,并将结果存储
在
它们特定
的
输出缓冲区中。真正
的
问题是哪种方式
更快
?将每个内核与它需要
的
数组
的
一部分排入队列,或者提前传递整个
数组
,并让每个内核(
在
相同
浏览 1
提问于2013-05-05
得票数 3
回答已采纳
1
回答
在
一个大型文本文件sed或awk中多个
单词
替换
的
最佳方法是什么?
linux
、
awk
、
sed
我
在
一个大
的
文本文件中有一个要替换
的
单词
列表。我想知道哪个命令sed/awk最适合执行操作。另外,sed/awk是否逐行读取文本文件,还是将整个文件加载到内存中?
浏览 0
提问于2022-08-14
得票数 -1
2
回答
将字符串转换为整数列表
python
、
list
、
dictionary
我需要将一串
单词
矢量化,我正在寻找
更快
的
方法来
实现
它。我
可以
这么做:symbols = ["a&q
浏览 0
提问于2018-08-19
得票数 0
回答已采纳
2
回答
用hashCode获取
数组
java元素
的
索引
java
、
arrays
、
hash
、
hashcode
我有一个包含很多
单词
的
字符串
数组
。我希望得到
数组
中包含
的
单词
的
索引(如果不包含-1)。 我首先做了一个循环来搜索
数组
中
的
所有元素,同时递增一个变量,当我找到它时,我会返回变量
的
值。然而,
数组
可能非常大,所以搜索所有元素
的
速度都非常慢。我已经决定,
在
我
的
字符串
数组
中添加一个新
单词
之前,我将
使用
h
浏览 0
提问于2018-12-17
得票数 2
回答已采纳
1
回答
提示编译器
可以
使用
对齐
的
memcpy。
c
、
glibc
、
memcpy
、
memory-alignment
、
avx
__m256 zl,zh;} bloxset8_t; 我通过对动态分配
的
数据
使用
posix_memalign()函数或对静态分配
的
数据
使用
(aligned(32))属性来
实现
32字节对齐。对齐很好,但是当我
使用
指向这样一个结构
的
两个指针并将它们作为memcpy()
的
目标和源传递时,编译器决定
使用
__memcpy_avx_unaligned()进行复制。我如何强迫clang
使用
浏览 2
提问于2017-11-10
得票数 5
回答已采纳
1
回答
GPU-带纹理
的
CUDA中
的
性能
.net
、
cuda
我有一个关于NVIDIA GPU性能
的
问题。我有一个
实现
,我
在
两个
数组
之间进行插值。
使用
倾斜到线性内存
的
纹理比
使用
CUDA
数组
更快
。目前,我只
在
一个GPU
上
试用了它。每个GPU
上
都是这样
吗
?或者会有差异
吗
?我
在
笔记本电脑
上
使用
GPU。桌面GPU是否
更快
?因为目前我只获得了2-
浏览 1
提问于2012-11-21
得票数 3
回答已采纳
3
回答
在
数组
中存储和访问字符串
的
最快方法
java
、
arrays
、
hash
、
hash-function
我知道我
可以
通过这样
的
for循环(参见代码),我也
可以
用同样
的
方式添加到
数组
中,但有没有
更快
的
方法。我不想
使用
任何其他
的
java API,因为我想练习
数组
的
。
使用
散列函数
可以
让我
更快
地存储变量,然后
更快
地找到某个
单词
吗
?
浏览 2
提问于2014-11-20
得票数 0
2
回答
Python和tfidf算法,让它
更快
?
python
、
dictionary
、
tf-idf
我正在
使用
Python
在
web应用程序中
实现
算法,但是它运行得非常慢。我所做
的
基本
上
是: 现在,有一个用户请求获取文档d
的
tfidf结果。2)循环
处理
文档d
的
第二词典中唯一<
浏览 3
提问于2011-08-27
得票数 6
回答已采纳
9
回答
优化字数
hash
、
dictionary
、
count
、
word
、
trie
(到目前为止,这在性质
上
是相当假设
的
,所以我没有太多细节
可以
提供。)我
的
两个出乎意料
的
想法是
使用</em
浏览 1
提问于2009-11-03
得票数 4
回答已采纳
1
回答
将
单词
字符串列表与正则表达式列表进行比较
的
算法
java
、
regex
、
algorithm
、
arraylist
我想从textToBeTested
数组
中从expList中计算
单词
的
存在。有什么
更快
的
算法或
实现
我
可以
使用
吗
?String[] textToBeTested = {"this"
浏览 3
提问于2014-06-23
得票数 3
回答已采纳
1
回答
是否
可以
创建AVX/SSE值
的
大型
数组
intel
、
sse
、
simd
、
avx
、
avx2
我正在
使用
AVX2
/SSE指令并行化某个动态编程问题。struct Cell { _m256i
浏览 1
提问于2015-05-10
得票数 2
3
回答
如何在Windows
上
用SSE和AVX指令编译张量流?
c++
、
windows
、
msbuild
、
tensorflow
随着最新版本
的
张量流现在在windows
上
,我正在努力让一切都尽可能有效地工作。然而,即使从源代码编译,我似乎仍然不知道如何启用SSE和AVX指令。有谁知道
使用
MSBuild打开这些高级指令
的
简单方法
吗
?我听说他们
的
速度至少提高了3倍。为了帮助那些寻找类似解决方案的人,这是我目前收到
的
警告,如下所示: 我
在
64位平台<
浏览 0
提问于2017-03-05
得票数 7
1
回答
用avx
在
triu_indices中
实现
numpy
的
c++
c++
、
numpy
、
vectorization
、
sse
、
avx
我想
实现
numpy.triu_indices(a,1) (请注意,第二个参数是1)
在
带有avx
的
c++中。下面的代码片段是我提出
的
代码
的
非矢量化版本。index++;}first = [0,0,0,1,1,2]现在,我想在
AVX2
中完全
实现
这一点(这是一种矢量化
的
方式)。最终,该函数将运行在整个in
数组
<em
浏览 0
提问于2018-05-25
得票数 0
回答已采纳
1
回答
我
可以
使用
AVX2
散射指令来加速一些负载
吗
?
c++
、
avx2
我分析了我所拥有的一个
AVX2
2重函数,瓶颈如下所示:// Later on use data[6], data[4], data[2], and data[0] in a similar fashion 实际
上
,
数组
也是适当对齐
的
(所以是load而不是loadu)。但问题是,用AVX(2)是否
浏览 3
提问于2014-07-02
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何将Numpy加速700倍?用 CuPy 呀
先定一个小目标,使用Python分析 14 亿条数据吧!
图书推荐:算法
Keras文本分类实战(下)
使用 Python 分析 14 亿条数据
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券