linux指令ps_linux ps指令 psxy_linux指令意义 ps - 腾讯云开发者社区

、、、

我试图在我的代码中使用一些AVX本质，并且遇到了一个带有对数本质的砖墙。使用Intrinsics v3.0.1为Linux，我看到内在的_mm256_log_ps(__m256)被列为"immintrin.h“的一部分，并且在我当前的arch上也支持它。然而，试图编译这个简单的测试用例失败了，"error：‘_mm256_log_ps’没有在这个范围内声明“ 示例是用g++-4.8 -march=native -mavx test.cpp编译的。 #include <immintrin.h> int main() { __m256 i;

浏览 3提问于2013-09-11得票数 9

回答已采纳

6回答

在中断处理程序中传递参数

、

假设我们正在为裸机MCU编写固件，即没有操作系统。我被告知这是不可能的(非法？)将参数传递给中断处理函数？我不能确切地理解为什么会这样？这有什么问题吗？ PS。在一些RTOS-es，嵌入式Linux等中是否可能这样做，或者它根本就是错误的？

浏览 0提问于2010-12-07得票数 3

回答已采纳

1回答

使用SSE进行高效的4x4矩阵向量乘法:水平加法和点积--重点是什么？

、、、、

我正在尝试使用SSE找到4x4矩阵(M)与向量(u)乘法的最有效实现。我的意思是Mu = v。据我所知，主要有两种方法： method 1) v1 = dot(row1, u), v2 = dot(row2, u), v3 = dot(row3, u), v4 = dot(row4, u) method 2) v = u1 col1 + u2 col2 + u3 col3 + u4 col4. 方法2很容易在SSE2中实现。方法1可以使用SSE3中的水平加法指令或SSE4中的点积指令来实现。然而，在我的所有测试中，方法2总是优于方法1。我认为方法1具有优势的一个地方是在3x

浏览 0提问于2013-02-20得票数 16

3回答

ps2pdf从paps创建的ps文件创建一个非常大的pdf文件

、、、、

在linux中，我使用ps2pdf在bash脚本中将文本文件report转换为pdf。为了给ps文件提供ps2pdf，我使用了paps命令，因为它是UTF8编码的。问题是来自ps2pdf的pdf文件大约比从paps创建的ps文件大30倍。以前，我使用a2ps将文本转换为ps，然后馈送到ps2pdf，输出的pdf是正常大小并且不大。有没有办法从paps和ps2pdf中减少pdf文件的大小？或者我做错了什么？我使用的命令如下所示。 paps --landscape --font="Freemono 10" textfile.txt > textfile.ps ps2

浏览 21提问于2014-09-27得票数 0

2回答

mod_rewrite在Linux中工作，但在Windows中不工作。

、、、、

大家都知道阿帕奇和mod_rewrite的黑魔法. 而且我也有问题..。我刚刚从这里下载了Apache2.4 ，并使用以下行启用了mod_rewrite LoadModule rewrite_module modules/mod_rewrite.so httpd.exe -v输出 Server version: Apache/2.4.10 (Win64) Apache Lounge VC10 Server built: Jul 19 2014 12:25:58 我的httpd.conf 和我的.htaccess .htaccess适用于我的MVC框架提前感谢您的帮助 PS：.hta

浏览 6提问于2014-08-29得票数 3

回答已采纳

3回答

如何在C6678 DSP上使用SSE指令集？

、、、、

SSE只能在x86 x64 CPU上使用。我在TI C6678上使用SPEEXDSP库有问题。我从来没有使用过SSE指令，我尝试过很多方法，也无法让它在DSP上工作。是否可以将SSE指令修改为普通的C++指令？如何修改？期待您的回复。示例： static inline double interpolate_product_double(const float* a, const float* b, unsigned int len, const spx_uint32_t oversample, float* frac) { int i; double ret; __m128d sum; __

浏览 17提问于2022-02-21得票数 3

1回答

如何解决vfmadd213ps的“非法指令”？

、、、、

我已经尝试过AVX的内部功能。但它导致了“test.exe: 0xC000001D中0x00E01555处的未处理异常:非法指令。” 我使用的是Visual studio 2015。并且异常错误是在"vfmadd213ps ymm2，ymm1，ymm0“指令中引起的。我试过设置"/arch:AVX“和"/arch:AVX2"，但仍然出错。下面是我的代码。 #include <immintrin.h> int main(int argc, char *argv[]) { float a[8] = { 0 };

浏览 27提问于2019-07-23得票数 1

回答已采纳

1回答

为什么单周期处理器在读和写时不产生寄存器延迟？

、、、、

我想知道为什么最后一次寄存器写入延迟(200)没有增加？更准确地说，关键路径是由加载指令的延迟决定的，那么为什么关键路径不是 + Regs + Mux + ALU ++ MUX + Regs 但实际上 + Regs + Mux + ALU ++ MUX 背景在以下三个问题中，假设我们从图4.2的数据路径开始，其中In、Add、Mux、ALU、Regs、D和Control块的延迟分别为400 ps、100 ps、30 ps、120 ps、200 ps、350 ps和100 ps，成本分别为1000、30、10、100、200、2000和500。我找到了如下解决方

浏览 6提问于2022-06-13得票数 -1

回答已采纳

3回答

“_mm_hadd_ps”未在此范围中声明

、

我正在为矩阵乘法优化我的代码。 for (int i = 0; i < SIZE; i++) { for (int j = 0; j < SIZE; j++) { float tmp = 0; for (int k = 0; k < SIZE; k+=4) { v1 = _mm_load_ps(&m1[i][k]); v2 = _mm_load_ps(&m2[j][k]); vMul = _mm_mul_ps(v1, v2);

浏览 1提问于2012-10-03得票数 3

回答已采纳

2回答

流水线中的MIPS lw延迟

、、

我得到了处理器时钟周期的各个阶段。 IF ID EX MEM WB 250ps 350ps 150ps 300ps 200ps 现在有人问我，流水线指令中LW指令的总延迟是多少。我知道的是：流水线版本中的时钟周期时间是350‘s，因为这是最长的指令。非流水线版本的时钟周期时间是1250‘s，因为这是所有指令加在一起的时间。但是，“LW指令的延迟”与这些时间有什么关系呢？

浏览 5提问于2017-11-14得票数 1

回答已采纳

1回答

AVX:数据对齐:存储崩溃，存储，加载，加载

、

我正在修改RNNLM，一个学习语言模型的神经网络。然而，考虑到我的语料库的大小，它运行得很慢。我试图优化矩阵*向量例程(它占小数据集总时间的63% (我预计在较大的集合上会更糟)。现在我被内在的东西困住了。 for (b=0; b<(to-from)/8; b++) { val = _mm256_setzero_ps(); for (a=from2; a<to2; a++) { t1 = _mm256_set1_ps (srcvec.ac[a]); t2 = _mm2

浏览 0提问于2015-05-19得票数 4

回答已采纳

1回答

用基本SSE指令分割故障

、、、

我刚刚开始使用SSE指令:程序将两个矩阵读入一个连续缓冲区，然后尝试从那里对它们进行操作，下面是代码： void multMatrix(void * buffer,int n){ int i,j; float *p = (float*) buffer; float *q = (float*) buffer + (n*n); float mr[n][n]; __m128 va = _mm_load_ps(&p[0]); __m128 vb = _mm_load_ps(&q[0]); __m128 mm_r = _mm_ad

浏览 2提问于2017-10-26得票数 1

回答已采纳

2回答

从SSE切换到AVX的惩罚？

、、、

我知道从AVX指令切换到SSE指令的现有代价，但在我的机器上(i7-3939K 3.2 the )，在我的机器(i7-3939k 3.2 the )上，从AVX指令切换到SSE指令会有很大的代价，即使我在AVX代码段之前和之后显式地使用了_mm256_zeroupper。我已经编写了在32768个元素宽的2个缓冲区上进行32位浮点数和32位定点整数之间转换的函数。我将SSE2内部版本直接移植到AVX，一次做8个元素超过SSE4，期望看到显着的性能提升，但不幸的是，发生了相反的事情。所以，我有两个函数： void ConvertPcm32FloatToPcm32Fixed(int32* ou

浏览 1提问于2013-07-18得票数 4

回答已采纳

1回答

VS 2017编写流水线优化的C AVX代码

、、、、

我正在尝试编写C代码，它通过使用管道来掩盖CPU op延迟。以下是一段节选： __m256 v256f_rslt_0 = _mm256_loadu_ps(&ch_results_8[pos + (0 * FLOATS_IN_M256)]); __m256 v256f_rslt_1 = _mm256_loadu_ps(&ch_results_8[pos + (1 * FLOATS_IN_M256)]); __m256 v256f_rslt_2 = _mm256_loadu_ps(&ch_results_8[pos + (2 * FLOATS_IN_M256)]);

浏览 0提问于2018-08-27得票数 2

回答已采纳

1回答

在Linux上安装Docker的问题: E："https://download.docker.com/linux/ubuntu una版本“存储库没有发布文件

、、、、

我使用这个Linux Mint Una在上安装了Docker引擎。一切看起来都还好。稍后，当我尝试更新时，我会得到错误： W: "stable / source / Sources" file acquisition skipped as the repository "https://download.docker.com/linux/ubuntu focal InRelease" does not seem to provide this file (wrong sources.list entry?) E: The "https://downlo

浏览 4提问于2022-02-14得票数 1

回答已采纳

2回答

是否存在@运算符的类型安全版本？或者是可以打开的编译器警告？

下面的代码不会在D6中生成编译器警告。当我告诉它ps指向一个字符串时，我可以让它警告我将ps指向整数吗？ procedure Test; var i: integer; s, m: string; ps: ^string; begin s := 'Test message'; ps := @s; m := ps^; MessageDlg(m, mtInformation, [mbOK], 0); // This displays 'Test message'. ps := @i; // I would like a warni

浏览 0提问于2010-08-23得票数 4

回答已采纳

1回答

为什么gcc -O3处理avx256的内在区别与gcc -O0和clang比较？

、、、、

我想设置两个整数向量，并将它们与SIMD进行比较，然后使用这个掩码在填充浮点数上进行混合操作。我编写了以下代码： #include <immintrin.h> #include <stdio.h> #include <string.h> int main(){ __m256i is = _mm256_setr_epi32(1, 2, 3, 4, 5, 6, 7, 8); __m256i js = _mm256_set1_epi32(1); // integer bit-patterns __m256

浏览 4提问于2020-05-18得票数 3

回答已采纳

3回答

比FPU慢？

、、、、

我有一大段代码，其中一部分包含了以下代码： result = (nx * m_Lx + ny * m_Ly + m_Lz) / sqrt(nx * nx + ny * ny + 1); 我将其矢量化如下(一切都已经是float)： __m128 r = _mm_mul_ps(_mm_set_ps(ny, nx, ny, nx), _mm_set_ps(ny, nx, m_Ly, m_Lx)); __declspec(align(16)) int asInt[4] = { _mm_extract_ps(r,0), _mm_extract_ps(

浏览 5提问于2012-01-13得票数 9

回答已采纳

4回答

更改MySQL启动参数

、、

我需要从MySQL启动参数中删除跳过网络。我在VPS的Centos上运行Linux上的MySQL。有人能告诉新手怎么做吗？我想启动和停止mySQL服务器，我必须这样做 /etc/init.d/mysqld停止 /etc/init.d/mysqld start # ps -ef|grep 'mysql' root 11331 20220 0 10:53 pts/0 00:00:00 grep mysql root 32452 1 0 Apr02 ? 00:00:00 /bin/sh /usr/bin/mysqld_

浏览 0提问于2010-04-03得票数 5

回答已采纳

1回答

理论峰跳基准

、

为了测量CPU的峰值性能，我编写了一个小的c++程序。但是测量结果比我的CPU的理论峰值触发器要大。怎么啦？这就是我写的代码： #include <iostream> #include <mmintrin.h> #include <math.h> #include <chrono> //28FLOP inline void _Mandelbrot(__m128 & A_Re, __m128 & A_Im, const __m128 & B_Re, const __m128 & B_Im, const __m12

浏览 7提问于2013-10-30得票数 1

回答已采纳

1回答

存储__m256向量的和，而不需要AVX到SSE的过渡惩罚？

、

下面的代码会招致AVX到SSE过渡惩罚吗？如果是这样的话，我如何存储__m256向量的和而不招致这个惩罚？ __mm256 x_swap = _mm_permute2f128_ps(x,x,1) x = _mm256_add_ps(x, x_swap); x = _mm256_hadd_ps(x,x); x = _mm256_hadd_ps(x,x); // now all fields of x contain the sum float sum; _mm_store_ss(&sum, _mm256_castps256_ps128(x)); 谢谢。

浏览 12提问于2013-09-10得票数 4

回答已采纳

2回答

nginx说禁止，用户nginx在fedora

、、

我很困惑 2014/05/12 09:36:51 [error] 25928#0: *1 open() "/home/dev/OpenWrt-ImageBuilder-brcm47xx-for-linux-x86_64/packages/test.html" failed (13: Permission denied), client: 128.68.154.57, server: localhost, request: "GET /test.html HTTP/1.1" 这是权限 [root@vsfedora OpenWrt-ImageBuilder-brcm

浏览 6提问于2014-05-12得票数 1

回答已采纳

2回答

Linux X86_64系统中ARMv8-A的交叉编译C程序

、、、

我是Arm架构的新手，我正在尝试清除ARM的缓存。我遵循的是“ARMv8-A程序员指南”，因为Gem-5有这个实现()，我试图交叉编译下面的代码在linux x86_64系统使用arm-linux-gnueabi-gcc test_arm.c -o ，但我得到了以下错误。 /tmp/ccTM2bcE.s: Assembler messages: /tmp/ccTM2bcE.s:38: Error: selected processor does not support requested special purpose register -- `mrs r3,ctr_el0' /t

浏览 2提问于2020-07-15得票数 1

回答已采纳

1回答

Docker在NPM脚本中停止所有容器命令？

、、

当我运行docker stop $(docker ps -a -q)来停止所有Docker容器时。它工作得很好，它停止所有运行的容器。但是，如果我添加到NPM脚本中，比如： package.json "scripts": { "docker:stop-all": "docker:stop-all": "docker stop $(docker ps -a -q)" } 我跑了：npm run docker:stop-all 我得到了一个错误： > docker stop $(docker ps -a -q) unkn

浏览 0提问于2020-11-23得票数 0

1回答

AVX-512中未定义的引用

、、、

我有一个在Xeon Phi上运行的C代码，其中包含许多AVX-512内部函数。代码可以很好地编译，直到下面的几行： #ifdef __MIC__ __m512i mm_idx = _mm512_set_epi32(0, 0, 0, 0, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0); __m512 mm_temp1 = _mm512_set1_ps(temp1); __m512 mm_temp2 = _mm512_set1_ps(temp2); __m512i mm_temp3 = _mm512_cvttps_epi32(_mm512_fmadd_ps(_mm5

浏览 1提问于2015-03-31得票数 0

3回答

在缺少GCC的情况下使用AVX -avxintin.h

、、

我在Ubuntu-64位12.04 Laptop上运行我的笔记本电脑(CoreI5)。我正在尝试进入AVX进行一些随机数的生成。在Eclipse-CDT中，我使用Linux创建了一个新的C++ "Hello World“项目。我包含了immintrin.h，并尝试在__m256类型中加载一些内容。编译器抛出一个错误： Type '__m256' was not declared in this scope 我在immintrin.h中查找了avxintin.h，以防出现拼写错误。当在avxintin.h上单击open声明时，Eclipse说： Could not f

浏览 6提问于2013-09-05得票数 11

2回答

"ps aux“与1分钟平均服务器负载之间的差异

、

我是一个Linux新手，所以我想找出一个不一致的地方。问题是，与"ps aux“命令的输出相比，/proc/loadavg中可用的1分钟平均负载没有意义。例如，有时1分钟的平均负载达到15+.这是一个巨大的负担，因为我的VPS有6个核心。然而，"ps“几乎没有显示任何负载--所有进程的CPU%加起来只有几个百分点。我做错了什么？这种差异是由于"ps“显示当前正在运行的进程，而高1分钟的平均值可能是由不再运行的进程造成的吗？如果是这样的话，我如何才能看到在过去一分钟内运行的所有进程的列表？

浏览 0提问于2017-04-22得票数 0

回答已采纳

1回答

objdump和xxd之间的差异

、、、

我试图在二进制文件中找到一个调用函数，所以我尝试了如下：编译我的代码(用C语言) 使用以下命令：mips-mti-linux-gnu-objdump -d myapp.elf> objdump.txt 我在objdump.txt文件中的函数：9d003350: 42000828 myfunction 0x1 现在，我想在从内存中读取这个函数时，在myapp.bin中识别这个函数。但是，我明白了：28080042。我试着使用命令：xxd -ps myapp.bin> xxd.txt可以找到：28080042。有可能这样做吗？

浏览 2提问于2016-12-19得票数 0

回答已采纳

3回答

如何从pwsh运行bash命令？

、

我们有一个powershell脚本，它99%是跨平台的，但有时我们需要一个IF LINUX THEN分支，因为windows和linux服务管理是如此不同。我们希望从bash运行kill命令，但这是powershell Stop-Process的别名。我们如何从Powershell运行像ps，kill和ls这样的原生bash命令。注意：sh ps或bash ps不起作用。 PS > bash ps /usr/bin/ps: /usr/bin/ps: cannot execute binary file

浏览 100提问于2020-07-17得票数 1

1回答

我无法让certbot安装在特定的AWS实例上。

、、

我正在尝试在安装Bitnami /SVN堆栈和Tomcat服务器的实例上安装certbot。 yum install -y certbot python2-certbot-apache 我一直在 No package certbot available. No package python2-certbot-apache available. Error: Nothing to do 但是它在另一个(更新的)实例上运行得很好，一个托管我们网站的实例！ /etc/os-在Trac/SVN/Tomcat实例上发布(它不会安装的实例)显示： NAME="Amazon Linux AMI

浏览 0提问于2020-01-10得票数 1

回答已采纳

2回答

如何在没有内核源树的情况下构建外部内核模块

、、、

我有一个第三方软件软件包，编译内核模块和用户空间应用程序。不幸的是，这个第三方非常复杂，并且没有使用Kbuild来构建内核模块(我尝试过了，但没有成功)。我试图构建一个简单的驱动程序，其代码如下： arm-linux-gnueabihf-gcc -D__KERNEL__ -Wall -include /lib/modules/4.4.62-18.6-default/build/include/generated/autoconf.h -MD -MP -Werror -O2 -I /usr/src/linux-4.4.62-18.6/include -I /src/include

浏览 0提问于2017-05-31得票数 0

4回答

SSE未对齐负载内禀是否比x64_64 Intel CPU上的对齐负载本征速度慢？

、、

我正在考虑修改一些高性能代码，这些代码目前需要16个字节对齐数组，并使用_mm_load_ps来放松对齐约束并使用_mm_loadu_ps。关于内存对齐对SSE指令的性能影响，有很多的神话，所以我做了一个小的测试用例什么应该是内存带宽绑定循环。它使用对齐或未对齐的负载本征，通过一个大数组运行100个迭代，并将元素与SSE本质相加。源代码在这里。 64位Macbook Pro与桑迪桥核心i5的结果如下。数字越低，性能越快。当我阅读结果时，我发现在未对齐内存上使用_mm_loadu_ps基本上没有性能损失。我觉得这很奇怪。这是一个公平的检验/合理的结论吗？在什么硬件平台上有区别？ $ gcc -

浏览 5提问于2013-11-28得票数 19

回答已采纳

3回答

SSE (SIMD)：将向量乘以标量

、、、

我在我的程序中做的一个常见操作是按标量(V*s，例如1,2,3,4*2 == 2,4,6,8)缩放向量。除了首先在向量中的每个位置加载标量(例如_mm_set_ps(2,2,2,2))然后乘法之外，是否有SSE (或AVX)指令来执行此操作？这就是我现在要做的： __m128 _scalar = _mm_set_ps(s,s,s,s); __m128 _result = _mm_mul_ps(_vector, _scalar); 我在找像这样的东西。 __m128 _result = _mm_scale_ps(_vector, s);

浏览 2提问于2012-01-31得票数 23

回答已采纳

1回答

AngularJS:指令未触发或未工作

、、

angular中的新特性。所以我就是不明白为什么下面的代码和指令不能工作。我在代码中解决了这个问题。页面中未显示项目名称和价格。几个问题 'ngModel‘的意思是什么？什么是指令中的控制器？控制器选项何时触发？当人们在指令中声明控制器选项时？请详细分享一下知识？ Html代码： <div ng-app="myApp"> <ul ng-controller="MyController"> <li my-directive price="item.price" ng-repeat=&#

浏览 0提问于2016-04-11得票数 0

1回答

Jenkins和PowerShell

、

我有一台安装了Jenkins的linux机器。它在其他linux机器上执行各种不同的作业。现在-我想连接到Windows机器并执行一个PS脚本。通过安装PS插件(请注意，我不想在本地Linux机器上执行PS脚本，而是在远程主机上执行所有这些)，可以从linux中执行吗？如果不这样做，如何才是正确的方法？

浏览 2提问于2016-03-24得票数 0

回答已采纳

1回答

为什么m4 -D选项不执行替换

、

-DQUOTE=yes在下面的代码中是如何工作的？我希望第二行是ifelse(yes,yes,Learn Linux today!) 其他部分对我来说是有意义的。来自Linux袖珍指南-丹尼尔·巴雷特著 $ cat myfile My name is NAME and I am AGE years old. ifelse(QUOTE,yes,Learn Linux today!) $ m4 -DNAME=Sandy -DAGE=25 -DQUOTE=yes myfile My name is Sandy and I am 25 years old. Learn Linux today

浏览 0提问于2021-11-18得票数 2

回答已采纳

3回答

C++错误：“_mm_sin_ps”未在此范围内声明

、、、、

我正在尝试对不同的方法进行基准测试，以便将函数应用于数组。为什么 _mm_sin_ps不知道我的范围，但_mm_sqrt_ps是？我怎么把它公诸于众呢？并且没有错误地编译它。 #include <random> #include <iostream> #include <cmath> #include <chrono> #include <algorithm> #include <valarray> #include "immintrin.h" #include <array> int ma

浏览 16提问于2015-08-13得票数 6

回答已采纳

1回答

尝试执行elf文件时的非法指令(核心转储)

、、

我正在尝试执行一个elf文件(称之为预编译)，它给出了： Illegal instruction (core dumped) 从源代码编译可以正常工作 gcc source.c ./a.out 调试信息： file precompiled precompiled: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, for GNU/Linux 2.6.32, BuildID[sha1]=<BUILD ID HERE

浏览 0提问于2019-02-15得票数 1

2回答

新的64位linux系统有常规进程(ps、grep等)占用过多的VIRT方法。

、、、、

我们刚从32位机转移到64位机。尽管新盒子的内存是旧盒子的两倍，但我们的内存很快就用完了。运行一个简单的ps命令将说明这个问题。新机器： 132 prod-Charlotte1-node1 ~/public_html/rearch/cgi-bin> ps aux | grep ps root 293 0.0 0.0 0 0 ? S< May09 0:00 [kpsmoused] xamine 2267 1.0 0.0 63728 928 pts/3 R+ 16:50 0:00 ps aux x

浏览 0提问于2010-05-12得票数 0

回答已采纳

5回答

shell脚本中的while循环

、

浏览 0提问于2018-10-03得票数 0

2回答

在linux中，"ps -ef“命令与”ps -ef -ef more“命令有什么区别？

、、

我是学习linux命令的新手，请帮助我找出linux中ps -ef和ps -ef | more命令的区别

浏览 5提问于2015-06-24得票数 0

回答已采纳

1回答

Ubuntu 14.04不承认Nvidia图形卡

、

我新安装了Ubuntu14.04在我的新笔记本电脑和我挣扎的图形卡。我有一个集成的英特尔卡+一个NVIDIA GTX 860M加上擎天柱技术。我知道擎天柱是linux问题的一个主要来源，我尝试了几个建议的解决方案，以使我的NVIDIA工作。大黄蜂和英伟达似乎都不起作用。Ubuntu只识别英特尔卡： lspci | grep VGA 00:02.0 VGA compatible controller: Intel Corporation 4th Gen Core Processor Integrated Graphics Controller (rev 06) PS:需要更多的信息，问

浏览 0提问于2014-10-12得票数 1

2回答

如何在SSE/AVX中使用融合乘加(FMA)指令

、、、、

我了解到一些Intel/AMD CPU可以使用SSE/AVX同时执行乘法和加法：。我想知道如何在代码中做得最好，我也想知道它是如何在CPU内部完成的。我的意思是使用超标量架构。假设我想在SSE中做一个长和，如下所示： //sum = a1*b1 + a2*b2 + a3*b3 +... where a is a scalar and b is a SIMD vector (e.g. from matrix multiplication) sum = _mm_set1_ps(0.0f); a1 = _mm_set1_ps(a[0]); b1 = _mm_load_ps(&b[0

浏览 1提问于2013-04-11得票数 46

回答已采纳

2回答

AVX _m256_unpack*_ps内部解包产生意外结果

、、

我尝试使用AVX的内部解包指令_m256_unpacklo_ps和_m256_unpackhi_ps来交错16个浮点值。我得到的结果很奇怪，要么是因为我不理解解包是如何在AVX中工作的，要么是因为有些东西不能正常工作。我看到的是，例如，当我尝试将低位浮点数从两个向量v1和v2解压到第三个向量v3时，我看到了以下内容：如果v1为[a b c d e f g h]，v1为[i j k l m n o p] 然后在[a i b j e m f n]中生成v3 = _m256_unpacklo_ps(v1, v2) 当我预料到v3会给[a i b j c k d l] 我的期望是不正确的，还是我使

浏览 2提问于2011-07-14得票数 4

1回答

模拟时序问题

请帮助我理解一些与时间刻度有关的模拟器行为。这是我的顶级模块： module top; //timeunit 1ns; //timeprecision 1ps; bit clk_62p5; // PCI write clock always #8 clk_62p5++; DPSRAM_64X4096 u_MEM ( .clka(clk_62p5), …. ); … endmodule `timescale 1 ns/1 ps module DPSRAM_64X4096 (…); … endmodule 这是我的模拟脚本： irun \ …

浏览 6提问于2017-03-02得票数 0

2回答

使用AVX/AVX2内部功能进行对齐和未对齐的内存访问

、、

根据英特尔软件开发人员手册(第14.9)，AVX放宽了内存访问的对齐要求。如果数据被直接加载到处理指令中，例如 vaddps ymm0,ymm0,YMMWORD PTR [rax] 加载地址不必对齐。但是，如果使用专用的对齐加载指令，例如 vmovaps ymm0,YMMWORD PTR [rax] 加载地址必须对齐(32的倍数)，否则将引发异常。让我困惑的是从内部函数自动生成代码，在我的例子中是由gcc/g++ (4.6.3，Linux)实现的。请看下面的测试代码： #include <x86intrin.h> #include <stdio.h> #include

浏览 0提问于2015-06-27得票数 13

回答已采纳

2回答

如何将ELF可执行文件转换为C代码？生成的C代码不一定是人类可读的。

、、、

我有一个ELF文件，我想将其解压缩为C代码，并对生成的C代码进行简单的更改，并将其重新构建为ELF。解压缩的C代码不需要完全由人阅读。如果变量和函数名被混淆了，那就没问题了。在Linux上，我可以使用哪些工具来完成这个任务？ PS:如果反编译到C是不可能的或不容易的，我愿意考虑反编译到汇编语言，虽然调整组装源对我来说是非常困难的。更新：--您可以假设我正在使用下面的C程序来获取a.out ELF。现在，进一步假设我丢失了这个原始的C源代码。因此，我现在想将它解压缩到(可能是一个模糊的) C源代码，在该源代码中，我至少能够更改字符串"world"、"Hello

浏览 6提问于2013-06-22得票数 12

2回答

ARMv8 -在64位操作系统上运行遗留32位应用程序

、、

在阅读ARMv8手册时，我有以下几个问题来帮助理解全局。可以遗留32位应用程序。(ARMv7或更早版本)在ARMv8操作系统上运行？如果需要为ARMv8重新构建遗留应用程序，并假设我将应用程序重新构建为32位(Aarch32)，这是否需要32位操作系统底层支持？(在这里了解寻址机制是如何工作的是很有趣的。) 请尽可能提供参考资料。 PS:我以Linux为目标，支持Aarch64 (3.7及更高版本)

浏览 11提问于2014-03-17得票数 5

1回答

通过本质或指令手动控制Intel MIC SIMD操作

、、、、

我想手动管理我的代码在MIC上的SIMD操作，并编写下面的本质 _k_mask = _mm512_int2mask(0x7ff); // 0000 0111 1111 1111 _tempux2_512 = _mm512_mask_loadunpacklo_ps(_tempux2_512,_k_mask, &u_x[POSITION_INDEX_X(k,j,i-5)]); _tempux2_512 = _mm512_mask_loadunpackhi_ps(_tempux2_512,_k_mask, &u_x[POSITION_INDEX_X(k,j,i-5)]+16); 编译

浏览 0提问于2014-02-17得票数 2

回答已采纳

1回答

_mm256_extractf32x4_ps与_mm256_extractf128_ps的区别

、、、、

和的英特尔文档读起来非常相似。我只能找出两个不同之处： _mm256_extractf128_ps以一个const int作为参数，_mm256_extractf32x4_ps接受一个int。这不应该有任何区别。 _mm256_extractf128_ps需要AVX标志，而_mm256_extractf32x4_ps需要AVX512F + AVX512VL，这使得前者在CPU上似乎更易于移植。 _mm256_extractf32x4_ps存在的理由是什么？

浏览 11提问于2022-01-27得票数 3

回答已采纳