我在英特尔的4核CPU上运行了一个单线程矩阵乘法(每个内核一个线程),但是来自perf的数字没有意义。在cpu周期为31,728,397,287的情况下,执行时间应为39.66秒,但运行时间为17.1秒。我用root访问重新运行实验,并指定用户代码。
# perf stat -a -e cycles:u,cycles,
top显示出极高的负载,但cpu使用率相对较低。高负荷是许多(~30)进程的结果,从15级开始,所以系统是响应的。average: 254.30, 267.54, 265.42%Cputotal, 659128 used, 99937600 free. 56868984 cached Mem
PID USER PR NI VIRT RES