腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4725)
视频
沙龙
1
回答
AMD
:
TLB
未
命中
周期
的
性能
计数器
performance
、
amd
、
perf
、
tlb
、
mmu
我正在寻找特定于
AMD
的
性能
计数器
,它可以在发生
TLB
未
命中
时对页面遍历消耗
的
周期
进行计数。我知道英特尔有这样
的
指标可用。 但是
AMD
上是否存在这样
的
问题呢?我在http://developer.
amd
.com/wordpress/media/2013/12/56255_OSRR-1.pdf中查
浏览 34
提问于2021-01-07
得票数 4
回答已采纳
1
回答
测量x86-64中
的
TLB
未
命中
处理成本
profiler
、
performancecounter
、
tlb
、
mmu
我想估算在运行Linux
的
x86-64 (Intel Nehalem)机器上由于
TLB
未
命中
而产生
的
性能
开销。我希望通过使用一些
性能
计数器
来获得这个估计值。有没有人有什么建议,最好
的
估计方法是什么?
浏览 1
提问于2012-02-18
得票数 12
回答已采纳
1
回答
如何分析主存和缓存访问模式?
memory-management
、
resources
、
hardware
、
kernel
、
virtualization
我正在寻找一种分析主存访问时间
的
方法。这种方法应该可以给出RAM和Cache访问
的
分布情况,以便及时分析CPU停顿情况。我想知道这是否完全可以在软件中实现(内核模块?)或者,也许虚拟机可以提供反馈?
浏览 0
提问于2012-02-17
得票数 1
2
回答
关于典型程序中
TLB
和Cache
的
不同之处
caching
、
memory-management
、
operating-system
、
tlb
一个典型
的
有20%
的
存储器instructions.Assume有5%
的
数据handle.Assume
未
命中
,每个指令需要100个
周期
来执行每条指令需要1个
周期
来执行,在高速缓存中
的
每个存储器操作1个
周期
,10%
的
数据访问是高速缓存
未
命中
每个高速缓存
未
命中
是15个
周期
,那么执行1000条指令需要多长时间。我不知道答案,但我对<e
浏览 4
提问于2014-02-09
得票数 0
1
回答
循环计数测量
profiling
所有代码都是用C编写
的
。我想要测量特定函数执行所需
的
周期
数。是否有任何Win32 API可以用来获取循环计数? 我已经用gettimeofday()来获得时间在微秒,但我想知道消耗
的
周期
。
浏览 3
提问于2008-09-08
得票数 3
1
回答
使用Intel PEBS
的
DTLB
未
命中
地址跟踪
linux
、
performancecounter
、
perfmon
、
tlb
、
perf
我正在尝试通过使用硬件
性能
计数器
来生成D-
TLB
未
命中
的
地址跟踪。英特尔处理器具有“精确
的
基于事件
的
采样”(PEBS),可以在每次采样时转储硬件寄存器内容。我需要使用这个寄存器转储来创建导致D-
TLB
未
命中
的
地址。但是,我不确定如何从寄存器转储生成访问地址。谢谢 Arka
浏览 0
提问于2012-08-31
得票数 2
2
回答
如何在ubuntu中分析
TLB
命中
和
TLB
未
命中
c++
、
performance
、
linux-kernel
、
monitoring
我已经编写了一个简单
的
C++程序,使用for-loop打印从1到100
的
数字。我想要找出运行时特定程序
的
TLB
命中
和
未
命中
的
数量。有没有可能得到这些数据? 我正在使用Ubuntu。我用过perf工具。但它在不同
的
时代产生了不同
的
结果。我非常困惑我
的
代码
的
哪一部分导致了如此大量
的
TLB
命中
、
TLB
未</e
浏览 2
提问于2012-02-16
得票数 2
1
回答
Perf启动开销:为什么一个执行MOV + SYS_exit
的
简单静态可执行文件有这么多停滞
的
周期
(和指令)?
linux
、
performance
、
assembly
、
x86-64
、
perf
我正在尝试理解如何衡量
性能
,并决定编写一个非常简单
的
程序: global _start mov rax, 60我用/bin运行了这个程序,我惊讶
的
是stalled-cycles-frontend太高了。# 10.80% of all branches 根据我对stalled-cycles-frontend
的
理解,它意味着CPU前端必须
浏览 2
提问于2018-02-15
得票数 11
1
回答
使用PCM工具测量英特尔进程
的
TLB
未
命中
惩罚
reverse-engineering
、
performancecounter
、
pcm
、
tlb
、
micro-architecture
我正在尝试测量X86-64上
的
TLB
(转换后备缓冲区)
未
命中
的
惩罚。具体地说,
未
命中
第二级统一
TLB
的
惩罚是
TLB
遍历
的
代价。 #include "cpucounters.h"
浏览 5
提问于2018-11-01
得票数 1
2
回答
Linux中NUMA节点
的
缓存
未
命中
/
命中
度量工具?
linux
、
multithreading
、
caching
、
performancecounter
、
numa
我正在一个
AMD
阿布扎比架构上执行一个多线程程序,这个架构有8个NUMA域。我使用numactl在不同
的
内核中分配线程,并尝试不同
的
内存策略。我想测量NUMA域排列
的
缓存
未
命中
/
命中
,但使用类似perf
的
工具,我获得了总体
计数器
。我已经回顾了numastat、like and和hpctoolkit等工具。您是否知道有任何工具可以获取由NUMA域分隔
的
标准
性能
计数器
?
浏览 0
提问于2014-07-04
得票数 1
1
回答
用于分析低级架构低效
的
开源分析器?
performance
、
caching
、
profiler
现代处理器使用各种技巧来弥合其处理单元
的
高速度和外部存储器
的
延迟之间
的
差距。在
性能
关键型应用程序中,代码
的
结构方式通常会对其效率产生相当大
的
影响。例如,使用分析器
的
研究人员能够修复缓存局部性问题,并将几个SPEC2000基准程序
的
执行速度提高一倍。我正在寻找一个开源工具
的
建议,该工具利用处理器
的
性能
监控支持来定位和分析体系结构
的
低效,例如缓存
未
命中</em
浏览 3
提问于2009-04-06
得票数 1
回答已采纳
2
回答
测量ContextSwitch时间C(窗口)
c
、
windows
、
multithreading
、
context-switch
我需要实现一个方法来测量Windows中线程间上下文切换
的
时间和CPU
周期
。以下是我
的
代码#include <windows.h> LARGE_INTEGER initialTimeStamp, finalTimeStamp我不知道这是不是最好
的
或者正确
的
方法...我每次执行都会得到不同
的
时间,这不是我所期望
的
。我不确定如何获得一定数量
的
C
浏览 2
提问于2010-09-27
得票数 1
回答已采纳
3
回答
Android(在ARM上)有硬件
性能
计数器
吗?
android
、
performance
、
monitor
因此,就像在Intel处理器上
的
Linux一样,我们需要访问大量
的
硬件
性能
计数器
。像以前一样,使用一个名为
的
用户空间软件,我可以获得缓存错失率
的
值,CPU由于某种原因而停止
的
周期
(例如,L1高速缓存
未
命中
)等。 我
的
问题是,我们在Android中有这些东西吗?因为它是基于ARM
的
,所以我不认为我们有像x86那样强大
的
性能
监视器
计数器</e
浏览 0
提问于2012-12-06
得票数 6
回答已采纳
1
回答
根据以下数据计算平均内存访问时间?
caching
、
operating-system
、
paging
、
tlb
请考虑以下信息 基于以下信息
的
平均内存访问时间是多少?我
的<
浏览 1
提问于2016-10-19
得票数 3
回答已采纳
3
回答
如何测量读取/
周期
或指令/
周期
?
c++
、
c
、
performance
、
caching
、
metrics
我想彻底测量和调优我
的
C/C++代码,以便在x86_64系统上使用缓存时执行得更好。我知道如何使用
计数器
(在我
的
Windows机上是QueryPerformanceCounter)来测量时间,但我想知道如何测量相对于工作集
的
每个
周期
的
指令或每个
周期
的
读/写指令。
浏览 0
提问于2013-03-10
得票数 1
回答已采纳
1
回答
CPU循环速度
performance
、
optimization
、
memory-management
、
cpu
、
virtual-memory
查找L1/L2/L3缓存
的
延迟很容易: 数据<
浏览 2
提问于2014-07-07
得票数 1
2
回答
用于处理linux内核中
TLB
未
命中
的
调用图
memory-management
、
linux-kernel
、
tlb
、
mmu
我试图理解linux内核是如何处理
TLB
未
命中
的
。具体地说,我知道页表遍历发生在mm/memory.c中
的
follow_page中,但是当follow_page
未
命中
时,如何调用
TLB
呢?follow_page
的
返回值(struct page)是如何回传给硬件
的
?有人能举例说明从硬件引发
TLB
未
命中
异常到调用follow_page时
的
<
浏览 6
提问于2012-08-31
得票数 4
2
回答
在LINUX上测量
TLB
未
命中
的
命令
linux
、
profiling
、
tlb
有人能告诉我在LINUX上测量
TLB
未
命中
的
命令吗?是否可以将次要页面错误视为
TLB
未
命中
?
浏览 0
提问于2012-01-24
得票数 5
回答已采纳
1
回答
如何在用户进程中引起
TLB
颠簸?
architecture
、
x86-64
、
tlb
我目前
的
工作需要在英特尔酷睿系列
的
CPU上生成指定数量
的
TLB
未
命中
,但进展并不顺利。我尝试了很多方法,但它们都有非常高
的
TLB
命中
率。有没有人知道一些关于x86
TLB
如何工作
的
有用信息,或者一些在用户进程中生成大量
TLB
未
命中
的
方法?
浏览 1
提问于2011-04-07
得票数 6
回答已采纳
1
回答
页面错误陷阱
的
成本
c
、
linux
、
memory-management
、
x86-64
我有一个应用程序,它
周期
性地(每隔1到2秒)通过forking本身获取检查点。因此,检查点是原始进程
的
一个分支,它只是保持空闲,直到当原始进程中出现错误时才要求它启动。现在我
的
问题是,fork
的
写入时复制机制
的
成本有多高。每当原始进程写入内存页面(即,在获取检查点之后
的
第一次)时发生
的
页面故障陷阱
的
成本是多少,因为写入时复制机制将确保它为原始进程提供与检查点不同
的
物理页面。这样
的
页面错误陷阱会损失多少CPU
周
浏览 3
提问于2012-04-19
得票数 12
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
也说Intel猜测执行的漏洞
人人都应该知道的CPU缓存运行效率
透明代码大页:让数据库也能用上 2MB 大页!
CPU设计之Cache-寻址方式
AMD Zen 4处理器揭秘:5nm打造,首次使用L4缓存
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券