首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

初识VMM_vmem是什么意思

虚拟化让一台机器上可以运行多种操作系统类型和版本,文章通过讨论Disco的基本技术,了解虚拟化工作机制。要在虚拟机监视器上运行虚拟机所使用的基本技术是有限的直接执行,也就是操作系统如何虚拟化CPU的技术,因此在VMM上“启动”一个新的操作系统时,我们只需跳到第一个指令的地址,让操作系统开始运行即可。 正在运行的应用程序或操作系统试图执行某种特权操作时又会牵扯到VMM对进程尝试系统调用的行为进行干预的情况。 从以前讲的用户态、核心态来说trap命令让用户态进入核心态可以执行一些特权操作,当控制器是VMM,VMM不知道每个调用应该做什么。然而,VMM所知道的是操作系统的trap处理程序在哪里,VMM记录了必要的信息,当VMM从在给定操作系统上运行的用户进程接收到一个trap指令时,跳到操作系统的trap处理程序,并让操作系统按它应该的方式处理系统调用。虚拟化内存的时候VMM添加另一层虚拟化,以便多个操作系统能够共享机器的实际物理内存,通过页表、快表实现将得到的物理映射映射到底层机器地址。 VMM发展史上是消失过一段时间的,后又以服务器合并和实用程序计算的名义重出江湖,围绕兼容性、性能和简单性不断进步。为了解决如何在无法虚拟化的cpu上实现VMMs,半虚拟化和直接执行与快速二进制转换相结合的方法出现了, 它们将原始指令集的不可虚拟化部分替换为易于虚拟化和更有效的等价部分。但是VMM的虚拟内存子系统不断地控制有多少内存进入虚拟机,并且它必须通过将虚拟机的一部分分页到磁盘来周期性地回收一部分内存,具体操作的时候就会出现频繁访问页表的情况,导致不必要的开销,这又推动资源管理领域的进步。总的来说VMM的复兴似乎从根本上改变了软件和硬件设计师看待、管理和构建复杂软件环境的方式。VMMs还为部署创新的操作系统解决方案提供了向后能力路径,这些解决方案既能满足当前的需求,又能安全地利用现有的软件基础。

04

[Linux][mm]TLB shootdown和读取smaps对性能的影响 ​

作者遇到了业务的一个性能抖动问题,在这里介绍一下它的原因和解决办法。 分析 1,page fault 在Linux上,进程分配到的内存是虚拟内存,经过内核的页表管理,会把虚拟内存映射成物理内存。 a,在第一次访问内存的时候,会触发page fault,内核会给进程分配好内存,进程继续执行。 b,内核进行内存回收,可能会把进程的部分内存进行回收,swap到磁盘上,下次访问到再换回来。当然,这个在实际业务上未必会启用swap以防止性能下降。 c,进程自己判断,认为部分内存段时间内不会使用,会尝试把它归还给内核。它的好处是不需要修改进程的虚拟地址空间,只是把内存页面(page)归还给内核,下一次访问到的时候,会因为page fault而重新分配物理内存。 另外需要注意的时候,处理page fault的过程中,需要持有进程的内存的锁(current->mm->mmap_sem)。 2,TLB shootdown 例如某服务器有40CPU,那么就意味着可以同时运行40个task。 例如某业务有30个线程,且这30个线程都很忙,并行执行在30个CPU上。 因为30个线程共享地址空间,它们使用的是相同的页表(page table)。所以在运行这30个线程的CPU上,会加载相同的页表。 当代CPU为了加速TLB查找的速度,会使用cache,也就是说会把对应的页表项(page table entry)加载到TLB cache中。 在运行的某一个时刻,某1个线程执行了上述的page fault的case 3,也就是执行了系统调用int madvise(void *addr, size_t length, MADV_DONTNEED),想要释放1个page(4K大小),除了需要修改页表释放该page外,还需要确保CPU的TLB cache中也是没有该page的PTE的。因为如果TLB cache还有该PTE,那么CPU访问这个page就不会出错,而这个page已经被释放并分配给其他进程使用的话,就会造成安全问题。 在多核场景下,这个问题就变得更加复杂了。除了运行madvise的线程之后,还需要确保另外的29个线程运行的CPU的TLB cache也是没有该PTE的。为了实现这种效果,需要当前的CPU通知另外的29个CPU,执行clflush或者重新加载cr3。这个通知的过程需要发送IPI(inter processor interrup)。 发送IPI的这个过程,在x86上的体现就是需要CPU执行wrmsr指令,对应的操作是触发ICR。了解虚拟化的朋友应该知道,wrmsr这条指令在虚拟机上需要经过Hypervisor处理,性能更低一些。 除此之外,在执行madvise的过程中,还需要持有当前进程的内存的锁(current->mm->mmap_sem),而且这个锁的粒度比较大。 而jemalloc库,默认情况下,则会释放过期的内存,调用madvise(void *addr, size_t length, MADV_DONTNEED)。 3,smaps/smaps_rollup cat /proc/PID/smaps,可以查看进程的每一段VMA信息。

02

游戏服务器压力测试总结

游戏服务器压力测试总结 从游戏内测开始到现在做了所有服务器压力相关的测试.现在进行总结.暂时还不方便说游戏架构,所以不上图了。 一.首先明确需要测试压力的内容: 1.游戏服务器硬件 a.硬盘I/o b.内存 c.CPU 2.网络压力 a.长连接 a1.最大连接数 a2.流量(内网、外网、进、出) b.长连接短周期(类似Http的TCP应用,这个比较特殊的一个需求,专门针对LoginAgent) b1.每秒建立的连接数 b2.实际处理能力 3.数据库 a.每秒事务数 b.每秒锁等待数 c.平均延时(ms) d.CPU暂用 4.多线程的最优线程数 a.数据库执行的多线程 b.多连接处理 二.Windows Server环境测试方式 1.服务器性能监测 使用Server自带的性能监测器设置各个进程的监测参数。Window的这个自动工具做的相当强大。大家自己摸一摸基本就会用了。每个参数都由详细的说明。 2.案例设计注意 a.对于数据库的性能测试上,现在由于所有的游戏服务器构架在DB前面都有一个实现DB缓冲功能的进程,以减少数据库频繁的读写操作。所以其实数据库的读是一个轻量级的数量;而数据库的写操作是一个周期性能过程。案例设计一定要能够驱动这种周期性能过程。比如我们游戏的战斗,导致游戏玩家数据的改变,或驱动所有在线玩家数据的周期性存储。 b.选择具有代表性,并且最频繁的游戏操作。用于进行最高用户在线的各种性能指标采集。 我们选择的是:战斗、移动、聊天 c.聊天性能测试 广播聊天是最为考验游戏信息发送能力的功能。通过进行全局广播的压力测试。我们可以获取服务器进程发送信息到客户端的最高承载量。进而可以对我们的各种广播功能进行一个预估和频率限制。 d.同屏玩家的移动测试 移动+广播。这两种信息,基本是网络游戏流量的70-80%左右。同屏玩家数量,将会增加各种数据的广播需求,非常影响游戏性能。所以同屏的移动测试也是广播测试的一个必要环节。需要根据实际结果进行适当的优化。 e.大量玩家同时登录测试 玩家登录时,有大量的信息需要进行分配和初始化;同时也有大量的数据需要下传客户端。服务器需要进行大量的TCP连接建立。所以是一个比较关键的过程。这个测试案例是一个比较特殊,但是运营是肯定会碰到的案例。 f.由于线程池处理事务,随着事务的时耗,存在一个最优线程数的问题。过多的线程反而会降低服务器效率 3.细节问题 a.进行测试需要仔细思考客户端性能影响服务器最后表现的可能性。比如 a1.模拟客户端的性能无法有效处理服务器返回信息,可能就导致服务器发送的信息缓存在服务器系统缓存,从而表现出服务器内存不断增加。表现为服务器发送能力不足,其实可能根本就是客户端的性能问题 a2.客户端性能问题,导致发起的请求数过少,从而导致单位时间内服务器处理的请求过少。表现为服务器性能不足,其实根本就是客户端的请求能力不足。 b.网络带宽导致最后表现不足 b1.确认服务器的各个网卡,以及相互的带宽。不然可能因为相互带宽,导致服务器对于客户端请求的处理延时。表现为服务器卡机 b2.客户端模拟多个玩家,比如1000个玩家。而客户端的网卡或者客户端与服务器之间的中转服务器带宽过小,导致服务器数据发送不出,内存不断增加。表现为服务器发送能力不足,其实是中间带宽问题。 c.debug i/o导致服务器性能下降 c1.进行性能测试,一定要取消debug用的同步的i/o.比如我们服务器的debuginternalLog.同步i/o是非常影响性能的,特别在压力测试下可能导致每秒上千上万甚至几十万次的执行。一处的文件写入操作就可以导致几十万次的处理能力变成几千次的处理能力。 c2.客户端避免进行阻塞操作导致模拟多用户性能下降,导致服务器表现性能下降 d.流量需要区分内网网 内、外网流量在游戏正式运行时是完全分开的。价格也是完全不同的。一个千M的外网是一个无法想象的运营成本,而kmbps/s现在已经是一个可以接受的代价。游戏进程需要进行不同网卡的配置和绑定。确定内外网流量。

03
领券