皮振伟的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

皮振伟的专栏

专栏成员

108

文章

313013

阅读量

79

订阅数

Redis网络连接层的过去、现状和展望

unix socket编程云数据库 Redis 打包编程算法

Redis取自Remote Dictionary Server，顾名思义，Redis是运行在网络环境之上的。Redis目前支持3种网络连接类型：

2022-12-03

1K0

[linux][bcc]使用virtiostat查看virtio设备的IOPS和吞吐

ios linux node.js html 编程算法

前言在linux平台上，我们经常需要使用各种各样的工具查看设备的使用情况。例如使用iostat查看块设备的IO情况，使用iftop查看网卡设备的流量情况。但是virtio family的设备这种越来越多，virtiofs、virtio gpu、virtio console等设备却缺少相应的工具。基于以上原因，作者开发了virtiostat工具，作为bcc工具集的一部分，提供了virtio设备的stat监控能力。分析原理在Linux上，virtio设备进行IO的时候，会先生成scatterlist这样的数据结构，然后使用如下几个API，把数据加入到virt queue中：

2021-03-18

3.4K0

[linux][perf]list过长导致CPU消耗过高的问题分析

某机器上网络出现时断时续的问题，网络的同事发现ovs进程的CPU消耗很高，硬件offload的规则下发卡住的问题。即通过netlink向内核发送消息卡住。

2019-12-15

1.7K0

基于KVM虚拟化的混合部署

linux 编程算法虚拟化 kvm 云数据库 SQL Server

KVM forum 2019上，作者和同事的演讲主题是《How KVM-based Hybrid Deployment Powers Bytedance’s Biggest Day Ever》。在这里详细展开一下，介绍一下基于KVM虚拟化的混合部署。下文的脉络大约是： 1，业务背景 2，为什么使用KVM虚拟化方案 3，在使用KVM虚拟化方案的过程中，我们做了那些改进 4，基于KVM虚拟化的混合部署方案取得了怎样的效果

2019-11-12

2K0

[Linux][mm]TLB shootdown和读取smaps对性能的影响

缓存 c++编程算法

作者遇到了业务的一个性能抖动问题，在这里介绍一下它的原因和解决办法。分析 1，page fault 在Linux上，进程分配到的内存是虚拟内存，经过内核的页表管理，会把虚拟内存映射成物理内存。 a，在第一次访问内存的时候，会触发page fault，内核会给进程分配好内存，进程继续执行。 b，内核进行内存回收，可能会把进程的部分内存进行回收，swap到磁盘上，下次访问到再换回来。当然，这个在实际业务上未必会启用swap以防止性能下降。 c，进程自己判断，认为部分内存段时间内不会使用，会尝试把它归还给内核。它的好处是不需要修改进程的虚拟地址空间，只是把内存页面（page）归还给内核，下一次访问到的时候，会因为page fault而重新分配物理内存。另外需要注意的时候，处理page fault的过程中，需要持有进程的内存的锁（current->mm->mmap_sem）。 2，TLB shootdown 例如某服务器有40CPU，那么就意味着可以同时运行40个task。例如某业务有30个线程，且这30个线程都很忙，并行执行在30个CPU上。因为30个线程共享地址空间，它们使用的是相同的页表（page table）。所以在运行这30个线程的CPU上，会加载相同的页表。当代CPU为了加速TLB查找的速度，会使用cache，也就是说会把对应的页表项（page table entry）加载到TLB cache中。在运行的某一个时刻，某1个线程执行了上述的page fault的case 3，也就是执行了系统调用int madvise(void *addr, size_t length, MADV_DONTNEED)，想要释放1个page（4K大小），除了需要修改页表释放该page外，还需要确保CPU的TLB cache中也是没有该page的PTE的。因为如果TLB cache还有该PTE，那么CPU访问这个page就不会出错，而这个page已经被释放并分配给其他进程使用的话，就会造成安全问题。在多核场景下，这个问题就变得更加复杂了。除了运行madvise的线程之后，还需要确保另外的29个线程运行的CPU的TLB cache也是没有该PTE的。为了实现这种效果，需要当前的CPU通知另外的29个CPU，执行clflush或者重新加载cr3。这个通知的过程需要发送IPI（inter processor interrup）。发送IPI的这个过程，在x86上的体现就是需要CPU执行wrmsr指令，对应的操作是触发ICR。了解虚拟化的朋友应该知道，wrmsr这条指令在虚拟机上需要经过Hypervisor处理，性能更低一些。除此之外，在执行madvise的过程中，还需要持有当前进程的内存的锁（current->mm->mmap_sem），而且这个锁的粒度比较大。而jemalloc库，默认情况下，则会释放过期的内存，调用madvise(void *addr, size_t length, MADV_DONTNEED)。 3，smaps/smaps_rollup cat /proc/PID/smaps，可以查看进程的每一段VMA信息。

2019-10-15

3.2K0

[Linux][seccomp]seccomp引起的SIGSYS问题

虚拟化命令行工具编程算法 shell

前言作者习惯使用Libvrit，多数情况下，会直接使用libvirt进行虚拟机操作。如果要用qemu启动的情况，一般会比较习惯ps -ef | grep qemu得到qemu的启动参数，进行修改，然后启动。在一次启动中，qemu发生了错误：qemu-system-x86_64: network script /etc/qemu-ifup failed with status 159 问题的原因是因为seccomp的配置导致的，那么我们就来看一下这个问题的具体表现。分析实例代码构造一段实例代码，在父进程中初始化了seccomp，禁用了execve这个syscall，在子进程中尝试调用execve运行其他的程序。 #include <stdio.h> #include <unistd.h> #include <sys/types.h> #include <sys/wait.h> #include <seccomp.h> char *cmd = "/bin/ls"; int main() { int pid, status, ret; char *args[4]; char **parg; scmp_filter_ctx ctx; ctx = seccomp_init(SCMP_ACT_ALLOW); if (ctx == NULL) { printf("seccomp_init fail\n"); return 0; } ret = seccomp_rule_add(ctx, SCMP_ACT_KILL, SCMP_SYS(execve), 0); if (ret < 0) { printf("seccomp_rule_add fail\n"); return 0; } ret = seccomp_load(ctx); if (ret < 0) { printf("seccomp_load fail\n"); return 0; } seccomp_release(ctx); pid = fork(); if (pid == 0) { parg = args; *parg++ = cmd; *parg++ = "-al"; *parg++ = "/proc/self/fd"; *parg = NULL; execv(cmd, args); } else { while (waitpid(pid, &status, 0) != pid); printf("status %d\n", status); } return 0; } 需要先安装libseccomp-dev（apt-get install libseccomp-dev），编译的时候: gcc execv.c -g -o execv -lseccomp 运行可以发现，子进程并不是正常退出的。打开coredump 调整/proc/sys/kernel/core_pattern，配置coredump文件生成的规则。 ulimit -c unlimited调整但前shell的coredump文件大小限制，在当前的shell下运行，文件大小生效。

2019-07-30

2.3K0

[nptl][pthread]一种判断thread是否在执行的方法

前言：主线程中怎么确定某线程是否在执行？作者遇到这个问题，第一感觉有点蒙。翻了一下glibc的代码，算是找到一个比较好的办法吧。分析： 1，变量控制这个很简单，在线程执行进入的时候，写控制变量running = true。线程将要退出的时候，写控制变量running = false，判断running这个变量就可以知道线程是否在执行了。这个方法简单粗暴，在绝大多数的情况下都是能工作的。但是，有一种比较极端的情况：某线程正好赋值完控制变量，但是函数体还没有结束（对应的内核task当然也还在），这

2018-04-09

2K0

[linux][network]虚拟网卡技术分析

虚拟化编程算法

前言：虚拟化场景下的网卡虚拟化，就是让虚拟机觉得自己有网卡。就有了e1000/rtl8139为代表的物理网卡软件模拟实现；为了加速Guest和Host之间的数据交换速度，就有了virtio网卡；再virtio的基础上，为了减少qemu进程和host os之间的数据拷贝，就有了vhost-net。这几种情况下，都是完全使用软件模拟的网卡，使用TAP技术，虚拟化出来net device，再把对应的net device接入到网桥上，这样在虚拟机内存就可以向外部写数据了。还有一类就是物理网卡提供了虚拟化能力。比

2018-04-09

4.7K0

[linux][statethread]协程库ST技术分析

linux 编程算法 https

前言：在IO密集型的场景下，尤其是互联网后台，经常会使用epoll等IO复用技术。鉴于直接使用epoll的代码阅读性和开发效率等原因，就抽象出来了各种高级模型。既然多次提到过协程，那就选择statethread做一下技术分析吧。基本原理： 1，用户态的IO复用机制支持：select/epoll（这里只针对Linux，其他OS不讨论）。 2，用户态的subroutine切换机制：使用setjmp/longjmp来切换context。 3，O（logn）的高效排序算法：st使用heap排序。代码

2018-04-09

1.3K0

[linux][memory]KSM技术分析

linux 编程算法

前言：先来回顾一下Linux平台上的节约内存的方案： swap：通过LRU淘汰掉掉一部分page，把这些page交换到磁盘上。再次访问到这些page的时候，kernel再把它们从磁盘load进内存中。 zram：内存压缩技术。通过压缩lzo算法把页面压缩，也可以节省一部分内存。作者第一次知道zram是在Android中见到的，因为一般的手机使用的emmc flash，是有读写寿命的（作者看到过一份实验数据，某厂家的emmc在连续写入数据三天后，emmc就已经挂了），不能打开swap（因为swap会增加大量

2018-04-09

2.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态