专栏首页皮振伟的专栏[linux][qemu]PVPanic的缺陷和完善

[linux][qemu]PVPanic的缺陷和完善

前言

前文《[linux][qemu]PVPanic的实现原理以及应用》中,介绍了pvpanic的原理和基本的使用方法,KVM虚拟化场景下,使用pvpanic驱动可以监控到Guest的panic。

但是实际的应用场景中,pvpanic实际上和kdump工具冲突。下面我们来分析一下为什么冲突,以及如何解决。

分析

pvpanic和kdump为什么冲突

在配置了kdump的情况下,panic发生之后,内核会尝试加载新的内核,根据配置参数dump内存到磁盘中。那么,也就不会调用pvpanic注册的callback函数,从而导致pvpanic没法收到通知。

如果配置crash_kexec_post_notifiers,那么guest发生了kernel panic之后,会调用pvpanic的callback函数,就会写io port 0x505(默认地址),qemu监控到之后,qemu停止虚拟机 ,并向libvirt进行post消息,我们可以得到通知。那么,guest内部的kdump得不到运行。

所以,kdump和pvpanic不能够同时生效运行。引入的另外一个问题是,配置了kdump之后,发生了panic的话,guest内部发生重启,而我们无法区分是guest内部的正常重启还是kdump重启,会给我们的监控带来很大的困难。

解决办法

我们希望这样的逻辑:

1,如果guest希望自己handle住panic,那么我们只要接收pvpanic的通知即可,让guest继续运行。我们监控到这次guest panic就足够了。

2,如果guest自己不能handle住panic,那么就让qemu甚至上层的软件继续处理。

所以,解决办法就是在pvpanic中增加新的逻辑:

如果没有加载kexec crash loaded,那么写原来的BIT 0。如果加载了kexec crash loaded,那么写新定义的BIT 1。

在qemu侧,对于pvpanic设备的BIT 0操作,还是维持原来的逻辑。对于BIT 1的操作,则post消息给libvirt,然后虚拟机可以继续执行。

在libvirt侧,适配新的消息。更高层次的软件可以适配libvirt新的事件。这样,兼容了原有的逻辑,也可以解决上述的kdump和pvpanic冲突的问题。

在完整功能的upstream过程中,得到了Paolo的支持,感谢Paolo。

patch列表

Linux

e0b9a42735f2672ca2764cfbea6e55a81098d5ba

191941692a3d1b6a9614502b279be062926b70f5

QEMU

600d7b47e8f5085919fd1d1157f25950ea8dbc11

7dc58deea79a343ac3adc5cadb97215086054c86

Libvirt

26badd13e8f1931a9a03e3b1ca0620bb0063b856

本文分享自微信公众号 - AlwaysGeek(gh_d0972b1eeb60),作者:AlwaysGeek

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-02-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [linux][kprobe]谁动了我的文件---使用kprobe找到目标进程

    问题场景: 云计算IaaS平台上,经常使用libvirt+qemu-kvm做基础平台。libvirt会在/etc/libvirt/qemu/目录下,保存很多份q...

    皮振伟
  • [kvm][qemu]影响虚拟化热迁移的设备

    前言 虚拟化场景下,热迁移、HA都会受到部分设备的影响。设备的实现上,包含“透传”、“直通”、“passthrough”,基本上就限制了虚拟机的迁移能力。 作...

    皮振伟
  • [libvirt][nginx]libvirt文档访问速度提高的小技巧

    前言: ? 熟悉上图的朋友,应该都是libvirt的开发者或者使用者。 http://libvirt.org/提供了libvirt的开发文档,但是有时候,它的...

    皮振伟
  • SpringBoot自定义错误页面

    Spring Boot以一种新的微服务的方式来替代以Spring Framework构建项目的传统方式,我已经计划在后续的项目开发中使用它。它已经帮我们做了...

    似水的流年
  • 数据采集框架Gobblin简介

    问题导读: Gobblin的架构设计是怎样的? Gobblin拥有哪些组建,如何实现可扩展? Gobblin采集执行流程的过程?

    叁金
  • SpringBoot自定义错误页面

    Spring Boot以一种新的微服务的方式来替代以Spring Framework构建项目的传统方式,我已经计划在后续的项目开发中使用它。它已经帮我们做了90...

    似水的流年
  • JMeter 参数化之利用CSV Data Set Config从文件读取参数并关联变量

    Variable Names:参数名称(有几个参数,在这里面就写几个参数名称,每个名称中间用分隔符分割,分隔符使用下面的“Delimitet”中定义的

    授客
  • 云安全运营总结

    做云安全运营也有一年多时间了,对云上安全建设和运营有一点粗浅的经验,希望可以抛砖引玉,借此文章能有机会和大佬们交流 安全运营,安全建设方向的经验。

    FB客服
  • Prometheus vs. Graphite:时序数据监控工具选择

    原题:Prometheus vs. Graphite: Which Should You Choose for Time Series or Monitorin...

    yuanyi928
  • 理解计数排序算法的原理和实现

    计数排序(Counting sort)是一种稳定的线性时间排序算法,其平均时间复杂度和空间复杂度为O(n+k),其中n为数组元素的个数,k为待排序数组里面的最大...

    我是攻城师

扫码关注云+社区

领取腾讯云代金券