docker volume源码分析

这是在docker v1.10.3版本的使用过程中,使用convoy 作为volume driver,在一次docker volume remove失败时,使我不得不对docker volume 的源码做一次分析。

问题现象:创建曾删除过的volume会失败,请求无报错返回 重现过程:

  • 创建容器,volume使用test5_volume
  • 删除容器,删除volume
  • 再次创建同名volume时失败

当时有一个Workaround 方案: 通过 convoy 在该宿主机上创建一个同名的 volume (大小任意),然后再次执行 docker volume rm 删除该 volume ; 接着就可以通过 docker volume create 重新创建 volume 了。 当时考虑是 docker 缓存没有及时清理的问题,于是得去分析下相关代码。

##docker volume create源码分析:

看流程图发现 - create时,会触发未注册driver的重新注册,只检查该volume是否在docker daemon缓存中,如果在就不创建。而不会调用convoy接口去确认该volume是否真的存在。如果此时,convoy和docker daemon缓存信息不同步,则create操作不能如愿了。

##docker volume remove源码分析:

看流程图发现 - remove时,只会删除docker daemon缓存中记录的volume信息,不会同步docker dameon和convoy的volume信息。如果此时convoy 中volume数据和docker daemon 缓存中volume数据不一致,也不会得到纠正。

##docker volume list源码分析:

看流程图发现 - list时,如果convoy中记录了某个volume,但docker daemon缓存中没有该volume,则会将该volume信息从convoy同步到docker daemon。

##问题定位 ###docker volume delete的代码

###docker volume list的代码

第一幅图中可见,每次删除某个volume的时候,会先对这个volume的name加锁,然后vd.Remove(v)函数调用convoy删除这个volume,再清理掉docker的缓存。

第二幅图中可见,每次调用list接口时,List会先调用s.list()函数,该list()函数并不受锁单个volume的锁限制,s.list()函数中会调用convoy拿到所有的volume,然后List方法中会for循环每个volume,先对volume的name加锁,如果volume在缓存中不存在,则加入到缓存。

我们的这个问题的发生的原因:s.list()找convoy拿到所有volume是不受锁的限制的,而且list会for循环处理所有的volume,时间比较长,这就导致这样一种情况:list先拿到convoy的某个volume,然后docker才接到了删除这个volume的请求,docker删除convoy的这个volume并把自己的缓存删掉,然后list中的for循环才处理到这个volume,发现缓存中已经没有这个volume了,于是又把这个volume加入到缓存中(s.setNamed(v, "")),这样就导致缓存convoy端的volume已经清除了,但缓存中还有这个volume,两边的数据不一致了。 此时,docker再次收到创建该同名的volume时,首先查找缓存发现已经存在这个volume了,于是不再创建直接返回成功。之后docker再收到删除该volume的请求时,docker会调用convoy删除,而convoy中已经没有这个volume了,于是向docker返回失败的信息,因而docker也返回失败。

##解决方案 当我们试图去解决这个问题的时候,发现docker 1.11版本已经解决这个问题: bug:https://github.com/docker/docker/issues/21403 patch:https://github.com/docker/docker/commit/f04334ea040500181727c47dc626171e98660cae

解决方法: 在list volume的时候,如果缓存中不存在这个volume,不再继续添加到缓存中,这样就能避免docker中的数据比convoy中的数据多。 虽然还是会有数据不一致的问题,但只要docker的数据比plugin的数据少,那么每次请求时docker就会再次去请求plugin,这种不一致没有问题。 相反,如果docker中有某个volume的数据,而convoy中却没有该数据,那么就会产生问题。上图中添加缓存的那几行代码正是导致了docker的数据比convoy的数据多,问题就产生了。

相信,现在这个阶段,大家都在使用的docker版本都比1.10大了。否则,要打上这个patch。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据智能实战

module 'tensorflow.python.framework.fast_tensor_util' does not match runtime version 3.6问题解决

最近在重新用tensorflow 1.3.*或者1.4 的时候,发现了好多问题,主要是碰到了如题目所示的问题,目前网上没有什么好的解决办法。 ? 关于这个问题,...

294100
来自专栏Python小屋

Python自定义类支持with关键字

在任何语言中,文件操作都要遵循打开文件-操作文件-关闭文件,数据库操作也要遵循打开数据库连接-操作数据库-关闭数据库连接,网络编程中很多也具有同样的约定。下面的...

387130
来自专栏深度学习之tensorflow实战篇

pycharm 之模块与模块引用

首先在pycharm,创建文件的快捷键ALT+INS,可以将自己常用的模版导入 ? 其次函数的模块调用规则如下图 ? 模块引用并指导源文...

38290
来自专栏Hongten

hibernate中的java对象有几种状态,其相互关系如何(区别和相互转换)

花了一些时间理解hibernate中的java对象的几种状态,很容易就懂了,这里记录一下,分享给大家!!

15330
来自专栏架构说

shell中用到的管道有什么作用?(进程间传递数据)

本周问题 来源 公司讨论qq群 执行命令 ps -ef | grep xxx | awk ‘{print $2}’ | xargs -i k...

29740
来自专栏不想当开发的产品不是好测试

查看jar包的jdk版本并降级

用解压工具打开jar包(例子都是用7zip) ? 进入到META-INF目录,查看MANIFEST.MF文件,查看Bulid-Jdk,下图就为1.7.0_55版...

29770
来自专栏python3

python3--中的进程操作--multiprocess模块

运行中的程序就是一个进程。所有的进程都是通过它的父进程来创建的。因此,运行起来的python程序也是一个进程,那么我们也可以在程序中再创建进程。多个进程可以实现...

12310
来自专栏友弟技术工作室

命令行提高用户体验的神器

去闯 ag 比grep,ack更快的递归搜索文件内容 ag,grep,ack性能对比的链接 ag安装 ag ag简单使用 ag tig tig:字符模式下交互...

35690
来自专栏CaiRui

Python模块

简介: 模块:用一坨代码实现了某个功能的代码集合。分为三种: 自定义模块 第三方模块 内置模块 python去找模块的路径 ? 其中,第三方模块安装的位置 ? ...

24580
来自专栏Petrichor的专栏

pycharm: 跳转 & 回退

26820

扫码关注云+社区

领取腾讯云代金券