专栏首页LINUX阅码场何兴鹏: select函数源码简析

何兴鹏: select函数源码简析

阻塞式I/O: “有美人兮,见之不忘,一日不见兮,思之如狂。”

select: “所用皆鹰腾,破敌过箭疾”

01

简介

select()允许一个程序监听多个文件描述符,等待一个或者多个文件描述符的I/O操作变成“就绪”状态(比如:可读)。

参数

int nfds参数表示待监听的集合里的最大文件描述符的值 + 1。

fd_set *readfdsfd_set *writefdsfd_set *exceptfds三个集合分别存放需要监听读、写、异常三个操作的文件描述符。

struct timeval *timeout表示超时时间。设为0则立刻扫描并返回,设为NULL则永远等待,直到有文件描述符就绪。

02

内核实现

阅读的Linux内核版本:linux-2.6.32.68

select源码位于fs/select.c文件

执行流程

select函数执行从此开始,关键调用流程如下: select -> core_sys_select() -> do_select() 。

selcet的主要操作在do_select()函数中完成。

在上述函数中,主要把超时时间tvp的值从用户空间复制到内核空间,并且调用poll_select_set_timeout()函数把超时时间的长度加到当前时间上,获得最终的结束时间点to。由于poll_select_set_timeout()的时间精度是纳秒,所以需要转换。

之后调用core_sys_select()函数执行主要逻辑。

在主要程序执行完之后,还会调用poll_select_copy_remaining()把等待时间中的剩余时间返回给用户态的tvp

03

core_sys_select()

core_sys_select()函数主要为真正的select操作分配存储空间。这里分配了一个名为stack_fdslong长整型集合。首先预分配了long stack_fds[SELECT_STACK_ALLOC/sizeof(long)];,根据

可以看到stack_fds的大小为 256bit 。

之前存放文件描述符集合的类型是fd_set,根据

可以看到 fd_set类型在内核里是实际上__kernel_fd_set结构体,里面只包含了一个unsigned long类型的数组fds_bits。这个数组的大小是 1024/(8 * sizeof(unsigned long)) ,也就是这个数组占用空间为 1024bit 。在select中文件描述符在集合里是以位图的形式存在的,把文件描述符存放在三个集合中,最大直到 1023 ,也就是只能监听最多 1024 个文件描述符,并且只能是0 ~ 1023。

所以,存放文件描述符的数据结构限制了 select() 最多只能监听 1024 个文件描述符。

回到刚刚core_sys_select()里的stack_fds数组,这个变量的占用空间大小是 256*sizeof(long) bit 。 根据We need 6 bitmaps (in/out/ex for both incoming and outgoing)以及代码可以看到,stack_fds要存放的是6个位图,分别对应用户态传入的存放监听读、写、异常三个操作的文件描述符集合,以及这三个操作在select执行过后需要返回的三个集合。

这是 select 的机制,每次执行 select() 之后,函数把“就绪”的文件描述符留下,返回。下一次,再次执行 select() 时,需要重新把需要监听的文件描述符传入。

我认为,如果要节约空间,完全可以在传入的三个集合中进行删减,不必浪费三个集合的空间。(我的想法,可能有其他问题。)

如果刚从栈中分配的stack_fds不够存放6个集合的数据,那么再从 kmalloc 分配(用于分配大空间)。

6个集合分别用指针指向stack_fds中的不同部分空间,依次利用。size为间隔大小。

根据

size=FDS_BYTES(n);它的大小是((((n)+(8*sizeof(long))-1)/(8*sizeof(long)))*sizeof(long)),以32位系统为例,long为8字节,则大小为((((n)+8*8-1)/(8*8))*8)化简为(n-1)/8 + 8n是用户态程序指定的最大描述符+1,如果我要监听的最大文件描述符为7, n 为8,由于这是整型运算,则结果为 8 。也就是确保能存下所有描述符,而且大小为 8 的倍数 。所以kmalloc分配的空间6个集合是可以存放下去的。

之后从用户态空间把集合数据拷贝过来,并且初始化用于输出的3个位图空间为0。

进入do_select()函数。

04

do_select()

do_select()里面,主要是一遍一遍循环遍历每一个文件描述符,查询哪一个为就绪状态。

在外层的循环for (;;),每一次是整个集合遍历一遍。这是死循环,直到达到触发条件 1.有就绪的文件描述符 2.超时 3.中断。第一遍之后,当前进程会进入睡眠状态,以节约资源,直到下一次被唤醒(由文件描述符变为就绪状态触发唤醒)。

第二层的for (i = 0; i < n; ++rinp, ++routp, ++rexp) {循环,每一次是遍历__NFDBITS个描述符,这是由第三层循环决定的。从i < n可知,因为函数只会循环到 n-1 ,所以才需要输入的最大文件描述符值nfds + 1 。

第三层for (j = 0; j < __NFDBITS; ++j, ++i, bit <<= 1) {循环每次遍历一个 bit 即一个文件描述符,遍历__NFDBITS次。

根据:

可以看到,遍历的数量就是8个unsigned long长度。因为对于位图,可以一次比较多位,都没有需要监听的文件描述符就跳过,以加快速度。

循环里先根据文件描述符获得文件结构体,然后调用结构体里f_op中挂载的poll函数,以获取就绪信息。可以看到select的功能依赖文件的驱动实现。mask = (*f_op->poll)(file, wait);是 select 的关键,这里不仅检测了文件是否就绪,而且还把当前进程加入等待队列,如果该文件描述符就绪,则会触发回调,以及唤醒该进程。这需要该文件挂载的驱动配合的。

retval变量用于累计“就绪”的文件描述符数量,包括3个集合所有的。

一整次扫描完成的最后,调用poll_schedule_timeout函数,如果还未超时,则进入睡眠,等待就绪的文件描述符唤醒。超时则,timed_out = 1;。所以可以看到

THE END

此处为跳出循环的代码,也就是在超时之后,还要再循环一次才能跳出。

最后跳出循环后,调用poll_freewait(&table);移出等待队列。

可以看出来,select 的开销大在于每次都要遍历扫描每一个文件描述符就绪状态,并且是从最小的描述符 0 开始比较,做了很多无用功,所以效率很低。随着文件描述符的增加,效率会越来越低。

本文分享自微信公众号 - Linux阅码场(LinuxDev),作者:何兴鹏

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Linux防止stack缓冲区溢出的有效方法

    检测和防治stack缓冲区溢出的方法可谓是汗牛充栋,如果讲起来,那便是一个系列,我也不知道该从何说起。比如说stack-protector选项,我之前就介绍过:

    Linux阅码场
  • 拿什么拯救你? rm -r

    在ext4这样的文件系统中,如果想阻止某个目录被不小心删除,可以"chattr +i "该目录,譬如:

    Linux阅码场
  • Linux kernel同步机制(上篇)

    在现代操作系统里,同一时间可能有多个内核执行流在执行,因此内核其实像多进程多线程编程一样也需要一些同步机制来同步各执行单元对共享数据的访问,尤其是在多处理器系统...

    Linux阅码场
  • select,poll,epoll区别

    select的本质是采用32个整数的32位,即32*32= 1024来标识,fd值为1-1024。当fd的值超过1024限制时,就必须修改FD_SETSIZE的...

    阳光岛主
  • 【Python 第35课】 continue

    break是彻底地跳出循环,而continue只是略过本次循环的余下内容,直接进入下一次循环。 在我们前面写的那个统计分数的程序里,如果发现有成绩不足60分,...

    Crossin先生
  • PHP:返回指定页码数集合项的新集合

    PHP内置了 array_slice(array,start,length,preserve) 方法就可以实现这个了,然后还可以简单封装一下

    Alone88
  • CRM客户关系管理系统(十) 第十章、kingadmin+admin+actions功能开发

    zhang_derek
  • 整理常见 DOM 操作

    框架用多了,你还记得那些操作 DOM 的纯 JS 语法吗?看看这篇文章,来回顾一下~ ?

    JS菌
  • 【TypeScript 演化史 — 第十二章】ES5/ES3 的生成器和迭代支持及 –checkJS选项下 .js 文件中的错误

    TypeScript 2.3 引入了一个新的--downlevelIteration标志,为以 ES3 和 ES5 目标添加了对 ES6 迭代协议的完全支持。f...

    Javanx
  • React源码解析之React.children.map()

    React.Children.map(props.children, item => [item, [item, [item]]] :

    进击的小进进

扫码关注云+社区

领取腾讯云代金券