前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >多个套接字可以绑定同一个端口吗

多个套接字可以绑定同一个端口吗

作者头像
挖坑的张师傅
发布2022-05-13 16:03:22
2.6K0
发布2022-05-13 16:03:22
举报
文章被收录于专栏:张师傅的博客

在日常的开发过程中,经常会遇到端口占用冲突的问题。那是不是不同的进程不能同时监听同一个端口呢?这个小节就来介绍 SO_REUSEPORT 选项相关的内容。

通过阅读这个小节,你会学到如下知识。

  • SO_REUSEPORT 选项是什么
  • 什么是惊群效应
  • SO_REUSEPORT 选项安全性相关的问题
  • Linux 内核实现端口选择过程的源码分析

SO_REUSEPORT 是什么

默认情况下,一个 IP、端口组合只能被一个套接字绑定,Linux 内核从 3.9 版本开始引入一个新的 socket 选项 SO_REUSEPORT,又称为 port sharding,允许多个套接字监听同一个IP 和端口组合。

为了充分发挥多核 CPU 的性能,多进程的处理网络请求主要有下面两种方式

  • 主进程 + 多个 worker 子进程监听相同的端口
  • 多进程 + REUSEPORT

第一种方最常用的一种模式,Nginx 默认就采用这种方式。主进程执行 bind()、listen() 初始化套接字,然后 fork 新的子进程。在这些子进程中,通过 accept/epoll_wait 同一个套接字来进行请求处理,示意图如下所示。

reuseport_nginx

这种方式看起来很完美,但是会带来著名的“惊群”问题(thundering herd)。

惊群问题(thundering herd)

在开始介绍惊群之前,我们下来看看一个现实世界中的惊群问题。假如你养了五条狗,一开始这五条狗都在睡觉,你过去扔了一块骨头,这五条狗都从睡梦中醒来,一起跑过来争抢这块骨头,最终只有第三条狗抢到了这块骨头,剩下的四条狗只好无奈的继续睡觉。如下图所示。

惊群

从上面的例子可以看到,明明只有一块骨头只够一条小狗吃,五只小狗却一起从睡眠中醒来争抢,对于没有抢到小狗来说,浪费了很多精力。

计算机中的惊群问题指的是:多进程/多线程同时监听同一个套接字,当有网络事件发生时,所有等待的进程/线程同时被唤醒,但是只有其中一个进程/线程可以处理该网络事件,其它的进程/线程获取失败重新进入休眠。

惊群问题带来的是 CPU 资源的浪费和锁竞争的开销。根据使用方式的不同,Linux 上的网络惊群问题分为 accept 惊群和 epoll 惊群两种。

accept 惊群

Linux 在早期的版本中,多个进程 accept 同一个套接字会出现惊群问题,以下面的代码为例。

代码语言:javascript
复制
int main(void) {
  // ...
  servaddr.sin_port = htons (9090);
  bind(listenfd, (struct sockaddr *)&servaddr, sizeof(servaddr));
  listen(listenfd, 5);
  clilen = sizeof(cliaddr);

  for (int i = 0; i < 4; ++i) {
	if ((fork()) == 0) {
	  // 子进程
	  printf("child pid: %d\n", getpid());
	  while (1) {
		connfd = accept(listenfd, (struct sockaddr *)&cliaddr, &clilen);
		sleep(2);
		printf("processing, pid is %d\n", getpid());
	  }
	}
  }
  sleep(-1);
  return 1;
}

执行 nc -i 1 localhost 9090,输出结果如下。

代码语言:javascript
复制
child pid: 25050
child pid: 25051
child pid: 25052
child pid: 25053
processing, pid is 25050

可以看到当有网络请求到来时,只会唤醒了其中一个子进程,其他的进程继续休眠阻塞在 accept 调用上,没有被唤醒,这种情况下,accept 系统调用不存在惊群现象。这是因为 Linux 在 2.6 内核版本之前监听同一个 socket 的多个进程在事件发生时会唤醒所有等待的进程,在 2.6 版本中引入了 WQ_FLAG_EXCLUSIVE 选项解决了 accept 调用的惊群问题。

不幸的是现在高性能的服务基本上都使用 epoll 方案来处理非阻塞 IO,接下来我们来看 epoll 惊群。

epoll 惊群

epoll 典型的工作模式是父进程执行 bind、listen 以后 fork 出子进程,使用 epoll_wait 等待事件发生,模式如下图所示。

epoll 工作模式

以下面的代码为例。

代码语言:javascript
复制
int main(void) {
  // ...
  sock_fd = create_and_bind("9090");
  listen(sock_fd, SOMAXCONN);

  epoll_fd = epoll_create(1);
  event.data.fd = sock_fd;
  event.events = EPOLLIN;
  epoll_ctl(epoll_fd, EPOLL_CTL_ADD, sock_fd, &event);
  events = calloc(MAXEVENTS, sizeof(event));

  for (int i = 0; i < 4; i++) {
	if (fork() == 0) {
	  while (1) {
		int n = epoll_wait(epoll_fd, events, MAXEVENTS, -1);
		printf("return from epoll_wait, pid is %d\n", getpid());
		sleep(2);
		for (int j = 0; j < n; j++) {
          if ((events[i].events & EPOLLERR) || (events[i].events & EPOLLHUP) ||
              (!(events[i].events & EPOLLIN))) {
            close(events[i].data.fd);
            continue;
          } else if (sock_fd == events[j].data.fd) {
            struct sockaddr sock_addr;
            socklen_t sock_len;
            int conn_fd;
            sock_len = sizeof(sock_addr);
            conn_fd = accept(sock_fd, &sock_addr, &sock_len);
            if (conn_fd == -1) {
              printf("accept failed, pid is %d\n", getpid());
              break;
            }
            printf("accept success, pid is %d\n", getpid());
            close(conn_fd);
          }
      }
    }
  }
}

上面代码运行以后,使用 ls -l /proc/your_pid/fd 命令可以查看主进程打开的所有 fd 文件,如果 pid 为 24735,执行的结果如下。

代码语言:javascript
复制
ls -l /proc/24735/fd

lrwx------. 1 ya ya 64 Jan 28 06:20 0 -> /dev/pts/2
lrwx------. 1 ya ya 64 Jan 28 06:20 1 -> /dev/pts/2
lrwx------. 1 ya ya 64 Jan 28 00:10 2 -> /dev/pts/2
lrwx------. 1 ya ya 64 Jan 28 06:20 3 -> 'socket:[72919]'
lrwx------. 1 ya ya 64 Jan 28 06:20 4 -> 'anon_inode:[eventpoll]'

可以看到主进程会生成 5 个 fd,0~2 分别是 stdin、stdout、stderr,fd 为 3 的描述符是 socket 套接字文件,fd 为 4 的是 epoll 的 fd。

为了表示打开文件,linux 内核维护了三种数据结构,分别是:

  • 内核为每个进程维护了一个其打开文件的「描述符表」(file descriptor table),我们熟知的 fd 为 0 的 stdin 就是属于文件描述符表。
  • 内核为所有打开文件维护了一个系统级的「打开文件表」(open file table),这个打开文件表存储了当前文件的偏移量,状态信息和对 inode 的指针等信息,父子进程的 fd 可以指向同一个打开文件表项。
  • 最后一个是文件系统的 inode 表(i-node table)

经过 for 循环的 fork,会生成 4 个子进程,这 4 个子进程会继承父进程的 fd。在这种情况下,对应的进程文件描述符表、打开文件表和 inode 表的关系如下图所示。

epoll_fd

子进程的 epoll_wait 等待同一个底层的 open file table 项,当有事件发送时,会通知到所有的子进程。

编译运行上面的,使用 nc -i 1 localhost 9090 发起网络请求,输出结果如下所示。

代码语言:javascript
复制
return from epoll_wait, pid is 25410
return from epoll_wait, pid is 25411
return from epoll_wait, pid is 25409
return from epoll_wait, pid is 25412
accept success, pid is 25410
accept failed, pid is 25411
accept failed, pid is 25409
accept failed, pid is 25412

可以看到当有新的网络事件发生时,阻塞在 epoll_wait 的多个进程同时被唤醒。在这种情况下,epoll 的惊群还是存在,有不少的措施可以解决 epoll 的惊群。Nginx 为了处理惊群问题,在应用层增加了 accept_mutex 锁,这里不再展开,有兴趣的读者可以再深入学习一下这部分的知识。

为了解决惊群问题,比较省力省心的方式是使用 SO_REUSEPORT 选项,接下来开始介绍这部分的内容。

SO_REUSEPORT 选项基本使用

以下面的 test.c 代码为例。

代码语言:javascript
复制
int main() {
  struct sockaddr_in serv_addr;
  int sock_fd = socket(AF_INET, SOCK_STREAM, 0);
  setsockopt(sock_fd, SOL_SOCKET, SO_REUSEADDR, &optval, sizeof(optval));
  bzero((char *)&serv_addr, sizeof(serv_addr));
  serv_addr.sin_family = AF_INET;
  serv_addr.sin_addr.s_addr = htonl(INADDR_ANY);
  serv_addr.sin_port = htons(9090);
  int ret = bind(sock_fd, (struct sockaddr *)&serv_addr, sizeof(serv_addr));
  if (ret < 0) {
	printf("bind error, code is %d\n", ret);
	exit(1);
  }
  sleep(-1);
  return 0;
}

使用 GCC 编译上面的代码,在两个终端中运行这个可执行文件,第二次运行会 bind 端口失败,提示如下。

代码语言:javascript
复制
bind error, code is -1

修改上面的代码,给 socket 增加 SO_REUSEPORT 选项,如下所示。

代码语言:javascript
复制
#define BUF_SIZE 256

int main(void) {
  int sock_fd, connect_fd;
  char buffer[BUF_SIZE];
  struct sockaddr_in serv_addr, cli_addr;
  int cli_addr_len = sizeof(cli_addr);
  int n;

  sock_fd = socket(AF_INET, SOCK_STREAM, 0);
  int optval = 1;

  setsockopt(sock_fd, SOL_SOCKET, SO_REUSEADDR, &optval, sizeof(optval));
  setsockopt(sock_fd, SOL_SOCKET, SO_REUSEPORT, &optval, sizeof(optval));
  bzero((char *)&serv_addr, sizeof(serv_addr));
  serv_addr.sin_family = AF_INET;
  serv_addr.sin_addr.s_addr = INADDR_ANY;
  serv_addr.sin_port = htons(9090);

  int ret = bind(sock_fd, (struct sockaddr *)&serv_addr, sizeof(serv_addr));
  if (ret < 0) {
    printf("bind error, code is %d\n", ret);
    exit(1);
  }

  listen(sock_fd, 5);

  while (1) {
    connect_fd = accept(sock_fd, (struct sockaddr *)&cli_addr, &cli_addr_len);
    printf("process new request\n");
    n = read(connect_fd, buffer, BUF_SIZE);
    write(connect_fd, buffer, n);
    close(connect_fd);
  }
  return 0;
}

重新编译上面的代码,在两个终端中分别运行这个可执行文件,这次不会出现 bind 失败的情况。使用 ss 命令来查看当前的套接字

代码语言:javascript
复制
ss -tlnpe | grep -i 9090
State      Recv-Q Send-Q Local Address:Port Peer Address:Port
LISTEN     0      5            *:9090 *:*                   users:(("reuse_port",pid=26897,fd=3)) uid:1000 ino:2168508 sk:ffff880079033e00 <->
LISTEN     0      5            *:9090 *:*                   users:(("reuse_port",pid=26855,fd=3)) uid:1000 ino:2168453 sk:ffff880079037440 <->

注意到最后一列中的信息,可以看到监听 9090 端口的是两个不同的 socket,它们的 inode 号分别是 2168508 和 2168453。

ss 是一个非常有用的命令,它的选项解释如下。

代码语言:javascript
复制
-t, --tcp
    显示 TCP 的 socket
-l, --listening
    只显示 listening 状态的 socket,默认情况下是不显示的。
-n, --numeric
    显示端口号而不是映射的服务名
-p, --processes
    显示进程名
-e, --extended
    显示 socket 的详细信息

写一段 shell 脚本请求 10 次 9090 端口的服务,脚本内容如下。

代码语言:javascript
复制
for i in {1..10} ; do
   echo "hello" | nc -i 1 localhost 9090
done

执行脚本,终端 1 中的进程处理了四次请求,终端 2 中的进程处理了六次请求,如下图所示。

这个处理过程如下图所示。

reuseport

当一个新请求到来,内核是如何确定应该由哪个 LISTEN socket 来处理?接下来我们来看 SO_REUSEPORT 底层实现原理,

SO_REUSEPORT 源码分析

内核为处于 LISTEN 状态的 socket 分配了大小为 32 哈希桶。监听的端口号经过哈希算法运算打散到这些哈希桶中,相同哈希的端口采用拉链法解决冲突。当收到客户端的 SYN 握手报文以后,会根据目标端口号的哈希值计算出哈希冲突链表,然后遍历这条哈希链表得到最匹配的得分最高的 Socket。对于使用 SO_REUSEPORT 选项的 socket,可能会有多个 socket 得分最高,这个时候经过随机算法选择一个进行处理。

假设有 127.0.0.1:2222127.0.0.1:999810.211.55.17:996610.211.55.10:2222 这几个监听套接字,这几个套接字被哈希到同一个链表中,当有 127.0.0.1:2222 套接字的 SYN 包到来时,会遍历这个哈希链表,查找得分最高的两个 socket,然后通过随机选择其中的一个。

如下图所示。

reuse-port-hash

以 4.4 内核版本为例,这部分源码如下所示。

代码语言:javascript
复制
struct sock *__inet_lookup_listener(struct net *net,
				    struct inet_hashinfo *hashinfo,
				    const __be32 saddr, __be16 sport,
				    const __be32 daddr, const unsigned short hnum,
				    const int dif)
{
	struct sock *sk, *result;
	struct hlist_nulls_node *node;
	// 根据目标端口号生成哈希表的槽位值,这个函数返回 [0-31] 之间的值
	unsigned int hash = inet_lhashfn(net, hnum);
	// 根据哈希槽位得到当前 LISTEN 套接字的链表
	struct inet_listen_hashbucket *ilb = &hashinfo->listening_hash[hash];
	// 接下来查找最符合条件的 LISTEN 状态的 socket
	int score, hiscore, matches = 0, reuseport = 0;
	u32 phash = 0;

	rcu_read_lock();
begin:
	result = NULL;
	hiscore = 0;
	// 遍历链表中的所有套接字,给每个套接字匹配程度打分
	sk_nulls_for_each_rcu(sk, node, &ilb->head) {

	struct inet_sock *inet_me = inet_sk(sk);
	int xx = inet_me->inet_num;

	score = compute_score(sk, net, hnum, daddr, dif);
		if (score > hiscore) {
			result = sk;
			hiscore = score;
			reuseport = sk->sk_reuseport;
			// 如果 socket 启用了 SO_REUSEPORT 选项,通过源地址、源端口号、目标地址、目标端口号再次计算哈希值
			if (reuseport) {
				phash = inet_ehashfn(net, daddr, hnum,
						     saddr, sport);
				matches = 1;
			}
		} else if (score == hiscore && reuseport) { // 如果启用了 SO_REUSEPORT,则根据哈希值计算随机值
		    // matches 表示当前已经查找到多少个相同得分的 socket
			matches++;
			// 通过 phash 计算 [0, matches-1] 之间的值
			int res = reciprocal_scale(phash, matches);
			if (res == 0)
				result = sk;
			// 根据 phash 计算下一轮计算的 phash 随机值
			phash = next_pseudo_random32(phash);
		}
	}
	/*
	 * if the nulls value we got at the end of this lookup is
	 * not the expected one, we must restart lookup.
	 * We probably met an item that was moved to another chain.
	 */
	if (get_nulls_value(node) != hash + LISTENING_NULLS_BASE)
		goto begin;
	if (result) {
		if (unlikely(!atomic_inc_not_zero(&result->sk_refcnt)))
			result = NULL;
		else if (unlikely(compute_score(result, net, hnum, daddr,
				  dif) < hiscore)) {
			sock_put(result);
			goto begin;
		}
	}
	rcu_read_unlock();
	return result;
}

从上面的代码可以看出当收到 SYN 包以后,内核需要遍历整条冲突链查找得分最高的 socket,非常低效。Linux 内核在 4.5 和 4.6 版本中分别为 UDP 和 TCP 引入了 SO_REUSEPORT group 的概念,在查找匹配的 socket 时,就不用遍历整条冲突链,对于设置了 SO_REUSEPORT 选项的 socket 经过二次哈希找到对应的 SO_REUSEPORT group,从中随机选择一个进行处理。以 4.6 内核代码为例。

代码语言:javascript
复制
struct sock *__inet_lookup_listener(struct net *net,
				    struct inet_hashinfo *hashinfo,
				    struct sk_buff *skb, int doff,
				    const __be32 saddr, __be16 sport,
				    const __be32 daddr, const unsigned short hnum,
				    const int dif)
{
	struct sock *sk, *result;
	struct hlist_nulls_node *node;

	// 根据目标端口号计算 listening_hash 的哈希槽位,hash 是一个 [0, 31] 之间的值
	unsigned int hash = inet_lhashfn(net, hnum);
	// 根据哈希槽位找到冲突链
	struct inet_listen_hashbucket *ilb = &hashinfo->listening_hash[hash];
	int score, hiscore, matches = 0, reuseport = 0;
	bool select_ok = true;
	u32 phash = 0;

begin:
	result = NULL;
	// 当前遍历过程中的最高得分
	hiscore = 0;
	sk_nulls_for_each_rcu(sk, node, &ilb->head) {
	   // 根据匹配程度计算每个得分
		score = compute_score(sk, net, hnum, daddr, dif);
		if (score > hiscore) {
			result = sk;
			hiscore = score;
			reuseport = sk->sk_reuseport;

			// 有更合适的 reuseport 组,则根据 daddr、hnum、saddr、sport 再次计算哈希值
			if (reuseport) {
				phash = inet_ehashfn(net, daddr, hnum,
						     saddr, sport);
				if (select_ok) {
					struct sock *sk2;
					// 根据这个哈希值从 SO_REUSEPORT group 中选择一个 socket
					sk2 = reuseport_select_sock(sk, phash, skb, doff);
					if (sk2) {
						result = sk2;
						goto found;
					}
				}
				matches = 1;
			}
		} else if (score == hiscore && reuseport) {
		   // 当前面的 SO_REUSEPORT group 查找不适用时,退化为 4.5 版本之前的算法。
			matches++;
			if (reciprocal_scale(phash, matches) == 0)
				result = sk;
			phash = next_pseudo_random32(phash);
		}
	}
	/*
	 * if the nulls value we got at the end of this lookup is
	 * not the expected one, we must restart lookup.
	 * We probably met an item that was moved to another chain.
	 */
	if (get_nulls_value(node) != hash + LISTENING_NULLS_BASE)
		goto begin;
	if (result) {
found:
		if (unlikely(!atomic_inc_not_zero(&result->sk_refcnt)))
			result = NULL;
		else if (unlikely(compute_score(result, net, hnum, daddr,
				  dif) < hiscore)) {
			sock_put(result);
			select_ok = false;
			goto begin;
		}
	}
	rcu_read_unlock();
	return result;
}

从 SO_REUSEPORT group 中查找的逻辑如下所示。

代码语言:javascript
复制
struct sock *reuseport_select_sock(struct sock *sk,
				   u32 hash,
				   struct sk_buff *skb,
				   int hdr_len)
{
	struct sock_reuseport *reuse = sk->sk_reuseport_cb;
    // 当前 group 中 socket 的数量
	u16 socks = reuse->num_socks;
	// reciprocal_scale 函数根据 hash 生成 [0, socks-1] 之间的随机数
	// 根据哈希索引选择命中的 socket
	struct sock *sk2 = reuse->socks[reciprocal_scale(hash, socks)];
	return sk2;
}

过程如下图所示。

reuse_port_2nd_hash

SO_REUSEPORT 与安全性

试想下面的场景,你的进程进程监听了某个端口,不怀好意的其他人也可以监听相同的端口来“窃取”流量信息,这种方式被称为端口劫持(port hijacking)。SO_REUSEPORT 在安全性方面的考虑主要是下面这两点。

1、只有第一个启动的进程启用了 SO_REUSEPORT 选项,后面启动的进程才可以绑定同一个端口。2、后启动的进程必须与第一个进程的有效用户ID(effective user ID)匹配才可以绑定成功。

SO_REUSEPORT 的应用

SO_REUSEPORT 带来了两个明显的好处:

  • 实现了内核级的负载均衡
  • 支持滚动升级(Rolling updates)

内核级的负载均衡在前面的 Nginx 的例子中已经介绍过了,这里不再赘述。使用 SO_REUSEPORT 做滚动升级的过程如下图所示。

rolling-update

步骤如下所示。

  1. 新启动一个新版本 v2 ,监听同一个端口,与 v1 旧版本一起处理请求。
  2. 发送信号给 v1 版本的进程,让它不再接受新的请求
  3. 等待一段时间,等 v1 版本的用户请求都已经处理完毕时,v1 版本的进程退出,留下 v2 版本继续服务

小结

这个小节主要介绍了 SO_REUSEPORT 参数相关的知识,本来是一个很简单的参数选项,为了讲清楚来龙去脉,还是挺复杂的。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-01-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 张师傅的博客 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • SO_REUSEPORT 是什么
  • 惊群问题(thundering herd)
    • accept 惊群
      • epoll 惊群
      • SO_REUSEPORT 选项基本使用
      • SO_REUSEPORT 源码分析
      • SO_REUSEPORT 与安全性
      • SO_REUSEPORT 的应用
      • 小结
      相关产品与服务
      负载均衡
      负载均衡(Cloud Load Balancer,CLB)提供安全快捷的流量分发服务,访问流量经由 CLB 可以自动分配到云中的多台后端服务器上,扩展系统的服务能力并消除单点故障。负载均衡支持亿级连接和千万级并发,可轻松应对大流量访问,满足业务需求。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档