前两天公司晚上9点过,通知第二天要48小时核酸才能进办公楼。看到消息,已经是9点半多了,走到公司附近的核酸点,是10点过。然后发现那个点人好少,走近了才发现核酸点已经下班了,不过医护人员还没走,旁边也围了一些群众,应该是想让医护人员再做几个。
看样子做不了,我就准备换个点了,还没走远,就听到工作人员很大声地在说:“谁来理解我们?我们从大年初一就开始在这里测核酸。谁来理解我们”,“谁明天来这里做一天义工试试?”
除夕晚上,深圳出现了疫情,看深小卫下面的留言,确实是不少人,刚到家,吃了个饭,就开始买票/开车回深圳。
也不说啥了,互相多些理解吧。
事后我就想起来那句话:中国真的是被这个国家最勇敢的人保护得很好。(ps,最勇敢的人保护了这块土地,也保护了这块土地上的人,同时我也觉得,抗战时期那么多皇协军,实在不值得被保护)
言归正传,nginx的虚拟主机,不知道大家了解不。以前吧,如果在nginx上要反向代理多个服务,我一般是让nginx监听多个不同端口,比如8080/8081,不同端口,反向代理到不同的服务。
server {
listen 9981 so_keepalive=on;
proxy_pass service1;
}
server {
listen 9982 so_keepalive=on;
proxy_pass service2;
}
来了现在公司,发现这边是基于域名(端口都是80)来反向代理到不同服务,如下:
基于以上的nginx配置,域名a和b,分别代表了系统a和系统b,实际dns是指向同一台nginx机器。当你用域名a访问时,就会走上面的配置;域名b访问时,就会走下面的配置。
我的一位同事,和我差不多时间入职,接手了一个几年前的系统,看到线上环境的nginx配置,表示有点懵,不知道how it works。
这里把这个问题,简单描述下。
为了方便我这边模拟,假设机器ip为10.0.0.6,机器上有个python脚本,会去访问一个api:http://10.0.0.6:80 。
机器上的/etc/hosts如下:
[root@VM-0-6-centos nginx]# cat /etc/hosts
......
10.0.0.6 bbbb.com
也就是说,访问bbbb.com,就相当于访问这台机器了。
[root@VM-0-6-centos nginx]# ping bbbb.com
PING bbbb.com (10.0.0.6) 56(84) bytes of data.
基于以上信息,这个api访问本机的80,是会到本机的nginx(nginx监听80端口),nginx配置如下:
这个配置,基于我们对虚拟主机的了解,也就是说,访问aaaa.com,就会到第一段的配置,aaaa.access.log里面就会有访问日志;如果是访问bbbb.com,就会到第二段的配置,bbbb.access.log就会有访问日志。
但是,客户端不按套路出牌啊,用的是,10.0.0.6:80/xx这样的url来访问该nginx,同时,/etc/hosts里面有配置bbbb.com指向本机,那么,大家觉得最终的访问结果如何?
结果是,访问了aaaa那一段。
这。。。我们就有点想不通了,没理由啊,为啥呢,why?不是不能接受结果,而是不知道为什么会这样。
按理说,用域名形式访问,应该才会去查看/etc/hosts文件和dns系统,找到域名背后的ip;但是,按ip访问,貌似java建立里面的socket底层实现里,也会有根据ip去获取host的代码(还导致一些超时问题之类的)。
所以,我们猜测,难道是,访问10.0.0.6时,查看了/etc/hosts,把10.0.0.6转换成了aaaa.com?但是,/etc/hosts里面只有把10.0.0.6转换为bbbb.com的可能性吧?
本着不管三级二十一,先抓个包再说的想法,于是在nginx的80端口,开了个tcpdump:
[root@VM-0-6-centos ~]# tcpdump -i lo tcp port 80 -Ann
然后再次访问:
[root@VM-0-6-centos nginx]# curl 10.0.0.6:80
抓包结果:
看到这边host是 10.0.0.6.
这让我开始怀疑,可能和/etc/hosts没什么关系,问题应该变成了:nginx在拿到上面这段http报文时,为啥要路由到aaaa.com那一段配置里面去。
怎么才能知道nginx做了啥呢,我们又没有代码,但是,好歹,我们还有shell 命令啊。strace这个命令,可以查看一个进程的系统调用,还是比较好用的。
为啥要查这个?因为我怀疑是不是nginx拿到10.0.0.6后,把它转成了域名,不过,转的话,应该也是转换为bbbb.com。另外,这个命令有没有用,我也不确定,因为该命令只能看这个进程发起了哪些系统调用(不是java里的rpc),而是对内核发起的系统调用(system call)。万一,ip转域名的部分,没有通过系统调用实现的话,那这个命令就失效了。
不过还是试试?
先拿到了nginx的worker进程的pid:8845
[root@VM-0-6-centos nginx]# ps -ef|grep nginx
root 610 1 0 12:15 ? 00:00:00 nginx: master process ./nginx
nobody 8845 610 0 13:13 ? 00:00:00 nginx: worker process
再开启一个strace:
[root@VM-0-6-centos ~]# strace -p 8845 -s 1024 -q -f -v -e trace=network
结果如下:
好像只有接收网络请求的系统调用(recvfrom),系统调用,大家可以拿这个函数名去网上查。
此时,排查陷入了僵局,于是,我只能提议,我先回座位上找找nginx相关资料。
然后就开始在网上查,运气也还不错,就找到了:
https://docs.nginx.com/nginx/admin-guide/web-server/web-server/
上面这段话,大概就是说,虚拟主机的匹配,是通过取req报文里的host字段,来和nginx.conf中server里的server_name做匹配,
因为server_name可以是通配符之类的,所以这里有个优先级,完全匹配》模糊匹配。
上图的最后那几行,就是关键了:
如果完全没匹配上(我们这里就是,拿了个ip来匹配,然而nginx.conf里配置的是aaaa.com和bbbb.com),就会路由到这个端口的默认server。默认server是哪个呢,就是:nginx.conf里端口为80的、且写在第一个的server。
ok,打完收工。
知识点可能很小,但排查也比较麻烦,因为线上环境不好动,然后配置的域名其实不止两个,有7/8个,中间绕的路比上面其实还多一点。
不过这边的大概思路是这样的,希望对大家也有一点点帮助。