前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >LWP进程资源耗尽,Resource temporarily unavailable

LWP进程资源耗尽,Resource temporarily unavailable

作者头像
xjjdog
发布2019-09-24 17:01:16
3K0
发布2019-09-24 17:01:16
举报
文章被收录于专栏:架构专题

服务器环境使用root账户运行应用程序是非常危险的,容易让人拿到shell变成肉鸡。所以有点意识的团队,都会建立一个低权限的普通用户用来运行java程序。

权限低,有点不像亲儿子,在资源紧张的困难时刻尤其能看出来。

现象

问题是在一台公用的测试环境机器发生的,正式环境并没有复现。这台服务器部署了几十个服务,且部署账户最近从root切换到了xjjbot

运行一段时间后,服务器频繁发生问题了。首先,有大量连接处于CLOSE_WAIT状态,一度以为是被动关闭的问题。但并不是。

代码语言:javascript
复制
netstat -antp | grep CLOSE | awk '{print $7}'  | sort | uniq -c

奇怪的是,使用root账户或者其他账户登录系统,操作一切正常。然而当切换到xjjbot账户,则会报以下错误:

代码语言:javascript
复制
# sudo su - xjjbot
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: retry: no child processes
bash: fork: Resource temporarily unavailable

以上是系统级别的报错信息。这种情况下,jvm也会有相应报错,但恐怕你也没有机会去看了(可以使用其他系统用户查看哦)。

代码语言:javascript
复制
- Cannot create GC thread. Out of system resources  
- java.lang.OutOfMemoryError: unable to create new native thread

原因

引起的原因就是资源不够用了,具体来说是进程资源。

Linux的线程其实是一个进程,所以java的也是,具体来说,叫做“light weight process(LWP)”—轻量级进程。

LWP与其它进程共享所有(或大部分)逻辑地址空间和系统资源,一个进程可以创建多个LWP,这样它们共享大部分资源;LWP有它自己的进程标识符,并和其他进程有着父子关系;。LWP由内核管理并像普通进程一样被调度

使用以下命令可以看到某个用户使用了多少进程资源

代码语言:javascript
复制
ps -eLf | grep xjjbot(uid)  | wc -l

使用下面命令可以查看具体每个进程开启了多少线程

代码语言:javascript
复制
ps -o nlwp,pid,lwp,args -u xjjbot(uid)  | sort -n

解决

根据linux一切都是文件的规则,首先想到的,是修改ulimit的参数,然而也不是,因为它已经足够大了。交叉回想一下elasticsearch,在安装的时候,需要配置一个叫做nproc的东西,问题大概就出在这,是进程资源不够用啦。

相关的配置文件: /etc/security/limits.conf

在不同的内核版本上,也有一些小差异。比如 /etc/security/limits.d/* 下的文件,会在某些时候覆盖limits.conf的配置。所以配置不生效的情况下,记得检查一下。

鉴于以上原因,可以将limits.d中的配置全部注释掉,统一在limits.conf中配置。

以下是原始配置

代码语言:javascript
复制
*          soft    nproc     4096
root       soft    nproc     unlimited

将4096改为大点的数字,或者直接改成unlimited就可以了。

ElasticSearch系统参数配置

既然提到了es,那么我们看一下es安装都需要改哪些系统配置。这些经验都是公用的,可以举一反三。

https://www.elastic.co/guide/en/elasticsearch/reference/master/setting-system-settings.html

禁用swap

swap是性能杀手,所以ES也忍受不住了,直接关掉。

代码语言:javascript
复制
sudo swapoff -a

在配置文件里也可以加入这个参数,jvm锁住内存,不让它们和交换分区交换。

代码语言:javascript
复制
bootstrap.memory_lock: true

虚拟内存

ES使用mmapfs来映射一些数据,但默认的系统参数对它来说太小了,也需要修改。

代码语言:javascript
复制
sysctl -w vm.max_map_count=262144

永久生效需要修改 /etc/sysctl.conf

文件句柄

ulimit

linux打开的文件描述符数量是有限的。如果你的应用需要同时和很多小文件打交道,则需要配置此参数。

代码语言:javascript
复制
sudo su  
ulimit -n 65536
su elasticsearch

/etc/security/limits.conf

ok,这就是我们刚才改动的文件。要想上面的配置永久生效,则需要改动此文件。

代码语言:javascript
复制
elasticsearch  -  nofile  65536

线程数量

就是我们上面说的啦,能够快速想到它,也是因为安装过es -.- 所以,不要随便开一大堆线程,除了增加调度时间,还容易顶到系统的天花板。

冯诺依曼架构下,这些软件,不都一个套路么? 有着一样的命运,挣扎着却无法逃脱。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-12-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小姐姐味道 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 现象
  • 原因
  • 解决
  • ElasticSearch系统参数配置
    • 禁用swap
      • 虚拟内存
        • 文件句柄
          • ulimit
          • /etc/security/limits.conf
        • 线程数量
        相关产品与服务
        Elasticsearch Service
        腾讯云 Elasticsearch Service(ES)是云端全托管海量数据检索分析服务,拥有高性能自研内核,集成X-Pack。ES 支持通过自治索引、存算分离、集群巡检等特性轻松管理集群,也支持免运维、自动弹性、按需使用的 Serverless 模式。使用 ES 您可以高效构建信息检索、日志分析、运维监控等服务,它独特的向量检索还可助您构建基于语义、图像的AI深度应用。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档