服务器hang死_linux系统hang死_linux hang - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Android架构纵横谈之——软件自愈能力（3）

上回书(Android架构纵横谈之——软件自愈能力（2）)说到Android中生死与共的Zygote和SystemServer，今回书我们讲SystemServer的watchdog，也为软件架构自愈系列的终结篇。

03

【客户案例】巡检项：负载均衡（CLB）健康检查配置

2021年8月某游戏行业大客户新上线一款游戏业务，配置CLB时未开启健康检查功。游戏开服后，游戏登录出现异常报错。

01

您找到你想要的搜索结果了吗？

是的

没有找到

【客户案例】给CLB来场健康检查吧！ ––巡检项：负载均衡（CLB）健康检查配置

2021年8月某游戏行业大客户新上线一款游戏业务，配置CLB时未开启健康检查功能。游戏开服后，游戏登录出现异常报错。

06

motan-2：motan的简约限流/熔断方式

https://github.com/weibocom/motan/issues/551

01

如何定位 golang 进程 hang 死的 bug

之前在 golang 群里有人问过为什么程序会莫名其妙的 hang 死然后不再响应任何请求。单核 cpu 打满。

03

Socket hang up 是什么？什么情况下会发生？

关于 Socket hang up 最早是在一次服务压测中出现的，后来得到了解决，近期在 Node.js 服务迁移 K8S 容器中时又报出了此问题，核查原因之后发现是对容器的 CPU、内存大小做了限制引起的，这里总结下什么是 Socket hang up 及在什么情况下发生，该如何解决。

06

高可用服务架构设计(16) - 基于timeout机制来为商品服务接口的调用超时提供安全保护

一般来说，在调用依赖服务的接口的时候，比较常见的一个问题，就是超时超时是在一个复杂的分布式系统中，导致不稳定，或者系统抖动，或者出现说大量超时，线程资源hang死，吞吐量大幅度下降，甚至服务崩溃

02

高可用架构(16)-基于timeout机制的超时安全保护

超时是在一个复杂的分布式系统中，导致不稳定，或者系统抖动，或者出现说大量超时，线程资源hang死，吞吐量大幅度下降，甚至服务崩溃

04

从机器内部脱机云盘了，但是控制台卸载失败；控制台显示待挂载，但挂载失败

一般来说，我们过滤Kernel-PnP、Disk日志就能看到与控制台挂载、卸载云盘失败相关的日志了

04

Linux上后台保持Terminal交互运行的两种方式

Linux上，如果一个进程需要保持后台运行，尤其是在Linux服务器上，后台运行程序、避免因为SSH连接断开而导致进程停止运行时，该怎么办？

01

php-fpm优化总结

Nginx 与 php-fpm 的结合在 Linux 上，nginx 与 php-fpm 的通信有 tcp socket 和 unix socket 两种方式。 tcp socket 的优点是可以跨服务器，当 nginx 和 php-fpm 不在同一台机器上时，只能使用这种方式。 Unix socket 又叫 IPC (inter-process communication 进程间通信) socket，用于实现同一主机上的进程间通信，这种方式需要在 nginx 配置文件中填写 php-fpm 的 socket 文件位置。

04

Redis如何保障缓存与数据库的数据一致性问题？

（1）读的时候，先读缓存，缓存没有的话，那么就读数据库，然后取出数据后放入缓存，同时返回响应（2）更新的时候，先删除缓存，然后再更新数据库

03

敢在线上Redis做Keys正则匹配操作！

运行后导致redis hang住，接着CPU飙升，业务上所有支付链路卡住，所有的请求流量全部挤压到了rds数据库中，引起数据库雪崩效应，进而直接宕机。

01

对线面试官 - Java IO经典面试问题突击篇

最传统的网络通信模型就是BIO，同步阻塞式IO。通俗的讲就是服务端创建一个ServerSocket，客户端用一个Socket去连接那个Server Socket，ServerSocket接收到一个Socket的连接请求就创建一个Socket和一个线程去和那个Socket进行通信。

01

Tokio 中 hang 死所有 worker 的方法

Tokio[1] 的 task(一个Future) 里如果使用了阻塞调用, 例如 std::sync::Mutex, 会阻塞当前的 tokio-worker 线程, 这个 worker 无法再执行其他 task. 所以代码里如果不可避免的有(少量的)阻塞调用, 就要为 runtime 启动更多的 worker 线程, 保证存在没被阻塞的 worker 来执行待调度的 task, 以避免整个tokio runtime 完全 hang 住(有 task 但没 worker 运行它).

02

【性能优化之道】每秒上万并发下的Spring Cloud参数优化实战

相信不少朋友都在自己公司使用Spring Cloud框架来构建微服务架构，毕竟现在这是非常火的一门技术。

02

数据库连接池之c3p0-0.9.1.2，线上偶发APPARENT DEADLOCK，如何解

本篇其实是承接前面两篇的，都是讲定位线上的c3p0数据库连接池，发生连接泄露的问题。

02

screen关闭SSH后保持后台运行

我们通过SSH去连接linux服务器的，当我们退出或者端口SSH连接的话，当前正在执行的脚本文件也会被停止，因为linux服务器会在你退出SSH连接后，默认关闭进程，而不会hang up进程，所以不想一直保持SSH连接，又想一直保持服务器程序运行的解决办法如下：（这里以阿里云的CentOS系统为例）

03

ELK学习笔记之容器filebeat占用过多/var/log目录(filebeat进程写满磁盘)

容器平台最近发布有点问题，整个平台每日产生日志量大约在300GB ，filebeat采用sidecar的方式采集std管道内的日志；

03

使用Java代码通过JDBC连接只启用Sentry的Impala异常分析

在使用Java代码访问只启用了Sentry的Impala集群，即集群未启用认证比如LDAP或者Kerberos，会出现获取JDBC连接hang死的现象，具体示例代码如下：

04

性能测试系列五压测常见的关注指标以及监控分析工具

前面的文章，我们分析了压测的时机，压测的指标，那么这次呢，我们来看下，我们这些压测的指标，常见的都需要性能压测中观测点，有了对指标的梳理，我们才有重点的关注点，下面，我列举一些常见的指标。

01

高并发场景下的缓存+数据库双写不一致问题分析与解决方案设计

库存可能会修改，每次修改都要去更新这个缓存数据; 每次库存的数据，在缓存中一旦过期，或者是被清理掉了，前端的nginx服务都会发送请求给库存服务，去获取相应的数据

01

Flash/Flex学习笔记(47)：反向运动学(上)

先回顾上篇所说的"正向运动学"：以人行走的例子来说，基本上可以理解为大腿驱动小腿，小腿驱动脚，从而引发的一系列姿态调整和运动。再举一个例子，我们用着拿一根软鞭或链条的一端挥舞，被手挥舞的这一端会把"能量"向另一端传递（即固定端驱动紧接的部分，而紧接的部分又驱动下一段紧接的部分），从而使整个系统也随之运动. 而"反向运动学"正好相反，举个不恰当的例子，小时候估计很多人玩过“死”青蛙(之所以要说是死的，是为了排除活体的自主运动)，用手去拖死青蛙的脚（即自由端），会发现拉脚的同时，也带动青蛙的大腿在拖动，进而拖动

05

提前内置一些排障工具到Windows系统大有好处

比如www.nirsoft.net的提权工具和日志分析工具、抓包工具、微软的windows performance toolkit和sysinternals工具等

06

关于闪回区溢出导致的数据hang（r11笔记第12天）

对于Oracle数据库的闪回区的设置，之前和一个同事和讨论过，总体来说有一些不同的意见。首先这个闪回区是一个逻辑的概念，闪回区的大小不会严格依赖于磁盘空间的情况，比如磁盘空间目前剩余100G,但是你设置闪回区为200G是没有问题的。如此一来，和只使用归档参数想比，这个闪回区似乎有一点问题，总体来说闪回区的管理还是比较方便的，可以监控管理闪回区中的归档，闪回日志，备份等的大小。使用的视图为v$flash_recovery_area_usage，在11g做了简化，为v$recovery_area_usag

我的 Docker 卡死了，怎么办？在线等

最近升级了一版 kubelet，修复因 kubelet 删除 Pod 慢导致平台删除集群超时的问题。在灰度 redis 隔离集群的时候，发现升级 kubelet 并重启服务后，少量宿主状态变成了 NotReady，并且回滚 kubelet 至之前版本，宿主状态仍然是 NotReady。查看宿主状态时提示 ‘container runtime is down’ ，根据经验，此时一般就是容器运行时出了问题。弹性云使用的容器运行时是 docker，我们就去检查 docker 的状态，检测结果如下：

03

使用Dubbo+Kubernetes部署线上的TensorFlow Serving服务

TensorFlow Serving服务在Kubernetes集群中的部署方案，如果是从零开始建设，那么可以通过Kubernetes原生的Service+KubeDNS实现服务的注册与发现，并通过对接LVS集群进行负载均衡。因此我们在TaaS中开发了Kube2LVS模块，负责对TensorFlow Serving服务进行ListAndWatch，实现TensorFlow Serving Service Info动态reload到LVS config中。

02

Linux的命令行输入不显示问题分析

使用Linux命令行时，正常的情况是终端会打出输入的信息。但是有的时候，明明敲击了键盘，终端却没有字符打印出来。只有回车的时候，看到命令执行的结果。输入密码时不会显示密码，这是正常的，但有的时候是因为配置问题导致正常命令也不现实。

04

一桩VIM引发的血案

在使用vim的时候，如果打开的小文件，没啥问题，如果打开的超大类型的文件，那么就会引发巨大的风险，轻则内存使用爆炸，重则引发操作系统oom。

01

高并发场景下缓存+数据库双写不一致问题分析与解决方案设计

Redis是企业级系统高并发、高可用架构中非常重要的一个环节。Redis主要解决了关系型数据库并发量低的问题，有助于缓解关系型数据库在高并发场景下的压力，提高系统的吞吐量（具体Redis是如何提高系统的性能、吞吐量，后面会专门讲）。

06

应用层

DNS 服务器的管辖范围不是以“域”为单位，而是以“区”为单位。一个服务器所负责管辖的（或有权限的）范围叫做区 (zone)

02

Hystrix线程池机制的资源隔离在业务中的最佳实践

hystrix资源隔离，其实是提供了一个抽象，叫做command。若把对某个依赖服务的所有调用请求，全部隔离在同一份资源池内。

02

互联网大厂缓存与数据库的双写一致性解决方案

若系统不是严格要求缓存/数据库必须一致性，缓存可以稍微和数据库偶尔不一致，最好不要做双写。读请求和写请求串行化，串到一个内存队列里去，这样就可以保证一定不会出现不一致。串行化后，就会导致系统吞吐量骤降，就需要比正常情况下多几倍的机器去支撑线上环境请求。

02

造成Baiduspider（百度蜘蛛）抓取网站异常的原因有哪些

有一些网页，内容优质，用户也可以正常访问，但是Baiduspider却无法正常访问并抓取，造成搜索结果覆盖率缺失，对百度搜索引擎对站点都是一种损失，百度把这种情况叫“抓取异常”。对于大量内容无法正常抓取的网站，百度搜索引擎会认为网站存在用户体验上的缺陷，并降低对网站的评价，在抓取、索引、排序上都会受到一定程度的负面影响，影响到网站从百度获取的流量。

00

docker hang问题排查

最近升级了一版kubelet，修复因kubelet删除Pod慢导致平台删除集群超时的问题。在灰度redis隔离集群的时候，发现升级kubelet并重启服务后，少量宿主状态变成了NotReady，并且回滚kubelet至之前版本，宿主状态仍然是NotReady。查看宿主状态时提示 ‘container runtime is down’ ，根据经验，此时一般就是容器运行时出了问题。弹性云使用的容器运行时是docker，我们就去检查docker的状态，检测结果如下：

05

eclipse打包springboot项目上传至linux服务器运行

查找程序的进程id，其中port为你的项目所监听的端口，比如9090。假设进程id为pid

02

定期检测死链对网站SEO有哪些帮助

SEO工作人员每天的工作总结起来就两种，建设外链和创作内容，这两项工作占用了SEOer大量时间。很多企业不会对这些内容诊断和分析，但是定期的内容和链接的分析对于SEO非常重要。检测死链对于SEO有哪些帮助呢？武汉SEO和大伙儿一起来看看。

00

突破Java面试(27)-如何保证缓存与数据库的数据一致性

你只要用缓存，就可能会涉及到缓存与数据库双存储双写，你只要是双写，就一定会有数据一致性的问题，那么你如何解决一致性问题？

00

FTP的两种传输模式的坑

上周的系统迁移，进了一个坑，可谓真是坑，从问题的定位，到问题的解决，有很多值得借鉴、学习的，可以算是一次非常有价值的故障排查，

01

如何正确检测或处理网站死链接？

网站死链接一般是指内容死链接，服务器返回状态是正常的，但内容已经变更为不存在、已删除或需要权限等与原内容无关的信息页面。

03

接口调用实现请求超时中断，你有几种方法？

在服务化系统中，对于上下游服务的依赖调用往往是通过RPC接口调用实现的，为了系统稳定性，防止被上游服务超时hang死，我们需要对接口调用设置超时，如果在设置的超时时间内没有响应，则需要提早中断该请求并返回。

01

一次p3故障总结（沟通及流程篇）

p0就是上一篇波哥说的那个ETCD扩容导致整个业务不可用，我在产房门口坐地上处理的那次。

02

生产事故江湖再现,CTO扬言干掉一条业务线

还记得上次我发表的生产事故么order by 字段到底要不要加索引?[大坑],定位问题知道是索引问题产生的，那么新业务线上的事故为何又再现呢？一个平静的下午，17:48生产报障群出现报障，本

03

我见识过最神奇的代码，程序员：就是这么任性这么皮！

大家对程序员的第一印象就是沉默寡言，在我看来，他们的幽默机智都表现在他们的代码里，看了之后绝对让你对程序员这个群体刮目相看，或许可能会想跟他们干上一架。

00

如何处理WordPress网站404状态死链

如果网站存在大量的404状态码的URL地址（即所谓的死链），这将是对网站SEO优化是一个致命的打击，严重影响网站搜索引擎站点评级，不利于网站页面的搜索引擎收录及排名。

01

Hystrix线程池隔离设计原则及接口限流实验

Hystrix 通过判断线程池或者信号量是否已满，超出容量的请求，直接 Reject 走降级，从而达到限流。

01

计划任务定时重启服务或重启机器

schtasks.exe /CREATE /ru system /rl highest /SC DAILY /MO 1 /TN restart_rdp_service /TR "powershell.exe -c '& {restart-service termservice -force}'" /ST 02:00 /RI 120 /DU 24:00 /f

06

高效简单的服务器登录配置

当你拥有了属于自己的一个云服务器后，首先需要做的事情就是登录服务器。而登录服务器，作为新手可以通过云厂商提供的 dashboard 进行登录操作。但是，最简单及最方便的方式还是通过终端，使用 ssh 命令快速登录

02

构建MySQL智能化高可用架构

分享者：叶金荣，万里数据库开源生态负责人，Oracle MySQL ACE总监，腾讯云TVP。

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭