前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数栈云MSP运维服务案例:某客户生产服务器CPU异常抖动

数栈云MSP运维服务案例:某客户生产服务器CPU异常抖动

作者头像
袋鼠云数栈
发布2021-05-14 15:07:48
1.8K0
发布2021-05-14 15:07:48
举报
文章被收录于专栏:数栈技术分享

一、问题背景

某日袋鼠云运维小哥进行例行运维巡检,通过监控视图发现客户应用服务器cpu使用率突然呈上升趋势。通过专属服务群第一时间与业务方联系,与业务方确认是否有正在执行的定时任务,或者大范围拉取账单等业务操作。然而仔细分析了业务日志后,确认当时业务上并没有进行会消耗大量计算资源和网络资源的操作。

二、异常现象

随着时间推移,运维人员收到不同应用系统主机系统资源占用过高的告警通知,但客户反馈业务上并没有受到明显影响,且处于业务低峰期。

进一步分析排查,发现异常实例cpu使用率,负载,网络流量,磁盘IO,TCP连接数都先后出现上升趋势,现象如下图:

CPU使用率:持续10分钟维持在90%

系统平均负载:平均1分钟负载超过25

网络流量:持续10分钟高于日常水平

磁盘IO:每秒写入的字节数迅速上升

TCP 连接数:established连接数持续10分钟上升

三、异常分析

1) 在排除业务上并没有相关的异常操作后,运维人员进一步分析了系统是否有受到外部攻击。通过阿里云云盾安全产品,确认基线检查及流量检测并无异常,业务入口SLB流入流出流量也呈正常趋势,可以排除受到外部攻击的可能。

2) 运维人员登录机器继续排查,连接服务器间接出现请求被拒绝的情况,提示connection reset by peer错误信息。

成功登入机器后发现有大量ssh登入链接。

大量的sshd进程引起cpu占用过高。

四、异常处理

经过上述分析,与业务方确认ssh 连接客户端是否为内部系统IP地址,最终定位异常实例被内网其他机器恶意破解,进行非法访问入侵。运维人员第一时间对异常实例进行恢复操作,包括关闭已建立的连接,清除可疑执行程序,修改sshd服务默认端口,重置服务器登录密码,调整安全组访问策略,检查服务器是否有其它后门等一些列安全加固操作后,主机性能恢复正常。

五、案例总结

从服务器安全防护的角度出发,应将业务部署在云上隔离的网络环境,并修改默认远程服务监听端口,按需开放安全组访问限制。如果业务部署早期未做相关规划,建议尽快迁移经典网络下的服务器到专有网络环境,同时需要定期对服务器进行体检及安全检查,以确保服务器安全。


本文首发于:数栈研习社

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/04/02 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
主机安全
主机安全(Cloud Workload Protection,CWP)基于腾讯安全积累的海量威胁数据,利用机器学习为用户提供资产管理、木马文件查杀、黑客入侵防御、漏洞风险预警及安全基线等安全防护服务,帮助企业构建服务器安全防护体系。现支持用户非腾讯云服务器统一进行安全防护,轻松共享腾讯云端安全情报,让私有数据中心拥有云上同等级别的安全体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档