相信大家都有感触,线上服务内存OOM的问题,是最难定位的问题,不过归根结底,最常见的原因: 本身资源不够 申请的太多 资源耗尽 58到家架构部,运维部,58速运技术部联合进行了一次线上服务内存OOM问题排查实战演练,将内存OOM问题定位三板斧分享出来,希望对大家也有帮助。 题目 某服务器上部署了Java服务一枚,出现了OutOfMemoryError,请问有可能是什么原因,问题应该如何定位? 不妨设服务进程PID为10765(没错,就是CPU占用高的那个倒霉的进程《线上服务CPU100%问题快速定位实战》)
众所周知,Redis是缓存中间件领域中的无冕之王。 来个灵魂拷问:缓存解决能解决什么问题呢? 把热数据存放到存取速度快的存储介质中,通过空间换时间的方式来提升数据的存取速度。 存取速度快的存储介质都会贵一些,贵的东西肯定要省着点用。 那么,如何节省缓存空间呢? 让缓存过期。 当前时间到达过期时间时,将删除缓存,减少空间的占用; 如果缓存空间已满,则根据配置的maxmemory-policy来决定如何腾出新的空间以继续提供读写服务。
马哥linux运维 | 最专业的linux培训机构 ---- 最近在维护一台CentOS服务器的时候,发现内存无端"损失"了许多,free和ps统计的结果相差十几个G,搞的我一度又以为遇到灵异事件了,后来Google了许久才搞明白,特此记录一下,以供日后查询。 虽然天天都在用Linux系统办公,其实对它的了解也不过尔尔。毕业几年才迈入"知道自己不知道"的境界,我觉得自己丝毫没有愧对万年吊车尾这个称号 :( 问题描述和初步调查 同事说有一台服务器的内存用光了,我连上去用free看了下,确实有点怪。 $ fr
记得好像写过相关僵尸进程的东西,稍微再写一点,因为总是有人说僵尸进程的存在会导致机器的load值变高,不知道哪里看到的谬论。
一台Redis服务器在很短的时间里消耗了几十个G的内存,最终因为SWAP而宕机。因为这台服务器的社会背景比较复杂,所以一时无法判断犯罪嫌疑人到底是谁。
在应用中大量删除 MySQL 数据可能导致内存不足(OutOfMemoryError)的问题,可能的原因如下:
当数据库服务经常突然挂断,造成无法访问时我们能做什么?本篇主题就是记录针对这一现象时发现问题,分析问题,最后解决问题的过程。
前面一篇文章中我已经对项目的基本情况进行了简单的介绍,今天就开始动手针对系统进行性能调优。在性能调优上面说实话我算是个菜鸟,并没有太多的经验和扎实的基础,所以有错误的地方希望大家指出。
最近,发现个人博客的Linux服务器,数据库服务经常挂掉,导致需要重启,才能正常访问,极其恶心,于是决心开始解决问题,解放我的时间和精力(我可不想经常出问题,然后人工重启,费力费时)。
很多接触过云服务的小伙伴,可能经常会有一个困扰:为什么我的CPU、内存占用明明不高,网站速度/服务器响应速度却还是这么慢呢?哪个可爱的男孩子不想拥有一个速度很快的博客呢?说到优化,我们得从诸如硬件、软件等很多地方入手。
本系列将按照类别对题目进行分类整理,重要的地方标上星星,这样有利于大家打下坚实的基础。
策略 : 在设置键的过期时间的同时,创建一个定时器,让定时器在键的过期时间来临时,立即执行对键的删除操作。
爱飞狗后台的数据爬虫以及数据服务器资源都部署在k8s上,使用rancher搭建。在不影响太多性能的情况下尽量选择最低配置的机器。对于内存不足的情况适当的使用交换文件代替(swap)。整个集群大致结构如下:
线上问题排查相比于coding,是一个低频的工作,很多人不会经常遇到。一旦需要进行问题排查的时候,往往是重要且紧急的,因此问题排查的效率,就显得尤为重要。有些线上问题,比较直观,比如磁盘使用率高、网络流量高这种,借助合适的工具很快能定位到原因;但对于一些复杂的问题,如系统Load高、RSS占用高、内存溢出等,需要结合多方面的数据才能定位到原因。这时候,需要有正确的解题思路,并辅以合适的工具,才能高效地解决问题。
关于磁盘空间中索引节点爆满的问题还是挺多的,借此跟大家分享一下: 一、发现问题 在公司一台配置较低的Linux服务器(内存、硬盘比较小)的/data分区内创建文件时,系统提示磁盘空间不足,用df -h命令查看了一下磁盘使用情况,发现/data分区只使用了66%,还有12G的剩余空间,按理说不会出现这种问题。 二、分析问题: 后来用df -i查看了一下/data分区的索引节点(inode),发现已经用满(IUsed=100%),导致系统无法创建新目录和文件。 [root@bastion-IDC ~]# df
内存溢出 out of memory : 通俗理解就是内存不够用了,是我们工作当中经常会遇到的问题,内存溢出有可能发生在正常的情况下,而非代码层面问题导致,比如高并发下,大量的请求占用内存,垃圾回收机制无法进行回收,而导致的内存溢出,这种情况就需要我们去调整架构了。一但出现内存溢出问题,我们需要快速定位并解决,尤其是生产环境,所以针对内存溢出问题,我们需要掌握一些常用的排查工具,针对不同场景、现象有快速排查思路。引起内存溢出的原因有很多种,常见的有以下几种:
所谓进程,大家可以理解为我们打开的应用程序,如微信、QQ、游戏等,但也有系统应用是我们看不见的,可以打开任务管理器一探究竟,我们写的代码程序在服务器上在不运行的情况下,它就是一个二进制文件,并不是进程!
总的来说就是依照这些原则来解决这些问题以达到 GC 低频 GC 停顿时间短,以及低内存占用和高吞吐。
哈喽!各位小伙伴大家好呀! 有小伙伴私信问,服务器是什么,本期就来简要的说下服务器。 服务器,顾名思义,就是提供服务的咯。 那服务器为谁提供服务呢?当然是为计算机提供服务。 简单的说就是为电脑提
最新将生产环境的服务器版本统一升级了一下,其中有一台(4H/8G)近两天天天CPU使用率报警(阀值>95%,探测周期60s,触发频率6次),而且load acerage也居高不下,检查了各个系统应用软件的资源使用都没有问题,也将一些可能导致CPU使用率高的软件stop掉,报警依旧。
诸如 Web 服务器、数据库服务器、文件服务器或邮件服务器之类的许多服务器应用程序都面向处理来自某些远程来源的大量短小的任务。请求以某种方式到达服务器,这种方式可能是通过网络协议(例如 HTTP、FTP 或 POP)、通过 JMS 队列或者可能通过轮询数据库。不管请求如何到达,服务器应用程序中经常出现的情况是:单个任务处理的时间很短而请求的数目却是巨大的。
现在游戏行业已经发展的越来越为成熟了,游戏行业所依靠的工具也比较多,比如手机电脑和云游戏服务器等。云游戏服务器作为一种新兴的工具和领域,是不少玩家所喜爱的,那么云游戏的服务器要显卡吗?云游戏服务器具有哪些功能呢?
正式接收开发转过来的包之前,先从 svn 上下载代码,给它做次静态代码检查,然后编译打包。可以在开发的服务器或者自己的服务器运行单元测试文件。单元测试后,没用什么大的 bug,再部署到测试环境中。测试环境部署完成后先做冒烟测试,尽快看看主流程有没有问题。如果冒烟测试没问题就做回归测试。当然 Jenkins 也可以做其它事情。
Redis缓存作为提高系统性能最好的方式相信大家对其一定不陌生,各位作为秃头老码农不仅需要掌握Redis的基础用法还得了解Redis的相关原理,比如Redis过期策略和内存淘汰机制。
自小程序2017年1月9号正式上线以来,不论是中小商家,还是各大品牌巨头,都在抢占小程序这波风口,打造属于自己的小程序。截至目前,全国正式上线小程序超过100万个,小程序日均活跃用户稳居在2亿左右,而整个微信流量在10.5亿左右。微信小程序一路走来,功能越来越多,越来越开放。
1.内核版本 内核是系统的心脏,是运行程序和管理像磁盘和打印机等硬件设备的核心程序,它提供了一个在裸设备与应用程序间的抽象层。例如,程序本身不需要了解用户的主板芯片集或磁盘控制器的细节就能在高层次上读写磁盘。
很多朋友在购买云服务器之前都会搜服务器一般用几核才够用,因为服务器现在配置很多。低到1核2G、2核4G。高到16核32G、32核64G。甚至某些云服务器可以做到256核5120G这种神奇配置。那么购买云服务器时如何选择cpu与内存搭配?出现资源不足时应如何排查原因呢?
1、代码出错。例如,利用了oc的动态特性,在编译时不会报错,结果运行之后程序找不到对应的实现,则产生代码出错。一般报错信息:unrecognized selector sent to instance XXX
项目中可能会遇到MySQL: ERROR 1040: Too many connections”的异常情况,造成这种情况的一种原因是访问量过高,MySQL服务器抗不住,这个时候就要考虑增加从服务器分散读压力;另一种原因就是MySQL配置文件中max_connections值过小。 首先,首先我们来看下mysql的最大连接数:
0:日志每秒刷新,但是在事务提交时不做任何处理,1,每次提交都刷新,这是最安全的也是默认的。2,每次事务提交都把日志缓存写到日志文件,再由innodb每秒做一次刷新。
连接是内存中的状态对象,从理论上分析,连接本身不太占用内存。不同语言连接对象大小不等,但是通常很小。下面提供一段 Java 程序
容器的前世今生 物理机 部署非常慢 购买服务器服务,放在IDC机房,各种走流程,很多流程不可控制流程慢。 成本非常高 物理的服务器,高额的配置成本贵。 资源浪费 资源太多了,针对app的服务可能利用率不够充分。 难于迁移和扩展 迁移app端的服务器,我们要提前准备好一个新的物理服务器,环境需要重新的迁移。资源消耗比较大的话,用户增加比较快需要扩展内存,cpu,硬盘麻烦,可能最后还是选择购买新的物理服务器。 可能会被限定硬件厂家 那些已经采用RISC架构或非x86平台的用户来说,要想体验到x86平台的高效、
ab命令原理 Apache的ab命令模拟多线程并发请求,测试服务器负载压力,也可以测试nginx、lighthttp、IIS等其它Web服务器的压力。 ab命令对发出负载的计算机要求很低,既不会占用很多CPU,也不会占用太多的内存,但却会给目标服务器造成巨大的负载,因此是某些DDOS攻击之必备良药,老少皆宜。自己使用也须谨慎。否则一次上太多的负载,造成目标服务器直接因内存耗光死机,而不得不硬重启,得不偿失。
前段时间在golang-China读到这个贴:有木人用(或打算)golang做游戏服务器端? 个人觉得golang十分适合进行网游服务器端开发,写下这篇文章总结一下。 从网游的角度看: 要成功的运营
每个虚拟机就是一个操作系统,每个操作系统都要分配对应的操作系统资源,大家都用window系统,真正的生产环境一般都是用linux操作系统其中一部分原因就是因为linux系统消耗资源比较少。如果在一个物理服务器上放入10个虚拟机,每个虚拟机系统占用1g资源,等于浪费了10g的内存资源。所以当操作系统越来越多的时候消耗在系统上的资源也就越来越大。
Apache的ab命令模拟多线程并发请求,测试服务器负载压力,也可以测试nginx、lighthttp、IIS等其它Web服务器的压力。 ab命令对发出负载的计算机要求很低,既不会占用很多CPU,也不会占用太多的内存,但却会给目标服务器造成巨大的负载,因此是某些DDOS攻击之必备良药,老少皆宜。自己使用也须谨慎。否则一次上太多的负载,造成目标服务器直接因内存耗光死机,而不得不硬重启,得不偿失。
我们常见的数据库性能优化就是SQL语句优化,确实SQL优化是开发者接触到最多的也是最常有的优化手段。作为开发人员我们接触最多的也就是SQL语句的优化,SQL语句的优化除了调整SQL语句外更多的是通过添加索引来加速查询,表结构(合理设计字段、拆分字段到其它表、分表等)的优化也是我们优化的主要手段。
讲解 如何查看负载 和 并发之前,简单与各位聊几句,这不发现后来群内活跃度有所降低呀。是不是社群没小姐姐都不能吸引各位英雄好汉了,哈哈哈。
该文介绍了如何使用Apache HTTP Server的ab工具进行Web性能测试。ab工具可以生成大量的并发请求,以模拟多个用户同时对某一URL地址进行访问,并测量目标服务器在负载压力下的性能表现。使用ab工具时需要注意基本参数和请求选项的设置,以获得准确的测试结果。
典型的两个现实案例: 我们先看两个用Go做消息推送的案例实际处理能力。 360消息推送的数据: 16台机器,标配:24个硬件线程,64GB内存 Linux Kernel 2.6.32 x86_64 单机80万并发连接,load 0.2~0.4,CPU 总使用率 7%~10%,内存占用20GB (res) 目前接入的产品约1280万在线用户 2分钟一次GC,停顿2秒 (1.0.3 的 GC 不给力,直接升级到 tip,再次吃螃蟹) 15亿个心跳包/天,占大多数。 京东云消息推送系统 (团队人数:4)
排行榜 游戏服务器中涉及到很多排行信息,比如玩家等级排名、金钱排名、战斗力排名等。 一般情况下仅需要取排名的前N名就可以了,这时可以利用数据库的排序功能,或者自己维护一个元素数量有限的top集合。 但是有时候我们需要每一个玩家的排名,玩家的数量太多,不能利用数据库(全表排序压力太大),自己维护也会比较麻烦。 使用Redis可以很好的解决这个问题。它提供的有序Set,支持每个键值(比如玩家id)拥有一个分数(score),每次往这个set里添加元素, Redis会对其进行排序,修改某一元素的score后,也会
这个就是你当前配置的apache最大的并发响应数,对应的是apache的进程数,两个参数同时修改,MaxClients不得大于ServerLimit参数。
本文总结接口性能测试中,常见的性能指标概念,查看及通用通过标准 注: 本文只考虑B/S架构
在我们的工作中,我们使用ddagent ver。5作为收集工具,收集和报告托管服务器的性能指标,并对ddagent进行一定程度的定制。经过多次功能迭代,发现一批在线运行时间长的托管服务器占用了太多内存。分析问题机器上进程树中每个节点的占用情况,可以看出ddagent集合进程的内存占用仍然很高。
作者 | Lukasz Mierzwa 译者 | 平川 策划 | 褚杏娟 我们使用 Prometheus 来监控构成我们全球网络的所有不同的硬件和软件。Prometheus 让我们可以随时度量其健康状况和性能,如果任何服务有任何问题,那么我们的团队在其成为问题之前就可以知道。 在写这篇文章的时候,我们运行着 916 个 Prometheus 实例,总共大约 49 亿个时间序列。下面的截图展示了确切的数值: 平均每个实例大约有 500 万个时间序列,但实际上,我们的实例有的非常小,有的非常大,最大的
从网游的角度看: 要成功的运营一款网游,很大程度上依赖于玩家自发形成的社区。只有玩家自发形成一个稳定的生态系统,游戏才能持续下去,避免鬼城的出现。而这就需要多次大量导入用户,在同时在线用户量达到某个临界点的时候,才有可能完成。因此,多人同时在线十分有必要。 再来看网游的常见玩法,除了排行榜这类统计和数据汇总的功能外,基本没有需要大量CPU时间的应用。以前的项目里,即时战斗产生的各种伤害计算对CPU的消耗也不大。玩家要完成一次操作,需要通过客户端-服务器端-客户端这样一个来回,为了获得高响应速度,满足玩家体验
Nginx是一个高性能的HTTP和反向代理服务器,也是一个IMAP/POP3/SMTP服务器
领取专属 10元无门槛券
手把手带您无忧上云