某天收到频繁的告警邮件,定时任务调度失败,查看 xxl-job 的执行器列表是空的,但是服务又显示健康,查看历史任务执行记录发现执行器是依次递减,由于是线上服务,只能先重启,然后线程日志也没有,同时尝试访问服务的健康检查接口,发现健康检查接口访问不通,应该是服务已经挂了,但是因为服务配置的是 TCP 健康检查,握手其实没问题,所以没有检测出来服务异常(血淋淋的教训)。
3、参数不是调的越大越好,参数调的太大也会可能会导致共享内存不足,会导致启动失败。
3、database is in recovery mode / is starting up 5
吃个饭回来,xshell连着的服务器突然卡住了,动也动不了。重启,重开xshell,排除是xshell的问题,切换网络,排除是网络的问题。
schtasks.exe /CREATE /ru system /rl highest /SC DAILY /MO 1 /TN restart_rdp_service /TR "powershell.exe -c '& {restart-service termservice -force}'" /ST 02:00 /RI 120 /DU 24:00 /f
前段我们Hadoop集群磁盘使用率比较高,部分硬盘空间使用超过了70%,这部分服务器的DataNode服务读写负载就比较高,造成部分数据同步任务因为读写超时而失败。具体场景和异常跟这篇博客里描述的很像。
正式环境出现了不能上传图片,图片不能浏览的问题,上正式环境进行排查,在使用df -h命令的时候卡住不动了,其他命令没问题。运行内存以及cpu都是正常的。 正式环境服务器 /data/xxx/upload的目录是进行了nfs挂载
2022年10月19日,晚上10点半,突然收到许多用户的反馈说小程序打不开了,打开一看果然,小程序一直处于转圈圈状态。
最近这周都是查测试环境的问题,比如,我上一篇写的问题排查:问题排查:nginx的反向代理感觉失效了一样 ,就是说这个事的。在文章里,最终查到是nginx的全连接队列满了(每个监听端口有个队列,完成三次握手的请求会进入这个监听端口的全连接队列,队列大小是只有128,比较小),我当时的解决方式,是把队列大小调大到了512,然后重启nginx,果然功能正常了。
在使用Zabbix过程中,当开启自动发现协议后,频繁出现“ Zabbix discoverer processes more than 75% busy”的报警信息,如下:
zabbix报错排错大全 zabbix报错 1.在启动zabbix-agent 时系统日志输出 PID file /run/zabbix/zabbix_agentd.pid not readable
1.服务端配置 安装软件undefinedyum install nfs-utils -y 配置文件路径undefined/etc/exports 配置文件语法格式 /data 172.0.0.0/24(rw,sync,all_squash,anonuid=1000,anongid=1000) 共享目录 允许挂载网段 配置参数 配置参数说明 rw #读写权限 ro #只读权限-不常用 root_squash
最近由于一些原因,做服务器资源调整,其中一台服务器是做NFS服务,通过NFS挂载到其他几台服务器做共享,服务器内存从8G调整到了4G,其他不变
将:external_url ‘http://127.0.0.1:8080’ 后面改成你的访问地址,如果是127.0.0.1:8080,那么访问地址就是你的服务器外网ip+8080端口号,例如服务器外网IP为:123.123.123.123,那么访问地址就是http://123.123.123.123:8080
昨天远程服务器后,服务器无故卡住了,鼠标各种延迟与无反应,想在进程管理器里关闭程序也卡住,想点击重启系统也卡死无反应。纠结后win+R打开了cmd用shutdown重启才算搞定。重启期间思考了下,如何用cmd命令来管理系统进程,搜索后得到用tasklist与taskkill十分方便,记录如下:
服务器内存占用过高导致数据库服务关闭,网站无法登陆的错误详解-制作swap交换区加大内存
告警原因: 1.某个进程卡住了, 2.僵尸进程出错,太多,导致慢了 3.网络延迟(可忽略) 4.zabbix消耗的内存多了 告警危害: 普通告警,暂无危害(但是最好处理) 处理方法: 一:简单,粗暴(重启zabbix-server可结合定时任务使用) service zabbix-server restart crontab -e 调出Cron编辑器中增加一个计划: @daily service zabbix-server restart > /dev/null 2>&1 二:编辑Zabbix Serve
NFS server启动时会随机启动多个端口并向RPC注册,这样如果使用iptables对NFS sever 端口进行限制就会有点麻烦,可以更改配置文件固定NFS服务相关端口。
某年某月某日的一个下午,接收到监控服务器的一条告警短信:尊敬的运维工程师 XX,你好:“192.168.136.200”数据库服务器 CPU 异常,CPU 使用率 98.7%,请尽快处理。看到这个消息浑身一紧,赶紧掐灭手中的烟,跑回办公室。
前面我们分析了ArrayBlockingQueue,今天我们接着来对LinkedBlockingQueue的源码进行解析。本文首先会对LinkedBlockingQueue的源码进行解析,接着会介绍ArrayBlockingQueue和LinkedBlockingQueue的区别。
机房内只有一台戴尔R730服务器,vmware虚拟化为若干台Windows Server了,其中就有域控和文件服务器。
大家好,今天为大家分享一次 ES 的填坑经验。主要是关于集群恢复过程中,分片恢复并发数调整过大导致集群 hang 住的问题。
楼主的搭建过程算比较顺利(GitLab → 搭建私有的版本控制的托管服务平台),没有遇到太多问题,只遇到了如下两个问题
内存泄漏(Memory Leak)是指程序中己动态分配的堆内存由于某种原因程序未释放或无法释放,造成系统内存的浪费,导致程序运行速度减慢甚至系统崩溃等严重后果。
前天写了一个雾锁王国开服教程,蹭的是幻兽帕鲁的服务器活动,但是今天有人反应开服已经没法选择具体系统镜像,只能选择幻兽帕鲁的镜像。我这个教程就是教会大家继续蹭幻兽帕鲁的服务器来开雾锁王国服务器。
今天点网站发现请求不了了,到服务器查看,发现tomcat死了。 查看log 发现
最近发现hiveserver2(本质上是提供jdbc连接的driver进程)经常发生严重卡死故障,而且卡死分成两种现象。
宝塔的数据库经常性自动停止,是因为网站频繁的请求数据库,而服务器内存又不足,为了保证服务器不彻底卡死,保护性的自动停止数据库,特别是有些程序比如ZBlog的数据库查询次数尤为突出,加上ZBlog插件之多,就算你不进行任何操作,你的后台也是在频繁的请求数据库!
早一个星期不知道为什么就很热血的折腾起黑苹果。之前觉得自己对于操作系统还算了解,包括linux,但是唯独没有试过Mac OS。之前自己一直比较偏向软件,然后偏向web方向研发,也去关注前端关注体验,也很想知道苹果系到底是以如何的体验得以吸引这么多用户。没有钱钱买白的苹果,就黑下吧……
开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此,后面都统一称为利用jdbc连接hiveserver2),执行简单查询、复杂分析、超复杂分析等不同的sql任务,session并发量还很高(五六百甚至上千的并发),本质上要求大数据平台同时具备oltp的高并发与olap的高分析能力。对于hiveserver2这一类基于hadoop平台的jdbc server而言,非常不适合这种高并发的应用。
最近在极客时间看丁奇大佬的《MySQL45讲》,真心觉得讲的不错,把其中获得的一些MySQL方向的经验整理整理分享给大家,有兴趣同学可以购买相关课程进行学习。
PS:推荐大家用我的脚本,并且使用Debian服务器搭建。毕竟我的脚本可视化管理+持续更新
今天处理了一起紧急问题,回过头来看还是有不少需要注意的地方。 首先是收到了报警,有一台DB服务器的负载有一些高,但是会快就恢复了。所以自己也没有在意,但是过了大概40多分钟,又接到一封报警邮件,而且随着报警频繁,感觉真是出了问题,在中控机器上使用ssh连接竟然都抛出了异常。 # ssh 10.127.xxxx Connection timed out during banner exchange 对于这类问题,是因为超出了默认的超时参数,不过我没有纠结在超时的时长,因为这个本身已经不重要,既然中控超时连接,
https://www.xuehaiwu.com/palworld-server/
比较奇怪的是今天的访问量到了500以下,想测试下是哪个地区无法访问,结果打开测速网站,网站直接挂了,所有地区全红,cpu内存跑满。于是想着优化下php的执行,开启代码缓存:
本文描述问题及解决方法同样适用于 腾讯云 Elasticsearch Service(ES)。
提示:公众号展示代码会自动折行,建议横屏阅读 ---- 大家好,今天为大家分享一次 ES 的填坑经验。主要是关于集群恢复过程中,分片恢复并发数调整过大导致集群 hang 住的问题。 一、场景描述 废话不多说,先来描述场景。某日,腾讯云某 ES 集群,15个节点,2700+ 索引,15000+ 分片,数十 TB 数据。由于机器故障,某个节点被重启,此时集群有大量的 unassigned 分片,集群处于 yellow 状态。为了加快集群恢复的速度,调整分片恢复并发数,将默认值为2的 node_concur
在服务器需要访问外网的情况下,由于网络安全等原因,许多生产服务器限制了对外网的访问。本文介绍如何通过在一台能够访问外网的服务器上部署TinyProxy来实现代理,使得其他服务器可以通过该代理访问外网。
最近新采购的一批机器,由于intel cpu体系架构的改变,新机器的系统需要升级,选择了CentOS 6.2系统。
linux 请看 https://github.com/mithrand0/reactive-drop-docker
本文将为您提供极简部署幻兽帕鲁服务器的指引,「仅需轻点三次鼠标,即可完成开服」,和自己的朋友一起开心“抓帕鲁”。
这块板因为吃灰太久USB口莫名失效了,但也能用,而且是3块板里面配置最高的。 烧录Armbian,上电SSH无法连接,后排查为电源适配器问题,更换12V原装适配器解决。 重新上电,登录并更新系统,结果中途系统莫名崩溃。 怀疑依旧是电源问题,但懒得折腾,逐更换。
PS:调优还是报表工具,主要是一些细节,并不会记下来,这么多工具,思路很重要,知道有这个工具可以干这个事情,大概可以分析什么东西,内存的问题,大部分情况都是可以预防,问题定位比较直接,工具也比较多。问题出现不好回复。内存慢慢堆积升高,是可以通过监控工具发现的。宕机之前解决。开发时,
可以对 String 进行自增自减运算,从而实现计数器功能。Redis 这种内存型数据库的读写性能非常高,很适合存储频繁读写的计数量。
Redis 作为一款业内使用率最高的内存数据库,其拥有非常高的性能,单节点的QPS压测能达到18万以上。但也正因此如此,当应用访问 Redis 时,如果发现响应延迟变大时就会给业务带来非常大的影响。
领取专属 10元无门槛券
手把手带您无忧上云