本文主要是写的最近比较影响深刻的一次排查客户访问业务前端域名,报504,timeout错误问题的记录,该客户为私有化部署,给客户部署的服务存在跨洲调用,没有专线,澳洲调用欧洲的服务情况,可能存在网络延迟比较大,需要排查504的具体原因,然后通过优化参数临时解决
本文我们就通过 wireshark 来看看遇到这几类网络问题时我们应该如何着手吧。
笔者在转转主要负责环境治理相关的工作,本篇主要和大家分享,测试环境问题排查的一些经验。
https是Web的核心,chrome早已经会提示http为不安全,大部分公司都已经全量切换为https,但https由于传输加密,抓包基本上看不出来,因此需要一些流程和经验来提升排查效率。
yuhuliu,腾讯研发工程师,关注存储、大数据、云原生领域。 摘要 医疗资讯业务在高速发展过程中,形成了覆盖不同场景、不同用户、不同渠道的几十个业务,以及上千个服务。为了高效满足用户多样化的需求,腾讯医疗技术团队通过 TKE 上云,使用 Coding DevOps 平台,以及云上可观测技术,来提升研发效率、降低运营运维成本。本文介绍我们在上云过程中一些实践和经验,以及一些思考和选择。 业务背景 stage1: 腾讯医疗资讯平台主要包括了医典、医生、医药等核心业务,其中医典主要提供医疗相关内容获取、医疗知
应用背景 在目前的服务器性能测试中,开发者多会根据CPU、内存、网络等服务器数据来判断服务器性能问题,但无法快速实现复杂业务逻辑的问题排查。在分布式架构下,系统链路调用长,开发者往往需要花费更多的时间进行跨团队沟通,沟通效率较低、问题解决滞后、难以深度定位问题所在。 腾讯WeTest压测大师全新推出了链路性能监控服务,为开发者提供一站式压测、监控解决方案,打通压测和应用服务性能数据,开发者可以通过探针部署实时查看应用链路数据,快速找到问题原因。 01 压测大师链路监控简介 目前,压测大师链路监控是通过
看下接入域名的解析是否在腾讯云的CDN上,如果没有在腾讯云的CDN的cname记录值上,那么可以自己排查下访问问题了,此时相当于没有使用腾讯云cdn;
应用背景 在目前的压力测试中,开发者多根据cpu、内存、网络等服务器数据来判断服务器性能问题,但无法快速实现复杂业务逻辑的问题排查,在分布式架构下,系统链路调用长,开发者往往需要花费较多的时间进行跨团队沟通,问题的深度定位难,效率低,问题解决滞后。 而压测大师不仅要满足开发者对服务的压测,更要帮助开发者实现问题的深度定位和剖析,通过即将推出的链路性能监控服务,压测大师为开发者提供一站式压测、监控解决方案,打通压测和应用服务性能数据,开发者可以通过探针部署查看应用链路数据,快速找到问题根因。 现针对
在日常业务使用或运维管理 TiDB 的过程中,每个开发人员或数据库管理员都或多或少遇到过 SQL 变慢的问题。这类问题大部分情况下都具有一定的规律可循,通过经验的积累可以快速的定位和优化。 但是有些情况下不一定很好排查,尤其涉及到内核调优等方向时,如果事先没有对各个组件的互访关系、引擎存储原理等有一定的了解,往往难以下手。
在这篇文章中,我们将详细探讨导致故障的可能原因以及解决方案,以便更好地理解故障排查的复杂性和艰巨性,尤其是当出现与本次故障表现相似的问题时。
本文提供视频讲解,详细见地址:https://www.bilibili.com/video/BV1ya4y1J77C
排查分布式系统问题用的最多的手段就是查看系统日志,但是目前分布式系统都是部署在多台机器上且多数调用链路比较长,因此日常工作过程中经常出现研发人员同时登录多台机器切换各个终端查询日志的场景。我们希望搭建一个日志收集及查询系统,方便定位问题。
然后你就得屁颠屁颠的去服务器看日志,日志量少还好点,多的话找起来太麻烦了。不太容易直接定位到关键地方。
近日,灵雀云宣布发布基于OVN的Kubernetes网络组件Kube-OVN,并正式将其在Github上开源。Kube-OVN提供了大量目前Kubernetes不具备的网络功能,并在原有基础上进行增强。通过将OpenStack领域成熟的网络功能平移到Kubernetes,来应对更加复杂的基础环境和应用合规性要求。
如果你在国企,你写报告更多是形式上的文件形式,你需要格外注重格式和措辞,这个时候,你能发挥的空间不大。
Java常见线上问题总结绝⼤多数Java线上问题从表象来看通常可以归纳为4个方面:CPU、内存、磁盘、网络。比如,应用上线后突然CPU使用率99%、内存泄漏、STW时间过长,这些问题通常可以分为两大类:系统异常 (CPU占用率过高、磁盘使用率100%、系统可用内存低等)业务异常 (服务运⾏⼀段时间⾃动退出、服务间调⽤时间过⻓、多线程并发异常、死锁等)1.如何去定位问题解决问题的第⼀步是定位问题,排查手段⼀般包括以下⼏项,也可以将此理解为排查顺序:业务⽇志分析排查APM分析排查物理环境排查应⽤服务排查云⼚商或
上一篇文章中,我们利用 wireshark 排查定位了 TCP 的连接问题与重传问题:
DDoS攻击和Web网络攻击是网络攻击的核心,这里整理出源站(实际运行业务的站点)在IDC和在云上的最佳方案,供用户参考。
在压测项目生产环境中,发现首页的QPS一直在8k,未达到压测目标,但压测其他接口QPS能达到5w,需要排查出问题进行优化。
之前介绍过 BTrace,线上问题排查神器 BTrace 的使用,也说它是线上问题排查神器。都是神器,但今天这个也很厉害,是不是更厉害不好说,但是使用起来非常简单。如果你用 BTrace 的话,需要事先写好探测脚本,然后上传到需要排查问题的服务器,然后执行命令。比方说获取某个方法的参数、返回值、异常等。而 Athas 方便在不用写脚本,直接用命令行方式就可以,使用它就好像在用安装在服务器上的各种工具一样,比如 top、jps、jmap 等。
微服务是一种架构模式,提倡将一个大型复杂的单体架构拆分成一个个微服务。服务内部是高内聚,服务之间是低耦合。
本文分享了腾讯云某业务基于 DeepFlow 的可观测性实践。面对复杂的业务服务(800+)和多样的编程语言,腾讯云某业务团队选择了 DeepFlow 作为跨语言、无侵入的可观测技术。与其他技术(如 Hubble 和 Pixie)相比,DeepFlow 在数据指标、协议支持和扩展能力等方面表现优异,成为最佳选择。引入 DeepFlow 后,腾讯云通过与现有系统的集成,实现了统一的服务性能监控和高效的故障排查能力,显著提升了运维效率,甚至能主动发现业务隐藏的 Bug,防范于未然。
微服务作为当前系统架构的主流选型,虽然可以应对复杂的业务场景,但是随着业务扩展,微服务架构本身的复杂度也会膨胀,对于一些核心的业务流程,其请求链路会涉及到多个业务服务,少则三五个,多则十几个都很常见:
在数据资产管理与数据治理领域,数据之间的血缘关系是一个绕不开的话题,数据血缘的完备程度也是评价一个企业数据中台成熟度的重要度量之一。到底什么是数据血缘,它对于数据工作者和数据使用者有哪些举足轻重的作用呢?
“在开发领域从理念(敏捷开发)、架构(微服务、动态化)、方法论(领域驱动开发)、实践(开源、组件化开发)等方面全方位变革的时代,软件测试领域并没有形成系统化的应对,我们正在掉队……”美团优选测试团队负责人李永刚在接受 InfoQ 采访时谈到。 产品发布周期越来越短,测试技术跟不上,这就是掉队。虽然测试窗口在不断缩小,但测试效率并没有大幅度提高,这就导致了很多潜在问题遗留下来,线上系统故障率急速攀升。而人工智能的发展使得测试提效成为可能。 智能化测试值不值得做?应该如何做?业界有哪些实践?是不是大家都可以做智
程序员最怕的是异常告警,特别是产品反馈有大范围的用户投诉,身上焦虑激素分泌必然瞬间暴涨。稍不留神就会眉毛胡子一把抓,无法从全局角度分析告警的来龙去脉。而本次分享正是针对故障域这个话题展示一系列的分析,带你掌握问题排查的思路。
测试: 首先通过服务器本机访问进行测试下能不能正常使用,可以的话,然后再通过外部主机访问,这时出现问题就能锁定问题是防火墙设置或是外部主机网络设置的问题了。 在文件夹里通过 ftp://+ip 进行访问即可。
最近业务碰到了一个诡异的400接口请求异常,部门用户通过浏览器访问会出现400响应码错误,部分用户又能正常访问。该接口用postman请求访问,都能正常返回数据。后端写客户端请求该接口,也都能返回正常的数据。本文就来记录一下这次问题
从大方面说基本上就是两类,一类是链路出了问题,包括网络抖动,链路环中的某一节点抖动等。另一类是服务本身的问题,包括服务器自身问题如磁盘老化等,还有代码bug造成的服务等待或服务器负载问题。
微服务应用是一系列自治服务的集合,每个服务只负责完成一块功能,这些服务共同合作来就可以完成某些更加复杂的操作。与单体的复杂系统不同,开发者需要开发和管理一系列相对简单的服务,而这些服务可能以一些复杂的方式交互。这些服务之间的相互协作是通过一系列与具体技术无关的消息协议来完成的,这些协议可能是点到点形式的,也可能是异步形式的。
背景 随着酒店业务的高速发展,我们为用户、商家提供的服务越来越精细,系统服务化程度、复杂度也逐渐上升。微服务化虽然能够很好地解决问题,但也有副作用,比如,问题定位。 每次问题定位都需要从源头开始找同事
排查出问题并找到根本原因加以解决,个人认为是一件很成就感的事情。曾经有人问过我:“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xxx的?”,我只能轻描淡写的回答:“靠经验”,然后感觉这个逼装得还可以。其实这里说的“靠经验”是很模糊的,一直以来大家可能都觉得排查问题要靠经验,但是又说不出具体通过什么样的经验排查出了问题,最后让排查问题逐渐变成了一门玄学。其实问题排查工作往往遵循一些通用且不成文的实践规则,并不是一门所谓的玄说,结合自身经历、总结,希望能为大家的实际工作带来助益。
最近翻看以前写的 PPT, 发现了在2019年做的一次技术分享,关于 Java 问题排查,由于没什么公司机密可言,整理下分享给大家~
在使用微服务会面临最大的一个问题也就是在服务数量增加带来的排查成本和监控成本,大家为了解决这些成本也衍生出了很多工作,当然在Istio中也很好的融合了这些组件,默认安装下就已经带上了这些组件(zipkin + jaeger , prometheus + grafana),本节就来看看怎么来使用这些组件
导语:运维可以说是世界上最紧张且强度最大的工作之一,每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时,可谓是肾上腺素瞬间飙升。压力的存在可能诱发
由于业务应用 bug(本身或引入第三方库)、环境原因、硬件问题等原因,线上服务出现故障 / 问题几乎不可避免。例如,常见的现象包括请求超时、用户明显感受到系统发生卡顿等等。
该文是《Google运维解密》系列的关于问题排查的一篇分享。该文章主要是和大家聊了聊日常运维问题排查时候的一些原则与心得。希望该文章能给大家日常问题的排查能有个更好的启发。 📷 前言 今天我们来聊聊“问题排查”这个话题,本人到目前为止还在参与一线运维的工作,遇到过很多“稀奇古怪”的线上故障和问题,结合SRE中给出的一些方法,来说说“问题排查”那点事。 排查问题不是玄学 排查出线上问题,并找到根本原因加以解决,是一件很有成就感的事情,曾经有人问过我,“你是怎么想到问题出现在xxx的?又是怎么确认根本原因是xx
导读:随着 K8s 不断更新迭代,使用 K8s 日志系统建设的开发者,逐渐遇到了各种复杂的问题和挑战。本篇文章中,作者结合自己多年经验,分析 K8s 日志系统建设难点,期待为读者提供有益参考。
最近服务器到期等因素,进行了迁移。租了其它的外国厂商,但是由于资费问题,购买了1.5G 内存的服务器(现)。因为原本用惯了4G内存的服务器(原),现在压缩成这样,似乎不太能支持我的使用,囧!
消息推送是通信类手机应用的基础功能,同时消息推送作为一种高效的营销手段,其投放精准、成本低廉的特点,也备受其他各类App运营者的青睐,是手机应用非常重要的流量渠道之一。通过消息推送这一手段,App可以将用户留在自己的平台上,降低获客成本,保持App活跃度,提升用户粘性和用户留存率。对于大部分移动App来说,消息推送已成为一项必备功能。
FreeWheel的广告服务平台迁移到微服务架构之后,复杂的服务调用链路为服务治理与问题排查带来了很多困难。为解决这一痛点,我们引入了Service Mesh技术,期望通过它在流量控制、可观察性等方面的能力来解决现有问题。我会从Istio与AWS App Mesh的对比讲起,让你了解到Service Mesh 的技术选型策略,并通过实践分享为你落地Service Mesh 提供参考。
最近在看Gophercon大会PPT的时候无意中看到了关于Metrics,Tracing和Logging相关的一篇文章,凑巧这些我基本都接触过,也是去年后半年到现在一直在做和研究的东西。从去年的关于Metrics的goappmonitor,到今年在排查问题时脑洞的基于log全链路(Tracing)追踪系统的设计,正好是对这三个话题的实践。这不禁让我对它们的关系进行思考:Metrics和Looging的区别是什么?Tracing还需要Logging吗?我们什么时候需要Metrics?它们之间有什么关联?
忽如一夜春风来,千树万树梨花开,恍惚之间,ELK亦是遍地开花,甚至提供类似ELK解决方案的专业公司数量已然可观。
Arthas 是一款线上监控诊断产品,通过全局视角实时查看应用 load、内存、gc、线程的状态信息,并能在不修改应用代码的情况下,对业务问题进行诊断,包括查看方法调用的出入参、异常,监测方法执行耗时,类加载信息等,大大提升线上问题排查效率。
最近看到一些网友经常会问,购买了云服务器、云MySQL或类似的云产品后无法远程登录应该如何排查?这里笔者以排查云服务器问题为例,整理了一下问题排查思路分为三个过程分别为客户端确认,腾讯云控制台确认和登录服务器确认来介绍(注:按照问题可能的原因进行排序从高到低)同时推荐一些好用的排查问题工具供大家参考。另外如果你有好的思路别忘记给我留言,我会持续更新本文档。
近几年,vivo互联网领域处于高速发展状态,同时由于vivo手机出货量一直在国内名列前茅,经过多年积累,用户规模非常庞大。因此,vivo手机出厂内置很多应用,如浏览器、短视频、直播、资讯、应用商店等都是直面用户的高并发、复杂系统。这些面向用户的系统对使用体验要求非常高,对这些业务的质量保障是重中之重。
[ 系列文章篇 ] ① Sonic 开源移动端云真机测试平台 - windows 系统下的 sonic 快速部署演示 ② Sonic 开源移动端云真机测试平台 - 设备中心接入安卓设备实例演示,Agent 端服务部署过程详解 ③ Sonic 开源移动端云真机测试平台 - 用例编写与回放流程实例演示,任务定时执行、图像相似度定位、公共步骤、公共参数、测试套件等
随着微服务的发展及DDD领域驱动设计的兴起,越来越多的企业开始使用微服务架构。无论是项目重构,还是新项目的开发,即使项目初期没有多大的流量,但从长远考虑,企业也基本会优先使用微服务架构。但“鱼和熊掌不可兼得”,项目微服务化在提升开发效率及降低后期维护成本的同时,也加大了服务部署运维及问题排查的难度,并且容易导致服务崩溃出现级联效应,也就是“服务雪崩”。
领取专属 10元无门槛券
手把手带您无忧上云