00:00
感谢大家来到,呃,我们这个云监控的端到端一体化监控解决方案的直播,那这一次的直播呢,会整个会有五次的五五个直播,那每次都是每周三的,呃,每周三晚上的七点会和大家准时见面啊,也欢迎大家能够啊每周三来啊,对我们监控解决方案感兴趣的同学可以来听一下我们这个这个系列的直播啊,那今天呢,是由咱们的讲师张家浪啊给我们介绍端到端的一体化监控解决方案啊,那那现在就是请讲师又开始的一些介绍。诶大家好,我叫张家浪,然后今天跟大家那个分享或者说呃交流的一题叫端端的呃监控一体化监控解决方案,对这一块呢,其实我们主要是我们腾讯云,然后在我们监控这一块的一些呃落地的发些产品或者一些方案,一些实践,然后后面呢,也会便对于我们刚回头提到的这个一体化解决方案里面的一些具体的产品或者是场景呢,我们后续后期呃也会有每周三对会有一系列的对于每一个产品定就是那个更详细的业绩绍,今天呢,主要就是来开一个这样一个图,把我们整体在云云原生的这样一个呃体系环境下面,对吧,整体的一个监控的一个现状和监控的一些呃方案,包括我们云监控,腾讯云监控在这里面的一些呃,践行和落地的一些情况,跟大家呃交流同步一下对。
01:52
然后呃,今天主要讲了可能几个几个模块,主要四个模块,第一个呢,就讲一下我们应用监控现状的一个情况,对,尤其是云延森下面的,然后第二个呢,就讲一下我们这个监控大概的解决方案,第三个呢,就是有方案,方案中有一些产品,那我在这个具体的这个业务中,对吧,我具体的哪些场景,哪些时候需要用到它,或者说在遇到这些场景或者的时候,我怎么去联想到一些解决的一些思路,对第四个呢,就会举两个我们的客户case给大家去分享一下。
02:30
然后我这边简单自我介绍一下,我叫张家浪,然后是腾讯云,呃,腾讯云高级架构师,高级工程师,然后现在呢也做产品架构师,对,所以然后一七年加入腾讯,一直呢从事一些L呃的开发和研究工作,现在呢也是这个腾讯云智能监控的负责人,对我们呃内外部的智能监控也是我这边在负责,也就是我是带着研研发的这种视角,呃现在呢也在兼做我们的产品架构,然后呢,之前也做过一段时间的运维,所以等一下再呃跟大家分享交流过程中,也会从一些我们呃客户这如是客户这种角度,然后呢也会从我们的研发,从我们的这个运维的视角一起看一下,对我们在上云之后,大家拥抱云之后,我们现在的一些情况,然后呢,一些场景,包括我们能给出或者说能提供出来的一些能力。
03:24
然后第一块模块就是我们现在的一些呃业界的应用现状,对现在呢,主要我们都是讲究云原生应用监控,比较云原生应用开发,对这里面主要有几个特点嘛,第一个呢,就是呃基础监控设施语云化,对这里面我们所有的一些像我们的机器啊,像我们的一些网络,包括一些那个呃pass的一些资源中心建等等,现在都是讲究云化,大家直接在上账号体系,直接购买,都是直接呃快速实现,甚至都是分钟级,甚至说是小时级,可能比我们原来自建对吧,提前去做一些预算呀,提前去部署机器啊,对吧,这个速度扩展了很多倍,但这里面有个点就是可能也是大家共识的,就是呃云化的托管不等于不管,对,也就是说我们把这种云化的,能云化的这种监控服务资源的这种能力托管给我们的云,比如对吧,托管到我们的腾讯云上面去,但腾讯云这里面我们的资源使用情况啊。
04:25
或者说我们的一个健康的资源的一个健康情况,其实对我们业务还是有有有很重要的一些影响,当然这里面即使有一些我们的一些呃,负载均衡,包括有一些那个柔性等等,或者说那个服务器的自动的一些呃。就是冗余等等,但这里面呢,我们还是需要中体来看一下,我们如果从上层来看我的应用和我的资源大概使用情况下对。大家更聚焦的去做我们的业务应用,但资源层面呢,最好也是能够去有一定的把控力度,对这可能是一个第一个点,第二个点呢,就是我们现在的开发模式,对,基本上都是现在讲究我们微服务开发,微服务开发呢,把我们的服务对吧,变得更灵活,更灵敏,敏捷开发。
05:10
但这里面也也面临一个确实存在的一个现象,就是我们原来几个大的业务服务模块,现在被拆分成很多的这种微服务的这种呃模块,对吧,可能从原来的几个或者十几个,现在变成了几十个,甚至300,对在这里面大家更聚焦的去看我们自己的业务模块这一块呢的一些性能啊,包括一些特性,其实问题不大,但是整体来看一个整个一个监控的一个状况,或者整个一个服务的应用情况,是其实也是我们云上现在的一个比较大的一个挑战点,对在云上的。得到我们这个微服务开发的这个利益的同时,也相应的面临着我们微服务的监控,微服务这种一套框架的监控的一些挑战,和面的一些那个呃。关注点对大家应该属于关注到我的个关关注点,然后还有呢,就是一些部署的一些呃框架啊,包括一些开发模式,就有的可能我们用的不同的框架,甚至说我的上游用的是软购语言,下游用的是呃Java等等,甚至说有的用一些那个spring cloud,然后有的一些框架呢,可能用的是呃一些什么GBC等等,这些都是呃一些纯现实存在的一些情况,那在这种情况下面,大家的开发的效率,或者说开发的这种。
06:30
这种质量相应的来说是有更高的一些层级对资源的利用,但反过来看,对我们能把控整个全局或者把控整个服务的这种质量要求也是相应的会有一些,呃要会分一个level吧。对,在这里面呢,就是我们怎么去看待这样一个现状的事情,也是我们今天主要讨论的议题,然后看这里面抛出这样一个现象,对吧,以及引出大家的关注点,那反观我们在这里面应该具体去看到一些细节,在这些细节上面我们有没有什么好的办法?对,然后基于这第一个片子,我们就开启今天的主要的这个呃议题和交流。
07:09
然后基于呃,刚刚说的一个那个服务的,我们微服务云延生下面的一个现状,我们大概现在应用监控主要有哪哪些情况呢?第一个从三个层面来看,第一个是应用层面,第二个数据层面,第三块呢是监控层面,应用层面就是我们刚刚说的服务微服务化,然后呢,服务架构多语言,多框架,对然后还有就是链路的一些更加的复杂。然后到数据层面呢,当然这个数据就包括了我们之前的这个应用所产生的一些,呃,运营相关的,服务质量相关的,包括一些资源依赖相关的,在服务开发,如果说存在一些,就像刚说的服务业务,业务模块A跟B之间如果存在一定的。团队之间的这种架构啊,或者说本身语言之间的这种呃区别,其实很容易造成我们在搜集一些日志,包括一些现能数据,甚至是运营数据之间会存在一定的孤立,对形成一定的孤岛,对数据的一些呃不畅通,然后并且不同团队或者说大家标准不一样,对出来的这种数据呢,其实也呃,其实质量啊,包括一些那个能覆盖的点,其实也是不同的。
08:18
对,再聚焦到我们这个监控这个层面,因为我我其实比较赞同或者理解大家一直认可的,或者说业界比较。多的就是说我们的监控其实是对数据的一种采集和大数据的处理,以及处理加工的展示与告警,所以在监控层面呢,我们继承也会看到数据给我们带来一个就像覆盖,对吧?监控的覆盖,如果说数据本身存在一些孤岛,包括还有一些未覆盖到的,那对于我们监控其实也是体现出来就是监控未覆盖到,或者说监控覆盖的质量不高,对,或者说是就是监控覆盖的模块或者业务之间形成孤立。等这些就是一个情况,然后从我们的应用到数据再到监控,我们聚焦到我们的监控这一块来看,监控更细,细焦的来看呢,现在其实应用监控主要可能会存在几个痛点,但不限于我们现在给大家展示这四个,这四个呢主要是可能是比较普适存在,并且也是大家应该重点关注的四点,第一个呢,就是覆盖。
09:19
讲究的覆盖呢,其实从两个层面,一个呢,就是我们的这个业务链路的层面的覆盖,从我的前端到后端,到网络,到我的机器包pass pass的资源的资源等等这样一个纵向的,然后还有呢,就是我们业务的,比如说我业务模块有abcd吧,几十个甚至上百个,那是不是覆盖全的,对,这是我们去做监控或者说把控我们的业务的一个最初的一个立足点,也是我们发现问题的一个呃资力点,然后再往后面看呢,就是定位,定位问题就是我们发现问题之后怎么去。在这里呢,有几个点,第一个呢,就是我们对数据啊,包括我们的一些呃,更新定位到的覆盖的情况,以及技术点之间的这种衔接,比如说A模块定位到一定的问题,对吧,他反馈给掉了BA,他反馈给B了,但其实B呢又递给C,在这个过程中,如果A跟BA达成了一定的这个标准啊,或者说一个衔接跟C之间其实是的,那其实这里面的问题,包括我们的一些现状,其实也很难串通起来。
10:22
可能限制,如作为我们运维或者研发可能啊大家就会呃紧急拉会啊,或者说呃紧急去嗯做一些复盘等等,但这其实成本相对高,如果说前置我们的信息,包括我们的场景是通的标准的,那其实这些东西有数据去量化出来,去定位会呃效率呢和这个质量会高很多,对第三个点呢。是提了个质量,刚刚提的就是覆盖发现问题,然后定位分析解决解决问题,然后第三个呢质量,质量是其实对前面两个的呼应,就是我们覆盖的质量是不是足够的高。像原来我们可能有一些业务中,最几年前大家可能意识我能打一些日志,或者说我能去做一些,呃。
11:09
单维就是那种单维单链指标的一些,比如某一个具体方某一个接口,对吧,它的一些成功率啊,耗时等等,这几年呢,可能我们随着普罗米修斯推广大家业务的这种复查,大家现在呢,越来越多的用户一些多维,多维的一些监控,那这里面其实看到就是对我们这种覆盖的一种质量的提升。然后包括这种定位,刚刚说的一些标准,现在包括出来的什么opening啊,什么open啊等等这些其实都是对我们一个质量的一个提升,或者标准化的一个。达成共识,然后第四呢,就是务治,就是治理服务,这呢主要是前面我们看点就是发现问题,问题第三第点,这里呢就是我们除了应对被动的应对当时的一些主要的问题,这个呢是我们对于服务做的一些主动的对,比如说我们一个季度型的,或者说一个阶段性的,对吧,我们要去对我们的服务做整体的优化,或者说对于这种成本做一些呃呃优化,或者对服务的一个架构做一些呃提升等等,在这里面我们其实需要我们对整个业务,或者说整个我们的服务的一个质量量化,然后呢做一些具体呃排比,然后做一些呃具体的分析,然后得道,比如说我们知道有100多个业务,对吧,我知道我的核心业务的这个,整个业务的链路拓扑的一个,呃,主要的这个平行点在哪里,那我就找出来先优化,那他做的效果肯定比。
12:40
一些客观,然后主观的一点的去推的一些,那个效果要好好一些,这也是我们在做运维啊,或者研发中,对吧,经常会感受到的一个点。然后呃,刚刚说完这几个点监控,或者说那个我们刚刚说的一些困难困困困难点,或者说这种观点啊,但会到我们这个聚焦来看呢,或者说业界来看呢。
13:05
怎么去应对,怎么去对应对这个事情,然后在这里呢,其实业界大家现在也都保持统一的这种节奏,或者说这种观点,对吧,提出了应用的可观测性,然后应用可观测性呢,尤其是在我们现在上云业务上云,然后云延生提的时候呢,其实现在是越来越被认可和被落地使用的,然后这几个这里面呢,主要包括三块,然后一个是magic,一个是一个是logging,对这三块其实独立呢,都会有它自的场景和相应的产品啊,包括一些那个诉求痛点,然后呢,三者结合在一起呢,也是有它的这种使用场景和他的一个诉求点的,对这里面说的是业界这种说我们可能提升提升的这个高度,能叫这个方法论,那反过来等下面呢,我们也会看一下我们云监控在基于这个可观测性上面的一些实践和一些探索,然后以及落地的一些产品。
14:04
呃,下面就是讲我们的解决方案,然后我们这边提的呢,是那个端到端的一体化监控解决方案。端到端,其实这个概念大家对于我们做一些那个呃应用,实际的应用支撑呢,其实就很很有感触啊,就是我们的呃一些应用,比如说是小程序或者web,或者说是一些那个P呃H5等等,然后有可能是我们直接的SaaS服务,但都会有一个终端的一个呃调用方,然后呢,调用方通过我们的一些操作或者直接调用接口,把这个请求呢发送给我们,通过网络发送给我们的应用服务,然后应用服务呢,再把这个呃接服务呢,当然有可能直接到我们后端服逻辑服务啊,后端逻辑服务就是由我们一些像go语言啊,或者说Java Python等等开发的,然后这些我们的后端服务服务呢,再通过调用一些中间件,或者说一些数据库,通过对我们数据模型的处理。
15:03
也就是对我们实际的库表的一些呃,真实数据的增删修改,查等等,或者说呢,就是纯粹我们的逻辑服务的一些呃处理,然后在这里面运算基于我们的一些机器啊,或者说呃中间线等等,把这个呢计算处理完之后,再把这个请求就是返回给我们的终端请求方,大概呢,这是一个我们的服务的一个端到端的这样一个请求的一个路径啊。在这个路径上面呢,其实证明的话,我们其实想去呃抛的一个点吧,应该说叫抛的一个点,对其实对于我们每一块都应该被重视起来,去看他具体应该有的一些特性,或者说它所具备的一个特点,去对它的场景和对他的这种能力去做监控,对然后这里面呢,我们相应的可以每个环节每个场景去看一下,第一个呢,我们提的叫云播测,播测这个概念,其实呃,大家在业务中用的其实很多,其实呃这个就是我们像一些核心的功能。
16:17
诶诶啊,不好意思啊,刚刚网络网络突然卡了。把声音关了。啊,不好意思,刚刚网络有点卡,这抱歉,然后呃,这个可能也也也耽误了一下,大家可能我们等一会,对于我们这一次这个这个也分享系列呢,也会有一些那个,我们有一些公仔啊,有一些其他东西弥补一下,大家大家也见谅一下,然后我们下面呢,就继续开始继续继续啊,然后刚刚我们其实就讲到我们腾讯云云监控在做这个端到端一体化监控解决方案,这里面的一个情况,我再重新大概从我们的播测开始讲一下啊,就是我们播测呢,就是主要像我们有一些服务,有一些核心重点功能的,包括我们像有一些支付啊,像我们的首页,然后或者说是我们一些那个呃视频,就像类似于教育类的这个直播。
17:13
账号直播的一些那个主接口等等,这些呢,其实我们需要做一些主动的一些核心的监控,就是我不知道我后面对吧,因为什么环节,比如说支付可能因为我的一些登录,或者说一些健全等等,但我一定要提前预知重宝我的这几个功能或接口对吧,是正常的,是是质量呢,或者说是性能是可观的,然后可观测的,然后呢。性能的结果呢,是可知的去监控对吧,它是正常还是异常。就像我们做一些那个,比如前刚过去不久的这样,这个双11大铺的时候,对吧,很多这种电商他就需要做这样的重宝,然后像我们一些那个视频教育啊,对吧,做一些平时做一些那个,呃,一些核心功能点的一些观测,包括像游戏啊等等这些呢,其实可以用我们这个播测去做一个主动的监控,覆盖核心的保障,也可以解读为一种黑盒的监控。
18:11
然后在这里面呢,其其实播测核心核心点呢,就是看我们的这一个播测场景和我们的一个播测点,等一下,我到我们产品细节的金融会跟大家具体讲一下我们的这里面的一个能力和一个现状,然后再往下面走呢,就是我们的这个前端监控,也叫前端性能监控,对这个呢。主要其实两块看一块呢,就是我们客户端的这种一个用户操作它的一个快速请求过来的一个,呃情况,比如说耗时成功与否,然后或者说日志情况是怎么样的。另一方面呢,对于我们的呃,前端开发同学需要主动去观测,我们主动分析一下我们的这个页面的性能,对吧,元素加载的情况,静态元素啊,或者说这种一个页面的加载的性能,或者说一些那个耗时耗时或者说一个成功与否的一些呃情况在这里面呢,对于我们前端的开发呢,要关注我们的前,就是我们客户刚刚说的客户的一个行为,包括一些行为的一些,呃。
19:15
质量情况和他的一个成功与否,然后包括我们像自己去分析一些,呃,性能的一些情况,包括还有就做一些,那就是页面的一些,页面上的一些运营情况吧,被访问了多少次啊等等这个呢,其实站在我们前端的监控研发和我们的运维做主动的一些分析,性能分析和监控告警是很有用的,然后再走呢,就到了我们的后端,包括应用服务器和我们的这个后端逻辑服务这里面。这里其实我们相对于前端来说啊,我们一般通常情况下做的监控相对会重一些,像打日志啊,做一些指标的上报等等,甚至说呢,有一些我们还会做一些呃,链路上的,但我们前几年啊,我们其实包括我们腾讯自己内部,其实我们在应该345年前,我们其实做的呢,主要都是通过我们的一些账号的,呃,调用关系,调用链,对吧,请求的一个链来分析,或者说打印出我们的一个请求的一个呃呃带时间的这样一个路径情况,但这里面其实相对来说会比较重,而且透析,透析呢,必须是我们每个客户的详情况,必须是相对比较准。
20:28
但现在呢,就比较好一点,我们其实就是基于我们业界的这种open的这样一个概念理念,我直接上来,我们要求的就是应用的这个,呃,链路监控就直接就是从我们的服务,呃,服务侧直接入手,然后呢,把这里面的链路调用之间,应用之间的调用关系啊,然后以及调用关系之间的一些性能,成功与否是什么一些错误率啊等等这些信息都直接直接就是全部生成和全部展示出来,并且是场景化的,对于我们去做整个这种后端业务的这个拓普性能的分析和资源的拓普调用关系。
21:06
是是分全的,并且呢主动一些告警,发现一些异常,然后呢,做一些我们的一些分析定位,比如说我出现了异常或者告警,我是接口层面的,还是说方法,方法站里面就是方法,还是说像一些那个对战资源里面的一些情况,这些呢都是可以直接去分析的,并且接近于我们做到的这种开箱即用,并且呢,在链路监控这一块,业界呢,大家其实主要关注也就是我们的语言,语言不同呢,会对于我们的使用啊,包括呃。兼容的一些方式可能稍微有点区别,但这个我们也可以等一下在详细地方会说,而且我们也会看一下我们腾讯云监控的APM这个产品在这一块的支持能力和支持的语言方式大概有哪些。这里面讲的像我们刚刚说的波测还前端监控,包括呃链路监控AB就是应用性能观测,就就是全链路监控,这三款呢,基本上都是我们尽量做到的是开箱即用,而且呢接入成本也很低,但反过来我们其实可以看到也刚刚说的就是我们后端一般情况下我们的服务逻辑相对比较重,然后这里面的一些调用的一些关系,甚至人员的参与,一般情况下都会比较多,对,然后呢,在这里面其实大家可能服务模块A就是应用的,甚至说更大一点的这种一个呃模块单位或者组织单位,大家关注的点可能稍微有点区别,比如说举个场景啊。
22:29
像我们的服务模块,我也可能会关注我的一些接口地域,然后可能还有版本的对吧,对应的一个成功率,然后耗时,可能对于我服务模块毕业的同学呢,或者说呃,研发人员呢,可能会关注我像一些地域可能关注像我可能还关注什么终端类型呢,然后可能也会支持,就看一下我们的这种什么网络类型,然后看对应的什么卡顿率啊,或者说看一些那个耗时或者成功率,那在这里面呢,其实就引申出一个场景诉求来,就是希望能做到这种自定义监控,对,然后这个普罗米修斯呢,就是应应映射上了我们这种多维的自定义监控场景,这里其实业界比较呃用的很多,然后也毕竟是我们CF的,呃,第二款毕业的一个呃开源项目,然后我们这里呢,对,但这里面其实罗米修斯大家现在在用,包括很多我们我们腾讯内部也有很多人在用,其实这里面重点其实呃,用它的一个点啊,就要在什么上呢,就是。
23:28
当但是你业务量比较小的时候,其实自建呢都还OK,对,这可能也是我们一个开源产品的一个大概的呃一个状况,但是一旦当我们想用到更高阶,或者说我们的业务量数据更多的时候,会遇到一些对吧,高可用性或者说那种集群化的一些诉求引申出来,那在这里面呢,我们就呃把我们基于开源的制做了托管服务,对托管服务呢,就是我们的一些呃,像群化的管理,包括一些呃。
24:00
呃,业务量随着业务量的升级,也支持一些自动的一些规格升级,然后也还跟我们云的一些产品做了一些融合,比如说什么CD就买搜啊,C卡卡等等这些呢,我们也做了一些打通,相对来说对这兼容这一块的监控数据啊,我们也会更灵活一些,在云上,然后再往后面走呢。呃,这里面下面也可以看到啊,我们这里面还有一个古拉芬达,对普罗米修斯自己上面也带了古,但支持我们也支持托然古拉芬达,古拉芬达这个呢,其实对于这种异构数据源的展示和这种多维的一些处理是很方面,也很多大家用在实力管理上面呢,我们就支持去做这种托管服务的,对,然后再往后面走呢,就是到我们这个产品的,呃,云产品技术监控这一块,也就是大家在腾讯云官网上搜云监控可以看到的,这个呢,主要就是覆盖到什么呢?我们的一些网络服务器,然后以及什么数据件read啊,MYSO啊。
25:00
等等,像这些的一些监控,就是我们的大的资源监控。就我们的一些云监控的能力,对,那这里面统一题来看,大家就可以看到我们整一个端到端的请求,每一个环节场景都是有相应它的一些特色,它的一些监控诉求点,然后在这里面呢,我们总结一下就是我们的呃,核心重点功能服务全球,并且是全球覆盖,是用云播测,对然后呢,后面呢,就我们的前端监控和前端的一些性能分析是可以使用呢,就是我们的前端性能监控啊um,然后在我后面呢,就是们端是至于后端的这种像自定义的一些维景就可们托管普罗密修斯加托管果然方案对托管普拉,这是我们的异构数据源,大家可以做一些。呃,比较灵活的一些大屏啊,下转呀等等,然后再往后面走呢,就是我们的基础,呃基础云,基础监控,比如云产品基础监控,那在这一套下来之后呢,对于我们整体的一个服务的性能,呃,容量情况,客户的一个大概的使用的一个质量情况,都是可以覆盖到的,对然后下面呢,就我们再看一下,我们在这里面刚刚说了这些,然后对,作为一个完整的一个呃产品线,作为一个产品团队,我们在设计这一套工的时候的一个技术的一个大概的一个规划,或者说我们现在已经建设成的大概的一个,呃设计架构是什么样子的,我们主要分为三层,第一块是数据中台层,第二块呢是应用中台,第三块呢是这种场景的产景的产品,产品第一个呢,就是我们这个中台,就是用了大中台的这种方式,把我们的一些呃,指标数据,日志数据,就是就链路一些日志数据等等都通过大中。
26:52
台去做处理这一块,所以我们的处理能力啊,和这里面的一些稳定性都是呃,以中台的方式去保障,相对于来说,我们的包括支持团队也是相对相对比较充足,然后到应用中台上面呢,就是把一些基于数据啊,因为我们刚才也在说嘛,其实监控核心的就是数据的加工,数据采集,加工处理对吧,和分析等等,在在上层呢,我们针对这里的中台的能力,这种数据的功能体现出来,成为一些,比如展示的一些。
27:23
那页面报表功能啊,然后告警啊,告警通知啊,包括一些告警的一些回调等等,再往上面呢,基于这些功能模块,我们就组合成各相应的一些,呃,监控产品。对,这样的一个设计模式,应该也是业界比较领先的,我们得也对于我们后面去做一些,呃。场景或者说我们产品间的做一些整合或者功能的打通都是非常的方便的,也是我们前几年就就一直在规划,然后一直在挑战,包括内部验证啊,然后去做的,现在呢,这种其实有一个点大家就可以看到,现在用我们云监控,大家可以看到在官网上面,在告警策略那一块,我们就可以直接配告警策略,然后就可以看到音波测的前端监控的应用性能监控,还有普罗米修斯的,然后包括技术监控的,大家在上面配的告警的一些策略的方式和告警通知模板的体验都是一样的。
28:20
这种就是大家可能我们对吧,在腾讯云上我做一个播测,或者做一个前端,对于我们运维同学啊,或者说我运维同学最好的策略支持到我的研发侧或者业务侧,大家收道啊,都是我用同一套模板对吧,大家信息然后并啊都是通过呃短信啊,或者说靠警啊,大家就不会有那种在发现问题的体验上面是能保持一。包括后面呢,我们也会做更多的在呃,更多场景层面的打通,可能现在也在去做这种一个研发和一个实现啊,就是比如说我们前后端的这种打通,对这个也在路上,大家后面也可以呃,期待我们上线之后呢,可以去体验,可以去使用。
29:01
然后下面呢,我就针对于我们刚刚说那几个产品,具体说一下他大概的情况,然后我们作为一个呃,作为我们腾讯腾讯云云监控这里面在这里的实现的一个能力,或者说预计后面的大概一个规划情况给大家报一下。第一个呢,就是我们的云播测,云播测呢主要几个场景,网络呃,网络质量的,然后呢,页面的,也就浏览的,还有就是传输,上传下载,包括我们的服务服务服务端的,比如说那个接口服务的,然后还有就是音视频流媒体的,这几个场景都是可以做呃质量和一些性能的监控,然后呢,并且这里面我们也支持一些节持配置啊,包括一些呃一些内容的一些匹配,做一些是否有一些呃,比如被劫持啊,或者说我这个内容下载的是否有被篡改。然后这里面优势呢,主要第一个就是无情无视的波测,大家都知道域名有端口,直接配置,基本上都是分钟级就能配置成任务,然后就可以把我们的一些核心监控点给覆盖上,这里面对于我们做几个场景啊,就是说我们比如说有一些拓展海外业务的,像一些游戏啊,或者说我们一些跨境电商等等。
30:10
因为海外的网络质量呢,相对来说呃,要不可控一些,因为不同的国家,或者说这种运营商又又那么多,相对国外呢也被复杂,国内相对呢也呃可能运营商就是移动电信,呃,然后。相对可能会稳定一点啊,但对于国外海外的呢,呃,一个就是网络,我们刚刚说的网络质量呢,其实参差不死,包括呃我们这个网络路由啊,大家如果去贯彻发现海外的路由其实它并不是那么的固定,对所以在这时候呢,我们如果能把我们的这个多测应用上去,我们就可以知道M服务对吧,在不同的地域对吧,表现情况什么样子,不同运营商上面对吧,展现是一个什么样情况对吧?可以做一些及时的呃资源的调配啊,或者说做一些及时的这种一个质量的优化都是可以做的。然后第二个呢,就是拨车,就是我们说的无形入市场,接入很方便,然后拨车点也是刚刚说的就是覆盖全全球的全球点,我们核心的,尤其国内呢,和基本上层次都有,国外呢,像核心大城市都是都是覆盖的,然后支持的方式呢,有啊,IDC mail,还有就是我们的维。
31:20
呃,等一下,如果说我们可以演示一下,就是我们的多维,也可以去做多维的一个分析判断,像地域啊,我们刚刚说的网络的就是运营商,包括我们的一些那个,呃,提供的一些那个站点等等,都是可以做分析的,还有呢,就是我们的智能监控,智能监控呢,在我们的云基础监控产品上面呢,已经上了,大家也可以,现在有很多用户呃在用,就是我们的动态监控。后面呢,每个产品上面现在都可以看到,我们后面也会慢慢的把这个功能再放开,现在只是呢,在我们的基础性功能先呃完全验证好之后呢,会慢慢的在其他产品上铺。呃,这里面就是我们刚说的一些特性,刚我们刚刚说的就支持的那种场景,就覆盖到的,基本上大家能我们业务中比较常见的一些场景,都是能能去支持或者说能去覆盖的。
32:10
下面一个呢,产品就是我们的刚刚说的前端监控,前端监控这个其实可以重点提一下,这是一个我们腾讯,因为我们原来腾讯主要前端有有像我们的一些呃,空间或者QQ啊,其实都是在终端上面,包括我们微信的小程序,其实也是我们腾讯这边的主打,主打特色在这里面,其实我们这一个产品呢,其实在内部已经用了很多年,对,然后包括我们现在内部支持呢,已经有一上接近一万多个业务项目在接这个产品,然后我们最近一两年把这个产品打磨,并且跟云化做支持,整套变成了我们那个云上的一个产品。现在接像有一些像我们去支持呃,很多客户包括电商类的啊,金融类的,然后国家一些项目,像一些什么健康码之类的,都是用这些去做保障,然后也是提供一些稳定的服务,在这里面的接入呢很简单,就我们装一下呃SDK,然后呢并支持直接。
33:18
然后这里面的优势大概是什么呢?平台支持成接入成本低,然后呢,包括一些多维分析,还有一些离线日志。这里面等一下就也可以给大家简单演示一下,这里面其实呃,对于我们作为开发包括运维来说呢,其实前端监控我们假设设想一下啊,我们现在人去对我们前端监控做一些什么,呃,监控手段呢,或者说监控措施,呃一般情况下大家可能想到的啊,是我们打点日志,然后呢,主动的去上报一些呃指标,但这里面指标肯定不会太多,因为对于终端的这种性能啊和体验,可能不会像后端我对吧,我可以做的那么重做一个agent呀,或者说做一个其他的呃,一个采集的那种方式,然后在这里面呢,可能还会做一些什么呢?可能我们运营同学啊,或者其他同学需要我们去买点去做一些那个呃数据分析应用,这可能是前端我们大部分情况下会遇到的一些场景,或者说能做的一些事情。
34:12
但其实对于我们刚刚说的,我客户端的调用,就是客户端真实的request调用的一个情况,对吧,是否健康,然后以及我后端的一个性能分析,或者说一个简单的页面运营,这些数据其实是很难聚焦或者场景化出来,所以呢,我们这产品呢,大家在我们前就是腾讯云官网上直接搜IM对吧,我们每天还有50万的这样一个50万次的这样一个免费额度,大家可以去体验一下,接入非常快,非常快,而且呢,这里面基本接近于开箱即用,大家一下进来,就我刚刚说的像性能分析呃,质量监控,还有就是页面的一些运营就直接可以用。然后这款下面一个产品呢,是我们的这个应用性能贯彻,也就是我们说的这种链路监控,就是这个可能跟我们的微服务这种现在这种开发模式比较贴的比较近,就是我们服务块特别多的情况下,我如何能真正的把控到,对吧,像我比如说做服务整理优化。
35:14
是自己作为我们的研发,或者作为我们的运维,我到底有多少个微服,微服务之间的调用关系是怎么样子的?在这里面呢,对于我们主动去发现一些异常的时候,能主动去分析定位其实很有帮助,包括我们去做一些扩缩容的一些评估,以及我们架构优化调整,其实都是很关键,只要有量化数据和没有量化数据其实是两个两个完全不一样的一个效果状态。那在这里面应用性能观测呢,就我们刚刚其实在介绍一体化方案的时候也说了,其实跟我们语言有点关系,对,然后这里面呢,就会支持说我们去有一些啊,或者说像C加,可能我们说自己用SDK,然后像那个Java呢,是无入的,对吧,就直接用一些就可以了,然后我们这里面呢,自己研发了我们的探针服务,同时呢,也兼容了我们的,呃,Sky working,还有椰ER,像我们企业内很多客户啊,都是用了椰ER和sky working,当业务量大的时候,还是回到那个原点,问题就是说当我们一些开源工具和能力呢,当它业务量比较小,或者我们用的规模比较小的时候呢,其实问题都不大,但一旦当我们的业务稍微有点复杂,或者说量有点大,其实都会遇到一定的瓶颈,或者说有一些高可用的一些呃问题,所以在我们也有很多客户呢,就因为遇到了这些问题,从质件上面啊,签到我们这里面签的过程呢,就是直接就改个上报地址,开个地址呢就解决了,基本上就是。
36:43
基本做到的这种迁移和切换使用。然后这里面主要的功能优势呢,第一个就是拓扑的自动发线,并且我们在这里面拓扑的一些展示啊,或者说一些那个分析的一些场景,都是做了一些深度的呃设计,然后等一下,当然我们也可以演示一下每个产品,我如果有时间我会尽量跟大家演示一下,然后呢,下面呢,就是我们调用链路,对链路追踪,这个基本上是我们链路的一个本质诉求啊,就是我通过一些SID对吧,我们最终出我整个链路,我整个链路的一些情况啊,包括我的一些性能,或者说有没有异常,异常点在哪里,调用的关系是怎么样子的,然后还只是多维,多维分析这个点,其实我可以简单跟大家展开讲一下,为什么呢?因为我最近呃,去跟我们的一些客户啊,或者说去交流的时候呢,大家会有一个疑惑点,就是说支持多维的时候,其实对于这个服务的性能要求比较高。
37:37
因为是多数据的这种呃处理嘛,作为下段,然后做一些呃带条件的这种处理,所以说有一些人可能说我是不是就可以直接用我的这个店务链,对吧,通过一些直接定点的去存一些数据,把相应的这种电用节点这样的的一些信息拿出来,是不是就够了,其实如果说我们只是为了去画一个呃链路拓补图,或者说拿一些那个SPA的一些链路信息呢,其实这个是差不多够的,但是反观一个现状啊,就是我们通常情况下这种互端服务逻辑,基本上我们的运维和我们的研发都要用。
38:10
尤其我们很多这种场景下,都是我们运维可能搭建起来给我们的运维,呃,给我们的研发业务用,对吧,或者说我们引入进来的产品给供给他们用,那这里面大家。对于某一个场景发现问题的时候,真的能直接说我就能知道某一个能聚焦到某一个圈ID,或者说某一个客户场景嘛,其实比较难,要求真的比较难,但是反观呢,我们知道大概一个啊,这个服务接口有问题对吧,某个接口名或者某一个返回码,或者某一个这种呃,服务的这个名字对吧,大家去主动去搜分析,然后再家去转,一点一点的,我能知道一些详细情况,这种场景反而会更符合我们这个在呢,这里面就是我们说的,这可能对我们的这种服务的一些高数据处理能力啊,或者说这种服务的一些健壮性要求就会高一些,然后还有呢,下面就是包括我们那个实时告警,然后呢,智能告警后面呢,也会验证我们去上去,比如说我接口对吧,波动了对吧,出现告警,我们可以主动的去推,然后大家基于这个告警对吧,然后再看详情的链路,直接点进去,大家就可以一体化的这种串起来。
39:12
然后刚刚说的拥抱,拥抱这个生态,开源,拥抱开源的生态,我们的这个之前的探针呢,是基于open去研发的,然后呢,像SKY我们又是去兼容的。再下面一个产品呢,是我们的这个,呃,普罗米修斯,普罗米修斯的呢,也就是我们也介绍了,但这个我估计大家也是耳熟人,想现在业界用的这么广泛,是我们这种自定义多维的这种监工场景,然后我们这里面说的呢,其实重点在托管,普托管这两个字,对托管呢,其实我们就是刚刚说的,像我们实例化的单词例化的去做一些服务支持量不大的时候,没有没有问题,当我们一旦我们的这个普罗米斯的这个呃,场景的这个sales啊,达到这种百万或者说更多的千万级别的时候,其实很直白的就面临一个集群化的这种一个诉求,大家可能会做一些联邦啊,或者说做一些那个依赖于一些开源,开源工具啊,比如说什么一些S啊,什么MAS啊等等这些都是可以的,但是呢,还是会遇到这种开源在能用或者能能。
40:21
就是能覆盖的这种更上层量大的这种场景下面遇到的这种高可用,或者说更大的这种集群管理的这种能力上面呢,会遇到一定的那个挑战。对,包括我们现在去看一些开源社区,或者说去网上搜一下,大部分的问题可能都不会在细节,诶我这个怎么用,但然这个使用方式是一方面啊,可能更不会说大部分问题不会出现在单写,大部分都是在区群上面,对这个呢,其实也就是我们能帮大家去做的,也就是其实总的来说呢,其实我们想跟大家形成一种共建的关系,对我们在云上用一些对吧,资源部署我的服务,我希望能跟腾讯云一起共建,把我的服务做得更好,这也是我们的一个呃愿景啊,也希望能帮大家,对吧,就像这种托管与托管这个普罗来说,我们基本上保持陀罗斯的原生态的使用功能,然后呢,只是说帮做了一些我们刚刚说的跟云上的产品,比如说什么C就是C卡不卡呀瑞啊等等打通。为了方便大家去。
41:23
监控和采集数据,其他的人我们就是做托管,就是帮大家去做实际这种服务托管,集群托管,对吧,我们底层用我们的这种对象存储对吧,大家去解决大家这种数据。大数据这种一个呃,一个存储的一个问题,然后也解决了大家这种考虑,这种多副本啊等等一些安全问题,我们呢,就帮大家兼容上了,然后多实力之间的这种,呃,多实力之间的这种付费呢,我们也是直接用的,大家就不用说自己去想着去引入一些三等等一些工具去搭建这个东西,可能还要额外的去学一些东西,拿到它呢,就把我们当成一个云服务,或者说监控体系中的一环,或者说一个功能或者一个工具来来使用,对,这就是我们希望能跟大家一起去探索,或者说去磨合,形成的一种共建的一个状态。
42:13
然后托托管普罗米修斯这一个呢,其实在我们现在业务中去做这种多维指标自定义的场景其实非常多,尤其像有一些我们举个例子啊,像做比如多云的,现在很多客户有多云的,这也是个现状,比较腾讯云,同时也用了我们自己IDC的,对,那我这里面呢,希望比如说还有那IDC,我们也看到很多客户IDC,我有IDC集群A,集群B,集群C,但我现在呢,都是自己有的可能就单词,有的可能自我集群化,但是我集群化能力只能支持某一个集群,其实对于大家去使用,其实体验来说挑战蛮大的,对吧。过集群服务A的情况是什么样子,服务B情况其实简单来看,可能就这几个方案之间跳转,但是就这几个跳转,对于大家能快速去get到一些信息啊,或者说只能在同一个国家方案或者同一个这种监控曲面上去直观的对比,其实体验包括效果是啊,非常差别是非常大的,我们现在呢,有好多客户就是。
43:13
遇到这种多云啊,包括像这种刚刚说的单集群对吧,几个集群几套服务去弄,然后这种的一些那个体验,包括这种去发现问题和处理问题的这种效率上来看,包括一些成本,然后呢觉得诶我们可以用到我们托管普的上面,对吧,大家集中化的去看,我先原来看几个,现在我只要看一个,并且一个之间我还可以做一些对比,你比如说视角不同,我运维我可以看看几个集群人之间的对吧,资源情况是怎么样子,然后对于研发,我几个集群之间,我服务情况大概怎么样子,对吧,对管理导层,我整个一个服务资源情况,甚至说结合我们通管发呢,我的一些异构数据,对吧,我的一个对吧业务性能,我的占线人数啊,对吧,成我的服务大概是什么情况,然后整等正一整套这种集合出来的那种效果呢,会更加一些,但这里面就返还我们刚刚说的,但这里面要求的这种精金化的能力,包括这种稳定性高可用,其实会是一个挑战,所以建议或者说也是我们希望能大家能大家托管的一个状态。
44:13
然后呢,把一些这种。比较专业化的能力呢,交给我们这些,呃,相对来说在群上专专业干这种事的人,对吧,我们也希望能为大家去付出一些自己力所能及的力量。然后下面这个呢,是我们云产品技术监,技术监控这一块可能大家用的也比较多啊,就是我们直接说在云网上说云云监控就可以直接搜到了,然后这里面呢,我们像一些呃的展示,包括主动的靠警,这样我们右边看一个有一些产品还只是秒级的,然后现在我们也在迭代更新,做这种多维选择器的,大家的体验会更优,然后在高级呢,也可以选择一些动态的,动态呢建议大家多用一些,像卡不卡这些像呃CP,就像服务之类的呢,我们其实建议就是静态动态结合,为什么呢?因为我们当CPU说我突。
45:08
就把业务放量对吧,突增了一下百分之,从10%放到30%,其实呢,对于我们的可溶性还是可容忍的,但是呢,有一种场景就是我突增了一下,从七十百分之十对吧,50涨到了90%,有个突变,并且已经达到了80%以上,就是静态加动态联合用效果会更好一些,但像我们的那个实力呢。就我们刚刚说的像什么呃买就my soq啊,连接使用率啊,或者说像这一类呢,直接他平时应该就是一个相对水平的一个状态,用我们的动态阈值呢,效果会更更好一些,大家可以去体验去试用一下。然后下面就是我们刚刚也讲了一下我们的一体化方案,对吧,业界面临的一些挑战,包括我们给了一个解决方案,然后也说了一些产品,产品的一些特点,那回不来聚焦落地情况下,看看我们在我们自己的业务中具体是怎么用它,对吧?他给我们的赋能,或者给他们带来价值,到底怎么看这里面呢?我主要会跟大家分享我们五个这种场景,但不限于五个场景,还有更多可能,我随便可能举几个,像我们做对吧服务的一些扩缩容啊,预算的评估,然后做一些我们的一些那个,呃。
46:27
服务的一些,呃。框架优化或者说设计等等,都是可以用上我们这些可观测的一些性能数据,或者说我们的一些服务链路的一些监控的一些呃,速递量化出来的数据来辅助我们去做这些事情,这里呢,我们就先今天先讲这五个场景,但大家如果有其他的场景,或者说有现在遇到其他的痛点,也可以给我们留言,回头我们可以逐一的跟大家聊一聊。第一个场景就是主动监控,对主动监控呢,其实主要分两两两个呃方式了,第一个可能更多的是我们去主动的我业务搭屏的方式,就是我需要重宝,或者说像双11,比如说我去做这种大版本变更迭代,对吧,我们就可以盯着大屏,像我们第一块就是网络的大屏,然后呢,前端后前端监控的,后端的,包括我们资源,资源可能有一些,呃是呃,我们刚刚说的像普罗米修斯啊,或者说展示方式,那在这里面我们就可以盯着这样一看,对吧,我护航的时候是不是出现问题,或者是不是异常,就可以大概一就可以直接清晰,一般情况下对我们活动的时候,其实小问题呢,影响很大,只要大盘定基本上都OK。
47:36
当然这里面说是大盘大大盘里的数据呢,我们也可以做成类似于那种对吧,小播报啊,小喇叭对吧,放到我们一些,呃,一些那个内部群里面啊,或者说一些方式对吧,去跟大家去互动。第二个呢,是主动的结控告警,也就是说我已知的一些场景,比如说我的一些服务模块的接口对吧,接口成功率,接口耗时,或者说我的业务一些吞吐量我已知的,那我就可以用规则把它固定下来,或者通过一些啊动态阈值,我把它对吧给固定下来,等有问题的时候能主动给我触发告警,尽可能的我们做到什么比用户更早的去发现问题,因为问题其实我们只能尽量的去规避,或者尽量的去啊预防,但其实你说完全一个业务完全没有问题,可能性真的不大,但是呢,我们在像刚刚说的这种主动监控大屏这种呢,更适合我们做一些主动的大变更发版啊,或者说做一些大促重宝,像平时有一些场景,我们还是需要一些沉淀,沉淀出来呢,我们就要去做一些主动的金控覆盖,当然这里面就是我们说的,像前端、后端,包括我们的拨测都可以做。
48:42
做一些主动告警对吧,哪里。对吧,比如说我测对吧,网兜地区对吧,网络突然抖动了,丢包率突然变多了,或者说卡顿率突然变大了,对吧,我们就会主动触发,然后主动的去做做一些,呃处理后端呢,可能某一个服务接口突然告警了,突然对吧出率变大了,那我们就可以主动去响应,主动去解决。
49:03
第二个呢,就是故障的分析,呃与复盘第一个第一个场景呢,其实是我们为了我们的吧做发现问题,大家发现可能我们人为去人为干预啊,有可能我们刚刚说的就是主动的这种场景,对吧?搜索到告警的方式,第二个呢,就是我们说的这种啊,故障定位与副吧,也就是分析问题在这里面我们可能看一下我大概列了几个,第一个呢,就是我们的前端监控,对前端监控这里面呢,我们看我们的这些错误啊,包括我们的一些异常在这里面都直接量化的,然后日志呢,详情也是可以直接出来的,大家去分析某一个客户的一些反馈问题啊,或者说某一个页面反映出来的这种啊异常点,大家都可以拿着这些详细信息明确的知道,对吧,我这个是不是因为我这个请求对吧被呃劫持,或者说我这个请求是不是被对吧加黑了等等,或者说被攻击了,然后或者说我这个服务是不是上线就有一定的问题,都可以直接去量化分析出来。然后第二个呢,就是我们的这个后端服务的这一块,大家通过这种链路对吧,能知道我具体的异常点对吧,是否是有异常,某个服务肯定是不是有异常,或者我通过主动的搜一些告警,然后这样进来呢,我们就可以通过这种链路SPA或者说主动多维查询,具体看一些详细信息,这里面像一些我这里面举的一个例子是Java类的,Java这里面我们的一些堆栈信息是怎么样子的呀,对吧,我们这里面方法调用的啊,这样一个层级调用关系是怎么样子的,包括这里面的一参数信息,对吧,我们有一些可能是。
50:32
逻辑错误,逻辑错误也可能是说就是我们的上游对吧,传给我们的参数是有异常的对吧,并不是我服务本身的这些呢,都是可以直接分析出来的。帮助我们去快速定位、分析问题。然后这一个呢,也就是还是后端的,就是我们的一个搜口的一个样例,对搜狗呀,比如说满查询,我们可以主动的去做一些下段分析,等一下,我们可以详细的演示一下,带一个动的交互的一些情况给大家看一看,然后下面一个呢,就是我们的一个场景叫投诉定者。
51:02
对,这个其实对于我们业务中,像我们运维同学跟我们研发同学,其实有时候真的也比较辛苦啊,我们这个也能理解,作为一个开发或者说运维购的人,因为运维希望能保我们的服务质量是高可用,但出问题呢,大家得认这个对吧,你说服务现在质量不好,或者出了问题,大家得认,认了之后呢,得更换请求,但是现在对吧,我们没法量化,就知道说客户反馈舆情啊,或者说我们真的出现问题了,具体是谁来处理。有可能我们会对吧,直接拉群拉会议啊电话,然后沟通了半小时甚至几个小时啊,好找到定位到是谁的问题,然后去处理,那现在呢,就跟我们去基于我们现在的这种情况对吧,前后端拨测对吧,很积极,包括到每个某个接口对吧,一般我们的开发的这种力度啊,或者说保障的力度,基本上到接口及函数,呃也就差不多了,所以说呢,具体你可能说诶我具体怎么解或者怎么处理,可能要大家看一下,但是你说具体谁某一个服务模块,或者某一个地域或者某个运营商的问题,那就是直接清晰量化,直接就是,呃更夸张一点说,可能就是我们分钟级或者秒级就可能推出来消息,就能给出来结论。
52:13
对。第四块呢,是第四个场景呢,就是我们讲的叫第的阶层与强化,对第二呢,其实就是我们对我们的服务呃,应用的一些发布部署啊,管理啊,然后一些流量的一些管控啊,在这里面我们基本上业务呢,都会有一些那个这样的一些系统,当上呢,我们一般服务部署呢,都在这种像容器啊,包括一些呃网络啊等等,在这里面当我们服务发去做发布变更,或者说我们去做一些活动大促,或者说我们去做一些那个呃。就服务的性能优化之后,我们其实需要一定的响应,响应完之后我才能做下一步,比如说我现在发版了一个,对吧,后端服务或者说前端服务某一个功能特性,我翻版之后呢,肯定是做灰度,灰度完之后我才能确定,对吧,我是不是要做回滚,还是我继续放量,那这里面这个支撑我们做这样的一个判断呢,其实大多就是来自于我们一些监控或者性能的数据,对吧,我发完之后发现没有问题,行,那我继续再发,再灰度百分之多少,然后再去对吧,上线一些城市,如果说发现,诶我上线之后明显异常了,告警了,那我赶紧回滚,对吧?这里面就是说对DS的集成与强化,我们立足点就希望把这种可观测性,可操作可监控的力量,作为我们的一个调的支撑点,来去做,来去支撑到我们的业务。
53:38
第五个呢,场景就是呃,服务治理,就是我们刚刚看到就是我们被动的去响应异常啊,主动去分析问题啊,或者说因为发版之后有导致一些异常啊,或者说或者说大多时候有一些那个量的上来,导致我们服务可能性能被或者智能和资源被那个压到一定的瓶颈,对吧,及时去响应对吧,是一个偏被动啊,但我们也是希望主动的一些方式能缓解我们被动的那种压力。那第五个场景呢,其实是服务的治理,也就是说我服务就是这么一个状况,我尤其是我们发展变更迭代多次,或者说像一些我们疫情,被疫情激发出来的,像教育或者说呃,像我们一些那个视频直播,视频类的一些啊业务,对吧,还有一些我们一些腾讯会议啊等等,都是被疫情去发以后,大家对吧,为了能支持我们更多的客户,我们可能很大一部分都提在一些功能特性或者一些迭代上面,对于整个服务的这种性能啊优化呀,或者说一些成本的一些梳理啊,其实很难做到,对吧。
54:38
渠道,但是呢,我们不得不面对一段时间之后,我们肯定会要去做这个事,对,那做这个事的时候呢。那就要看,比如说我现在列的第一个这样的一个情况就是对吧,我有一些服务在不同的网络,或者说不同的地域,对吧,它的质量效果就是不一样的,有些延迟就大,那我们看看是不是网络对吧,网络运营商的问题,通过拨测也可以看到,对吧,是不是我们通过呃,我们刚刚说的这个播测,加我们那个前端监控,看是不是有一些知识源,或者说有一些服务点我们没有做代理,是不是可以加一些CDN啊,或者说我在里面去布一些那个服务代理等去做一些优化。
55:19
然后再下面一块呢,这个是我们的前端,前端这里面呢,我们也列了像那个Google给出来的这种核心指标的打分,包括我们的页面的一个加载的,在这里面我们也可以看到出来核心的像什么最大渲染时间呀,手势交互耗时啊,什么视觉稳定性啊,这些都是我们比较痛或者比较关注的。这种前端的一些核心的指标,或者说核心的一些点,然后当我们对吧,信息量化出来这些数据之后呢,做一些相应的这种调整,其实消耗会很大,里面给大家。一个国家散布局的项目啊,然后这里面呢啊,具体我就不提哪一个,就是我们在平时可能大家反馈啊,我出现了这种闪退啊,白屏啊,大家去处理,然后基于这个机缘巧合,我们也用了我们的产品帮他解决了这种闪对和白屏的问题,同时呢,他在分析他自己的页面JS错误,包括平时的页面的一些访问和耗时,意外的发现呢,平时大家通过就是本地压测没有发现的一些问题,然后做了一些整体的优化,对效果也非常明显。
56:28
因为其实这里面我们其实想说的一点就是什么呢?其实技术含量啊,或者说一些高大上的一些算法,其实并不一定存在,但是我们能帮大家做呢,就是把您的数据和您的这种场景给量化出来,对吧,其实我们很大的时候做不出判断,或者说做不出那么深的一个分析呢,就是我们缺少了数据,或者缺少了工具,对在这一块我们缺少,然后帮您弥补这一块的这个一块缺陷。然后这上面呢,是我们后端的,对后端链路对吧,清晰我们就可以看到我们的后端服务对吧,上百个或者说大几石的这种链路拓扑中面真正的服务这个内容调用的这个短板对吧,出现在哪些,尤其是有一些我们在接触的客户啊,可能对于我们耳熟能详的一些重点的服务,比如说像我们对吧做视频啊推流。
57:17
或者说做一些转转,转播等等,这些功能点大家都平时重吧,但其实往往忽略我们一个服务功能,被遗漏的可能都是我们一些公共的一些组件,你可能有两个两方面,一呢,本身开发的定位,它呢,它不是业务很强的这种逻辑关系呢,大家平时可能动他的这种意愿也不算太强,第二呢,就是这里面,因为他公共可能大家每个模块都。它其实以应对就能百分百对吧,对每一个接口或者每一个调用它的服务都能提供最佳,其实也挺难的,所以在这里面,但大家就往往会被被什么被忽视掉对吧?对他做一些优化,如果通过我们这种链路环节,或者说一些那个呃,量化出来的,就明显清楚了短板真的在哪里对吧,核心找到再给大家举个。
58:04
我们实际实际实际中的一个呃,案例啊,就是我原来在做我们呃。相当于是那个起假日中保,起假日中保,大家都知道我们要提前做这种,呃容量评估,然后对吧上机器是吧,做扩容,那在这里面呢,我们其实比较痛的是什么,当时我们做做那种QQ空间,做QQ那么多的服务,对吧,那么多的模块,我每一次屏我都知道,对吧,中完了几个核心的,或者十几20个,那了不得你能对吧,对他的一些特性或者能力知道你已经算不错了。但是整个下来对吧,上百个你怎么能做呢?有时候你把把把一些,比如说我就说一个健全,或者说有一些像废抓流等等,有一些核心关键的就只有是公共的啊,平时被忽略掉的,你其他的模块在怎么扩容,但那个关键点被卡住了,你其他扩容其实对于那个活动或者节假日重宝其实效果并不理想,所以呢,反观回来看,我们真的能把整个链路拓补给打出来,真的能量化出来,对于我们去做一些服务的一些治理真的是会帮助很大,所以这里面我们那个刚刚说的am务监控呢,也有我们每年每每每天也有100万的种SPA的这种啊,免费额度大,建议大家也可以去啊试用一下,然后如果好了,像我们这些都是SaaS产品,其实呢,费用也不会特别高,大家其实也可以用起来,基本上呃。
59:27
大家如果说应用,或者说我像我刚刚说的那种场景,您去试着用,然后呢,有问题呢,我们也可以聊,也可以去,呃交流沟通,在这里面肯定会有给大家发一些我们平时看到的一些信息。然后讲完这个里面呢,我们再列几个客户案例,列两个客户案例给大家分享一下,对这个里面就是我们刚刚说哎,具体场景,那我具体客户,因为场景和我们的产品,我们说的这种一体化方案,我们呃希望呢,还是基于我们真实的客户,您这边的这个一个场景情况呢,我们来聚焦去。
60:01
具体问题具体分析,有时候可能对吧,需要整套的产品方案,有的可能只要一两个产品,对吧,组合就能解决对吧,核心痛点或者说场景诉求。第一个是我们电商类的一个客户,对电商类呢,其实呃比较呃直观的这种印象啊,就是我们的服务模块会比较多,然后呢,并且这种服务框架,包括模块之间的这种关系啊,其实相对会分散一些在这里面其实。中宝我们一些做像比如说呃出行对吧,像订单,或者说我们一些呃呃那个购物等等,但这里面其实支撑他们呢,可能还有很多,像我们这里面列出来的这些能力,包括还有一些还调用三方的,对三方其实我们很难很难去把控了,那这这里面如何能做到这一个全局或者说整体。尽可能的做到这个全局啊,如果是说你一定能完全,但我们尽可能的做到这个一个全局的能力,那他直接量化出来的效果和我们能做的一些事情可能就是完全不一样,对于我,比如说我支付对吧,就看我支付的,我登录就看我登录的对吧,我三方对吧,调的一些就看三方的,那当出了问题,或者说当我们性能提到挑战的时候,想去做一个整体的一个快速的响应,其实是要求很难,或者说基本是不可实现,除非后大家还是一对对齐。
61:26
那基于这个客户的一个情况呢,第一个呢,他希望呢,就是要我们的一个网络,就是核心功能,因为我们刚刚说的像一些支付的呀功能,或者说呢,像他一些那个首页进去的这种能力呢,就包括一些下单的一些核心功能,需要去做一些重点重点保障,就是说他是否支持健康的对吧,是否是有问题的,这个对于客户的最直观的这种能力,你说举个例子啊,你说我支付对吧,失败和我刷一个face信息对吧,你刷失败了,重新加载一下和你支付对吧。付款突然诶卡顿了,突然对吧,失败了,那种体验给客户的这种我们用户的这种效果啊,是完全不一样的,所以呢,必须要动好一些,对吧,有问题立刻去处理,然后还有就是在上云过程中呢,客户呢,有我们希望上腾讯云,同时呢也有IDC的对做这种多的这种覆盖,第三个呢,就是希望在上云的这个机会去做一下务治理和整体的优化,其实这个点的。
62:21
很实际啊,我们其实服务平时做主动的这种迁移,这种呃,升级啊,优化其实也比较难运维,对吧,然后还有不同的业务部门,大家能达成一致,真的比较痛苦,但是呢,在做云迁移啊,或者说做一些大的改动的时候呢,本身就有一定的这种改造,在这个过程中,对吧,我们提出来对吧,你这个服务要怎么样去优化一下,所以这时候呢,推动其实相对来说会更好一些,所以说更容易推动实现一些。那里面具象种需求呢,就是网络测监控,还有多监控,包括。对,然后给我们客户推荐的方案呢,就是我们的云波测加我们的啊应性能贯彻,也就是链路监控,然后这里面达到的这种效果呢,基本上就是实现了全链路的这种覆盖,就是我们的服务应用都是呃都是天空到了,然后呢,波测呢,本身就是多地域,只要我们有服务覆盖,是IDC还是说在云上对吧,只要云域名有地址,基本上都是可以覆盖的,业务呢,提升呢也是呃比较好的去找到了他那个我们刚刚一直提的这样一些公共键,可能容易被大家忽视的,像几个他的有几个那个件的地方也时间比较长,很久没有迭代的,然后呢,花了一一就是在迁移的过程中,大家花了一些精力去。
63:36
聚焦的去优化了一下,然后整体呢性能就提升了很多,也比较不错,然后故障定位呢,基本上像说实话,我们不管自建监控还是说用产品对吧,有数据只要覆盖到质量高,你说有看到告警对吧,那基本上都是分钟级的就能知道,哎,我接口或者某个服务出问题了对吧,或者网络出问题了,对,就实现了我们这种分钟级的监控。
64:01
然后再下面一个客户呢,是银行的,对银行其实客户也比较典型,也比较特,比较比较那种特殊啊,就是可能说他的一些那个请求交货交互的并发,并不一定有我们那个像电商啊,或者像在教育啊,或者说像我们做一些啊视频啊,或者说那些那么高,但是呢。教育类对于前后端的这个服务质量要求。相对比较高,这是也是我们在这对接我们很多这种客户,得到一个一些一些实际的一些经验或者体验啊。就是客户对吧,你说我去用我们的这个,呃,银行类的,基本上要么就去买一些理财产品,或者去做一些转账啊,汇款啊,然后或者说做一些那个理财产品,或者说做一些保险类的等等,但这些我们发现有些特点啊,它其实容忍大家。不停的出错,或者说从事这种啊,其实容忍度是比较小的,希望是这种高保质量的,对,所以像我们就银行类啊,或者说这种金融类大家去啊一些的这种的这种校验,甚至说是这种发发变更的这种的这种体验较其实很重。
65:21
和银行内呢,其实一样的,他他这个就刚刚已经列举了一些那个业务场景,不同的场景,不同的服务模块。对吧,终端体验有小程序,有web,我们的一些那个H5等等。在这里面客户对吧,就希望我们的这个是作为主要的这个入口。体验一定要是能做好,就是除了我能发现我request的一些呃异常出错,我同时我能主动去分析一下,体验一下我们的一些使用体验做的能然呢就是这种种控,对,因为我们服相对来较较杂,基本类或者我们类的在这一块其实。
66:01
呃,本身做的力度就非常大,但是呢,现在都是讲这种微服务化呢,大家其实更贴近,就是节奏会更快一些,对就这块诉求,然后第三个呢,就是客户呢,有过SKY的啊,当然是因为遇到了性能瓶颈,然后也希望能采购我们这种,呃呃云,就是我们云上的这种能力,或者说我们这种云厂商的这种力来跟他共建去实现,然后这里面呢。就我们的需求提炼的第一个就是服务的分析和链路监监控,然后呢,前端监控和前端性能优化,包括这种支持开源或者自建的这种呃监控的能力,然后给他推的方案呢,就是我们前端性能性能监控,然后包括我们的这个呃全就是应用性能观测,也就是我们的链路监控,对形成的这种逻辑上,也就是我们包括这中间图,也是我们现在正在努力去做的啊,希望我们的前端跟我们的后端对吧,能形成一个整体。到我们的,然后呢能行一要打通,然后整体的效果呢,就是全的覆盖,包括新老的整合,老支持的新的呢也用了,我们也是用这种类似方式,然后呢就是做了一个整合,然后服务优,尤其是在前一块。
67:14
对,特别明显,因为页面多,其实前端对大家挑战页面多,页面正常一个服务,或者说功能稍微复杂一点的,呃,几百个页面这种都是正常的,但是您说我们每一个都能大概知道它的性能,或者说能去做呢,其实难度比较大,如果说有这样一个数据告诉您,对吧,您这个页面对吧,他不排序一下拿一些对吧,性能比较性耗时比较大对吧,失败比较大,然后你针对性的再去对每个元素,就页面元素做一些分析,所以说做整体的性能优化,其实是真的会有很大的帮助和这种效果体现。然后我今天的这样一个跟大家交流,或者说介介绍呢,大概就这么多,然后我下面呢,可能啊,这里面我们就是也贴了我们的一个公众号,和我们的那个直播交流,大家有什么一些问题啊,或者是诉求啊,然后也可以直接在我们那个加群,然后呢在里面直接留,然后我呢也在那个呃直播交流群里面,像我们有一些我们的呃,其他就产品也比较多嘛,我们的产品啊,包括研发同学呢,也会在里面,希望能提示的响应到大家,然后帮大家一起共建建设好我们的这样一个监控体系。
68:23
服务好我们的服务。呃,下面我。行,我先我先回答一波问题,然后我等一下看,有时间的话,我再把我们的产品简单演示一下,对一个动态交互的会好一点。请问一体化监控可以?实可以实现所有监控的关联分析吗?比如中间啊D啊,这个其实是这样的,我我我解读一下您这样的问题啊,其实像我们的2PASS中间件这种资源,包括我们的前端后端呢,其实打通,其实打通这个概念,这我们刚刚等一下,我可能会给大家一下我们的普这种场景。
69:05
就是把我们的底层通过比如管障方法自己兼容的,或者说通过我们管方插件方式跟我们的通管障方法打通,把我们的资源数据整合到一起,做一些展示,包括接入告警,然后呢,我们业务自定义的呢,也放到一起,这里面呢,甚至我们的上层,对吧,异个数据源,我的整个业务的,比如说我的一些在线,在线人数啊,对吧,支付的情况呀,支付啊金额呀,成功率啊,对吧,这是我的大体,然后我下面再看到我的服务自定义的一些情况,然后包括我的一些pass pass的资源,然后还有就是我的一些服务器,比方说什么K啊,然后或者说我们的CM的一些机器啊等等,这些是可以实现的,当然这种的使用体验呢,我就是我刚刚说的那种场景,就是。以这种从整体到细节,因为我服务出现等一下我可以演示一下,就是我们整体服务有问题或者没有问题,对吧,我能细断到资源上的问题,还是我服务上的问题对吧?然后资源分云上资源还是我自己的资源,这个是可以用这种模式去覆盖或者说去实现。
70:07
当然了,我们那个刚刚说的前后端打通,也是在规划中也会去做那个呢,当然具体就是看我们实际的客户的请求那种对,其实我们觉得建议还是能分开去弄,就是我的业务资源,然后和我的务链操作的一个流程的一个监控。然后下面一个是服务都上云后端到端每个环节能通过。环节播测能通过服务串联起来吗?啊,我我大概解读一下啊,这一块就是说我们服务上线上云之后啊,然后端到端每个服务之间的这种可达性,其实呢啊。应该说叫。如果说是端就服务端,如果说是我们服务端的就是我们服务,呃应用ABC这种情况下建议呢,就用我们的全链路应用技能观测,对就可以实现整体的top和整体的功能情况覆盖,然后如果说呢,是对我们一些重点功能的一些可达性。
71:07
的一些情况呢,建议用这个播测,比如说我一些重点服务,比如说像刚一直在反复强调的,像登录啊,或者说我们一些那个支付啊,这些可用我们的,然后还有呢,像一些可能像我的一些嗯服务或者说健康的情况下呢,我们普罗密展的一个能力叫这种健康巡检,对也可以剥您的一些服务实力,对吧,是不是进程是否自在这一方面去做,所以整体下来呢,如果呃,这一套下来,基本上您服务的一些可达性或者一些性。呃,弄起来,但这个串联其实呃这里面我我也希望能跟大家,呃,大概花一点时,简单花一点花花一点时间去聊一下,其实串联一体化真的是说是纵向和横向覆盖的,我的这样一个满足度和我的一个环节点是不是有遗漏,每个环节点呢,每个场景又会有一点,因为它大家的关注点,或者说呢,给出来的这种呃接入场景的诉求也不一样,那在这种情况下,其实大家尽可能的是我能有一个总的一个概念,然后到细分,然后到这种动态的,比如说静态上的,我们可能是资源类的或者服务那种静态呃那种呃。
72:20
质量类的,但动态呢,就像我一个请求对吧,从前端到后端的一个请求类的这种呢,其实可以建议大家稍微区分一点,你看对,但是呢,尽可能的是我们在这种同一感受,或者说同一类类的这种方案下面去做,这是问题。然后基于网络监控能否做到实时监控可粗化基于网络的这可以啊,我们基本上测去做网络质量监控的时候的延时,也就是秒级左右的对,所以这里面接近于我们去做实时,也就是真实的模大家的这种请求对,比如说APP端或者就I等接近实们秒。
73:06
然后还有一个。监控能否监控CC攻击可以监控?呃,这可以可以支持一些,那个已经已经回了,然后我再看下一个地的难点在于串联上下游的服务,比如确不能断电路。诶,对于这个。技术站如果是go语言状态,第一个是言语言不通对吧,之间可能会形成一定的这个呃区别,这个是存在包括业支机,然后网关或者调用支持圈。要求CDV服务中心服务名和资源。后转。等放啊,我觉得这个这个同学提的这个问题就非常非常实际啊,确实现在呢,主要的第一我简单解一个,大概解一下,第一个第一个点啊,就是不同语言间,就我们刚刚也在提到我们的链路监控,确实区分语言不同语言间的这种,呃,上报协议上报呢,其实是不不不不不好做这个统一的这个整理的,这确实是大家面临的一个现实情况,对,但是呢,我们一般语言之间呢,这种服务呢,其实呃会有某一大类应用啊,基本上会是偏向于某一类语言,这个呢是相对比较确定的,对,然后至于这服务之间各商同的呢,如果说完全不能融合的话,我们可以做一些自定义的兼容,比如说我服务对吧,有服务ABC对吧,是一个自定义的这种维度,然后可能还有不同的接口,对吧,那我可以在这种层面就是来缓解或者说来打通这样的一个情况。
74:49
对呃,比如说我我举个例子啊,比如像我们的就像语言写的一个服务C,然后呢,我们一个用Java写的,对吧,123这个服务我现在呢,在链路上面不能完好起,但是我基本上他们是保持这个大的模块之间的,我们想看他们的核心可能就是对吧,服务之间调用是不是有异常。
75:09
对,这个是比较合理的,如果说应用,我们本身一个小应用之间就分不同的,就是实实在在的清微模之呢,类高类就是高类区的一个应用状态下面还是不同语言,那这个可能设计就有稍微有点可能要商榷的啊,但其实大部分呢,就是不同语言之间呢,可能在我们这个应用大的这个模块,或者说服务项之间呢,是有点区别的,那我们就可以看到对吧,它之间呢,可能更大一部分是关注它的调用,或者说这样一个可用性的支持,那就类似于多维这种,对吧,我就可以知道服务跟服务B之间。对吧,它的一个接口,这服务的支持成功率啊,或者耗时什么情况下这样去,呃环节或者说这样去应对一下,然后还有就是下面说的这个把C这些一个诉求,其实我们内部有在尝试,但微部呢,这种功能呢,其实现在还没有去上,但未来我们也会去探索可能啊,因为。
76:09
我就就是希望我们对吧,链路拓普上面对吧,我链路的一些性能,包括一些错误率啊等等信息,同时能知道我这种服务模块或者集群上面的一些流量信息,包括这种C的模块名字,把这些容就是这样一些,那个我们所谓的可能叫什么容量或者位一些信息啊,能贴近到我们这个上面来呢,会更好一些,这确实,但是我们在我们的一些腾讯内部的业务也在去尝试和在应用这个后面,如果我们版本迭代快,或者说这种诉求。我们细聊一下,如果说客户还是比较明确的,我们也会去尽可能的去支持,对现在呢,确实没有直接完全做关联。啊,那我们剩下还有几个问题我们会呃,因为这个已经全部都记录在一个在线文档上了,那呃,大家就是扫码进到我们的直播交流群,我们会把这个文档啊在回复之后呢,同步到群里面,如果大家还有其他的问题,也也都可以在文档里面继续加啊啊那那今天的直播先这样,然后我们整个的呃,一体化监控解决方案的系列直播,那今天是第一场嘛,会整体的介绍咱们整个腾讯云监控有哪一些产品啊,有哪一些端到端的产品,覆盖哪一些场景,能够帮助大家解决哪些问题啊实现这种全站的应用的一个可观特性,那接下来每一周的呃,每周三的晚上七点到八点,我们依然会有针对每一个产品具体的一个最佳时间的,呃,直播包括波测普罗米修斯然呃应用性能监控am,还有前端性能监控等等,呃,就是会比较详细的去介绍这样的一个产品是怎么去帮助你。
77:50
啊,帮助我们的业务去解决啊监控上的一些场景问题啊,希望大家到时候就是啊预约报名就好了,嗯哦行,那那今天今天就是因为时间可能我讲的有点有点细,然后呢,时间也是比较那个紧,然后演示那一块呢,可能就在后面的那每一个我们场景中呢,大家会实操一下给大家看看,甚至说呢,其实大家如果说想直接去了解或者体验呢,也可以直时的在我们腾讯云官网上直接说我们刚刚说的几个播测云波测对吧,能监控I,然后用能观测呢,还有就是我们的一些像托管普托管,就是包括云基础产品,基础监控,大家可以直接去用试用,然后这个直接去体验,然后一些文档啊,包括支持啊,我们都是相应俱全的,然后呢。
78:37
支持像这种直播交流群里面吗,也可以直接去去交流互动,对吧,大家可能自己想到的一些场景,我们这边呢,也会给予我们接触的一些呃支持的一些应用,一些经验,包括我们接触的些客户的一些情况,给大家尽可能的呃制定出我们符合我们业务的一些那个方案出来,然后今天那就先这样,然后呃有我们线上提问题的小伙伴,对,然后有一些那个互动的,我们呢也会为大家准备,精心准备了一些那个礼品,后面呢,我们会去根据大家的那些ID号,然后呢去回报您,然后拿到一些信息,然后去呃给您,呃呃去发给您这些礼品,然后是我们漂亮的一些呃QQ公仔之类的等等,对呃,今天那个直播出了一些小问题,就实在是抱歉给大家造成的困扰,那我们会在我们的这个直播交流群里面,之前是一个长额嘛,那这次会增加几个短额,呃,给到大家就是呃,对这一次的直播里面出现的这个WiFi。
79:38
断呃,就是跟大家说一声抱歉啊,也谢谢大家对我们云监控的支持,还有对这这次直播的支持,感谢感谢,嗯嗯,好好好好好谢谢大家。
我来说两句