首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

专家推荐

因为工作行业的原因,会有很多的同行或朋友找我推荐一些经验的人,或者直接希望要专家。 最近我回顾了下这个事情,发现很奇怪的是,好像我一次都没有推荐成功过。...我琢磨了下,可能有这样几个原因: 第一个,范畴,就这个工种来说,其实也是很大范畴的,比如IDC、主机运、系统、网络、应用开发、智能等等。...但是这种能力的承载,或者说对开发的能力的赋能,将成为这个角色的职责,需要能够统一的基础平台建设提供支撑,所以我们会发现,当前我们更加需要能够帮助团队建设出高效体系的角色,而不再是能够被动响应更多问题的角色...这个能力的提升,也不是外面招几个人进来就解决问题的,关键还是有意识规划的去做一些架构能力提升。...再往后,就需要对基础设施和基础服务规划的建设,这个要求应该是提给系统架构师和业务架构师的,而不是提给角色。前面基础打不好,后面想让做好,这个没可能。

1.9K30

平台体系,你们真的好好规划

找到一个价值方向来牵引整个团队很难,但又必须找到,因这个牵引力就决定了团队的气质及后续的工作方法;之前的文章“价值体系”详述,在此不细谈。...这个地方个建议,把线上服务的数据驱动作为重点(80%),把内部服务的数据驱动为辅(20%)。因为线上服务的状态会反作用于内部事务的优化。...比如说从数据中发现现网的服务一个故障,需要紧急发布版本,此时就会直接检验的变更部署流程、平台的完备性。...因此大家都把CMDB系统当作的核心系统来对待,便于后续各个系统之间的互通。 在我的经验中,CMDB建设还是非常多的坑。...作者简介 王津银 07年进入腾讯公司接触,先后在YY和UC参与不同业务形态的,对一些理解。

2.1K01
您找到你想要的搜索结果了吗?
是的
没有找到

活动】腾讯总监带你探索 AIOps

作为一名伴随腾讯十年的老兵,腾讯总监聂鑫话对你说... 个人简介: 从开发到,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务工作。...作为界老兵好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。 2018年5月26日,高效 AIOps 北京沙龙,腾讯总监聂鑫老师将来到现场,并分享腾讯在智能领域的实践经验。...在运监控系统中,每时每刻会产生大量应用监控数据,日志数据,主机数据,网络数据,如何识别出这些信息那些是问题,如何排除一些干扰信息,发送出准确的报警。...了异常检测所产生的异常报警数据,又如何找到这些数据之间的关联,找到产生问题的最根本原因,准确的定位,其实一次数据库访问的失败可能是由于交换机问题引起。...从2015年开始从事智能监控平台的研发与实践,参与并主导了APM等产品的研发与应用,经历了多次618和双11的千万级TPS的保障,支撑了京东金融的大量业务应用。 活动通知 扫码参与报名

1.8K80

人员的日常巡检过程、重大保障活动是业务用例

请教潘老师:维系统业务建模过程中,,人员的日常巡检过程、重大保障活动是业务用例?这2个活动的重要客户服务内容,但问题是人员是组织内部业务工人,不是组织外的。...什么机制? 锡山飞狐 14:20:59 比如巡检,必须到真实地去查看每台设备、每个IT系统运行健康指标,而不是不干活,随便填写一个巡检报告单报告没有问题。...广罗军(120***58) 14:56:18 @锡山飞狐 服务主管领导、客户负责人这两个业务执行者是技术服务中心外的?...,执行者应该付费客户 锡山飞狐 15:51:52 多谢@乐吧 的参与,不是太认同只有一个"服务"业务用例,比较认同保障重大活动是业务用例。...业务执行者的业务用例是不是:了解公司,了解产品,签订服务协议,跟踪事件型,跟踪例行运(这个看情况可拆开几个用例),调阅档案,咨询, 我不懂太多,不知道是不是有点启发作用 潘加宇(3504847

93510

开发告警哪些?

## 关于告警消息的一点思考 先来梳理下有一般哪些告警 1. 服务器资源告警:这种类型的告警通常涉及服务器资源的消耗,如CPU、内存、磁盘空间等。 2....这些告警的实现方式哪些? 1. 服务器资源告警 监控工具:使用监控工具(例如Prometheus、Zabbix、Nagios等)定期检查服务器资源的使用情况,当资源超过预定阈值时,生成告警。...安全事件告警 入侵检测系统(IDS):部署入侵检测系统,监控网络流量和系统行为,发现异常活动时生成告警。 日志分析:分析系统和应用程序的安全日志,识别可能的安全事件并生成告警。...这个就一般由应用工程师去配置查看,比如一般的HTTP状态码检测、TCP/UDP端口检测,端口不可达触发告警。还有各种事务、服务日志、容器、云监控等。 6....梳理了以上告警情况,发现其实很多小公司的或开发工程师都会或多或少的去做这上面的告警任务,但是不得不说,正因为做了这些告警和对应的处理规则,就不用担心面对故障手足无措的情况,尽管告警也不能百分百的避免故障的发生

31910

的未来:云服务兴起,人员会“下岗”

传统的( Ops)没有消失,只是在重组。 云服务的发展看起来让人员“丢”了工作,因为从传统意义上说,从本地(on-premise)转移到云平台意味着工作在相当大程度上外包给云提供商。...现如今的团队,应该重新定义他们的愿景。 的未来是要使开发者能够通过工具、自动化和流程实现自助服务,并使他们能够通过最小的干预来部署并运行服务。...其实新模式本质上应该把看作是一个产品团队,其产品就是基础设施。...@perterbourgon 关于这个话题,我很多想法,tweet 版本是:我们所知道的 ops 已亡,做基础设施的人五年的时间转移到产品上。...在集成环境中,使开发者团队能够 SSH 登录进 box 中或者将调试器附加到集合上,会阻止他们正确地调试应用程序?会促进痛苦移位?在运思维和开发思维间取得平衡是非常必要的。

3K40

mysql数据库方案

数据库不仅仅是dba的工作,每一个测试人员也应该懂得基本的数据操作,因为数据库是数据承载的地方并且是系统中非常重要的一部分,所以我们也需要熟练的对数据库进行基本维护。...4.2:导入某些数据表 mysql -uusername -ppassword testdb1 < tables.sql 或者 mysql>source tables.sql; 02、shell脚本实现数据库备份...在MySQL配置文件my.cnf文件中的mysqld节中添加下面的配置文件: [mysqld] #设置日志格式 binlog_format = mixed #设置日志路径,注意路径需要mysql用户写权限...总结:数据库对于测试人员来说仍然是非常重要的,比如:非常重要也不太容易构建的测试数据需要做备份操作时,数据库就显得很有技术含量,掌握数据的基本可以使测试工作做得更出色,同时也会让开发刮目相看

10.9K20

向运营转型,会是企业IT传统的发展方向

现在,一套应用系统几百台服务器,几百个容器已经是常见的事情。        虚拟机和容器的爆炸式扩大增长,已经不是危言耸听,而是实实在在发生的现状。这要求着人员投入更多的精力来保障和维系统。...今年疫情期间,企业为了满足线上办公的需求,要求马上提供上百台远程桌面服务器供员工线上办公;企业频繁地开展线上秒杀活动,在活动期间需要批量部署上线大量的应用服务器,活动结束马上回收;近段时间,基金开户和销售火爆...人员每天忙碌,承受压力,又不被认可,的价值在哪里?        面对以上的三个问题,我认为,要从过去的被动式向主动型转变,从操作型向管理型转变,从背锅式向价值型转变。...传统企业的我觉得有两个维度,竖向的应用系统维度,如具体应用系统的架构设计、应用变更、监控分析、故障切换、容量管理等等,和横向的专业平台维度,如服务器硬件、存储设备、操作系统、虚拟化平台、中间件、数据库...人员的视角也要从更高的业务特性和开发人员需求出发,不局限于我什么就用什么,而是要用户需要什么我们提供什么,并主动提升服务的质量和效率,主动地关注团队提供的专业服务是否满足用户需求,是否让用户满意和好用

2.3K30

Redis哪些好用的工具

工作中使用 Redis 时,如果大家公司没有专业,可能我们开发就会面临的工作,包括 Redis 的运行状态监控,数据迁移,主从集群、切片集群的部署和等等。...这里,我给你提几个时需要重点关注的参数以及它们的重要返回结果。...而且,监控数据可以保存到时序数据库中,以便人员进行历史查询。同时,Prometheus 会检测系统的监控指标是否超过了预设的阈值,一旦超过阈值,Prometheus 就会触发报警。...CacheCloud 地址:https://github.com/sohutv/cachecloud针对常见的集群需求,CacheCloud 提供了 5 个操作。...当然,作为管理平台,CacheCloud 除了提供操作以外,还提供了丰富的监控信息。

20510

今年的724活动你参加了吗?

图片每年的7月24日,对于从事工作的人来说,是一个特别的日子,这一天被称为7·24 日,谐音Cheers,在这天,愿天下人俱欢颜!...724是保障业务7X24小时高可用的使命724是7X24小时待命电脑不离手724是7月嗨翻天24小时不停歇喜迎724,我们准备了一系列线上庆祝活动。...活动说明本次活动共有4个,分别是【有奖征文】、【新版体验】、【与蓝鲸同行】和【礼从天降】。每个活动都有对应的奖品礼包,具体请查看活动介绍奖品一览。可以同时参与多个活动,每个活动不限定参与次数。...活动时间:7月3日~7月24日参与活动即可获得对应的节日礼包,蓝鲸会在7月13日-7月16日、7月24日-7月25日联系获奖人员,填写节日礼包领取方式。...---图片活动介绍7月24日——日当天,关注蓝鲸公众号,回复指定关键词即可获得抽奖链接,答题获得蓝鲸节日礼包!2023,跟蓝鲸一起共度日,最大的一波好礼通过抽奖送出,cheers!

88720

如何多集群数据库?58 同城 NebulaGraph Database 实践

在公司各个业务线中,不少部门都有着关系分析等图探索场景,随着业务发展,相关的需求越来越多。大量需求使用多模数据库来实现,开发成本和管理成本相对较高。...图片 适用场景哪些 公司多种线上业务,工程复杂度和架构复杂度都较高,各个业务部门都需要专门的图数据库来实现对实体关系数据的处理和探索。...资源申请和集群管理方式 为了更好的管理和维护,图数据库在运部门集中管理。用户按需在工单平台中提交申请即可,工单中填写详细的资源需求数据和性能需求指标,由同学统一审核交付集群资源。...为了高效管理和规模化的集群,需要提前规划和制定规范。...,较少服务绑定 Meta 节点 ip 带来的代价。

3.8K20

数据库 | 携程分布式图数据库NebulaGraph治理实践

,相比 JanusGraph 这类构建在第三方存储系统上的图数据库,性能和资源使用效率上具有优势; 支持两种语言,尤其是兼容主流的图技术语言 openCypher,有助于用户从其他使用 Cypher 语言的图数据库...考虑到使用图数据库的业务大多数据来自离线系统,通过离线作业将数据导入到图数据库中,数据一致的要求并不高,在这种条件下使用蓝绿部署能够在灾备和性能上得到很好的满足。...生产上的一个例子: 图片 上图为三机房情况,下图为蓝绿部署情况: 图片 中间件及管理 我们基于 K8s CRD 和 Operator 来进行 NebulaGraph 的部署,同时通过服务集成到现有的部署配置页面和管理页面...操作之后集群的整体 CPU 是一定的下降,同时服务的响应速度也有小幅的提升,如下图。...NebulaGraph 二次开发 当前我们对 NebulaGraph 的修改主要集中的几个相关的环节上,比如新增了命令来指定迁移 storaged 中的分片,以及将 leader 迁移到指定的实例上

3.4K40

数据库监控是之本

前一段时间用户的系统进行应用发布和系统,准备了很久,结果我们最为担心的数据库维护环节没有出现问题,却在应用发布的阶段出现麻烦,因为程序未设置正确的字符集,导致插入了乱码数据,结果又不得不重来。...移动的朋友总结了一句话,非常有道理:保障总是从最高风险点开始逐步推进,悖论是如果这样推进的执行力保障,出的问题总是之前觉得低风险的地方。...这也给我们一个警示:数据库或系统,每一个环节都要细致入微,唯有如此才能保障长治久安。...、数据库,监控是根本,及时发现、分析和解决出现的问题,是保障系统稳定的关键,任何一个简单的错误都不容轻忽。 加强监控,收集和分析足够多的数据,是系统的最佳保障! 图:对客户系统错误的分析。

3.5K60

工具真的很容易做

在从研发转到之前,我一直就觉得工具这东西,应该是相当简单的,但在我自己带领一个工具团队一年多后,完全颠覆了我自己以前对工具的认知,才真正明白了工具这东西要做好,对技术的要求其实是极高的...操作的自动化 自动化要真正做到,一个核心的关键指标:成功率,可以想象下,如果一个自动化的操作的成功率只能做到60%,那对用的人来说体现出来就是10次操作失败4次,这种情况下多数会造成的结果就是用户就不用了...一个复杂的操作,例如应用扩容机器,和在线业务系统其实很像,也是要操作N个其他的系统,业务逻辑也很复杂,是一次巨复杂的分布式操作,要保障好成功率,就意味着在A调用B出现异常的时候,得决定后续的动作,可能需要做重试...因此从对工具系统需要承担的职责分析来看,在技术上工具系统其实也是相当高的要求的,怎么样能保障好成功率、救命操作简单按钮的绝对稳定可靠,是工具系统必须做到的。...所以,小看了工具系统的同学们,包括从前的自己,请正视工具系统面临的技术挑战,兴趣的同学欢迎一起加盟来挑战!

64780

MySQL 数据库优化(角度)

2、数据库部署 该工程师出场了,项目初期访问量不会很大,所以单台部署足以应对在1500左右的QPS(每秒查询率)。...一方面可以单台运行多个MySQL实例让服务器性能发挥到最大化,另一方面是对数据库进行优化,往往操作系统和数据库默认配置都比较保守,会对数据库发挥一定限制,可对这些配置进行适当的调整,尽可能的处理更多连接数...具体优化以下三个层面: 3.1 数据库配置优化 MySQL常用两种存储引擎,一个是MyISAM,不支持事务处理,读性能处理快,表级别锁。...5、数据库维护 数据库维护是工程师或者DBA主要工作,包括性能监控、性能分析、性能调优、数据库备份和恢复等。...这些都是与相关的前沿技术,也是在存储方面主要学习对象,小伙伴们共同加油吧!哪位博友更好的优化方案,欢迎交流哦。

4.5K20

企业自动化什么好处?

所谓IT自动化是指通过将日常IT中大量的重复性工作,由以往的手工执行转为自动化操作,从而减少乃至消除中的延迟,实现“零延时”的IT。...自动化可以大大提高的主动性和准确性,减少技术人员的工作强度,将精力转到策略规划、问题分析等有价值的工作中。...提高生产力 自动化几乎不需要手动工作,这也就意味着它不仅可以提高产出,还可以将人员从复杂的传统工作中释放出来,将其知识和技能应用于更有价值的工作和任务上。...自动化可以明显提高可靠性,减轻人员繁琐的手动任务。 性能优化 专家面临的另一个问题是,让执行任务和工作流程变得更快、更高效、具备更高工作负载。...传统方式想要满足这些需求是很困难的,而自动化工具则可以填补此类需求,在无需雇佣更多员工的情况下,最大限度的提高性能。

61130

自动化与普通运什么区别?

放到自动化的维度,更多的是针对特定的场景,将一线人员长期做的一些周期性、重复性的工作抽离出来,借助自动化工具或平台来替代或协助完成工作,提升效率降低系统风险,促进组织的成熟和能力的升级...如果我们企业在前期已经了相对扎实的基础,比如有比较完善的配置管理系统、监控告警体系和流程管理平台再来考虑自动化的建设会更加合理,避免出现返工或重复建设的情况,落地的效果和产生的收益也会更显著。...这意味着自动化平台的能力层(PaaS)需要将原有的能力进行拆分,将公用的能力沉淀下来形成各个原子比如有管控平台、作业平台、标准等,统一接入的接口API Gateway能对接外部的系统和第三方工具...3)梳理企业现有的流程绝大部分的流程都会同时涉及到各类操作执行流和审批流,因此必要提前梳理清楚各类流程,比如在金融行业都会有非常严格的流程要求,一般都会参照像ITIL、ISO20000...产品能力:嘉为蓝鲸灾备切换自动化提供灵活的流程编排能力,帮助企业实现应用灾备切换及恢复的预案管理和操作自动化,支持一键灾备切换和大屏跟踪展示,能够保证企业定期灾备切换活动的成功进行,同时助力企业数字化转型

1.1K30

数据库场景中的连接

这是学习笔记的第 1827篇文章 在数据库中对场景建立连接是一种很不错的方式,通过建立连接使得我们可以把原本单一的问题通过流程化的方式衔接起来。 以下是近期的一些实践和思路。...业务和团队之间工作的一个纽带就是工单,当然目前还没有明确的工单结算方式,但是可以很明确的说,工单是我们输出给业务方的业务价值体现。 ? 在业务价值体现的过程中,我们可以把技术价值也打包进去。...首先第一个例子就是SQL审核,原本我们开发的自助SQL审核对于业务同学来说很多的疑问,其实归根结底就是这种方式对于业务来说有些新鲜,但是适应需要成本,所以要推动他们主动去用,这个就很难衡量了。...这种情况下,我们通过连接解决了这个问题,我们首先对SQL审核引入了打分机制,一条SQL质量好不好,是一个分数的,如果分数低于60分,则不能正常提交申请,如果违法了必须遵守的建议,则必须整改后才能提交。...当然业务巡检的情况和SQL审核类似,页面开发出来了,但是还没有完全推广用起来,我觉得这个地方的一大改进就是把监控和报警结合起来,监控数据能够推送出报警,报警信息可以间接调用巡检接口,这样对于同学来说

2.4K20

数据库智能探索与实践

从自动化到智能化过渡时,美团DBA团队进行了哪些思考、探索与实践?本文根据赵应钢在“第九届中国数据库技术大会”上的演讲内容整理而成,部分内容更新。...背景 近些年,传统的数据库方式已经越来越难于满足业务方对数据库的稳定性、可用性、灵活性的要求。随着数据库规模急速扩大,各种NewSQL系统上线使用,逐渐跟不上业务发展,各种矛盾暴露的更加明显。...在业务的驱动下,美团点评DBA团队经历了从“人肉”到工具化、产品化、自助化、自动化的转型之旅,也开始了智能数据库领域的思考和实践。...第一个就是故障定位,如果是简单的故障,我们类似天网、雷达这样的系统去发现和定位。但是如果故障发生在数据库内部,那就需要专业的数据库知识,去定位和查明到底是什么原因导致了故障。...作者简介 应钢,美团点评研究员,数据库专家。曾就职于百度、新浪、去哪儿网等,10年数据库自动化开发、数据库性能优化、大规模数据库集群技术保障和架构优化经验。

4.1K10
领券