因为工作行业的原因,会有很多的同行或朋友找我推荐一些有运维经验的人,或者直接希望要运维专家。 最近我回顾了下这个事情,发现很奇怪的是,好像我一次都没有推荐成功过。...我琢磨了下,可能有这样几个原因: 第一个,运维范畴,就运维这个工种来说,其实也是有很大范畴的,比如IDC运维、主机运维、系统运维、网络运维、应用运维、运维开发、智能运维等等。...但是这种能力的承载,或者说对开发的运维能力的赋能,将成为运维这个角色的职责,需要能够有统一的基础平台建设提供支撑,所以我们会发现,当前我们更加需要能够帮助团队建设出高效运维体系的角色,而不再是能够被动响应更多问题的角色...这个能力的提升,也不是外面招几个人进来就解决问题的,关键还是有意识有规划的去做一些架构能力提升。...再往后,就需要对基础设施和基础服务有规划的建设,这个要求应该是提给系统架构师和业务架构师的,而不是提给运维角色。前面基础打不好,后面想让运维做好,这个没可能。
找到一个价值方向来牵引整个团队很难,但又必须找到,因这个牵引力就决定了团队的气质及后续的工作方法;之前的文章“运维价值体系”有详述,在此不细谈。...这个地方有个建议,把线上服务的数据驱动作为重点(80%),把运维内部服务的数据驱动为辅(20%)。因为线上服务的状态会反作用于运维内部事务的优化。...比如说从数据中发现现网的服务有一个故障,需要紧急发布版本,此时就会直接检验运维的变更部署流程、平台的完备性。...因此大家都把CMDB系统当作运维的核心系统来对待,便于后续各个系统之间的互通。 在我的经验中,CMDB建设还是有非常多的坑。...作者简介 王津银 07年进入腾讯公司接触运维,先后在YY和UC参与不同业务形态的运维,对运维有一些理解。
请教潘老师:运维系统业务建模过程中,,运维人员的日常巡检过程、重大保障活动是业务用例吗?这2个活动是运维的重要客户服务内容,但问题是运维人员是组织内部业务工人,不是组织外的。...有什么机制吗? 锡山飞狐 14:20:59 比如巡检,必须到真实地去查看每台设备、每个IT系统运行健康指标,而不是不干活,随便填写一个巡检报告单报告没有问题。...广罗军(120***58) 14:56:18 @锡山飞狐 服务主管领导、客户运维负责人这两个业务执行者是技术服务中心外的吗?...,执行者应该付费客户 锡山飞狐 15:51:52 多谢@乐吧 的参与,不是太认同只有一个"运维服务"业务用例,比较认同保障重大活动是业务用例。...业务执行者的业务用例是不是有:了解公司,了解产品,签订服务协议,跟踪事件型运维,跟踪例行运维(这个看情况可拆开几个用例),调阅运维档案,咨询, 我不懂太多,不知道是不是有点启发作用 潘加宇(3504847
image.png 微服务是银弹吗?...image.png 突然有一天客户在做活动的时候,监控中心各种告警,在每分钟500tps的时候很多请求超时,监控显示目前的服务器不能支撑这么大的并发量,于是快速增加服务器布署应用上线,发现根本没用,加了和没加一样...其中微服务的数据去中心化核心要点是: 每个微服务有自己私有的数据库持久化业务数据。 每个微服务只能访问自己的数据库,而不能访问其它服务的数据库。 某些业务场景下,需要在一个事务中更新多个数据库。...于是问题随后就来了: 1、以前团队一共就10个人只负责一二个项目,现在突然增加到平均每人维护二三个项目,上线还是采用由运维手工打war包上线,如果有修改的配置文件,则运维同学一台一台的进行修改,不仅容易上线出错...3、机房的双活问题,对于金融公司来说双活还是很关键的一项技术指标,对于应用双活来说,其实还是比较容易实现,但是对于数据库来说确是一个技术问题了,对于oracle数据库来说,用oracle官方提供的OGG
3、有哪些业务系统和人可以调用访问数据库?其访问权限是否合理、最小化? 4、有多少内部人员、第三方人员可以接触核心系统?他们的开发、运维过程是否可视? ...可采用专业数据库审计系统,建立敏感数据的访问行为模型,动态掌握模型的变更,发现异常。 建立运维环节的审计防护措施,掌握运维环节的人、设备、权限、操作过程等关键环节。...可采用运维审计系统,实现运维人员实名制、双因子认证、最小权限控制、运维过程审计等,让整个运维环节可控、可追溯。 ...比如数据中心防火墙规定仅允许了192.168.1.100-110共10个IP地址访问数据库,那数据库审计系统上就可以设置相应的审计措施,来动态监测是否有查处这些IP地址范围的人来访问,如果有就进行实时告警...定期开启专项审计:比如每个季度开展一次审计专题活动,比如数据库访问权限审计专题、第三方外包人员管理过程审计、备份恢复有效性审计等,这样不仅能够帮助IT部门发现问题,还能够起到很好的宣传效果,有利于审计部门自身的价值呈现和团队建设
割裂的云计算服务与其发展理念相悖; 北辰时代信息技术有限公司技术总监涂川:十四年从业经验看传统行业落地云计算现状; 沪江资深应用架构师王清培:Zookeeper 实现分布式锁安全用法; 蘑菇街技术总监赵成:给运维同学的一个转型建议...2024年视频在移动端流量占比将达74%或更高,将极大促进多媒体技术发展; 5G风起,CDN边缘计算将乘风破浪; 5G风起,未来数据库有哪些关键词?...iOS二进制重排启动优化; NGW,前端新技术赛场:Serverless SSR 技术内幕; Node部署和运维工作量降低80%,腾讯NOW直播是怎么做到的?...了解数据库分片(Database Sharding); 磊哥测评之数据库SaaS篇:腾讯云控制台、DMC和小程序; 你的数据库,真的安全吗?...腾讯云数据库获全球“实力竞争者”; 自研数据库CynosDB可计算智能存储揭秘! yarn 在快手的应用实践与技术演进之路; 腾讯数据库专家雷海林分享智能运维架构。
版本上线后运维会进行测试,之后整个数据库的双写机制就会通过自动化运维体系建立起来。...但是这个过程需要运维团队有足够好的工具进行支撑,才能顺利完成。可以从图中看到,整个过程中有一些应用改造所需要的时间跨度很长,比如说持续超过一年,会有十几个批次需要进行去O改造。...整个去O过程持续两年左右,让我们团队对人员的要求有了全方位的变化,因为后续自动化运维体系和MySQL的运维都需要有一整套相对完善的自动化运维工具用作支撑。...全部转移到应用端处理吗? A:存储过程的业务逻辑在应用层通过java重构,存储过程的数据库交互操作在应用DAL层实现,SQL写在mybatis里。 Q4:这个切换的批次是如何划分的?有什么方法吗?...Q7:有运行在国产处理器平台的数据吗? A:国产处理器评估中,未来会采用。 Q8:异地机房数据同步怎么做的? A:使用MySQL原生的主备同步模式。
作为一名伴随腾讯十年的运维老兵,腾讯运维总监聂鑫有话对你说... 个人简介: 从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。...作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。 2018年5月26日,高效运维 AIOps 北京沙龙,腾讯运维总监聂鑫老师将来到现场,并分享腾讯在智能运维领域的实践经验。...在运维监控系统中,每时每刻会产生大量应用监控数据,日志数据,主机数据,网络数据,如何识别出这些信息那些是有问题,如何排除一些干扰信息,发送出准确的报警。...有了异常检测所产生的异常报警数据,又如何找到这些数据之间的关联,找到产生问题的最根本原因,准确的定位,其实一次数据库访问的失败可能是由于交换机问题引起。...从2015年开始从事智能运维监控平台的研发与实践,参与并主导了APM等产品的研发与应用,经历了多次618和双11的千万级TPS的运维保障,支撑了京东金融的大量业务应用。 活动通知 扫码参与报名
---- Q1:K8s 上面部署不通的应用对于存储有不同的要求,有的要高吞吐,有的是要低响应。大规模 K8s 部署的时候是怎么协调这种存储差异的问题?还是说需要根据不同的场景,运维不同的存储服务?...并不只是一个简单的拆分动作,还得去考虑你开发运维方式的变化、组织结构的变化等。 Q6:K8s 持久化存储有推荐方案吗?...Q7:数据库这类对存储敏感的软件,你们会部署到 K8s 上吗?有什么要注意的? A7:我们目前进行了区分,非生产环境采用了数据库上 K8s,可以有更高的成本和运维能力。...很多中间件都一样,不仅仅是数据库,只考虑存储还不够,比如你需要注意扩缩容、监控、快照备份、故障恢复等等,还有一些特定中间件的运维需求。...Q8:请问老师你们运维的 K8s 集群是运行在物理机上还是虚拟机上呢?现在不少公司都已经有虚拟化环境,虚拟机和容器共存有什么经验、建议吗? A8:我们现在运维的 K8s 集群大部分都是在虚拟机上。
,运维模式也出现随之变化,运维管理面临双态IT带来的挑战。...运维业务模式转变的挑战 在双态背景下,数据中心运维业务模式发生了明显转变,技术与业务、开发与运维加速融合。...双态运维-软件定义运维(SDO)实践策略 双态通过运维PaaS平台对运维场景进行快速定义即可投入运行,实现面向多变业务的敏捷运维支撑,包括运维场景分析、场景定义、场景运营、持续优化等生命周期。...应用持续交付与Devops 应用快速部署,包括环境准备、基础软件部署、应用部署、参数配置等部署活动,支持应用持续交付。...ChatOps在GitHub的起源与应用 管理Github内部的服务器,启停,升级、打补丁;邮件管理,收发个人邮件;代码提交通知;代码构建,部署上线;数据库管理,删除数据,备份数据… 运维智能化运维平台建设规则
这种模式让分库分表变得模糊,对应用来说,更像是一个封装了 MySQL 的新型数据库。 虽然用户使用变得更简单了,但简单的背后是运维的沉淀,分库分表该存在的问题它依然存在。...运维复杂度问题:分库分表后的多个库表的管理麻烦,运维成本非常高,数据查询也很麻烦。...有。那就是 NewSQL。 NewSQL 是一类关系数据库管理系统,旨在为在线事务处理(OLTP) 工作负载提供 NoSQL 系统的可扩展性,同时保持传统数据库系统的 ACID 保证。...肯德基所有的会员登录系统,包括 KFC 的 APP 以及第三方登录,后台数据库都是用的 TiDB ,这套业务 2020 年 4 月份上线,已经经历过多次肯德基的大促等活动,目前肯德基的后台支付系统也已经切换到...分库分表是一个重量级的方案,它会带来很多新的问题,对基建和运维的要求也很高。 NewSQL 功能强大但也有功能缺陷。 如何去抉择需要根据系统现状和公司情况去综合判断。
前言 近两年,运维人需要面对不断涌现的新兴技术和架构转型的要求,例如企业上云、分布式、容器化、双中心双活等等。...现在,一套应用系统有几百台服务器,几百个容器已经是常见的事情。 虚拟机和容器的爆炸式扩大增长,已经不是危言耸听,而是实实在在发生的现状。这要求着运维人员投入更多的精力来保障和运维系统。...今年疫情期间,企业为了满足线上办公的需求,要求马上提供上百台远程桌面服务器供员工线上办公;企业频繁地开展线上秒杀活动,在活动期间需要批量部署上线大量的应用服务器,活动结束马上回收;近段时间,基金开户和销售火爆...、融合创新;例如系统高可用技术、双活中心技术等,运维需要将它们有效落地。...传统企业的运维我觉得有两个维度,竖向的应用系统维度,如具体应用系统的架构设计、应用变更、监控分析、故障切换、容量管理等等,和横向的专业平台维度,如服务器硬件、存储设备、操作系统、虚拟化平台、中间件、数据库
很多实施DevOps的杰出组织采用了这种结构 7.2 过度职能导向的危害(“成本优化”) 传统IT运维组织往往采用职能型结构,数据库管理员被归在一组,网络管理员归在另一组……这种方式显然会延长交付周期,...通过这样做,所有构建服务的人都对自己在上游所负责的架构和代码有了亲身的感受,这对下游的工作产生了巨大的积极影响 7.6 使团队成员都成为通才 部门过于专业化时,就会产生筒仓 任何复杂的运维活动都需要在基础设施的不同部分之间多次交接和排队...通过限制团队的规模,系统的发展速度也受到限制,这也有助于保证团队成员对系统有相同的理解 (3) 它分散权力并实现自主。每个“双比萨”团队都尽可能地自主工作。...这些产品团队可以完全负责服务的交付和支持 产品团队通常有专用的预算雇用这些运维工程师,不过面试和聘用决策可能还是由集中式运维团队来完成,以确保一致性和员工的素质 这种范式有一个重要优势:开发团队和运维工程师的紧密配合和协作是一种极其有效的方式...通过参加会议的运维工程师,运维部门可以充分理解开发团队的活动,从而更好地进行规划和准备 8.4.2 邀请运维工程师参加回顾会议 参加回顾会议的运维工程师也可以从中学习和受益。
一年一度的双11活动已经成了一个全民狂欢的节日。 这一天,如何应对运营的各类指标压力,保障业务系统关键时候不挂,又成了研发和运维同学的梦魇。...容量规划 以做“双11”电商活动为例,对SRE团队的容量规划进行方法剖析。 假设产品运营团队规划的量是平时水位的5倍峰值,在传统运维的跟进模式下,开发团队因为有绩效压力,很多时候会多估计服务器需求。...如果对“双11”电商活动有两次以上的稳定性支持,你就会发现除容量、性能优化等事项外,更重要的就是业务的活动流程。...《大型网站运维:从系统管理到SRE》一书进一步详细阐述了如果做好大型电商的活动运营保障,助力你在后面运维和研发中,游刃有余。...*本文节选自《大型网站运维:从系统管理到SRE》一书,想要了解更多相关内容,欢迎阅读此书。 本书主要对传统运维和SRE进行不同对比,让大家了解运维工程师在实践SRE理念时,关注的点和具体的实践经验。
QA部分 问:这个底层还是nagios吗? 答:不是了,完全都是自己从头写的,借鉴了nagios的思路,但是采集的方法,汇总处理的方法不一样了。 问:数据库这块有监控么?还是交由专门的dba负责?...问:这么大的数据收集量,数据库端有做特殊的优化吗?异步处理? 答:是异步的,这个业务系统是放在大屏上展示的,出了问题时不用来研发和运维这边询问,就能直接看到哪里出了问题,也知道具体找谁询问恢复情况。...问:公司有几个运维? 答:算上我一共8个人,这个图是我们自己开发的平台。 问:运维每天工作怎么划分的,分产品吗?...答:最低配也是双6核,64G。 问:你们可视化后是什么样子,是工单吗? 答:将运维可视化的原因其实还有一个就是别人不理解运维,不知道运维在干什么,经常被误解为安装系统、执行脚本的。...问:突然失效是什么意思,前端代理有报错吗?有需求就下掉?
关注“腾讯云数据库”公众号,回复“0428陈爱声”,即可下载直播分享PPT。 视频内容 大家好,我是陈爱声,目前负责腾讯云TBase产品实施和运维相关工作。...这个就取决于我们的业务,DN节点部署也是需要按单机的实例节点的规范来做基本规划,比如说你要求每一个节点尽可能不要超过多少个T,超过了以后实际上对你运维成本是很高的。...运维系统部署:双活运维系统本地化部署,主备是跨了南北,运维系统也要跨南北,运维比较复杂,切换时需要运维系统和实例一起切换,这个的切换成本就会非常的高。 那么双活和主备对比有哪些优势呢? ?...Q:运维管理系统是否为开源工具实现?...A:主备切换都是自己开发的工具,我们的运维系统是自研的,这个没有用到第三方现在组件,因为目前来看,外面第三方的一些工具还是很难满足整个复杂运维管控系统,所以我们的运维管控系统是自研的。
画外音:架构师,想要用好MySQL的工程师,数据库内核研发人员必须掌握。 其三,上下游工具:MySQL相关的工具,有哪些以及原理是怎么样的。...画外音:架构师要了解,MySQL运维人员与DBA必须掌握。 如何学习MySQL“应用层面”的知识呢?...其中,MySQL服务管理员,MySQL shell,MySQL sys表等很多章节,对研发工程师和架构师快速定位MySQL问题,对运维与DBA维护与调优MySQL,都非常有帮助。...数据库学习,只有MySQL一个选择吗?国人就没有拿得出手的数据库产品吗? TiDB就是其中一个选择。...源码:https://github.com/pingcap/tidb 有系统性文档,有源码,还是中文的,很适合学习。 当然,系统性学习数据库应用+内核+工具是一个长期的过程。
受双11、618等大促活动影响,井喷式的业务流量对中通的系统稳定性提出了更高的要求,过去的压测方案已经无法满足业务发展的需求。...-可以进行agent安装包上传与安装,并查看agent相关日志的系统运维人员 测试负责人-此应用的测试人员 DBA-可以进行数据铺底,影子库表创建,数据库性能监控的DBA人员 性能指标-本次压测的目标...线上压测及结果产出阶段 准备阶段 提前准备线上必须的影子库表,铺底数据,影子topic/影子消费组建立等需要DBA与运维部门支撑的前期事项。...全量上线与试跑 如果灰度没有问题,则通知运维,将agent安装在应用的所有机器,全量重启目标机器。...,且压测数据我们都会加上识别标识,比如PT开头的订单号都是压测数据,但因为各种原因,大量的压测数据可能会导致部份或者全部压测数据被错误的写入了正式数据库表,从而污染了真实环境的数据,导致各种生产故障,因此有必要实时的检测是否有测试数据被错误的写入了正式数据库表
Web云开发采用 serverless 架构,免环境搭建等运维事务,为用户带来了极大的便利。...在本次征文活动中,开发者可以 Show 出自己的用法,向开发者征集 Web 云开发的使用教程,通过这些教程,让更多的开发者可以享受到云计算带来的畅快感!...云开发数据库返回值如何按照多个数据排序 云开发数据库如何查询当天数据 云开发数据库如何实现随机返回数据 云开发数据库如何实现队列 云开发数据库如何实现栈 其他和 Web 云开发相关的内容 征文形式 文件格式...、微信号(用于联系你确认代金券发放等信息)及简要介绍,将会附在文章推送中 关于微信公众号推送及其他平台投稿:你可以将稿件推送在任何平台,但需要给云开发公众号双白授权(微信公众号:腾讯云云开发) 活动时间...本次征文活动持续 2 个月,收稿截止时间为 6 月 30 日; 征文激励 对于参与本次征文活动的作者,稿件如经采用,将会发放 50 元云开发代金券!
无独有偶,除了上面两个运维同学反馈的问题之外,其实,我们还收到了这样的反馈:流量小的情况下,集群正常运行;一旦流量超过某个阈值,便会发生服务连不上、连接超时、某个查询服务离线等等问题…一般来说,因为集群服务比例分布不合理...这波活动过去之后,再缩容,节省成本。 其实集群除了弹性扩缩容问题之外,常见以下几类反馈: 1:如何快速创建集群,默认 3 节点配置就好? 2:我能看到某台集群某个时间段的操作记录吗?...3:我能删除某个集群,并回收资源吗? 4:昨天查看日志信息,我发现集群 B 的存储服务 storaged2 启停了一次,能帮忙排查是什么问题问题造成的吗?是否后续上生产环境也会出现?...为了让数据库运维、DBA 同学更方便地管理 Nebula 数据库集群,基于社区版的 Nebula Dashboard 我们扩展多个功能场景,这里可以简单介绍下部分功能,更多信息可以关注我们下周的 Dashboard...v3.0 Demo SHOW 直播和官方介绍哟~ 简化运维 提到简化操作,肯定得有对快速部署/导入集群功能的支持;再者,加上扩缩容,这样你就不用关心复杂繁琐的 shell 命令就能完成加减机器操作。
领取专属 10元无门槛券
手把手带您无忧上云