首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

基于腾讯云微服务引擎(TSE) ,轻松实现云上全链路灰度发布

概述 软件开发过程中,应用发布非常频繁,通常情况下,开发或运维人员会将系统里所有服务同时上线,使得所有用户都使用上新版本。这样的操作时常会导致发布失败,或因发布前修改代码,线上出现 Bug。 假设一个在线商城,每天都有大量的用户访问,如果直接在所有用户中部署新版本应用,一旦出现问题,所有用户都可能受到影响。相比之下,通过引入灰度发布策略,先将新版本的应用部署到少量的用户中,检查是否存在问题,如果没有,再逐步扩展到更多的用户中,由此解决全量发布的各种弊端。 灰度发布是一种软件发布策略,它允许你在生产环境中渐进

02

OPPO 大数据诊断平台“罗盘”正式开源

OPPO 大数据平台目前有 20+个服务组件,数据量超 1EB,离线任务数近百万,实时任务数千,数据开发分析师超千人。这也带来了系统复杂度的问题,一方面是用户经常对自己的任务运行状况“摸不着头脑”,不管是性能问题,还是参数配置问题,甚至是一些常见的权限报错问题,都需要咨询平台给出具体的解决方案;另一方面是平台面对各类繁杂任务,运维人员经常需要对任务故障定位和排除,由于任务链路长,组件日志多,运维压力大。因此急需对任务进行实时监控和诊断,不仅要能够帮助用户快速定位异常问题,还需给出具体的建议和优化方案,同时还能治理各类“僵尸”和不合理任务,从而达到降本增效的目的。据调研,目前业界尚无成熟的开源任务诊断平台。为此我们开发了大数据诊断平台,通过诊断平台周优化任务实例数超2 万,取得了良好的效果。

02

使用Redis实现高流量的限速器

Redis是生产环境中默默无闻的主力配置。它不常用作主要的数据存储,但它可存储和访问临时数据(度量,会话状态,缓存等损失可以容忍的数据)方面有一个甜蜜点,并且速度非常快,不仅提供了最佳性能,还通过一组有用的内置数据结构提供了高效的算法。它是现代技术栈中最常见的主要部件之一。 Stripe的限速器建立在Redis的基础之上,直到最近,他们都运行在Redis 的一个非常Hot的实例上。服务器上有用于故障转移的follower,但在任何时候,只有一个节点处理每个操作。 你不得不佩服这样的系统。各种消息称,Redis可以在一个节点上每秒处理一百万次操作 - 我们项目不需要那么多,但是也有很多操作。每个速率限制检查都需要运行多个Redis命令,并且每个API请求都要通过很多速率的限制器。一个节点每秒处理大约数十到数十万个操作。 我们最终通过迁移到10个节点的Redis群集来实现这个目标。对性能的影响可以忽略不计,我们现在有一个简单的配置开关可以实现水平可伸缩性。 操作的限制 在更换系统之前,应该理解导致原始故障的原因和结果。 Redis的一个值得理解的特性是:它是一个单线程程序。但是会有后台线程处理一些像删除对象这样的操作,实际上所有正在执行的操作都堵塞在访问单个流控制点上。理解这点相对容易--Redis需要保证操作的原子性(无论是单一命令MULTI,还是 EXEC),这是源于它一次只执行其中一个操作的事实。 这个单线程模型确实是我们的瓶颈。 面对失败 即使以最大容量运营,我们发现Redis也会非常优雅地降级。主要表现:从与Redis交谈通信的节点观察到的基线连接性错误率增加 - 为了容忍发生故障的Redis,它们受到连接和读取超时(约0.1秒)的限制,并且与过载主机无法无法建立连接。 Redis这种表现虽然不是最佳的,但大部分时间情况都是好的。只有当合法 用户能够成功进行身份验证并在底层数据库上运行昂贵的操作时,它才会成为一个真正的问题,因为我们的目标是拦截巨大的非法流量冲击(即数量级超过允许的限制)。 这些流量峰值会导致错误率的成比例增加,并且许多流量还应该被允许通过,因为限速器默认是允许在错误情况下通过请求。这会给后端数据库带来更大的压力,这种压力在过载时不会像Redis那样优雅地失败。很容易看到数据库分区几乎完全无法操作。 Redis Cluster的分片模型 Redis的核心设计价值在于速度,而Redis集群的构建方式不会对此产生影响。与许多其他分布式模型不同,在其输出响应成功信号时,Redis集群中的操作并未在多个节点上进行确认,而是更像是一组独立的Redis通过分散空间来分担工作负载。这牺牲了高可用性,有利于保持操作的快速性 - 与标准的Redis独立实例相比,针对Redis群集运行操作的额外开销可以忽略不计。 分片是根据key进行的,可能的key总数分为16,384个插槽。key的插槽是通过稳定的哈希散列函数计算的,所有客户端都知道该如何操作: HASH_SLOT = CRC16(key) mod 16384 例如,如果我们想执行GET foo,我们会得到foo的以下插槽号: HASH_SLOT = CRC16("foo") mod 16384 = 12182 集群中的每个节点将处理16,384个插槽中的一部分,确切数量取决于节点数量。节点彼此通信以协调插槽分配以及可用性和插槽的再平衡。 客户端使用该CLUSTER系列命令来查询群集的状态。一个常见的操作是CLUSTER NODES获得插槽到节点的映射,其结果通常在本地缓存,并保持数据新鲜。 127.0.0.1:30002 master - 0 1426238316232 2 connected 5461-10922 127.0.0.1:30003 master - 0 1426238318243 3 connected 10923-16383 127.0.0.1:30001 myself,master - 0 0 1 connected 0-5460 我简化了上面的输出,但重要的部分是第一列中的主机地址和最后一个中的数字。5461-10922意味着这个节点处理开始于5461和结束于10922的插槽范围。 `MOVED`重定向 如果Redis群集中的某个节点接收到一个插槽不处理的的key的命令,则不会尝试向其他插槽转发该命令。相反,客户端会被告知在其他地方再次尝试。这是以MOVED新目标的地址作为回应的形式 : GET foo -MOVED 3999 127.0.0.1:6381 在集群重新平衡期间,插槽会从一个节点迁移到另一个节点,MOVED是服务器用于告诉客户端其插槽

01

运维安全,没那么简单

随着IT技术和业务的发展,以及各式各样安全漏洞的涌现,运维与安全这两个专业日渐交融,人们对运维安全的重视程度越来越高,出现了一个新的交叉领域叫“运维安全”。黑客、白帽子忙于挖掘运维安全漏洞,企业忙于构建运维安全体系,一时间无数漏洞纷至沓来,座座堡垒拔地而起。作者立足自身多年运维安全实践,也来探讨一二。本文按照提出问题到回应答案的思路,先抛出作者对运维安全的理解,并解释了重视运维安全的原因。接着根据在运维安全一线发现的工作陋习以及企业面临的常见问题,整理出通用运维安全问题分类。之后对症下药,提出一个好的运维安全形态:不仅在于工程师们的安全意识,更在于一套相对完整的运维安全体系,从流程到技术,点线面多位一体共同缔造。

02

经验分享 | 企业如何做好安全基线配置

一、为什么要做基线配置管理 一个组织在不同的时期部署了不同的业务系统,承载业务系统的是不同的操作系统和支持系统。业务系统在运行期间,基本上很少做操作系统的升级或变更。再就是由于不同供应商的支持原因,导致现存的操作系统和应用版本跨度很广,安全人员或运维人员资源不够的情况下很难支持做基线配置工作。 对组织的运维和安全人员来说,如果运行的业务系统一直不出事,是想不到要做基线配置、升级补丁、修复漏洞这些事情的,考虑做基线管理,通常来自于3个原因: 合规性性要求,上级安全检查; 遇到安全事件,根源落在安全配置或加固

05
领券