目前许多的新型应用都属于「数据密集型」(data-intensive),而不是计算密集型(compute-intensive),对于这些应用,CPU 的处理能力并不是第一限制性因素,关键在于数据量、数据的复杂度及数据的快速多变性。
这本书一直在我的待读列表,但是一直没有机会拜读,直到最近 2021 年已经快要过去,感觉需要在年末提升一下自己。边读边做一下笔记,留待后用。
本文节选之 DDIA 《Design Data Intensive Applications》,DDIA是一本神书,是一本可以让很多高级资深工程师醍醐灌顶的书。
2009年秋天,微软数据中心的一次服务器故障导致T-Mobile Sidekick手机存放在微软服务器上的用户数据全部丢失。这些数据包括通讯录、日程表、照片、待办事项等等;
“系统-管理员”的比例通常粗略的作为了解大规模服务中管理成本的指标。在低自动化水平的服务中这个比例可能低到2:1,而在行业领先的高度自动化的服务中,这个比例可以达到2500:1。在微软的众多服务之中,Autopilot经常被认为是Windows Live Search团队成功提高“系统-管理员”比的原因。自动化管理非常重要,但更重要的还是服务本身。服务是否能高效的进行自动化?是否是运维友好的(operations-friendly)?运维友好的服务几乎不需要人工的干预,除了极个别的故障外其他情况都可以被自动的检测并恢复。本文总结MSN和Windows Live在支撑一些超大型服务过程中多年积累下来的最佳实践。
Facebook故障是一系列不幸的事件酿成的! 一条写得很糟糕的命令、一款有缺陷的审核工具、一个阻碍成功恢复网络的DNS系统以及严密的数据中心安全,所有这些因素导致了Facebook长达 7 个小时的重大故障。 Facebook 表示,周一故障的根本原因是例行维护工作出了岔子,结果导致其DNS服务器不可使用,不过最先崩溃的是Facebook 的整个骨干网络。 雪上加霜的是,由于DNS无法使用,Facebook的工程师们无法远程访问他们所需的设备以便网络恢复正常,因此他们不得不进入数据中心手动重启系统。 这
出现这三种情况,说明服务器或者带宽已经无法承载当前的业务量了,我们需要调整服务器配置和带宽资源。如果没有以上3种情况,那么我们要检查下面这些问题:
为了加强电子政务云平台运维团队收到用户报障或巡检发现异常后的处理应急机制,特制定本预案,主要包括以下内容:
Facebook在数据中心内部一直使用自研交换机构建IP CLOS架构的数据中心。我们可以从Facebook在2019年披露的F16和HGRID看到他们是如何构建超大型DC网络的物理拓扑架构。在2021年的NSDI会议上面Facebook将内部如何使用BGP来构建网络控制层面的细节公布出来了,简单说这就是一份非常好的HLD(High-Level Design)的参考,从中我们也能看到除了网络的物理架构、协议逻辑之外还需要大量的整体软件控制架构及其组件的实现。我们先看看Facebook的数据中心 BGP的HLD:
作者简介:罗华 Juniper大中国区首席架构师 Facebook在数据中心内部一直使用自研交换机构建IP CLOS架构的数据中心。我们可以从Facebook在2019年披露的F16和HGRID看到他们是如何构建超大型DC网络的物理拓扑架构。在2021年的NSDI会议上面Facebook将内部如何使用BGP来构建网络控制层面的细节公布出来了,简单说这就是一份非常好的HLD(High-Level Design)的参考,从中我们也能看到除了网络的物理架构、协议逻辑之外还需要大量的整体软件控制架构及其组件的实现。
文章还没有写完,接下来笔者要出差一段时间,回来在继续完成该文。 目录 1. 架构纵览 1.1.1. 网站前端 1.1.2. 网站后台 1.1. 网站部分 1.2. 交易服务器部分 2. 应用层防火墙 3. 集群实现 4. Data feed 报价系统的设计 5. 核心交易系统的设计 5.1. 协议部分 5.2. 订单处理 6. 管理员控制台的设计 6.1. Adminstrator 6.2. Manager 7. 总结 1. 架构纵览 1.1. 网站部分 1.1.1. 网站前端 待续... 1.1.2. 网
互联网技术发展到了 2022 年,理论上来说是可以做到“永不宕机”的。但过去的 2021 年,宕机事故看起来一点也没有减少。
我们需要一些自动化的措施,包括自动调度、配置、监管和故障处理。这正是Kubernetes用武之地
今天看到 InfoQ 发布了一篇关于去年的宕机事件的整理文章,从 B 站到一码通,从国内到国外都有代表性事件。
互联网技术发展到了 2022 年,理论上来说是可以做到“永不宕机”的。但过去的 2021 年,宕机事故看起来貌似也不少。
前言 团队协作和进步把控能力是开发公司的生命线,不能按时交付项目的话在很多公司都不受待见。到了一家新公司,突然发现公司是自建的代码托管系统?从此你不但每天要勤勤恳恳写代码,还等随时准备应对日常各种硬件
测试对于 IT 领域来讲,是众所周知的重要概念,无论对于项目还是软件产品来说,测试都是贯穿始终的重要环节。 此次本文撇开大家熟悉的功能测试,集成测试,系统测试不谈, 聊一下 OAT (Operational Acceptance Testing) 又称基础架构运维测试, 是一种新兴的测试方法,目标是为客户提供健壮,可扩展, 高可用的 IT 架构, 同时为客户降低不必要的 IT 维护费用,节省项目整体开支。
进程是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。线程是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。线程自己基本上不拥有系统资源,只拥有一点在运行中必不可少的资源,如程序计数器、一组寄存器和栈,但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。
刚被指责“利用放大仇恨言论的算法谋取利益”没多久,Facebook 再次陷入危机。
大多数测试人员在谈到性能测试时,往往会倍感压力。对于我来说更是如此,想做好性能测试需要庞大的知识体系,不断实践所总结的经验教训更是弥足珍贵。而且每个人对性能测试的理解都有独到的地方,此次逐步揭开性能测试得神秘面纱,结合课堂学习及自身消化理解后的,归纳了一些性能测试的基础知识,希望对大家理解性能测试有所帮助。
领取专属 10元无门槛券
手把手带您无忧上云