HDFS是一个高吞吐、高容错的分布式文件系统,但是HDFS在保证高容错的同时也带来了高昂的存储成本,比如有5T的数据存储在HDFS上,按照HDFS的默认3副本机制,将会占用15T的存储空间。那么有没有一种能达到和副本机制相同的容错能力但是能大幅度降低存储成本的机制呢,有,就是在HDFS 3.x 版本引入的纠删码机制。
EC(纠删码)是一种编码技术,在HDFS之前,这种编码技术在廉价磁盘冗余阵列(RAID)中应用最广泛(RAID介绍:大数据预备知识-存储磁盘、磁盘冗余阵列RAID介绍),RAID通过条带化技术实现EC,条带化技术就是一种自动将 I/O 的负载均衡到多个物理磁盘上的技术,原理就是将一块连续的数据分成很多小部分并把他们分别存储到不同磁盘上去,这就能使多个进程同时访问数据的多个不同部分而不会造成磁盘冲突(当多个进程同时访问一个磁盘时,可能会出现磁盘冲突),而且在需要对这种数据进行顺序访问的时候可以获得最大程度上的 I/O 并行能力,从而获得非常好的性能。在HDFS中,把连续的数据分成很多的小部分称为条带化单元,对于原始数据单元的每个条带单元,都会计算并存储一定数量的奇偶检验单元,计算的过程称为编码,可以通过基于剩余数据和奇偶校验单元的解码计算来恢复任何条带化单元上的错误。
根据云存储服务商Backblaze发布的2021年硬盘“质量报告”,现有存储硬件设备的可靠性无法完全保证,我们需要在软件层面通过一些机制来实现可靠存储。一个分布式软件的常用设计原则就是面向失效的设计。
OPPO是一家智能终端制造公司,有着数亿的终端用户,每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下,如何低成本、高效率地充分挖掘数据价值,成为了拥有海量数据的公司的一大难题。目前业界的流行解决方案是数据湖,本文介绍的OPPO自研的数据湖存储CBFS在很大程度上可解决目前的痛点。
[导语] EC(Erasure Coding, 纠删码) 是现代分布式存储系统一个重要的能力。它可以保证在相同数据持久度的基础上大幅提高存储空间利用率,对降低存储成本有极为重要的意义。腾讯大数据存储团队全程参与了 Ozone 社区 EC 的设计与开发,并先于社区在内部完成了 EC offline recovery 的开发和测试。本文主要讲解 EC 在 Ozone 中的设计与实现,并讨论其中的利弊权衡。 0.引言 Apache Ozone 做为 Hadoop 生态的下一代分布式存储系统,是 Hadoop 生态
本文已被USENIX'17年度技术大会录用,此处为中文简译版。 阅读英文论文完整版请点击:Speculative Partial Writes in Erasure-Coded Systems 。 前言 多副本和纠删码(EC,Erasure Code)是存储系统中常见的两种数据可靠性方法。与多副本冗余不同,EC将m个原始数据块编码生成k个检验块,形成一个EC组,之后系统可最多容忍任意k个原始数据块或校验块损坏,都不会产生数据丢失。纠删码可将数据存储的冗余度降低50%以上,大大降低了存储成本,在许多大规模分
在业务稳定的情况下,服务负载的变更基本都在同一个账号同一个大区进行,但是所谓“拥抱变化,拥抱变更”,有时候是主动的,也有时候是被动的,如果原来的aws账号由于某些原因通知要被风控了,或者由于成本问题需要更换号商,也可能由于业务本身的发展原因,导致需要在新的区域部署类似的服务体系,那么无论是哪一种原因,给我们带来的结果都是需要整站迁移。
Discuz! Discuz! 平台,由一群高擎互联网人在倾情支持, 他们来自于腾讯Discuz! 创业团队成员以及优秀的开发者。在中国互联网风云变迁中,Discuz! 20多年间为300万企业及站长赋能,秉承“开放、连接、共赢”的精神,倡导与生态伙伴及开发者共建健康可持续的Discuz!品牌合作模式,突破以往需求、连接和信任的局限,保持不断的创新活力,无论是在企业内部交流社区,还是在企业连接To C发展中都有积极贡献。 对象存储(Cloud Object Storage) COS 是腾讯云推出的无目录层次
传言要换“掌门人”的确实是亚马逊,但是此“掌门”并非 “掌”的是亚马逊的门,而是其门下最主要的分部之一——AWS。
Typecho 简介 Typecho 是一个简单、强大的轻量级开源博客平台,用于建立个人独立博客。它具有高效的性能,支持多种文件格式,并具有对设备的响应式适配功能。Typecho 相对于其他 CMS 还有一些特殊优势:包括可扩展性、不同数据库之间的切换能力、体积小巧以及易于部署上等。 Typecho 的特色之一是支持多样化文件格式,例如 HTML、Markdown、BBCode 等;此外,它还具有可扩展性、不同数据库之间切换能力以及体积小巧且易于部署上。 对象存储 COS 简介 对象存储(Cloud
很多公司选择AWS作为其IT解决方案,AWS有很多云服务,以下介绍AWS中几类比较重要的服务。
对象存储(Cloud Object Storage,COS)是腾讯专有云提供的一种存储海量文件的分布式存储服务,用户可通过网络随时存储和查看数据。所有用户通过 COS 都能使用具备高扩展性、低成本、高可靠和安全的数据存储服务。
数据是企业的核心资产,随着数据规模的快速增长,企业对存储功能和性能的要求也在不断增加。对云厂商和企业用户来说,如何在提升业务性能的同时降低成本是一巨大挑战。11月26日在QCon大会上,腾讯云数据湖存储研发负责人严俊明和技术专家程力受邀分享了数据湖存储的关键技术,并分享了数据湖存储在大数据及自动驾驶场景下的落地实践,助力用户业务降本增效。 下面,让我们一起回顾下两位老师的精彩演讲内容👇 数据湖是一种可拓展的技术架构,将数据存储、计算、分析、AI等能力集成整合为一款多元化的解决方案,从数据中挖掘价值;支持
10月27日消息,据国外媒体报道,传感器和联网设备如雨后春笋般冒出并且无处不在。这间接产生了一个问题,他们产生的数据必须被存储或被处理。简单方式当然是本地处理,但当碰到更复杂的东西,比如预测分析、移动应用的可视化数据、与其它设备或应用程序共享数据,这些就要发生在云中。目前,云计算提供商已经开始了他们的竞争来争取此类数据的存储和处理业务。 目前,物联网应用正如Web和移动应用一样主要是运行在亚马逊的EC2平台上,但不能保证现状会一直保持不变。作为更广泛的智能家居计划的一部分,谷歌已经收购了多家的智能家居企业,
我们经常会被问到一个企业大数据架构的问题:随着企业收集 / 产生的数据越来越多,如何设计一套高效廉价的大数据架构,在尽可能多保留所有原始数据内容的同时还可以支持“无缝接入”的新的分析算法。本文所要介绍的数据湖解决方案可能是解决这个难题的一种新思路。
作者:Jimmy chow,人在香港。在通信行业二十余年, 除了销售以外的工作, 几乎全都做过, 包括教育,研发,营销,管理,咨询等, 设备商运营商学校都呆过, 固网移动也全干了一遍, 全球高端点的运营商前20位CxO级别的, 过半有过交流吹嘘, 而且以前主要的工作就是干这些吹牛的事情.如今, 已年老色衰, 所有的工作均为自由状态, 保持着行业的联系,以及更多的时间照顾孩子家人。有配置香港保险找他。以下全文。文章不代表边缘计算社区观点。
上周我们介绍了大数据调度YARN在B站的落地实践(←点击回顾前文),本周哔哩哔哩技术给大家带来的是HDFS在B站的应用与展望。
以上是评估和优化Ceph集群性能的一些方法和策略,根据具体的需求和场景,可以选择适合的工具和参数来实现性能的最大化。
今年2月,由光环新网运营的AWS 中国(北京)区域和由西云数据运营的 AWS 中国(宁夏)区域发布新的实例类型,新的实例类型包括C5、C5d、R5、R5d。除了这四种之外,在AWS国外部分区域还上线了最新的C5n。
本文介绍了PaaS云服务在实际业务中的应用,并分析了PaaS云服务的优点和缺点。作者认为PaaS云服务具有高度灵活性、可扩展性、成本效益和高效性等优点,但同时也存在一些缺点,如技术难度高、实施复杂、依赖第三方服务、需要投入较多资源等。在实际应用中,PaaS云服务需要根据业务需求和场景,选择合适的架构和技术方案,并注意维护、监控和优化云服务。
据国外媒体报道,传感器和联网设备如雨后春笋般冒出并且无处不在。这间接产生了一个问题,他们产生的数据必须被存储或被处理。简单方式当然是本地处理,但当碰到更复杂的东西,比如预测分析、移动应用的可视化数据、与其它设备或应用程序共享数据,这些就要发生在云中。目前,云计算提供商已经开始了他们的竞争来争取此类数据的存储和处理业务。 目前,物联网应用正如Web和移动应用一样主要是运行在亚马逊的EC2平台上,但不能保证现状会一直保持不变。作为更广泛的智能家居计划的一部分,谷歌已经收购了多家的智能家居企业,比如Nest和Dr
为了实现降本增效,京东HDFS 团队在 EC 功能的移植、测试与上线过程中,基于自身现状采取的一些措施并最终实现平滑上线。同时自研了一套数据生命周期管理系统,对热温冷数据进行自动化管理。在研发落地过程中还构建了三维一体的数据校验机制,为 EC 数据的正确性提供了强有力的技术保障。
2006年,AWS发布了其第一个Serverless存储服务S3和第一个Serverful计算服务EC2,这也是AWS正式发布的前两个服务,开启了云计算波澜壮阔的旅程。2014年,AWS发布了业界第一个Serverless计算服务AWS Lambda。在今年(2021年)的AWS re:Invent大会上,AWS又发布三个Serverless新品:Redshift Serverless、EMR Serverless和MSK Serverless。AWS的15年发展史(2006到2021年),也是一部AWS创造和深耕Serverless的历史,一部从Serverful不断向Serverless演进的历史。
由于需要使用越来越复杂的神经网络,我们还需要更好的硬件。但我们的电脑通常不能承受那么大的网络,不过你可以相对容易地在亚马逊上租用一个功能强大的计算机,比如E2服务你可以相对容易地按照小时租用在亚马逊EC2服务。 我使用Keras——一个开源神经网络Python库。因为它的易用性,所以初学者可以很容易开始自己的深度学习旅程。它建立在TensorFlow之上(但是Theano也可以使用)—— 一个用于数值计算的开源软件库。租借的机器将通过浏览器使用Jupyter Notebook ——一个网络应用程序,允许共享
一个是成本问题,随着累积的数据量的增大,大数据业务量的增多,数据存储和处理的成本越来越高,企业数据基础设施的投资越来越大,这部分投资挤占了企业大数据业务创新的空间。
云计算平台在2008年出现在公众面前的时候,我和大多数人一样,并没有意识到这是一场影响深远的技术变革。并不是缺乏洞见,而是因为云计算的概念非常混乱。
云计算发展这么多年,弹性是云计算从业者最关注的技术能力之一,但是真正落实到具体的案例上,很少有客户能把弹性用好,弹性反而成为了一种口号,一种理想的架构,本文尝试讨论为什么现实和理想差距这么大,以及有哪些低投入高回报的弹性方案。
Introducing the Dendrify framework for incorporating dendrites to spiking neural networks
纠删码概述 存储节点或者存储介质失效已经成为经常的事情,提高存储可靠性以及保障数据可用性已经变得非常重要,纠删码具有高存储效率和高容错能力。在体量非常大的存储中纠删码存储方式相比副本方式存在编码开销,又由于其特有的IO访问路径,其改进空间比较大 保障数据可用性的常用方法就是数据冗余,传统的数据冗余方式就是副本和纠删码方式,副本是将每个原始数据分块都镜像复制到其他设备上来保证原始数据丢失或者失效时有副本可恢复;副本方式不涉及数据变换,而纠删码会对数据进行变换和运算,得到支持数据冗余的编码数据,比如k+r(k个
本文将对云端环境中的横向移动技术和相关场景进行深入分析和研究,并给大家展示研究人员在云环境中观察到的一些威胁行为。云端环境中的横向移动可以通过利用云API和对计算实例的访问来实现,而云端级别的访问可能会扩展到后者。
部署在亚马逊的云服务器中被认为是实现高可扩展性的好方法,同时只需要为您所使用的计算能力支付费用。不过您要如何从技术中获得最佳的可扩展性呢?
背景 Storm是TRC(腾讯实时计算)平台的核心组件。与Hadoop不同,storm之上没有像hive,pig之类的解放应用开发人员效率的工具。开发原生的storm应用必须掌握storm的api,开发门槛高,调试困难,效率低下。 EasyCount(SQL on strom)是构建在storm之上的一套实时计算系统。应用开发人员只需通过配置定制化的脚本来完成业务逻辑的描述,能够快速实现各种实时统计需求,降低使用门槛,提升开发效率。 系统设计与实现 上图是EC系统的架构图。用于描述用户业务逻辑的SQL
目前微信支付日志单日最大入库总量已达到万亿级,单日入库存储量达 PB 级,而在春节等重大节假日预计整个日入库规模会有进一步的增长。
作者:宋新村,腾讯大数据高级运维工程师 |导语 微信支付日志系统利用 Hermes 来实现日志的全文检索功能,自从接入以来,日志量持续增长。目前单日入库日志量已经突破万亿级,单集群日入库规模也已经突破了万亿,存储规模达 PB 级。本文将介绍微信支付日志系统在 Hermes 上的实践,希望与大家一同交流 01 业务规模 目前微信支付日志单日最大入库总量已达到万亿级,单日入库存储量达 PB 级,而在春节等重大节假日预计整个日入库规模会有进一步的增长。 微信支付日志业务采用的 Hermes 集群,单集群日入库规
ECShop简介 ECShop是一款开源电子商务平台,具有简单易用、安全稳定、模块化设计等特点。它提供了完整的电子商务解决方案,包括商品管理、订单管理、支付管理、配送管理、会员管理、促销管理、数据统计等功能。ECShop支持多语言、多货币、多种支付方式和配送方式,并可通过插件扩展更多功能。ECShop还提供了丰富的模板和主题,可以自定义网站风格,满足不同用户的需求。 ECShop的安装和使用非常简单,只需上传文件到服务器并进行配置即可。ECShop还提供了在线教程和技术支持,帮助用户更好地使用和维护网站。由
为了帮助充分利用AWS的托管服务快速构建起一套集群环境,彻底去掉“单一故障点”,实现最高的可用性,我们准备了《低代码智能集群@AWS的架构与搭建方案》看完本文,带你掌握“基于nginx配置服务器集群”。
在亚马逊的每一份年报中,Jeff Bezos 都会附上一份 1997 年致股东信的原件副本。在信中,Bezos 概述了亚马逊是否成功的基本衡量标准:坚持不懈地关注客户、创造长期价值而不是关注企业短期利润,以及持续进行大胆的创新。Bezos 写道,“如果我们执行得很好,那么每天都是‘第一天(Day one)’。”
CubeFS 是国内首个云原生开源分布式存储产品,2019 年开源并捐赠托管至云原生计算基金会 (CNCF),2020 年 10 月 OPPO 开始主导 CubeFS 社区运营与版本迭代,累计发布 7 个 release 版本。在 OPPO 的全力推进下,CubeFS 于 2022 年 6 月进入 CNCF 孵化阶段。 本文,我们与 CubeFS Maintainer OPPO 的何小春进行了对话,共同探讨 CubeFS 的技术演进及云原生存储技术的发展方向。 1 云原生存储技术“越来越分布式” 随着云
生成式 AI (Generative AI)已经成为全球范围内的一个重要趋势,得到越来越多企业和研究机构的关注和应用,生成式 AI 的全球市场正在迅速扩大,据 IDC、摩根大通等多家研究机构数据预测,预计到 2025 年,全球生成式 AI 市场的规模将达到 110 亿美元,年复合增长率超过 50%。
在拉斯维加斯举行的黑帽大会(Black Hat 2014)上,一位颇有名声的研究人员称安全专业人士并未对托管在AWS云基础架构上的应用的安全性给予充分的关注,因而AWS用户可能更容易遭受到攻击:隐私信息暴露、模仿AWS EC2实例,甚或更糟。 黑帽大会上在星期三发表的一次演讲中,咨询公司Bonsai Information Security的创始人、开源w3af安全框架的领导者Andres Riancho详细阐明了他为一个“将Web应用托管在AWS基础架构上”的客户提供渗透测试的全经历。 尽管之前Rianc
我们身处一个海量数据时代,企业的数据量爆炸式增长,历史数据对企业的重要性,在于以史明鉴。磁带库存储目前在企业领域中一直在对企业的历史数据进行存储,并且发挥着重要的作用。
随着IBM x86服务器业务出售之后,更多精力将集中在Power产品线上。新一代Power 8处理器基于云数据中心级别的高扩展性,预示Power 8揭开了企业级市场云计算新台阶。近日,RunAbove
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。
我们致力于为广大读者提供全面、深入的云计算知识普及,每周定期更新一系列关于云计算的实用文章。这些内容将涵盖云计算的技术原理、应用场景、发展趋势、存储/网络/数据库服务等多个方面,旨在帮助读者们更好地理解和应用云计算技术。
去年的AWS re:Invent 2021有很多跟芯片相关的内容值得展开来说的事情。但网上已经有很多专业的文章了,我就不再班门弄斧一一介绍了。
云端Linux服务器比以往来得成本更低、性能更好。 要是你之前还没有启动过云端Linux服务器,眼下也许正是大好时机。原因何在因为你在短短几分钟内就能安装好一台Linux服务器; 因为你在决定使用哪种发行版方面有众多的选择; 因为你可能刚发现,云端Linux服务器为你提供了一种非常便捷的方式,可以处理你平常工作时可能没有时间或机会试一下的命令和应用程序; 因为你可以从基于Unix的系统获得众多价值,成本却异常合理,如果你头次接触这种场景(云服务提供商似乎喜欢新手),更是如此。 因为安装和管理云端Li
领取专属 10元无门槛券
手把手带您无忧上云