开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Amazon EMR over s3上的TezTask顶点故障

Amazon EMR是亚马逊云计算服务中的一项大数据处理服务，EMR代表弹性MapReduce。它允许用户在云上快速、简便地处理和分析大规模数据集。

Amazon EMR over s3是指在Amazon EMR中使用Amazon S3作为数据存储和处理的方式。Amazon S3是一种高度可扩展的对象存储服务，可用于存储和检索任意数量的数据。

TezTask是Apache Tez框架中的一个概念，它代表着一个任务（Task）的执行单元。Apache Tez是一个用于大规模数据处理的框架，它提供了更高级别的抽象和优化，以提高数据处理的效率和性能。

顶点故障是指在Tez任务执行过程中，一个或多个顶点（Vertex）发生了错误或失败。在Tez中，顶点是任务执行的基本单元，它们可以表示数据的输入、处理和输出。

当TezTask顶点发生故障时，可能会导致整个任务的失败或延迟。为了解决这个问题，可以采取以下措施：

检查错误日志：首先，需要查看Tez任务的错误日志，以了解具体的故障原因。错误日志通常包含有关故障的详细信息，如错误消息、堆栈跟踪等。
重新尝试任务：如果故障是由于临时问题引起的，可以尝试重新执行失败的任务。在Amazon EMR中，可以使用作业流重试机制来自动重新执行失败的任务。
调整资源配置：有时，Tez任务的故障可能是由于资源不足引起的。可以尝试增加任务的资源配额，如内存、CPU等，以提高任务的执行能力。
优化任务逻辑：如果任务的故障是由于逻辑错误引起的，可以对任务的逻辑进行优化。例如，可以检查任务的输入输出路径是否正确，是否存在数据倾斜等。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云EMR：腾讯云的大数据处理服务，提供了与Amazon EMR类似的功能和性能。详情请参考：https://cloud.tencent.com/product/emr
腾讯云对象存储COS：腾讯云的对象存储服务，类似于Amazon S3，可用于存储和检索任意数量的数据。详情请参考：https://cloud.tencent.com/product/cos
腾讯云Hadoop：腾讯云的Hadoop服务，可用于在云上进行大规模数据处理和分析。详情请参考：https://cloud.tencent.com/product/hadoop

请注意，以上推荐的腾讯云产品仅供参考，具体选择应根据实际需求和情况进行。

相关搜索:Amazon EMR Flink上的Scala版本不匹配 Amazon EMR:使用S3的输入和输出运行Custom Jar Amazon EMR集群上的RStudio Amazon S3 - GetPreSignedUrlRequest可以在我的开发机器上运行，但不能在代码上传到web服务器时运行 Django:如何在删除模型实例时自动删除Digitalocean Spaces/ Amazon S3上的媒体文件公共读取s3上的Amazon的用户级别权限在amazon emr jupyter笔记本上使用scipy的udf 在Amazon EMR上运行rdd.write.csv时，如何处理S3内部服务器错误？在Amazon EMR中使用配置单元处理写入亚马逊S3存储桶时的S3 PUT通知在Amazon Linux上安装ELK以分析s3存储桶中的日志

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

如何构建智能湖仓架构？亚马逊工程师的代码实践来了 | Q推荐

数据仓库的数据体系严格、治理容易，业务规模越大，ROI 越高；数据湖的数据种类丰富，治理困难，业务规模越大，ROI 越低，但胜在灵活。

03

主流云平台介绍之-AWS

目前云平台逐渐火热起来，国内如：阿里云、腾讯云、华为云等平台，国外如：AWS、Azure、Google GCP等平台，都有不少用户，并在持续的增加中。

04

自学大数据：用以生产环境的Hadoop版本比较

一、背景介绍生产环境中，hadoop的版本选择是一个公司架构之时，很重要的一个考虑因素。这篇文章根据就谈谈现在主流的hadoop版本的比较。如果有不同意见，或者指正，希望大家能交流。 Apache Hadoop：Apache Hadoop是一款支持数据密集型分布式应用并以Apache 2.0许可协议发布的开源软件框架。它支持在商品硬件构建的大型集群上运行的应用程序。Hadoop是根据Google公司发表的MapReduce和Google档案系统的论文自行实作而成。称为社区版Hadoop。第三方发行版Ha

05

盘点13种流行的数据处理工具

作者：所罗伯·斯里瓦斯塔瓦（Saurabh Shrivastava）、内拉贾利·斯里瓦斯塔夫（Neelanjali Srivastav）

01

AWS 15 年（1）：从 Serverful 到 Serverless

2006年，AWS发布了其第一个Serverless存储服务S3和第一个Serverful计算服务EC2，这也是AWS正式发布的前两个服务，开启了云计算波澜壮阔的旅程。2014年，AWS发布了业界第一个Serverless计算服务AWS Lambda。在今年（2021年）的AWS re:Invent大会上，AWS又发布三个Serverless新品：Redshift Serverless、EMR Serverless和MSK Serverless。AWS的15年发展史（2006到2021年），也是一部AWS创造和深耕Serverless的历史，一部从Serverful不断向Serverless演进的历史。

01

AWS的湖仓一体使用哪种数据湖格式进行衔接？

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift（数仓）查询Hudi表，现在它终于来了。

05

数字化转型案例：Club Factory如何用云计算服务一亿全球用户群

Club Factory由中国公司嘉云数据于2016年创建，是一家时尚、美容和生活方式的电子商务商店，总部位于浙江杭州。其产品有三个特点：非品牌、时尚和低价。为此，Club Factory整合了上百万供应商，无需提前备货。在Club Factory诞生前，嘉云数据的主打产品为爆款易，这是一个SaaS数据智能平台，帮助供应商根据工厂和库存数据做出决策。

02

数据湖学习文档

参考资料：https://segment.com/blog/cultivating-your-data-lake/

02

改进Apache Hudi的标记机制

Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。在这篇博文中，我们深入探讨了现有的直接标记文件机制的设计，并解释了它在 AWS S3 等云存储上对于非常大的写入的性能问题。我们展示了如何通过引入基于时间线服务器的标记来提高写入性能。

03

重磅 | DAAS（数据管理服务）调研与简要分析

文| 张涵诚、陆骥本文为作者投稿，转载请联系作者背景当前大家都知道： 1.数据交易市场的繁荣为时过早，数据加工和处理太过于分散化； 2.数据金字塔顶部的数据成为重要的资产，然后拥有者并不知道如何释放； 3.互联网数据聚合及释放数据价值的经验值得所有企业参考。笔者团队经历对于DAAS的几个阶段，艰辛万苦，若有所思，现在把研究成果分享出来，以求大家反馈，研究研究再改进。 DAAS是什么基本定义 Users can access vendor provided databases 用户可直接获取由BD公

07

从 Apache Kudu 迁移到 Apache Hudi

在构建本地数据中心的时候，出于Apache Kudu良好的性能和兼备OLTP和OLAP的特性，以及对Impala SQL和Spark的支持，很多用户会选择Impala / Spark + Kudu的技术栈。但是由于Kudu对本地存储的依赖，导致无法支持的数据高可用和弹性扩缩容，以及社区的逐渐不活跃，越来越多的用户，开始迁移到云上的Trino / Spark + Hudi 技术栈，本文通过一个实际的例子，来看一下迁移过程中发生的代码的重构和数据的迁移。

02

自学Apache Spark博客(节选)

作者：Kumar Chinnakali 译者：java达人来源：http://dataottam.com/2016/01/10/self-learn-yourself-apache-spark-in-21-blogs-3/（点击文末阅读原文前往）一、 Spark项目最初由加州大学伯克利分校AMP实验室的Matei在2009年发起，并在2010年根据BSD协议开源。2013年，该项目捐献给Apache软件基金会，转为Apache2.0 协议。2014年二月，Spark成为Apache重点项目。201

09

大数据架构之– Lambda架构「建议收藏」

Lambda架构由Storm 的作者 [Nathan Marz] 提出，根据维基百科的定义，Lambda 架构的设计是为了在处理大规模数据时，同时发挥流处理和批处理的优势。通过批处理提供全面、准确的数据，通过流处理提供低延迟的数据，从而达到平衡延迟、吞吐量和容错性的目的。为了满足下游的即席查询，批处理和流处理的结果会进行合并。

01

亚马逊云科技助力海信集团智慧家居全球化运营，解锁全球服务实践案例

2022年中国国际服务贸易交易会上，亚马逊云科技助力海信集团智慧家居全球化运营获选“全球服务实践案例”，全方位展现亚马逊云科技以实力助推企业创新实践。数字经济时代，各行各业都在积极尝试出海与智能化转型，以占领更多受众及市场份额。聚焦企业战略需求，亚马逊云科技深耕云计算技术，赋能众多企业进行数字化转型，助力企业出海，致力于为企业提供定制化的解决方案。下面就以亚马逊云科技与海信集团合作实践案例，具体展示亚马逊云科技如何助力企业智能化转型与创新。近年来，为应对国内家电市场增速逐渐放缓的难题，海信集团开始着

02

基于Apache Hudi的多库多表实时入湖最佳实践

CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更数据。例如：通过解析MySQL数据库的Binlog日志捕获变更数据，而不是通过SQL Query源表捕获变更数据。Hudi 作为最热的数据湖技术框架之一, 用于构建具有增量数据处理管道的流式数据湖。其核心的能力包括对象存储上数据行级别的快速更新和删除，增量查询(Incremental queries,Time Travel)，小文件管理和查询优化(Clustering,Compactions,Built-in metadata)，ACID和并发写支持。Hudi不是一个Server，它本身不存储数据，也不是计算引擎，不提供计算能力。其数据存储在S3(也支持其它对象存储和HDFS)，Hudi来决定数据以什么格式存储在S3(Parquet,Avro,…), 什么方式组织数据能让实时摄入的同时支持更新，删除，ACID等特性。Hudi通过Spark，Flink计算引擎提供数据写入, 计算能力，同时也提供与OLAP引擎集成的能力，使OLAP引擎能够查询Hudi表。从使用上看Hudi就是一个JAR包，启动Spark, Flink作业的时候带上这个JAR包即可。Amazon EMR 上的Spark，Flink，Presto ，Trino原生集成Hudi, 且EMR的Runtime在Spark，Presto引擎上相比开源有2倍以上的性能提升。在多库多表的场景下(比如：百级别库表)，当我们需要将数据库(mysql,postgres,sqlserver,oracle,mongodb等)中的数据通过CDC的方式以分钟级别(1minute+)延迟写入Hudi，并以增量查询的方式构建数仓层次，对数据进行实时高效的查询分析时。我们要解决三个问题，第一，如何使用统一的代码完成百级别库表CDC数据并行写入Hudi，降低开发维护成本。第二，源端Schema变更如何同步到Hudi表。第三，使用Hudi增量查询构建数仓层次比如ODS->DWD->DWS(各层均是Hudi表)，DWS层的增量聚合如何实现。本篇文章推荐的方案是: 使用Flink CDC DataStream API(非SQL)先将CDC数据写入Kafka，而不是直接通过Flink SQL写入到Hudi表，主要原因如下，第一，在多库表且Schema不同的场景下，使用SQL的方式会在源端建立多个CDC同步线程，对源端造成压力，影响同步性能。第二，没有MSK做CDC数据上下游的解耦和数据缓冲层，下游的多端消费和数据回溯比较困难。CDC数据写入到MSK后，推荐使用Spark Structured Streaming DataFrame API或者Flink StatementSet 封装多库表的写入逻辑，但如果需要源端Schema变更自动同步到Hudi表，使用Spark Structured Streaming DataFrame API实现更为简单，使用Flink则需要基于HoodieFlinkStreamer做额外的开发。Hudi增量ETL在DWS层需要数据聚合的场景的下，可以通过Flink Streaming Read将Hudi作为一个无界流，通过Flink计算引擎完成数据实时聚合计算写入到Hudi表。

01

（译）Google 发布 Kubernetes Operator for Spark

Apache Spark是一个流行的执行框架，用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持，可用于内部部署的或者公有云的 Hadoop 服务，例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc，也可以在 Mesos 集群上运行。

01

Amazon EBS vs S3 vs

2、s3-hosted p_w_picpaths 和EBS-backed p_w_picpaths的比较分析；

03

元数据性能大比拼：HDFS vs S3 vs JuiceFS

元数据是存储系统的核心大脑，元数据性能对整个大数据平台的性能和扩展能力至关重要。尤其在处理海量文件的时候。在平台任务创建、运行和结束提交阶段，会存在大量的元数据 create，open，rename 和 delete 操作。因此，在进行文件系统选型时，元数据性能可谓是首当其冲需要考量的一个因素。

02

在TPC-DS基准测试中CDP数据仓库的性能比EMR快3倍

在先前有关CDW性能的博客文章中，我们将Azure HDInsight与CDW进行了比较。在此博客文章中，我们使用TPC-DS 2.9基准测试比较了使用Cloudera数据平台（CDP ）上的Cloudera数据仓库（CDW）的Apache Hive-LLAP与Amazon上的EMR 6.0（也由Apache Hive-LLAP支持）。亚马逊最近宣布了其最新的EMR版本6.1.0，支持ACID事务。该基准测试是在EMR 6.0版上运行的，因为我们无法使查询在6.1.0版本上成功运行。稍后在博客中对此有更多的了解。

01

EMR 实战心得浅谈

作者｜吴建阳翁建清策划｜褚杏娟 AWS Elastic MapReduce(以下简称 EMR) 是集齐数据接入、存储、计算、交互式查询、机器学习等一系列开源社区组件封装的云上托管大数据平台，用户可以基于 EMR 迅速拉起一套大数据集群，用于大规模数据处理、分析，使用时可根据实际业务所需灵活调配计算资源，一定程度上降低底层基础设施运维成本。AWS 是最早将大数据管理平台上云的云厂商，查询其官网发行版本记录，能检索到的最古老版本 EMR-4.2.0 发布日期为 2015 年 11 月 18 日，当是时

01

云安全：内部共享责任模型

在最近发生的主要云安全事件中，Capital One公司的数据泄露事件影响了美国的1亿人和加拿大的600万人。其实并不只有Capital One公司遭遇网络攻击，黑客Paige A. Thompson与此同时窃取了其他三十多家公司、教育机构和其他实体的数TB的数据。

02

将数据迁移到云：回到未来?

数百家公司现在已经证明，单一数据泄露可能会造成长期的经济，法律和品牌上的损失。除了数据保护之外，仅仅管理云中的数据是不同的，如果做法不当，成本，复杂性和风险会使一切毁于一旦。

00

输错一个字母的代价，亚马逊云服务出现故障四小时

转自：netsmell.com 美国时间本周二，亚马逊 S3 存储服务出现故障。这导致包括美国证券交易委员会、苹果 iCloud、Soundcloud、Slack、芝加哥轨道交通系统 Metra 在内

云中奈飞（一）：Netflix的上云之旅

Netflix（译为奈飞/网飞）公司自1997年创立以来，已发展成为美国最大的互联网流媒体服务商。它从2008到2015年间长达七年的将其所有IT系统从自有数据中心迁移到AWS之上的旅程，在当时可谓前无古人的创举，对公有云的发展、传统企业上云及基于云的业务转型等都有很大的推动和促进作用。虽然已过去多年，有些东西已略微显得过时，但奈飞上云的理念、步骤、做法等，对当今企业上云及用云仍有很大的参考价值。

01

为什么云计算数据保护需要“备份即服务”模式

云计算软件如今变得越来越复杂，使其监控、备份和安全变得越来越困难。考虑到公有云数据泄露造成的平均损失为500万美元，企业正在重新考虑他们的云计算数据保护策略。

02

女朋友问小灰：什么是数据仓库？什么是数据湖？什么是智能湖仓？

作为程序员，我们写的大多数商业项目，往往都需要用到大量的数据。计算机的内存，可以实现数据的快速存储和访问。

03

「云网络安全」为AWS S3和Yum执行Squid访问策略

在本文中，我们将设置一个示例情况，展示如何使用开源Squid代理从Amazon虚拟私有云(VPC)中控制对Amazon简单存储服务(S3)的访问。首先，您将配置Squid以允许访问Linux Yum存储库。接下来，您将配置Squid，以限制对已批准的Amazon S3 bucket列表的访问。然后，您将配置Squid以根据URL直接流量，将一些请求发送到Internet网关(IGW)，并将其他流量发送到虚拟专用网关(VGW)。最后，您将探索使Squid高度可用的选项。

02

数据湖十年风雨路，AWS缘何脱颖而出

从2010年Pentaho公司的创始人兼首席技术官詹姆斯·狄克逊(James Dixon)首次提出数据湖的概念开始，数据湖十年发展之路可谓是兜兜转转、起起伏伏。在这期间，既有开源厂商们提出的各种营销理念，也有传统存储厂商打造的各类解决方案，更有业界对于数据湖带来的数据沼泽、数据价值探索等问题的深入思考。

01

Amazon DynamoDB

DynamoDB 是Amazon最新发布的NoSQL产品，那什么是DynamoDB呢？

03

大数据存储与处理技术探索：Hadoop HDFS与Amazon S3的无尽可能性【上进小菜猪大数据】

大数据时代带来了数据规模的爆炸性增长，对于高效存储和处理海量数据的需求也日益迫切。本文将探索两种重要的大数据存储与处理技术：Hadoop HDFS和Amazon S3。我们将深入了解它们的特点、架构以及如何使用它们来构建可扩展的大数据解决方案。本文还将提供代码实例来说明如何使用这些技术来处理大规模数据集。

02

一个美观且支持对接多个存储的多用户网盘程序：BeDrive V2.0.9

说明：BeDrive是一款支持多用户的商业版网盘程序，功能强大，支持对接Amazon S3、DigitalOcean、Dropbox、FTP等存储，界面很漂亮，安装也简单，不过这是一款收费的程序，目前官方更新到了V2.0.9，这里就分享下由顶点网破解的BeDrive V2.0.9程序，博主用了下，感觉还行，不过不是很适合个人使用，有兴趣的可以用下。

01

AWS CTO对过去十年的经验总结 – 十条军规

AWS（Amazon Web Service）开始于 2006 年 3 月 14 日 Amazon S3 的发布，距今已有十年时间。回首过去十年，我们在构建和运营 AWS 云计算服务中积累了大量的经验教训——这些服务不仅需要确保安全性、可用性和可扩展性，同时还要以尽可能低廉的成本提供可预测的性能。考虑到 AWS 是世界范围内构建和运营此类服务的开拓者，这些经验教训对我们的业务来说至关重要。正如我们多次重申的，“经验不存在压缩算法”。考虑到 AWS拥有每月超过一百万的活跃用户，而这些用户也许会为数以亿计的自家客户提供服务。因此，积累上述经验教训的机会在 AWS 比比皆是，在这些经验教训中，我挑选了一些分享给大家，希望对各位也能有所帮助。

02

数据湖火了，那数据仓库怎么办？

这是《未来简史》中提出的三个革命性观点。一本书短短百页，让我们看到了世界颠覆性的变化，从计算机，到互联网，再到大数据、人工智能，所有的变化都在以一种肉眼可观却又无法捕捉的状态悄然发生着，而推动变化发生的背后，则是数据价值的提升。

01

面经：HDFS分布式文件系统原理与故障排查

作为一名专注于大数据存储与处理技术的博主，我深知Hadoop Distributed File System（HDFS）作为一款广泛应用的分布式文件系统，在大数据生态系统中的基石地位。本篇博客将结合我个人的面试经历，深入剖析HDFS的底层原理、关键特性及其故障排查方法，分享面试必备知识点，并通过示例进一步加深理解，助您在求职过程中自信应对与HDFS相关的技术考察。

01

最强 AWS 的十条军规，首席技术官总结过去十年的经验

AWS（Amazon Web Service）开始于 2006 年 3 月 14 日 Amazon S3 的发布，距今已有十年时间。回首过去十年，我们在构建和运营 AWS 云计算服务中积累了大量的经验教训——这些服务不仅需要确保安全性、可用性和可扩展性，同时还要以尽可能低廉的成本提供可预测的性能。考虑到 AWS 是世界范围内构建和运营此类服务的开拓者，这些经验教训对我们的业务来说至关重要。正如我们多次重申的，“经验不存在压缩算法”。考虑到 AWS拥有每月超过一百万的活跃用户，而这些用户也许会为数以亿计的自家客户提供服务。因此，积累上述经验教训的机会在 AWS 比比皆是，在这些经验教训中，我挑选了一些分享给大家，希望对各位也能有所帮助。

03

【系统设计】S3 对象存储

在本文中，我们设计了一个类似于 Amazon Simple Storage Service (S3) 的对象存储服务。S3 是 Amazon Web Services (AWS) 提供的一项服务，它通过基于 RESTful API 的接口提供对象存储。根据亚马逊的报告，到 2021 年，有超过 100 万亿个对象存储在 S3 中。

03

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

Apache Hudi vs Delta Lake：透明TPC-DS Lakehouse性能基准

最近几周，人们对比较 Hudi、Delta 和 Iceberg 的表现越来越感兴趣[1]。我们认为社区应该得到更透明和可重复的分析。我们想就如何执行和呈现这些基准、它们带来什么价值以及我们应该如何解释它们添加我们的观点。

02

借助亚马逊S3和RapidMiner将机器学习应用到文本挖掘

本挖掘典型地运用了机器学习技术，例如聚类，分类，关联规则，和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报，生命科学，客户呼声，媒体和出版，法律和税收，法律实施，情感分析和趋势识别。在本篇博客帖中，你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用RapidMiner（一款流行的预测分析开源工具）和亚马逊S3业务来创建一个文件挖掘应用。亚马逊S3业务是一项易用的存储服务，可使组织在网页上的任何地方存储和检索任意数量的数据。掘模型产生的结果可以得到持续的推导并

03

如何将机器学习技术应用到文本挖掘中

本挖掘典型地运用了机器学习技术，例如聚类，分类，关联规则，和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报，生命科学，客户呼声，媒体和出版，法律和税收，法律实施，情感分析和趋势识别。在本篇博客帖中，你将会学习到如何将机器学习技术应用到文本挖掘中。我将会向你展示如何使用RapidMiner（一款流行的预测分析开源工具）和亚马逊S3业务来创建一个文件挖掘应用。亚马逊S3业务是一项易用的存储服务，可使组织在网页上的任何地方存储和检索任意数量的数据。掘模型产生的结果可以得到持续的推

06

下一个风口-基于数据湖架构下的数据治理

随着大数据、人工智能、云计算、物联网等数字化技术的普及和广泛应用，传统的数据仓库模式，在快速发展的企业面前已然显的力不从心。数据湖，是可以容纳大量的原始数据的存储库和处理系统，已经成为企业应用大数据的重要工具。数据湖可以更好地支撑数据预测分析、跨领域分析、主动分析、实时分析以及多元化结构化数据分析，可以加速从数据到价值的过程，打造相应业务能力。而有效的数据治理才是数据资产形成的必要条件，同时数据治理是一个持续性过程，也是数据湖逐步实现数据价值的过程。未来在多方技术趋于融合，落地场景将不断创新，数据湖、数据治理或将成为新的技术热点。

05

不要将自己锁定在自己的架构中

早在2006年，事务处理的开山鼻祖，数据库领域图领奖得主Jim Gray与Werner Vogels 进行了“第一次”对话。对话的主题是“向亚马逊技术平台学习”，而吊诡之处在于，Jim Gray所开创的事务处理是亚马逊电子商务的技术基础。

02

DevOps工具介绍连载（19）——Amazon Web Services

很多公司选择AWS作为其IT解决方案，AWS有很多云服务，以下介绍AWS中几类比较重要的服务。

03

后Hadoop时代的大数据架构

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。适合处理非结构化数据，包括HDFS，MapReduce基本组件。 HDFS：提供

08

构建和维护星球最强对象存储系统的一点微小经验

截至 2023 年，Amazon S3 自 2006 年上线以来，已经 17 岁了。在开始之前，我们首先看下Andy Warfield 给出的一组数据，来感受下星球最强的对象存储已经到了什么量级：

03

组件分享之后端组件——一个简单且高度可扩展的分布式文件系统seaweedfs

近期正在探索前端、后端、系统端各类常用组件与工具，对其一些常见的组件进行再次整理一下，形成标准化组件专题，后续该专题将包含各类语言中的一些常用组件。

03

设计实践：AWS IoT解决方案

随着物联网设备的激增，企业需要一种解决方案来收集、存储和分析其设备的数据。Amazon Web Services提供了一些有用的工具，可为IoT设备设计强大的数据管道。

00

后Hadoop时代的大数据架构

感谢董飞先生投稿，推荐关注其知乎专栏【董老师在硅谷 http://zhuanlan.zhihu.com/#/donglaoshi】提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给大家

05

【聚焦】后Hadoop时代的大数据架构

提到大数据分析平台，不得不说Hadoop系统，Hadoop到现在也超过10年的历史了，很多东西发生了变化，版本也从0.x进化到目前的2.6版本。我把2012年后定义成后Hadoop平台时代，这不是说不用Hadoop，而是像NoSQL （Not Only SQL）那样，有其他的选型补充。我在知乎上也写过Hadoop的一些入门文章如何学习Hadoop - 董飞的回答，为了给大家有个铺垫，简单讲一些相关开源组件。背景篇 Hadoop: 开源的数据分析平台，解决了大数据（大到一台计算机无法进行存储，一台计算机无

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭