开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

尝试使用Apache Beam进行读/写时，“找不到方案s3的文件系统”

Apache Beam是一个用于大数据处理的开源框架，它提供了一种统一的编程模型，可以在不同的分布式处理引擎上运行，如Apache Flink、Apache Spark和Google Cloud Dataflow等。在使用Apache Beam进行读/写操作时，如果出现“找不到方案s3的文件系统”错误，这通常是由于缺少对Amazon S3文件系统的支持库引起的。

解决这个问题的方法是安装并配置适当的Amazon S3文件系统支持库。以下是一些可能的解决方案：

确保你的环境中已经安装了适当的Amazon S3文件系统支持库。你可以通过在命令行中运行pip install apache-beam[s3]来安装Apache Beam的Amazon S3支持库。
检查你的代码中是否正确引入了Amazon S3文件系统支持库。你可以在代码中添加以下导入语句来引入Amazon S3支持库：

from apache_beam.io import ReadFromText, WriteToText

确保你的Amazon S3凭证正确配置。你需要提供有效的访问密钥和密钥ID，以便Apache Beam可以访问和操作Amazon S3存储桶。你可以在代码中使用以下方式配置凭证：

options = {
    'project': 'your-project-id',
    'runner': 'DataflowRunner',
    'region': 'your-region',
    'staging_location': 'gs://your-bucket/staging',
    'temp_location': 'gs://your-bucket/temp',
    'job_name': 'your-job-name',
    'credentials': 'path/to/your/credentials.json',
}

其中，credentials字段指定了你的凭证文件的路径。

确保你的代码中正确指定了Amazon S3文件系统的URI。你可以在代码中使用以下方式指定Amazon S3文件系统的URI：

input_uri = 's3://your-bucket/input.txt'
output_uri = 's3://your-bucket/output.txt'

其中，your-bucket是你的Amazon S3存储桶的名称。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云对象存储（COS）：提供高可靠、低成本的云端存储服务，适用于存储和处理大规模非结构化数据。产品介绍链接：https://cloud.tencent.com/product/cos
腾讯云数据万象（CI）：提供图片处理、内容审核、智能鉴黄等功能，帮助用户快速构建多媒体处理应用。产品介绍链接：https://cloud.tencent.com/product/ci
腾讯云云服务器（CVM）：提供灵活可扩展的云服务器，支持多种操作系统和应用场景。产品介绍链接：https://cloud.tencent.com/product/cvm
腾讯云云数据库MySQL版（TencentDB for MySQL）：提供高性能、可扩展的云数据库服务，适用于各种规模的应用。产品介绍链接：https://cloud.tencent.com/product/cdb_mysql
腾讯云人工智能（AI）：提供丰富的人工智能服务，包括图像识别、语音识别、自然语言处理等。产品介绍链接：https://cloud.tencent.com/product/ai

相关搜索:GSSException:尝试使用kerberos票证进行身份验证时，找不到1.2.840.113554.1.2.2的凭据 “在此文件夹中找不到匹配的符号文件”。尝试使用转储文件进行调试时出现此错误使用Apache Beam进行数据流批量加载时的性能问题尝试使用Apache POI XSLF进行setFillColor时的IllegalStateException 尝试使用GEKKO OPTIMIZER时，“找不到与指定签名匹配的循环并为ufunc solve进行强制转换”将项目插入数据库时，集合视图不显示项目(核心数据)Visual Studio2010和Access上的LIKE命令问题，VB.NET 运行数据库迁移时使用特定的数据库连接在超链接列表中组合word文档在Android Studio (2.3.3)中包含对Android的支持

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

JuiceFS 专为云上大数据打造的存储方案

JuiceFS 是一款面向云原生设计的高性能共享文件系统，在 Apache 2.0 开源协议下发布。提供完备的 POSIX 兼容性，可将几乎所有对象存储接入本地作为海量本地磁盘使用，亦可同时在跨平台、跨地区的不同主机上挂载读写。

01

ApacheHudi与其他类似系统的比较

Apache Hudi填补了在DFS上处理数据的巨大空白，并可以和一些大数据技术很好地共存。然而，将Hudi与一些相关系统进行对比，来了解Hudi如何适应当前的大数据生态系统，并知晓这些系统在设计中做的不同权衡仍将非常有用。

02

Apache下流处理项目巡览

我们的产品需要对来自不同数据源的大数据进行采集，从数据源的多样化以及处理数据的低延迟与可伸缩角度考虑，需要选择适合项目的大数据流处理平台。我最初列出的候选平台包括Flume、Flink、Kafka Streaming以及Spark Streaming。然而对产品架构而言，这个技术选型的决策可谓举足轻重，倘若选择不当，可能会导致较大的修改成本，须得慎之又慎。我除了在项目中曾经使用过Flume、Kafka以及Spark Streaming之外，对其余平台并不甚了解。即便是用过的这几个平台，也了解得比较

06

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

03

JuiceFS 新手必知 24 问

JuiceFS 是一个创新性的软件产品，很多初次尝试的小伙伴对产品和用法感到很多疑惑，所以为了帮助大家快速理解并上手 JuiceFS，我们整理了24个关于 JuiceFS 经典的问题答案，相信经过这 24 问，大家对 JuiceFS 会有更清晰的认识，使用上也会更加得心应手。

01

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

数仓工作的简单介绍和对比

参考：https://suncle.me/2018/04/16/Hadoop-MapReduce-HDFS-Introduction/

03

分布式文件系统：JuiceFS 技术架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-90ZtG0tw-1687771442157)(https://juicefs.com/docs/zh/assets/images/juicefs-arch-new-ab6339cb1408945cc9b70dc091c523c5.png)]

01

Ozone-适用于各种工作负载的灵活高效的存储系统

Apache Ozone 是一种分布式、可扩展和高性能的对象存储，可与Cloudera 数据平台(CDP) 一起使用，可以扩展到数十亿个不同大小的对象。它被设计为原生的对象存储，可提供极高的规模、性能和可靠性，以使用 S3 API 或传统的 Hadoop API 处理多个分析工作负载。

02

计算引擎之下，存储之上 - 数据湖初探

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

04

【翻译】Airflow最佳实践

原文：https://airflow.apache.org/docs/apache-airflow/stable/best-practices.html

01

Pingo的多存储后端数据联合查询技术

Alluxio（见文末链接1）是源自UC Berkeley AMPLab的研究项目Tachyon。作为一个开源的数据编排系统，Alluxio以内存速度统一数据访问。在大数据生态系统中，Alluxio 位于数据驱动框架或应用（如 Apache Spark、Presto等）和各种持久化存储系统（如 Amazon S3、HDFS等）之间。Alluxio 统一了存储在这些不同存储系统中的数据，为其上层数据驱动应用提供统一的客户端 API 和全局文件系统命名空间。

03

No FileSystem for scheme "s3"问题解决

公司使用s3的路径去关联hive的分区，现在接入spark on k8s引入了3.0以上的hadoop版本，高版本的hadoop版本开始支持s3a配置。

03

原理剖析：AutoMQ 如何基于裸设备实现高性能的 WAL

AutoMQ 是一个建立在 S3 Stream 流存储库基础上的 Apache Kafka 云原生重塑解决方案。S3 Stream 利用云盘和对象存储，将对象存储作为主存储，将云盘作为缓冲区，实现了低延迟、高吞吐、“无限”容量和低成本的流式存储。

00

Apache Submarine

Hadoop Submarine这个项目是很少被人知道的，因为想去了解他的这个群体本身就非常的小。但是它其实在尝试解决一个很关键的问题，就是如何更高效的让分布式的DL负载跑在不同的资源框架下。

02

用于ETL的Python数据转换工具详解

做数据仓库系统，ETL是关键的一环。说大了，ETL是数据整合解决方案，说小了，就是倒数据的工具。回忆一下工作这么些年来，处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量，使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中，ETL上升到了一定的理论高度，和原来小打小闹的工具使用不同了。究竟什么不同，从名字上就可以看到，人家已经将倒数据的过程分成3个步骤，E、T、L分别代表抽取、转换和装载。

03

Apache Hudi与机器学习特征存储

如果在训练和推理系统中特征工程代码不相同，则存在代码不一致的风险，因此，预测可能不可靠，因为特征可能不相同。一种解决方案是让特征工程作业将特征据写入在线和离线数据库。训练和推理应用程序在做出预测时都需要读取特征-在线应用可能需要低延迟（实时）访问该特征数据，另一种解决方案是使用共享特征工程库（在线应用程序和训练应用程序使用相同的共享库）。

02

JuiceFS 在火山引擎边缘计算的应用实践

火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础，构建在边缘大规模基础设施之上的云计算服务，形成以边缘位置的计算、网络、存储、安全、智能为核心能力的新一代分布式云计算解决方案。

02

JuiceFS 在火山引擎边缘计算的应用实践

火山引擎边缘云是以云计算基础技术和边缘异构算力结合网络为基础，构建在边缘大规模基础设施之上的云计算服务，形成以边缘位置的计算、网络、存储、安全、智能为核心能力的新一代分布式云计算解决方案。

02

数据湖｜Flink + Iceberg 全场景实时数仓的建设实践

摘要：Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构，以 Iceberg、Hudi、Delta 为代表的解决方案应运而生，Iceberg 目前支持 Flink 通过 DataStream API /Table API 将数据写入 Iceberg 的表，并提供对 Apache Flink 1.11.x 的集成支持。

04

Presto Hive连接器

Presto仅使用前两个组件：数据和元数据。它不使用HiveQL或Hive执行环境的任何一部分。

02

ClickHouse 冷热分离存储在得物的实践

得物上一代日志平台的存储主要依赖于 ES。随着公司业务的高速发展，日志场景逐步产生了一些新需求，主要表现在：应用数量逐步增多，研发需要打印更多的日志定位业务问题，安全合规需要保留更长时间的日志。随着 Clickhouse 的应用广泛，我们了解到行业部分知名公司已经将日志平台逐步由 ES 迁移至Clickhouse，以此来获取更好的写入性能与高压缩比。因此我们与日志平台研发团队开始进行日志平台新存储的选型评估，本文会介绍我们如何通过 Clickhouse 的冷热分离存储替代 ES 的实施方案。

02

[PHP] 存储改造中的逻辑和清理遗留的问题

现象:用户读信时,根据路径的哈希结果,访问四台服务器中一台请求文件,这四台缓存机器已经下线,访问不到再去后端存储访问浪费了时间

02

如何利用 JuiceFS 的性能工具做文件系统分析和调优

JuiceFS 是一款面向云原生环境设计的高性能 POSIX 文件系统，在 AGPL v3.0 开源协议下发布。作为一个云上的分布式文件系统，任何存入 JuiceFS 的数据都会按照一定规则拆分成数据块存入对象存储（如 Amazon S3），相对应的元数据则持久化在独立的数据库中。这种结构决定了 JuiceFS 的存储空间可以根据数据量弹性伸缩，可靠地存储大规模的数据，同时支持在多主机之间共享挂载，实现跨云跨地区的数据共享和迁移。

04

社交产品后端架构设计

本篇文章会向读者展示几个架构设计的关键点，使一个社交应用能够成为真正的下一代社交产品。以下几个属性将会影响到架构的设计： a）可用性 b）可扩展性 c）性能和灵活性可扩展目标 a）确保用户的内容数据能够很方便的被其他用户发现和获取. b）确保内容推送是相关的，不仅在语义上，也是从用户设备的角度。 c）确保实时更新生成、推送和分析。 d）尽可能地节省用户的资源。 e）不论服务器负载变化如何，用户体验应保持不变。 f）确保应用整体上是安全的总之，我们要处理一个相当大的挑战，我们必须处理不断扩大的海量用户

07

大数据开源框架技术汇总

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

02

大数据存储与处理技术探索：Hadoop HDFS与Amazon S3的无尽可能性【上进小菜猪大数据】

大数据时代带来了数据规模的爆炸性增长，对于高效存储和处理海量数据的需求也日益迫切。本文将探索两种重要的大数据存储与处理技术：Hadoop HDFS和Amazon S3。我们将深入了解它们的特点、架构以及如何使用它们来构建可扩展的大数据解决方案。本文还将提供代码实例来说明如何使用这些技术来处理大规模数据集。

02

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。

02

理想汽车 x JuiceFS：从 Hadoop 到云原生的演进与思考

第一个时期： 2006 年到 2008 年。2008 年左右，Hadoop 成为了 Apache 顶级项目，并正式发布了 1.0 版本，它的基础主要是基于谷歌的三驾马车，GFS、MapReduce、BigTable 去定义的。

04

Flink技术内幕之文件系统

Flink 通过 org.apache.flink.core.fs.FileSystem 类有自己的文件系统抽象。这种抽象提供了一组通用的操作和跨各种类型的文件系统实现的最小保证。

03

POSIX 真的不适合对象存储吗？

最近，留意到 MinIO 官方博客的一篇题为“在对象存储上实现 POSIX 访问接口是坏主意”的文章，作者以 S3FS-FUSE 为例分享了通过 POSIX 方式访问 MinIO 中的数据时碰到了性能方面的困难，性能远不如直接访问 MinIO。在对结果进行分析时，作者认为是 POSIX 本身存在的缺陷导致的性能问题。这个结论与我们既有经验有一定出入。

02

通过 Java 来学习 Apache Beam

作者 | Fabio Hiroki 译者 | 明知山策划 | 丁晓昀 ‍在本文中，我们将介绍 Apache Beam，这是一个强大的批处理和流式处理开源项目，eBay 等大公司用它来集成流式处理管道，Mozilla 用它来在系统之间安全地移动数据。‍ 概览 Apache Beam 是一种处理数据的编程模型，支持批处理和流式处理。你可以使用它提供的 Java、Python 和 Go SDK 开发管道，然后选择运行管道的后端。 Apache Beam 的优势 Beam 的编程模型内

03

理想汽车：从 Hadoop 到云原生的演进与思考

作者 | 聂磊策划 | Tina 云原生架构下，基于 Hadoop 技术栈搭建数据平台应该如何改造？理想汽车大数据平台涉及的组件多，在从 Hadoop 到云原生演进的过程中边探索，边实践，积累了不少一手经验；同时，他们率先在对象存储上使用 JuiceFS，实现平台级文件共享、跨平台使用海量数据等场景。 1 理想汽车在 Hadoop 时代的技术架构首先简单回顾下大数据技术的发展，基于我个人的理解，将大数据的发展分了 4 个时期：第一个时期：2006 年到 2008 年。2008 年左右，H

01

浅析 SeaweedFS 与 JuiceFS 架构异同

SeaweedFS 是一款高效的分布式文件存储系统，最早的设计原型参考了 Facebook 的 Haystack，具有快速读写小数据块的能力。本文将通过对比 SeaweedFS 与 JuiceFS 在设计与功能上的差异，以帮助读者进行更适合自己的选择。

02

浅谈 Raft 分布式一致性协议｜图解 Raft

本篇文章将模拟一个KV数据读写服务，从提供单一节点读写服务，到结合分布式一致性协议（Raft）后，逐步扩展为一个分布式的，满足一致性读写需求的读写服务的过程。

05

多云缓存在知乎的探索：从 UnionStore 到 Alluxio

作者 | 胡梦宇审校 | 蔡芳芳 1 背景随着云原生技术的飞速发展，各大公有云厂商提供的云服务也变得越来越标准、可靠和易用。凭借着云原生技术，用户不仅可以在不同的云上低成本部署自己的业务，而且还可以享受到每一个云厂商在特定技术领域上的优势服务，因此多云架构备受青睐。知乎目前采用了多云架构，主要是基于以下考虑：服务多活：将同一个服务部署到不同的数据中心，防止单一数据中心因不可抗力不能正常提供服务，导致业务被“一锅端”；容量扩展：一般而言，在公司的服务器规模达到万台时，单一数据中心就很难

03

Spark整体架构

Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

02

基于JuiceFS 的低成本 Elasticsearch 云上备份存储

Elasticsearch 的数据备份是通过快照机制实现的。为了完成集群的快照，需要依赖一个共享存储系统，即所有节点需要挂载到共享存储的同一个目录，并且每个节点对此目录需有读写权限，最初我们使用 NAS（即 NFS）来实现备份，这个方案也已经稳定运行多年。

02

代达罗斯之殇-大数据领域小文件问题解决攻略

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

02

0918-Apache Ozone简介

Ozone 是 Hadoop 的分布式对象存储系统，具有易扩展和冗余存储的特点。Ozone 不仅能存储数十亿个不同大小的对象，还支持在容器化环境（比如 Kubernetes）中运行。Apache Spark、Hive 和 YARN 等应用无需任何修改即可使用 Ozone。Ozone 提供了 Java API、S3 接口和命令行接口，极大地方便了 Ozone 在不同应用场景下的使用。

01

Linux文件的默认权限与查找命令详解

今天被csdn坑了！昨晚写了一夜的博客，保存到线上草稿了！可是今天打开博客，草稿箱里也找不到，发布的文章中也找不到！作为一家专门研讨技术的网站，居然还会在技术上出现这种问题，这分明就是在打自己的脸啊！抱怨的话不多说，现在只好重起炉灶、自认倒霉了。为就接着从文件权限管理开始说，等那天有精力了再把消失的那一段内容给补上。文件/目录的默认权限和隐藏权限在前面几篇博客中为也已经提过，文件/目录的基本权限有rwx，那么除了这三个基本权限，Linux使用的ext2/ext3文件系统还存在着文件/目录的隐藏权限

从 Hadoop 到云原生，大数据平台如何做存算分离

作者 | 苏锐策划 | Tina Hadoop 的诞生改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，受到广泛的应用，给整个行业带来了变革意义的改变；随着云计算时代的到来，存算分离的架构受到青睐，企业开开始对 Hadoop 的架构进行改造。今天与大家一起简单回顾 Hadoop 架构以及目前市面上不同的存算分离的架构方案，他们的利弊各有哪些，希望可以给正在存算分离架构改造的企业一些参考和启发。 Hadoop 存算耦合架构回顾 2006 年 Hadoop 刚发布，这是一个 all-i

02

知乎 x JuiceFS：利用 JuiceFS 给 Flink 容器启动加速

Flink 因为其可靠性和易用性，已经成为当前最流行的流处理框架之一，在流计算领域占据了主导地位。早在 18 年知乎就引入了 Flink，发展到现在，Flink 已经成为知乎内部最重要的组件之一，积累了 4000 多个 Flink 实时任务，每天处理 PB 级的数据。

01

有状态流处理:Flink状态后端

这篇文章我们将深入探讨有状态流处理，更确切地说是 Flink 中可用的不同状态后端。在以下部分，我们将介绍 Flink 的3个状态后端，它们的局限性以及根据具体案例需求选择最合适的状态后端。

02

【快速入门大数据】前沿技术拓展Spark,Flink,Beam

Spark、Flink、Beam Beam编写完适用于Spark、Flink使用

02

【Shopee】大数据存储加速与服务化在Shopee的实践

存储结构：目前虾皮的存储结构从上到下主要分为存储层、调度层、计算引擎层和平台管理层。

03

分层存储救不了Kafka

Apache Kafka 自诞生之日起，就以其卓越的设计和强大的功能，成为了流处理领域的标杆。它不仅定义了现代流处理架构，更以其独特的分布式日志抽象，为实时数据流的处理和分析提供了前所未有的能力。Kafka 的成功，在于它能够满足各种规模企业对于高吞吐量、低延迟数据处理的需求，经过多年的发展铸就了极其丰富的 Kafka 生态，成为了事实上的行业标准。

00

小米云原生文件存储平台化实践：支撑 AI 训练、大模型、容器平台多项业务

小米作为全球知名的科技巨头公司，已经在数百款产品中广泛应用了 AI 技术，这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。

02

云原生数据库设计新思路

本文作者为 PingCAP 联合创始人兼 CTO 黄东旭，将分享分布式数据库的发展趋势以及云原生数据库设计的新思路。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭