databricks - mounted S3 -如何获取文件元数据，如上次修改日期(Python)_databricks dbfs是否支持文件元数据，如文件/文件夹创建日期或修改日期 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

云端共享文件系统 JuiceFS 在 2021 年选择开源

今天，云原生分布式文件系统官方公众号 Juicedata果汁数据科技发布消息称 JuiceFS 已经开源了！

01

一个理想的数据湖应具备哪些功能？

从数据库到数据仓库，最后到数据湖[1]，随着数据量和数据源的增加，数据格局正在迅速变化。数据湖市场预计增长近 30%[2]，将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看，数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0，该趋势可能会增长，该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能，使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析，将会推动该领域创新。

04

您找到你想要的搜索结果了吗？

是的

没有找到

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Lakehouse架构指南

你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求？数据湖包括哪些组件和功能？

02

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

抛弃Hadoop，数据湖才能重获新生

十年前，Hadoop 是解决大规模数据分析的“白热化”方法，如今却被企业加速抛弃。曾经顶级的 Hadoop 供应商都在为生存而战，Cloudera 于本月完成了私有化过程，黯然退市。MapR 被 HPE 收购，成为 HPE Ezmeral 平台的一部分，该平台尚未在调查中显示所占据的市场份额。

01

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

数据仓库与数据湖与湖仓一体：概述及比较

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户，公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计，2017 年每天会生成 2.5 百亿字节的数据，到 2025 年，这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据，那么这些数据又有什么用呢？针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。

01

Spark云服务进展（Databricks Runtime 3.0）

Databricks是spark商业孵化公司，主要做的工作是在AWS上提供SaaS化的spark服务。最近在databricks博客上公布了做的一些有意思的进展： Databricks把这个称为Runtime artifact，包括Apache Spark和其他软件，如Scala，Python，DBIO和DBES。以前，云上的版本和spark是同一个版本，Databricks准备和spark版本解耦出来，单独命名版本号，Databricks Runtime3.0配套spark 2.2。相比spark，D

07

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题：什么是数据工程（Data Engineering）？如何成为一名数据科学家（Data Scientist）？什么是数据分析师（Data Analyst）？

08

001.Ceph简介概述

Red Hat Ceph是一个分布式的数据对象存储，系统设计旨在性能、可靠性和可扩展性上能够提供优秀的存储服务。分布式对象存储是存储的未来，因为它们适应非结构化数据，并且客户端可以同时使用当前及传统的对象接口进行数据存取。例如：

02

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

【CEPH-初识篇】ceph详细介绍、搭建集群及使用，带你认识新大陆

Ceph在一个统一的系统中独特地提供对象、块和文件存储。Ceph 高度可靠、易于管理且免费。Ceph 的强大功能可以改变您公司的 IT 基础架构和管理大量数据的能力。Ceph 提供了非凡的可扩展性——数以千计的客户端访问 PB 到 EB 的数据。ceph存储集群相互通信以动态复制和重新分配数据。

02

GenAI技术栈架构指南—10 个工具

我之前写过关于现代数据湖参考架构，解决了每个企业面临的挑战 — 更多数据、老化的 Hadoop 工具（特别是 HDFS）以及对 RESTful API（S3）和性能的更大需求 — 但我想填补一些空白。

01

关于 Lakehouse 的一些笔记和看法

这是最经典的数据仓库模型，模型上面的不多说，可以参考数据仓库理论。从技术角度上来说，

01

对话Apache Hudi VP，洞悉数据湖的过去现在和未来

Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。

02

为什么说存储和计算分离的架构才是未来

编者按：本文最初发表于 2018.07.07 JuiceFS 官方博客，那是还没有开始这个公众号，官博去年的文章里这篇阅读最多，所以在官微中也发一次，方便读者引用、转发、收藏。

02

2024 年 4 月 Apache Hudi 社区新闻

https://github.com/apache/hudi/pull/10949

01

（译）Google 发布 Kubernetes Operator for Spark

Apache Spark是一个流行的执行框架，用于执行数据工程和机器学习方面的工作负载。他提供 Databricks 平台的支持，可用于内部部署的或者公有云的 Hadoop 服务，例如 Azure HDInsight、Amazon EMR、以及 Google Cloud Dataproc，也可以在 Mesos 集群上运行。

01

大数据之Hadoop vs. Spark，如何取舍?

Hadoop在大数据领域享有多年垄断权，随着该领域开始出现新生力量，其统治地位正在逐渐下滑。年初的调查中，Hadoop被列为2018年大数据领域的“渐冻”趋势之一，Gartner的调查也揭示了Hado

08

Presto 和 Trino Deltalake 原理调研和总结

最近在了解 Presto 和 Trino 对于 Deltalake Connector 的相关实现原理，这里了解完刚好用一篇文章总结下，一是可以帮助自己未来的回顾，二是也希望能够帮助大家，下面都是个人理解，若理解有误，欢迎指出，共勉。

01

数据平台竞技场 2024：AI 或成为必杀技，但面临三个致命挑战

笔者在 2021 年底，曾应科技媒体 InfoQ 的邀请，总结了 2021 年的数据平台架构（详见：解读数据架构的 2021：大数据 1.0 体系基本建成，但头上仍有几朵乌云），提出了的 2021 年的 5 个热点、4 个趋势和 3 个挑战。在过去的两年，数据架构领域发生了很多重大变化（很多是拐点级变化），例如大模型技术突破、向量检索成为热点、半 / 非结构化类 Dark Data 开始被关注等等。作为数据平台从业者，笔者经常被问到“下一代数据平台发展趋势？”或者“AI 平台和数据平台是否应该一体”等问题。

01

计算引擎之下，存储之上 - 数据湖初探

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

04

技术雷达最新动向：超级应用程序趋势不再、平台也需产品化

作者 | Thoughtworks 策划 | Tina 技术雷达是 Thoughtworks 每半年发布一次的技术趋势报告，它持续追踪有趣的技术是如何发展的，我们将其称之为条目。技术雷达使用象限和环对其进行分类，不同象限代表不同种类的技术，而环则代表我们对其作出的成熟度评估。经过半年的追踪与沉淀，Thoughtworks TAB（Thoughtworks 技术咨询委员会）根据我们在多个行业中的实践案例，为技术者产出了第 27 期技术雷达。对百余个技术条目进行分析，阐述它们目前的成熟度，并提供了相应的技

02

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

Apache Spark 2.0预览：机器学习模型持久性

以上所有应用场景在模型持久性、保存和加载模型的能力方面都更为容易。随着Apache Spark 2.0即将发布，Spark的机器学习库MLlib将在DataFrame-based的API中对ML提供长期的近乎完整的支持。本博客给出了关于它的早期概述、代码示例以及MLlib的持久性API的一些细节。

08

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache Spark 3.0.0正式发布！

00

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

02

飞总带大家解读 AWS re:Invent 2022大数据相关的发布，一句话总结：惨不忍睹。。。

兴致勃勃的在网络上看了亚马逊AWS年度大会re:Invent2022。我每年有空就会看，虽然从来没去LasVegas现场参观。

02

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。

03

数据湖框架之技术选型-Hudi、Delta Lake、Iceberg和Paimon

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。

00

重磅！Onehouse 携手微软、谷歌宣布开源 OneTable

湖仓一体架构模式的两个关键支柱是开放性和互操作性。在云存储系统（如S3、GCS、ADLS）上构建数据湖仓，并将数据存储在开放格式中，提供了一个您技术栈中几乎每个数据服务都可以利用的无处不在的基础。

03

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

02

Aftermath：一款针对macOS的免费开源事件响应框架

Aftermath是一款针对macOS的事件响应框架，该工具基于Swift语言开发，是一款完全免费且开源的网络安全事件响应框架。

02

多云缓存在知乎的探索：从 UnionStore 到 Alluxio

作者 | 胡梦宇审校 | 蔡芳芳 1 背景随着云原生技术的飞速发展，各大公有云厂商提供的云服务也变得越来越标准、可靠和易用。凭借着云原生技术，用户不仅可以在不同的云上低成本部署自己的业务，而且还可以享受到每一个云厂商在特定技术领域上的优势服务，因此多云架构备受青睐。知乎目前采用了多云架构，主要是基于以下考虑：服务多活：将同一个服务部署到不同的数据中心，防止单一数据中心因不可抗力不能正常提供服务，导致业务被“一锅端”；容量扩展：一般而言，在公司的服务器规模达到万台时，单一数据中心就很难

03

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

大数据 | Java 操作 HDFS 常用 API

上篇文章介绍了关于 HDFS 的常用命令，其常用的命令都有相应的 API，用命令可以完成的功能，使用 Java API 也可以完成。本文介绍关于 HDFS 常用的 Java API。

03

都是权限惹的祸 | 安卓恶意APP如何将其他APP中的私有数据搞到手

前言下面要介绍的恶意软件可以读取Android手机中其他app的文件元数据，例如文件的名称、大小、以及最后修改日期等等。如果文件名中含有敏感信息的标识，那么这款恶意app会将这份文件识别为敏感文件，并且还可以对其进行暴力破解攻击。除此之外，它还可以通过分析其他app私有文件的大小和最后修改日期这两部分数据，来对其他app的使用情况进行实时监控。实际上，从Android操作系统的诞生之日起，其文件系统中就一直存在着权限问题。当我将该漏洞提交给Google公司之后，Google将这一漏洞归类为了“低

暗战升级，Databricks 收购 Tabular，Iceberg 社区陷入动荡

紧接着，最近刚刚发生的事件，Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMC Chair 辞职，核心他的担忧是存在利益冲突。

01

【数据仓库】什么是 Azure Synapse，它与 Azure Data Bricks 有何不同？

Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务，它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变，将业务数据存储和宏或大数据分析结合在一起。在处理、管理和提供数据以满足即时商业智能和数据预测需求时，Synapse 为所有工作负载提供单一服务。后者通过与 Power BI 和 Azure 机器学习的集成而成为可能，因为 Synapse 能够使用 ONNX 格式集成数学机器学习模型。它提供了处理和查询大量信息的自由度.作为微软在西班牙为数不多的 Pow

02

数据湖学习文档

参考资料：https://segment.com/blog/cultivating-your-data-lake/

02

Ceph简介

与集中式存储相反，分布式存储通常采用存储单元集群的形式，并具有在集群节点之间进行数据同步和协调的机制。分布式存储最初是由Google提出的，其目的是通过廉价服务器解决大规模，高并发情况下的Web访问问题。

07

Spark Streaming容错的改进和零数据丢失

本文来自Spark Streaming项目带头人Tathagata Das的博客文章，他现在就职于Databricks公司。过去曾在UC Berkeley的AMPLab实验室进行大数据和Spark Streaming的研究工作。本文主要谈及了Spark Streaming容错的改进和零数据丢失的实现。以下为原文：实时流处理系统必须可以7*24小时工作，因此它需要具备从各种系统故障中恢复过来的能力。最开始，Spark Streaming就支持从driver和worker故障中恢复。然而，从有些数据源导入

09

Lakehouse: 统一数据仓库和高级分析的新一代开放平台

数仓架构在未来一段时间内会逐渐消亡，会被一种新的Lakehouse架构取代，该架构主要有如下特性

03

2022年数据工程现状

作者 | Einat Orr 译者 | 平川策划 | Tina 虽然该领域的公司数量在不断增加，但可以看到，其中有几个类别的产品出现了整合迹象。MLOps 趋向于端到端，Notebook 正在进入编排领域，而编排正在转向数据谱系和可观察性。与此同时，我们看到，开放式表格式进入了元存储功能。而在治理层，安全和权限管理工具进入目录领域，反之亦然。本文最初发布于 lakeFS 官方博客。自我们分享“2021 年数据工程现状”已经过了一年。从去年 5 月我们发布那篇文章以来，数据领域并没有多少变

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭