开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

在databricks图中设置轴范围

，是指在绘制图表时，限定横轴和纵轴的范围，以便更好地展示数据的趋势和关系。

设置轴范围可以帮助我们聚焦于感兴趣的数据区域，突出数据的细节和变化。以下是在databricks图中设置轴范围的步骤：

创建图表：在databricks中，可以使用Python或Scala等编程语言创建图表。根据数据类型和需求，选择适当的图表类型，如折线图、柱状图、散点图等。
导入数据：将需要展示的数据导入到databricks中，并进行相应的数据处理和准备工作。确保数据格式正确并且能够正确地被图表使用。
设置轴范围：在创建图表的代码中，通过指定横轴和纵轴的范围参数来设置轴范围。具体的设置方法因使用的编程语言和图表库而异，以下是一个示例：
- Python语言下，使用matplotlib库绘制折线图，设置x轴范围为[0, 10]，y轴范围为[0, 100]的代码示例：
- Python语言下，使用matplotlib库绘制折线图，设置x轴范围为[0, 10]，y轴范围为[0, 100]的代码示例：
- Scala语言下，使用Spark提供的绘图库绘制折线图，设置x轴范围为[0, 10]，y轴范围为[0, 100]的代码示例：
- Scala语言下，使用Spark提供的绘图库绘制折线图，设置x轴范围为[0, 10]，y轴范围为[0, 100]的代码示例：

运行代码：运行代码生成并展示图表。图表将会根据设置的轴范围，仅显示指定的数据区域。

设置轴范围的优势在于可以更好地呈现数据的细节和变化，使得图表更具信息量和可读性。它可以帮助用户更加直观地理解数据，并做出更准确的分析和决策。

设置轴范围的应用场景广泛，包括但不限于：

数据分析和可视化：在数据分析过程中，通过设置轴范围可以将注意力集中在特定的数据范围内，更好地展示数据的趋势和关系。
时间序列数据：对于时间序列数据，设置轴范围可以突出某个时间段内的数据变化，便于观察和分析。
比较分析：在比较不同数据集或不同组数据时，设置轴范围可以确保比较的数据范围相同，以便更准确地比较数据的差异。

腾讯云提供了一系列与数据分析和可视化相关的产品和服务，适用于设置轴范围的场景，包括：

数据仓库DorisDB：腾讯云的DorisDB是一个高性能、低延迟、高可靠性的分布式数据仓库，适用于大规模数据分析和存储。了解更多：DorisDB产品介绍
数据可视化QuickBI：腾讯云的QuickBI是一款基于云计算和人工智能技术的大数据可视化工具，提供丰富的可视化图表和灵活的数据分析功能。了解更多：QuickBI产品介绍

通过上述产品，用户可以方便地进行数据分析和可视化，并灵活地设置图表的轴范围，以达到更好的数据展示效果。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

是时候将数据分析迁移到云端了。我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。我们通过比较多种云环境中可用的两种流行技术来做到这一点：Databricks 和 Snowflake。正如我们在上一篇文章中了解到的，数据分析平台可以分为多个阶段。上面，我们可以看到一张图片，大致了解了管道中 Snowflake 和 Databricks 的角色。在这里，我们可以将工具分

01

如何在 TiDB Cloud 上使用 Databricks 进行数据分析 | TiDB Cloud 使用指南

TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。

03

Spark为什么比Hadoop快那么多？

在2014年11月5日举行的Daytona Gray Sort 100TB Benchmark竞赛中，Databricks 用构建于206个运算节点之上的spark运算框架在23分钟内完成100TB数据的排序，一举击败了该赛事2013年的冠军—Yahoo团队建立在2100个运算节点之上的Hadoop MapReduce集群，该集群耗时72分钟排序了102.5TB的数据。换句话说，Spark用了十分之一的资源在三分之一的时间里完成了Hadoop做的事情。 HadoopSpark被排序数据大小102.5 TB

Spark將機器學習與GPU加速機制納入自身

Databricks公司（点击阅读原文可访问该公司首页）通过简化对GPU加速型机器学习方案的访问支持自家云Spark服务。作为Apache Spark内存内大数据项目的支持与开发合作厂商，Databricks公司已经对其自家Apache Spark云实现方案进行两轮支持升级，旨在让更多IT用户享受其便利。此次推出的新功能——即GPU加速与多套深度学习库集成——在理论上能够实现Apache Spark在任意位置的安装工作。不过Databricks方面表示，其版本目前仍处于调整阶段，这是为了避免资源争用情况

06

DataBricks新项目Delta Lake的深度分析和解读。

DataBricks最近新开源了一个项目Delta Lake。这其实不算是个新项目了。DataBricks在其商业版里面提供这样的功能已经有一段时日了。对我来说Delta Lake就是久闻大名，但是不知道庐山真面目。

03

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Databricks来搅局了：0门槛克隆ChatGPT，完全开源可随意修改商用

编译｜核子可乐、Tina 全球首个完全开源的大语言模型，性能堪比 GPT3.5！大数据热潮催生了许多成功的公司，例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代，那么会不会有新的“人工智能和大数据”结合方式？最近，大数据公司 Databricks 就在生成式人工智能领域采取了行动。两周前，该公司发布了一个名为 Dolly 的开源大型语言模型，旨在应对市场对于生成式 AI 及相关应用的旺盛需求，我们可以称之为 Dolly 1.0

01

python处理大数据表格

假设你有1亿条记录，有时候用到75%数据量，有时候用到10%。也许你该考虑10%的使用率是不是导致不能发挥最优性能模型的最关键原因。

01

无数据不AI的狂欢！Databricks Data+AI峰会亮点总结

一年一度的 Databricks Data+AI 峰会于上周在旧金山 Moscone 会议中心热闹开展。作为全美乃至全球最大的科技会议之一，Data+AI 峰会自然吸引了大量数据与人工智能领域工作者的目光。而以往年不同的是，今年的峰会在举办之前便火药味十足。在今年早些时候，Databricks 与 Snowflake 这两家最大的云数据平台厂商便先后宣布将在同一时间，也就是六月最后一周，举行各自的年度会议。这意味着，广大科技工作者们只能在这两家公司的活动中做出二选一的艰难抉择。而在峰会期间，Databricks 更是大规模投放广告，直接叫板 Snowflake，高调宣称自家的数据湖仓相比于 Snowflake 拥有 9 倍性价比提升。

04

想学spark但是没有集群也没有数据？没关系，我来教你白嫖一个！

今天要介绍的平台叫做databricks，它是spark的创建者开发的统一分析平台。单凭spark创建者这几个字大家应该就能体会到其中的分量，其中集成了Scala、Python和R语言的环境，可以让我们在线开发调用云端的spark集群进行计算。

04

通过可视化来了解你的Spark应用程序

本文为CSDN原创编译文章，禁止转载。【编者按】在"Spark 1.4：SparkR发布，钨丝计划锋芒初露"一文中，我们有简单地介绍了1.4版本给Spark注入的新特性，在各个组件的介绍中也提到了新UI给用户带来的便捷。而从本文开始，我们将通过Databricks Blog上的系列文章深入了解新版本中的数据可视化，首先分享的是这个系列的第一篇博文——Understanding your Spark application through visualization，作者Andrew Or。以下为译文图

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

Delta Lake 2.0：Databricks的急病乱投医？？？

新粉请关注我的公众号在今年的Data+AI summit上，Databricks宣布了不少东西，其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake，这次宣布开源2.0。这个2.0按照Databricks的说法，就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。 Delta Lake这个项目Databricks最开始做的应该是最早的，但是不开源，只是卖钱给付费客户用。 2019年的时候终于开源了。开

01

网易有数怼Databricks： “Delta Lake2.0比Iceberg快”是假的。。。

新粉请关注我的公众号 Delta Lake 2.0 正式发布了。网易的大数据产品也没闲着，这就搞了点事情：从Delta 2.0开始聊聊我们需要怎样的数据湖。这篇文章的内容很多，大家有需要的可以自己读读，肯定有收获。我就不展开一一分析了。今天的重点是看看这篇文章网易是如何打脸Databricks的。这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快，Iceberg Hudi都是渣渣。这个测试是第三方

04

0927-Databricks X Tabular

Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular，以促进 Lakehouse 中的数据互操作性。

01

Snowflake与Databricks创始人亲自开撕：数据仓库要过时了？

编译 | 核子可乐、Tina Databricks 与 Snowflake 之间的激烈竞争再上新台阶，甚至有可能给整个数据仓库领域带来更加深远的影响。短短半个月，大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。 11 月 2 日，Databricks 在其官方博客发布声明，表示其数据湖仓（lake house）技术创下 TPC-DS 基准测试新记录，并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。在博客中，Databricks 声称这是一

02

生成式AI搭台，Data+Analytics唱戏：Snowflake、Databricks 2023年度大会前瞻

编者按：每年仲夏之际，全球两大数据平台巨头 Snowflake、Databricks 均会召开各自的年度大会，成为数据圈的“超级碗”。随着竞争的加剧，Snowflake、Databricks 把 2023 年度重磅市场大会放在相同日期（6.26-6.29），充满着火药味。大会召开在即，云器科技作为专注数据领域的创业公司，策划一系列文章，从主题演讲、重点发布、客户案例等方面对比和解读这两个年度大会。本文是第一篇，对两个大会做前瞻对比，并预测最值得听的场。

02

现在是采用湖仓一体的好时机吗？

近日，大数据独角兽 Databricks 官宣 H 轮融资，经过这一轮 16 亿美元融资，其估值已经飙升至 380 亿美元。Databricks 联合创始人兼首席执行官 Ali Ghodsi 在媒体采访中表示，这笔资金将主要用于加速构建在 lakehouse（湖仓一体）赛道的布局。

02

Spark云服务进展（Databricks Runtime 3.0）

Databricks是spark商业孵化公司，主要做的工作是在AWS上提供SaaS化的spark服务。最近在databricks博客上公布了做的一些有意思的进展： Databricks把这个称为Runtime artifact，包括Apache Spark和其他软件，如Scala，Python，DBIO和DBES。以前，云上的版本和spark是同一个版本，Databricks准备和spark版本解耦出来，单独命名版本号，Databricks Runtime3.0配套spark 2.2。相比spark，D

07

Databricks为模型构建和部署启动了automl工具包

Databricks今天推出了AutoML Toolkit，这是一种自动化的端到端机器学习服务，旨在为具有丰富经验的开发人员提供服务。

04

多个供应商使数据和分析无处不在

翻译自 Multiple Vendors Make Data and Analytics Ubiquitous 。

01

暗战升级，Databricks 收购 Tabular，Iceberg 社区陷入动荡

紧接着，最近刚刚发生的事件，Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMC Chair 辞职，核心他的担忧是存在利益冲突。

01

提供基于 Spark 的云服务，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资

近日，大数据软件公司 Databricks 获得 6000 万美元 C 轮融资，由New Enterprise Associates 领投，Andreessen Horowitz 参投，本次投资有望帮助公司完成在数据的组织、计算和交付方面的一次跨跃。 Databricks 成立于 2013 年，总部设在旧金山，属于 Spark 的商业化公司，由美国伯克利大学 AMP 实验室著名的 Spark 大数据处理系统多位创始人联合创立。Databricks 致力于提供基于 Spark 的云服务，可用于数据集成，数

08

自己发基准自己第一，Anyscale行为惹社区吐槽

前一天发布 LLMPerf 排行榜，宣称要推动大型语言模型推理领域的发展，鼓励创新与超越。

01

全球最强开源模型一夜易主，1320亿参数推理飙升2倍！

刚刚，超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。

01

关于拿了Databricks和Snowflake的Offer的人，你想知道的都在这里，加我微信问问题前，请读这篇文章！

最近一段时间，有拿了Databricks或者Snowflake的offer，或者两者皆有的人，加我微信，然后问我问题的人数已经很多很多了。我被重复的问同样的问题两位数次，也答的不厌其烦。所以我就写篇文章在这里。以后有拿了这两家公司的offer，然后想加我微信问问题的，先看这里。第一个问题：Databricks/Snowflake的估值是不是偏高/偏低？这个问题我没办法回答。估值是一个很个人的问题。有人觉得高，有人觉得低。客观说几句，Snowflake是上市公司，有好几个季度的财报，所以判断起来，信息

02

世界首款真开源类ChatGPT大模型Dolly 2.0，可随意修改商用

机器之心报道编辑：泽南、蛋酱我们鼓励员工手搓了一个数据集，训练 LLM 还把它开源。众所周知，在 ChatGPT 的问题上 OpenAI 并不 Open，从 Meta 那里开源的羊驼系列模型也因为数据集等问题「仅限于学术研究类应用」，在人们还在因为寻找绕过限制方法的时候，主打 100% 开源的大模型来了。 4 月 12 日，Databricks 发布了 Dolly 2.0，这是两周前发布的类 ChatGPT 人类交互性（指令遵循）大语言模型（LLM）的又一个新版本。 Databricks 表示，Dol

05

估值380亿美元！这家微软、谷歌、亚马逊都投资的AI初创公司什么来头？

昨日，人工智能大数据初创公司Databricks成功完成了16亿美元的H轮融资，其估值达到了380亿美元。

02

让大模型融入工作的每个环节，数据巨头 Databricks 让生成式AI平民化 | 专访李潇

Databricks CEO Ali Ghodsi 曾表达过这样的观点：Databricks 的目标是实现数据普惠和 AI 普惠，数据普惠使得数据能够触达企业内的每一名员工，而 AI 普惠则将人工智能引入每一个产品中。他强调“每个组织都应该从 AI 革命中获益，并更好地掌控数据的使用方式。”在过去，Databricks 在 AI 领域积累了大量经验，如今在大模型的潮流下，他们不仅推出了自家的开源大模型 Dolly 2.0，还以 13 亿美元的价格收购了生成式 AI 公司 MosaicML，迅速强化了大模型方面的实力。最近，Databricks 发布了一系列创新产品，例如 Lakehouse IQ、AI Gateway, Unity Catalog 等。作为大数据领域的领军企业，我们相信 Databricks 正在塑造着未来。在 QCon 北京到来之际，我们采访了 Databricks Engineering Lead 李潇，以深入了解他们在数据领域的创新思想。

01

Databricks获1.4亿美元D轮融资

大数据和人工智能软件的公司Databricks近日宣布完成1.4亿美元融资，本轮融资由Andreessen Horowitz牵头，New Enterprise Associates(NEA)跟投，新投资人包括Battery Ventures、Future Fund Investment、A.Capital，Geodesic Capital和Green Bay Ventures。 Databricks联合创始人兼CEO Ali Ghodsi在采访中表示：在利用人工智能技术处理和分析大数据方面，只有1%的公司

09

Databricks推出机器学习的开源多云框架，简化分布式深度学习和数据工程

Databricks研究调查的初步结果显示，96％的组织认为数据相关的挑战是将AI项目移至生产时最常见的障碍。数据是人工智能的关键，但数据和人工智能则处在孤岛中。Databricks是统一分析领域的领导者，由Apache Spark的原创者创建，利用统一分析平台解决了这一AI难题。今天在旧金山召开的Spark + AI峰会上，由4,000位数据科学家，工程师和分析领导者组成的年度盛会，为企业降低AI创新障碍创造了新的能力。这些新功能统一了数据和AI团队和技术：用于开发端到端机器学习工作流的MLflow，用于ML的Databricks Runtime以简化分布式机器学习，用Databricks Delta以提高数据的可靠性和性能。

03

【SaaS播客】nextS6E06. 对话Databricks联合创始人Reynold Xin：380 亿美元估值背后的长期主义

Databricks是大数据领域的元老公司，我印象中在14/15年那段时间是和Cloudera、Hortonworks齐名的，而18年那两家已经走下坡路合并了，但Databricks反而这几年越来越好，和Snowflake成为双子星。我司也用Spark（或者说它是批计算的业界标准），并且基于它们提出的Lakehouse湖仓一体架构。很有幸能听到它的华人联合创始人辛湜的分享。

00

系统日报-20220421（Databricks 缘何成功？）

来源：https://guiguzaozhidao.fireside.fm/s6e06

02

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

取代而非补充，Spark Summit 2014精彩回顾

Apache Spark开源生态系统在2014上半年大幅增长，已迅速成为大数据领域中最活跃的开源项目，HDFS位列第二，其代码变动次数（commits）和行数仅仅有Spark的一半：有超过50个机构250个工程师贡献过代码和去年六月相比，代码行数几乎扩大三倍。随着1.0版本于5月30日推出，Spark提供了一个稳定的API，开发人员可以依靠它来保证代码的兼容性。所有主流的Hadoop发行商，包括Hortonworks、IBM、Cloudera、MapR和Pivotal都提供了Spark的包装和技术支持

07

大厂前途不在，大数据人才纷纷逃离

最近大数据领域最值得关注的，不是技术上有什么突飞猛进的进展，而是人才的流动问题。以前是大数据发源地的各大互联网企业，包括三驾马车提出者的谷歌，都面临了新一波的大数据人才逃离。根据我朋友圈和LinkedIn的数据，在这次的大数据人才逃离中，谷歌尤其的惨淡。谷歌下面的几个大数据团队，比如著名的BigQuery，还有F1，都大量流失大数据人才。这些人去的地方也非常有意思，小部分去创业了，大部分去了两家当红的大数据公司：Snowflake和Databricks。有关这两家公司我之前写过很多分析文章了，尤

02

Databricks一次拿了SIGMOD两个大奖

新粉请关注我的公众号在最近费城召开的SIGMOD2022上，Databricks当仁不让成为了赢家，一共拿到了两项大奖： 1.Spark拿到了SIGMOD System Award 2.Photon拿到了Best Industry Paper Award SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多，但是大部分人还是觉得ICDE差一点。 2020年以前我每年会尽量争取去其中一个会议，以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了，很

02

如何从 Pandas 迁移到 Spark？这 8 个问答解决你所有疑问

作者 | Sanket Gupta 译者 | 王强策划 | 刘燕本文最初发布于 Medium 网站，经原作者授权由 InfoQ 中文站翻译并分享。当你的数据集变得越来越大，迁移到 Spark 可以提高速度并节约时间。多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库，你可以用它做各种变换，可以处理各种类型的数据，例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。我仍然认为 Pandas

01

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache Spark 3.0.0正式发布！

00

详解AI公司三大类别，哪种商业模式将成为最后赢家？

大数据文摘作品，转载要求见文末作者 | Catherine Lu 编译 | 元元,白丁,笪洁琼,钱天培在AI型公司的混战中，我们已看到了数不胜数的公司相继倒下。在剩下的AI巨头和后起之秀中，哪类公司又能成为最终的赢家呢？从Element AI，Databricks到DigitalGenius，AI型公司铺天盖地席卷而来。各类公司分化出了不同的特性，也选择了不同的战略发展方向。在他们中，我们能够看到为客户提供定制解决方案的“数据科学咨询公司”，为AI解决方案提供底层基础构架的“AI平台公司”，以及

02

Delta Lake 2.0正式发布，Databricks能赢吗？

新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变，它都会生成Change Data Feed。你要是订阅了这个东西，比如说把它放进一个Kafka集群里面，理论上就可以准实施复制出一份数据来。这个东西有点像什么呢

01

Apache Spark 3.0.0重磅发布 —— 重要特性全面解析

2020年6月18日，开发了近两年（自2018年10月份至今）的Apache SparkTM 3.0.0正式发布！

02

Spark SparkSession:一个新的入口

在 Spark 1.x 中，使用 HiveContext 作为 DataFrame API 的入口显得并不直观。在 Spark 2.0 引入 SparkSession 作为一个新的入口，并且包含 SQLContext 和 HiveContext 的特性，同时为了向后兼容，两者都保留下来。SparkSession 有很多特性，在这里我们展示一些更重要的特性。

05

Databricks和Snowflake互相撕逼里提到的Dewitt Clause是什么？

之前我写了文章简单的讲了一下最近非常热闹的由Databricks发起的和Snowflake的撕逼文章们：

03

这个大数据开源项目多半要黄，但我希望它能成。。。

新粉请关注我的公众号今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢？简单来说，这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine，比如ClickHouse的能力。要具体来说呢，就是在Spark查询Plan生成的时候，Gluten把一些Spark的查询计划拦截下来，让下面的native 引擎比如ClickHouse去执行。当然，由于native引擎的问题，有些东西干不了，Gluten对干不了的operator重

02

一夜之间：MongoDB 市值暴涨 80 亿美元至 336 亿美元

周五MongoDB股价猛涨后，现在市值几乎相当于IBM在2019年达成的交易中为收购Red Hat支付的价格。本周早些时候，Databricks完成了一轮私募融资，估值高达380亿美元，这使其成为有史以来价值最高的开源公司。更多的公司将开源项目变成大受欢迎且利润丰厚的企业软件产品，因此赚得盆满钵满。 IBM在2018年底同意斥资340亿美元收购Red Hat时，这笔交易标志着开源软件行业迎来分水岭时刻，证明公司可以将免费工具打包成高价值的产品。那个收购价可能很快就会变成一抹回忆。周五，在M

02

数据库信息速递 - 将可观测性带到现代数据堆栈（译）

如果无法进行测量，那就无法进行管理。正如软件工程师需要全面了解应用程序和基础架构的性能情况一样，数据工程师需要全面了解数据系统的性能情况。换句话说，数据工程师需要数据可观测性。

04

专访李潇：数据智能平台，AI 时代的 Lakehouse 架构

在过去十年里，随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷，整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的大数据处理平台提供商，Databricks 一直扮演着引领者的角色。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭