对于databricks delta lake来说，合并成的pyspark相当于什么？

即使经过很多资源，我也不明白什么是湖房，所以我想问一问。如果我们有Azure Gen 2存储、ADF和Azure数据库，可以将传入的CSV文件转换为Delta表，可以称为"Lakehouse“体系结构，还是称为"Delta Lake"？或者是"SQL分析“引擎在Delta湖层之上使它成为了"Lakehouse"？请澄清。

浏览 0提问于2021-06-18得票数 1

回答已采纳

1回答

我有一个进程，简而言之，它在一个相当强大的集群上并行运行同一个databricks笔记本的100+。每个notebook在其过程的末尾将大约100行数据写入存储在Azure Gen1 DataLake中的相同的Delta Lake表中。我看到Delta的插入时间非常长，我只能假设Delta在执行insert操作时锁定表，然后在单个notebook完成后释放它，这基于读取https:/&#x

浏览 14提问于2020-09-14得票数 1

回答已采纳

2回答

在Databricks中使用sparklyr注册临时表

、、、

我的同事在Databricks中使用pyspark，通常的步骤是使用data = spark.read.format('delta').parquet('parquet_table').select('data.cache()作为一名R用户，我正在寻找sparklyr中的registerTempTable等价物。时间差的对比似乎非常明显-

浏览 1提问于2020-09-29得票数 1

2回答

Spark Shell使用spark-defaults.conf将多个驱动程序/Jars添加到类路径中

、、、

我们正在使用Spark-Shell REPL模式来测试各种用例，并连接到多个源/宿spark.executor.extraClassPath = /home/sandeep/mysql-connector-java-5.1.36.jar 但是它不工作，谁能提供正确的语法细节

浏览 0提问于2019-09-10得票数 0

2回答

不能在Azure数据库上使用jdbc驱动程序将大型DataFrame写入MSSQL服务器

、、、、

我正在读取一个巨大的csv文件，包括39,795,158条记录，并在Azure Databricks上写入MSSQL服务器。Databricks(笔记本)运行在一个具有56 GB内存、16个核心和12个工作人员的集群节点上。这是我在Python和PySpark中的代码：from pyspark.sql.types import * from pyspark.sql.function

浏览 10提问于2022-02-11得票数 0

1回答

PySpark删除没有主键的特定行

、、

我试图弥补PySpark在合并语句中缺少的“当源不匹配时”的不足。当另一个表中没有匹配的行时，我希望从表中删除行。但是，我的表没有主键，所以我很难指定要删除哪些行。我可以使用以下语句选择要删除的行：FROM global_transations AS target LEFT ANTI JOIN latest_transactions AS source，而不仅仅是指定的行。Databricks还阻止我在最后一行中使用“从latest

浏览 7提问于2022-11-11得票数 0

3回答

数据库、Synapse和ADLS gen2的数据治理解决方案

、、、、

我们正在使用ADLS gen2、Databricks和Synapse进行我们的ETL处理、数据科学、ML和QA活动。问题对于我们的堆栈和需求，什么是最好的数据治理解决方案？为什么更喜欢普里瓦克拉而不是因穆塔，反之亦

浏览 7提问于2020-05-11得票数 5

5回答

Azure数据湖VS Azure HDInsight

、、

我正在浏览微软的文档： "Azure Data Lake Store can be accessed from Hadoop (available with HDInsight cluster) using根据我的初步理解，数据湖存储是一个可以存储任何类型的数据的存储。我认为，HDInsight也做了同样的事情。我的问题是，Azure Data

浏览 7提问于2018-06-04得票数 12

2回答

电子如何创建增量文件

我使用electron-builder构建我的应用程序，并成功地构建了包含三个输出的第一个版本: foosetup.exe、foo-0.0.1-ful.nupkg和RELEASES.Now，我想实现自动更新自动更新需要设置一个用于获取更新的feedURL，但问题是我不知道更新的确切含义是什么?是foo-0.0.1-full.nupkg、foo-0.0.1-delta.nupkg还是其他文件？我可以在electron-builder中找到一个选项a URL to your existing

浏览 10提问于2016-06-14得票数 2

回答已采纳

1回答

RejectedExecutionException: ReactorDispatcher实例已关闭。-天青活动中心及资料库

、、

我试图使用Databricks PySpark从Azure事件中心使用数据，并将其写入ADLS接收器中。不知何故，火花作业无法完成，并在运行2小时后被中止。以下是一个完全错误的import jsonfrom pyspark.sql import, "month", "day") df2.write.partitionBy("year

浏览 6提问于2022-03-26得票数 0

1回答

这个数字能成为一个不错的2048年组合吗？

受xkcd的启发。8224 输出结果将是这个数字是否会产生一个很好的2048组合，对于这个输入，它将是true、yes或1，或者任何其他表示正结果的方式。对于那些不熟悉游戏的人来说，这里有一个简单的解释:两个人的力量排列在一个网格上，比如：[2] [2]。“一个好的20

浏览 0提问于2014-03-20得票数 13

回答已采纳

1回答

如何最有效地计算统计数据？

、、、、

计算每个键对应的统计数据的最有效(理想情况下是分布式)方法是什么？(目前，我特别希望计算标准偏差/方差。)据我所知，我的选择相当于：如果认为需要进行其他统计计算，则使用 mllib.stat方法具有易于适应的优点，以后可以使用其他mllib.stat函数。但是，它在包含每个列的数据的RDD上运行，因此据我所知，这种方法需要在单个节点上收集每个键的完整值集，这对于大型数据集来说似乎不

浏览 3提问于2016-10-11得票数 3

回答已采纳

1回答

在本地运行pyspark失败，但在databricks中运行良好

、、

在Databricks中运行这个脚本是非常好的，因为它只是非常简单地创建一个火花会话，连接到Azure Blob存储并读取文件：但是当我在VS代码中本地尝试相同的代码时，我会得到这个错误，它似乎无法在前面的几行中找到文件或错误消息，其余的对我来说是没有意义的。感觉好像我错过了一些很明显的东西，但不知道是什么，所以请协助！ for metadata directory in the path: wasbs://test

浏览 4提问于2022-08-29得票数 -2

5回答

如何从Kafka读取XML格式的流数据？

、、、

我试着使用Databricks spark-xml包，但是我发现一个错误:这个包不支持流读取。有什么方法可以使用结构化流从Kafka主题中提取XML数据吗？我现在的代码是： .readStream \ .format('com.databricks.spark.xmlAn error occurred while calling o33.load. : java.lang.Unsupported

浏览 19提问于2017-09-01得票数 6

回答已采纳

13回答

用PySpark加载CSV文件

、、、、

我是新来的火花，我试图从一个文件读取CSV数据与火花。以下是我正在做的事情： .map(lambda line: (line.split(',')[0], line.split(',')[1])).collect()

浏览 31提问于2015-02-28得票数 125

回答已采纳

2回答

然后xarray.concat xarray.to_netcdf生成巨大的新文件大小。

、、

每个文件都有一个变量(dis)，表示为365天(时间)的0.5度分辨率(lat，lon)。我的目标是连接这三个文件，以便我们有1095天(3年)的时间序列。：对我来说很好。然而，当我将这个数据集写回netcdf时，文件大小现在已经爆炸了，1年的数据似乎相当于700 MB。ds_new.to_netcdf('saved_on_disk1.nc') 对于2个

浏览 4提问于2016-05-19得票数 5

回答已采纳

2回答

在火星雨中丢弃重复的聚合物

、、、、

我想通过聚合一个pyspark，，同时根据这个数据的另一列删除重复的数据(保持最后一个值)。对于下面的dataframe来说，直接的组聚合将是：我假设一个MapType变量不应该在星火

浏览 4提问于2020-03-09得票数 6

回答已采纳

2回答

什么是评估CNN训练水平的最佳指标？验证错误还是培训损失？

、、、、

这是个不错的选择吗？如果仅仅以训练损失作为早期停止CNN的标准，我是否有可能过度适应我的CNN？early_stopper=EarlyStopping(monitor='train_acc', min

浏览 6提问于2017-11-14得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云