在Pyspark-SQL和Pyspark中使用Delta格式查询表有什么不同？_在PySpark中，MulticlassClassificationEvaluator和MultilabelClassificationEvaluator有什么不同？_在索引时和查询时使用Solr的EdgeNGramFilterFactory有什么不同？ - 腾讯云开发者社区

python、apache-spark、pyspark、databricks、delta-lake

我正在查询表，但我使用两种方式得到了不同的结果，我想了解一下原因。我使用Delta location创建了一个表。我想查询我存储在该位置的数据。我正在使用亚马逊S3。我创建了这样的表： spark.sql("CREATE TABLE bronze_client_trackingcampaigns.TRACKING_BOUNCES (ClientID INT, SendIDINT, Sub

浏览 12提问于2019-06-07得票数 1

回答已采纳

1回答

Pyspark dataframe拼接vs.增量:不同的行数

apache-spark、pyspark、parquet、delta-lake

我在HDFS上以Delta格式写入了数据。据我所知，Delta正在以拼接的形式存储数据，只是在它上面增加了一个具有高级功能的层。但是，当使用Pyspark读取数据时，如果使用spark.read.parquet()或spark.read.format('delta').load()读取dataframe，我会得到不同的结果 df= spark.read.format('delta

浏览 28提问于2021-01-27得票数 1

回答已采纳

1回答

从外部连接到数据库托管蜂巢

azure、pyspark、hive、databricks

我有：A kubernetes集群在数据库使用的相同的Azure blob存储区中以拼花和/或Delta格式读写数据(通过spark提交以增量格式写入数据)。我想做的是：利

浏览 1提问于2021-08-19得票数 2

2回答

如何更改Delta表的添加列？

delta-lake

我想使用spark在Delta表中添加一些列，但它显示的错误如下： ALTER ADD COLUMNS does not support datasource table with type org.apache.spark.sql.delta.sources.DeltaDataSource有什么办法改变我在三角湖的桌子吗？

浏览 3提问于2022-03-14得票数 3

2回答

将多个数据帧连接在一条语句中，并仅选择所需列

python、pyspark、pyspark-sql

我有以下火花DataFrames： from df1 left join df3 on df1.name=df3.name 我使用

浏览 1提问于2018-06-27得票数 1

1回答

通过集群提高SparkSQL查询性能

apache-spark-sql

我是SparkSQL新手，我主要负责编写SparkSQL查询。我们经常需要在查询中使用JOIN大表，并且不需要很长时间就会遇到与它们相关的性能问题(例如。Joins、aggregates等)。在网上搜索补救方法时，我最近遇到了一些术语-- COALESCE()、REPARTITION()、DISTRIBUTE BY、CLUSTER BY等，而且它们可能用于提高慢速运行的SparkSQL 查询的性能不幸的是，我找不到足够的例子，让我清楚地理解它们，并开始将它们应用到我的查询中</e

浏览 5提问于2020-06-05得票数 0

3回答

如何在jupyter笔记簿中使用pyspark查阅deltalake表

pyspark、jupyter-notebook、delta-lake

我正在尝试开始使用DeltaLakes，使用Pyspark。为了能够使用deltalake，我在Anaconda shell上调用pyspark提示为-以下是deltalake- 的参考资料从Anaconda shell提示符中可以很好地执行有关delta lake的所有命令。在

浏览 0提问于2019-08-31得票数 3

1回答

从_commit_timestamp读取数据时，将“DeltaTable”列追加到最新的数据版本

scala、azure-databricks、delta-lake

我在delta湖中有数据，每一行上都没有时间戳来确定什么时候添加/修改了该行，但我只需要在指定的日期/时间之后创建/修改行。我想要三角洲湖数据的最新版本，但希望将变更数据提要中的"_commit_timestamp“附加到从增量湖读取的数据文件中，这样我就可以只选择在指定日期/时间之后写入的数据，而不是整个数据集。更改数据提要将所有修改返回到一行，即插入/删除/更新，以便在每个版本中对同一行/

浏览 4提问于2022-03-31得票数 0

2回答

蜂巢亚稳态误差的配准Delta表

hive、pyspark、amazon-emr、delta-lake

我需要在Hive亚稳态中注册Delta表，以便能够使用连接到ThriftServer的外部报告工具来查询它LOCATION '/tmp/orders/delta/'spark.sql("CREATE TABLE orders_delta USING delta LOCATION

浏览 5提问于2019-11-11得票数 0

回答已采纳

2回答

使用pyspark从平面记录创建段数组

arraylist、pyspark、apache-spark-sql、record

我有一个稀疏填充的表，其中包含唯一用户ids的各个段的值。我只需要创建一个包含unique_id和相关段标头的数组请注意，这只是一个指示性的数据集。我有几百个这样的片段。] || 300 | [seg1, seg2, seg4] | ------------------------------- 在pyspark-sql的pyspark中有什么函数可以实现这一点吗？

浏览 10提问于2020-09-02得票数 1

回答已采纳

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

java、apache-spark、pyspark

该值可以是pyspark.sql.types.DataType对象，也可以是DDL格式的类型字符串。阅读上面我链接的文档，你会发现在一个类和Java函数(可以从PySpark中的Spark-调用)之间存在SQL一对一的映射。因此，如果我有10个Java UDF函数，那么我需要创建10个公共Java类，每个类有1个UDF，以使它们可从PySpark/SQL调用。这是正确的吗？我是否可以创建1个public Java类，并将许多不同</

浏览 76提问于2018-08-11得票数 0

1回答

如何在databricks中现有的增量表中添加自动增量列

pyspark、databricks、azure-databricks、delta-lake

在Databricks中，我有一个现有的delta表，我希望在其中再添加一个列，作为Id，这样每一行都有唯一的id no，并且是连续的(主键在sql中的存在方式)。到目前为止，我已经尝试将delta表转换为，并将新列添加为from pyspark.sql import functionswithColumn(&q

浏览 5提问于2022-07-12得票数 0

1回答

如何在齐柏林飞艇笔记本和火花放电中导入达美湖模块？

pyspark、apache-zeppelin、delta-lake

我试图使用达美湖在齐柏林笔记本与火星雨，似乎它无法成功地导入模块。例如：from delta.tables import * ModuleNotFoundError:没有名为'delta‘的模块有什么办法可以利用齐柏

浏览 2提问于2019-12-04得票数 4

2回答

将PySpark数据转换为Delta表

apache-spark、pyspark、aws-glue、delta-lake

我在AWS胶水环境工作。我将Glue目录中的数据作为动态数据读取，并将其转换为Pyspark dataframe以进行自定义转换。为了重新插入新的/更新的数据，我打算使用delta表。为了执行合并操作，我需要将我的Pyspark转换为Delta表。有办法这样做吗？

浏览 7提问于2021-08-30得票数 3

回答已采纳

2回答

Pyspark+Azure突触-需要将数据合并成带有增量表的蔚蓝突触

azure、azure-synapse

我有一个数据帧和synapse表，需要将数据帧合并成一个带有增量位置的synapse表。我跟踪了不同的文档，但仍然无法在突触中合并。你能帮我做这个吗？

浏览 3提问于2022-10-11得票数 0

回答已采纳

3回答

DataBricks -将更改保存回DataLake (ADLS Gen2)

azure-data-lake、databricks、azure-databricks

我将遗留数据作为CSV存储在Azure DataLake Gen2存储帐户中。我能够连接到它并使用DataBricks查询它。我有一项要求，即在某些记录的保留期届满后，或如果GDPR“被遗忘的权利”需要应用于数据时，就必须删除这些记录。使用Delta，我可以将CSV加载到Delta表中，并使用SQL定位和删除所需的行，但是保存这些更改的最佳方法是什么？理想情况下，

浏览 1提问于2019-05-24得票数 1

回答已采纳

1回答

使用列值作为火花DataFrame函数的参数

apache-spark、pyspark、apache-spark-sql

：假设我想重复每一行在列rpt中指定的次数，就像在这个中一样一种方法是使用以下查询将我的pyspark-sql复制到该问题：SELECT * (SELECT DISTINCT *,

浏览 2提问于2018-07-02得票数 11

回答已采纳

1回答

无法识别谓词'Column<b‘。皮斯帕克|三角洲湖

apache-spark、pyspark、delta-lake

尝试使用日期(yyyy-MM-dd)和时间(hhmm)分区对增量湖表进行重新分区。recognize the predicate 'Column<b'((partitionTime = 1357) AND (partitionDate = 2020-10-27))'>';" 我可以分别查询两个分区，但是当我同时查询这两个分区时，我得到了上面的错误 spark \ .read.format("delta")

浏览 15提问于2020-10-28得票数 1

1回答

在Databricks中复制Delta表后，它的写入速度显著提高

sql、performance、pyspark、databricks、delta-lake

我正在将一个PySpark数据文件合并到一个Delta表中。输出增量按日期进行分区。sdf.TIME) ,在将Delta的内容复制到另一个位置后，当使用而不是PATH_TO_THE_TABLE时，上面的查询变得比PATH_TO_THE_TABLE快60倍

浏览 1提问于2021-12-13得票数 3

1回答

如何在不使用Pyspark的情况下用Python编写增量表/增量格式？

python、pandas、dataframe、delta-lake

我正在寻找一种方法，可以在python中写回一个delta表，而不需要使用pyspark。我知道有一个叫做deltalake/的库，可以用来读取增量表并将它们转换成熊猫数据。目标是写回打开的增量表from deltalake import DeltaTabledf = dt.to_pandas() 那么，有什么方法

浏览 1提问于2021-10-01得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云