组合(不是sql连接)2个spark数据帧_大数据( spark sql和spark数据帧连接)_在spark数据帧中组合日期范围 - 腾讯云开发者社区

apache-spark、apache-spark-sql

我有两个很大的数据帧，下面是示例。第一 firstnames|lastnames|agebob|lip|36tom|form|24mary|gu|24...

浏览 19提问于2019-04-11得票数 0

回答已采纳

3回答

在写入dataframe - pyspark之前从表中删除记录

sql-server、pyspark、apache-spark-sql、pyspark-dataframes、aws-glue-spark

在从dataframe向表中写入数据之前，我正在尝试从表中删除记录。这对我不起作用。我做错了什么？query = "(delete from xx_files_tbl)" .option("url", "jdbc:sqlserver

浏览 172提问于2020-10-14得票数 1

回答已采纳

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

python、dataframe、apache-spark、pyspark、amazon-emr

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如何使用pyspark来处理两个不同的数据帧。以下是详细信息：第一个数据

浏览 11提问于2021-06-03得票数 0

回答已采纳

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

apache-spark、apache-spark-sql、hbase

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

1回答

大数据( spark sql和spark数据帧连接)

apache-spark-sql、hiveql、apache-spark-dataset

我是大数据平台的新手。您能告诉我不同的方法:1)我们如何连接到spark for Spark sql? 2)我们如何连接到spark数据帧或数据集？对于hive，我们通过unix与beeline连接，如果我们有像teradata这样的sql工具，我们必须通过安装了hive驱动的odbc连接到hive。如何连接到spark <em

浏览 13提问于2020-06-09得票数 0

2回答

Spark最佳方法查找Dataframe以提高性能

scala、apache-spark、cassandra、datastax-enterprise

数据帧A(百万条记录)其中一列是create_date，modified_date当前方法： Select a.

浏览 16提问于2016-08-27得票数 1

6回答

如何在Pyspark中定义一个空的dataframe并将其附加到相应的dataframe？

pyspark、pyspark-sql

而不是像我们在熊猫身上做的那样，在pyspark中得到替代方案。sqlContext.createDataFrame(sc.emptyRDD(),schema) dff = sqlContext.read.load(f,format='com.databricks.spark.csv

浏览 5提问于2017-04-10得票数 11

1回答

Spark Join:分析异常引用不明确

scala、join、apache-spark、dataframe

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会发生这种情况，这两个数据</

浏览 8提问于2017-02-14得票数 1

回答已采纳

1回答

连接到tableau中的spark数据框

apache-spark、hive、tableau-api、spark-dataframe

我们试图通过spark SQL连接在tableau中生成报告，但我发现我们最终连接到了hive meta-store。如果是这样的话，这种新的spark SQL连接有什么优势呢？有没有一种方法可以使用spark SQL从tableau连接到持久的spark数据帧。

浏览 0提问于2016-02-05得票数 0

1回答

如何在PySpark中运行.sql文件

sql、apache-spark、pyspark、apache-spark-sql

我能够使用PySpark运行单个SQL查询。例如 spark = SparkSession.builder.appNmae("___").getOrCreate() df = spark.sql("select * from ...")但是我有一个.sql文件，里面有很多我想要运行的查询。我是必须一次一个地执行它们，还是有一种简单的方法来运行所有它们？示例: table1中的3行3列和table2中的相同 .sql文件 select * from

浏览 37提问于2020-12-11得票数 0

回答已采纳

1回答

Pyspark中的完全阻塞连接

pyspark、pyspark-sql

我正在尝试使用pyspark对数据库进行重复数据删除，并且作为管道的一部分，我希望从两个完全相同的左侧和右侧数据帧创建一个数据帧。它们有一个共享的索引。最初我很懒，只是使用了交叉连接，但这导致了重复的连接(因为从左到右与从右到左是一样的)。但是我现在需要对代码进行一些优化，我想知道实现这种连接的最好方法是什么。有没有人能提点建议？l_df = spark.createDataFrame([('A'

浏览 10提问于2019-07-09得票数 0

1回答

Spark: Catalyst在Dataframe上添加策略

apache-spark、join、catalyst

我需要将使用Spark SQL的连接操作转换为自定义连接。(逻辑计划到自定义物理计划)。我已经编写了一个将spark join操作转换为自定义连接的策略 def apply(plan: LogicalPlancondition)) case _ =&

浏览 2提问于2017-05-04得票数 2

2回答

Apache Spark当调用repartition($" key ")时，当每个键的所有记录的大小大于单个分区的大小时会发生什么？

scala、apache-spark、apache-spark-sql、apache-spark-sql-repartition

假设我有一个10 c1的数据帧，其中一个列的"c1“对于每条记录都有相同的值。每个单独的分区最大为128 MB(默认值)。

浏览 34提问于2021-09-23得票数 2

回答已采纳

1回答

是否有解决"org.apache.spark.SparkException: Kryo序列化失败:缓冲区溢出。可用: 0，必需: n“错误的解决方法？

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在通过spark-submit运行一个pyspark作业，在这个作业中，在应用一些额外的逻辑之前，首先将两个大型镶嵌板桌子连接在一起。提交后，所有任务都会失败，日志中会显示以下内容： Caused by: org.apache.spark.SparkException: Kryo serialization failed: BufferTo avoid this, increase spark.kryoserializer.buffer.max value *n只是一个变量，表示需要多少内存。该值取决于我将sp

浏览 87提问于2020-01-18得票数 0

1回答

左连接错误: org.apache.spark.sql.AnalysisException:检测到隐式笛卡尔乘积

scala、apache-spark、apache-spark-sql

"left join“需要在一个数据帧上使用"spark.sql.crossJoin.enabled=true”或调用"persist()“。SELECT * FROM LHS left join RHS on LHS.R = RHS.R 如何在没有"spark.sql.crossJoin.enabled=true“和持久化数据帧的情况下使”左连接“工作？线程"main“org.apa

浏览 0提问于2019-09-07得票数 0

2回答

如何在Map[String，Dataframe]中存储多个dataframe，并使用map的key访问每个dataframe

scala、apache-spark

我有多个数据帧需要将它们存储在MapString中，数据帧数据结构。下一步，我们的目标是访问它们以进行连接操作。以下是输入数据帧： names_df: |Id |FirstName | LastName |map_DFs += ("Names" -> names_df) map_DFs += (&qu

浏览 27提问于2019-08-27得票数 0

2回答

Spark:线程"main“org.apache.spark.sql.catalyst.errors.package中的异常

scala、apache-spark

在运行我的spark- my代码时，我在执行时得到了这个错误。我只是好奇地想知道这个TreeNodeException错误是什么。Exception in thread “main” org.apache.spark.sql.catalyst.errors.package

浏览 2提问于2017-10-25得票数 8

1回答

将2列合并为键/值数组

apache-spark、aws-glue

我的答案应该很简单，但我尝试了很多方法，都没有得到预期的结果。我在AWS Glue中有3列。 identifier brand_key brand_value1 64 Brand 21 457822 Brand 41 23 Brand 6 1 53

浏览 17提问于2021-10-20得票数 0

2回答

什么是Apache Spark* (SQL)中的Catalyst Optimizer？*

pyspark、pyspark-sql

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

1回答

浏览我需要将它们组合到一个文件中的小拼图文件

apache-spark

我有Spark SQL查询，通过几个小的拼图文件(大约2M)。我有Spark块大小为256M，所以我想将这些小文件组合成一个(或更多)大小为256M的文件。我正在考虑的是找到数据帧大小并将其除以256M，这样我就知道有多少文件将是他们的，但不幸的是Spark不支持查找数据帧大小，因为它是分布式的。我正在考虑将数据帧转换为数据集，以便列表可以检查它们的大小。

浏览 15提问于2019-06-19得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云