在PySpark DataFrame上运行sql查询

文章/答案/技术大牛

发布

2回答

pyspark寄存器内置函数及其在spark.sql查询中的使用

、、

在spark.sql查询中注册和使用pyspark version 3.1.2内置函数的正确方式是什么？下面是一个创建pyspark DataFrame对象并在纯SQL中运行简单查询的最小示例。For column literals, use 'lit', 'array', 'struct' or 'create_map' function...的<em

浏览 4提问于2021-08-19得票数 0

回答已采纳

1回答

但是，我有一个复杂的SQL查询，我想对这些数据表进行操作，我想知道是否可以避免将其转换为pyspark。在SQL中： select column1, column1 where end_date >= DATE '2019-03-31

浏览 18提问于2019-08-07得票数 1

回答已采纳

3回答

如何将注册为spark表的表放入数据帧

、、、

我已经使用spark-thriftserver connection将表从PostgreSQL数据库导入到spark-sql中，现在我可以从直线上看到这些表。

浏览 1提问于2016-09-25得票数 2

2回答

如何在Databricks SQL中执行for或while循环

、、、、

有人知道如何在Databricks的SQL中编写for或while循环吗？我尝试了以下SQL Server类型代码的许多变体，但似乎都不起作用。我似乎也找不到任何关于它的参考资料。我不喜欢用SQL语言，因为我需要将输出提供给更多的PySpark代码。

浏览 4提问于2021-11-13得票数 1

1回答

在Pyspark中使用IN子句的Case when语句

、、

下面是我用来完成任务的传统SQL代码。在Spark中也需要做同样的事情。Sql代码：ELSE 2 END AS Test我知道在spark中使用when只有一个条件。

浏览 0提问于2016-04-27得票数 2

回答已采纳

1回答

如何在databricks notebook中将pyspark.sql.dataframe.DataFrame转换回SQL表

、、、、

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据帧：dataframe = sqlContext.sql("select * from my_data_table") 如何将其转换回可以运行sql查询的sparksql表？

浏览 0提问于2016-08-20得票数 10

回答已采纳

1回答

Spark SQL传递变量- Synapse (Spark池)

、、、、

我尝试了以下几种方法：%%pysparkselect * from silver.employee_dim

浏览 23提问于2021-06-02得票数 0

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

3回答

HiveContext.sql()给出运行时没有这样的方法错误

、、、、

嗨，我正在尝试使用Apache和Apache运行一个简单的java程序。程序编译时没有任何错误，但在运行时我得到以下错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.sql.hive.HiveContext.sql(Ljava/lang/String;)Lorg/apache/spark/sql/DataFrame<

浏览 0提问于2017-06-01得票数 1

回答已采纳

1回答

如何将udf添加到sqlContext中

、、

我知道我可以注册一个UDFand函数，因为它可以在SQL查询中使用： return len(s)from pyspark.sql.types import IntegerTypedata.select(example_udf(&

浏览 1提问于2018-04-13得票数 0

回答已采纳

1回答

通过Pyspark对dataframe运行SQL查询

、

我想在dataframe上运行sql查询，但是是否必须在这个dataframe上创建一个视图？还有更简单的方法吗？, ('b', 1, 1),]).toDF('id', 'foo', 'bar') 我想要对这个数据执行一些复杂的查询</em

浏览 2提问于2022-05-15得票数 2

1回答

如何在pyspark上使用多核(来自python脚本)

、

我正在使用pyspark对一个parquet文件进行一些sql查询。我需要使用多个内核，但我没有找到任何有用的信息。这是我正在使用的代码。正如您所看到的，我将核心数设置为3，但是当我运行脚本时，我可以在htop上看到只有1个核心在使用。我该如何解决这个问题呢？from pyspark.sql import SparkSessionsp

浏览 67提问于2019-12-18得票数 0

1回答

使用regex语句的case语句

、、、、

在代码中，我将从另一个已转换为临时视图的dataframe创建一个dataframe。然后，我将使用sql查询在最后一个查询中创建一个新字段。我想要创建的字段的代码最初来自postgresql，我想知道在pyspark中正确版本的case语句和regex是什么？代码：from pyspark.context impo

浏览 1提问于2021-04-16得票数 0

回答已采纳

1回答

与单独运行相比，具有多个聚合的吡火花旋转数据要长/冻结得多。

、、

假设这一步骤是必要的，它似乎无休止地运行在16节点4 cpu上，每个cpu的内存为30 16，cpu利用率为100% (4)。见我做错了什么？df_groupby.pivot('day').agg(*aggs)df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a).coun

浏览 1提问于2021-01-28得票数 1

2回答

Spark中的重新分区

、

我们使用Spark的SQL 对集群上的Hive表执行查询。如何对查询中的列执行REPARTITION ( SQL-API )？请注意，我们不使用Dataframe，而是使用SQL (例如，SELECT * from table WHERE col = 1)。我理解PySpark在Dataframe API中提供了一个相同的函数。但是，我想知道通过REPARTITION SQL -API(通过SEL

浏览 1提问于2020-06-23得票数 1

回答已采纳

1回答

Pyspark :如何在dataframe列为NULL的两列上保留联接dataframe和dataframe

、

我正在为每日增量加载过程编写一个脚本，使用Pyspark和一个Hive表，该表最初已经装载了数据。我一直试图通过左侧创建一个UC dataframe，将INC dataframe和BASE dataframe连接到两个PK列src_sys_id & acct_nbr上，其中INC dataframefleet_acct_nbr") == base_df("fleet_acct_nbr"),"left_outer").filter(

浏览 4提问于2022-03-03得票数 0

3回答

Dataframe API与Spark.sql [重复]

、、

这个问题在这里已经有答案了：在Spark SQL中编写SQL与使用Dataframe API(4个答案) 4天前就关门了。用Dataframe API格式而不是Spark.sql查询编写代码有什么显著的优势吗？我想知道催化剂优化器是否也会对spark.sql查询起作用。

浏览 103提问于2021-02-25得票数 0

回答已采纳

2回答

如何在星火中的AWS Glue created Dataframe上运行SQL* SELECT？*

、、、

我在AWS中有以下工作，它基本上是从一个表中读取数据并在S3中将其提取为一个csv文件，但是我想在这个表上运行一个查询(A Select、SUM和GROUPBY)，并希望将该输出获得给CSV，我如何在AWS

浏览 1提问于2019-05-21得票数 1

回答已采纳

1回答

将Hadoop中的大数据导入Spark的有效方法

、、

由于我在大数据领域才刚刚起步，我正在寻求关于如何将一些数据放入Spark以进行分析的最有效方法的建议。 SQL查询相当大，有多个子查询，每个子查询都有自己的"when“、"group by”等。如果我运行一个spark sql查询并使用pyspark将其保存到一个dataframe中，或者如果我将每个子查询提取到不同的spark dataframe中并使用spa

浏览 20提问于2021-02-07得票数 0

1回答

Pyspark Shell中的HiveMetaStore错误，但Jupyter Notebook中没有

、、、

当我尝试使用pyspark dataframe或sql时，我遇到了一件奇怪的事情。当它在ipython笔记本或python控制台中工作时，当我在pyspark shell中运行它时，我得到了"javax.jdo.JDOFatalInternalException: Error creating简而言之，如果我在iPython笔记本或简单的python终端中运行以下命令，一切都会正常工作： import findspark findspark.

浏览 35提问于2019-05-13得票数 0

回答已采纳

点击加载更多

pyspark寄存器内置函数及其在spark.sql查询中的使用