Dataframe API与Spark.sql [重复]

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

3回答

、、

这个问题在这里已经有答案了：在Spark SQL中编写SQL与使用Dataframe API(4个答案) 4天前就关门了。用Dataframe API格式而不是Spark.sql查询编写代码有什么显著的优势吗？我想知道催化剂优化器是否也会对spark.sql查询起作用。

浏览 103提问于2021-02-25得票数 0

回答已采纳

1回答

spark 2.0.0选择不同的不稳定结果

、、、、

我运行pyspark2在spark 2.0.0上vw_ticket = read_csv(...)vw_ticket_in_booking.createOrReplaceTempView('vw_ticket_in_booking')spark.sql('sele

浏览 2提问于2017-08-31得票数 0

回答已采纳

1回答

在Spark regexp_replace中使用\P{C}

、、、、

'x')%python display(spark.sql

浏览 3提问于2020-06-08得票数 0

回答已采纳

2回答

如何解析日期时间？

、、

我试过以下几种方法这将返回2005-04-24，但没有时间戳。然后我试着但这只是返回了一个错误

浏览 2提问于2019-09-20得票数 2

回答已采纳

2回答

在Spark中，如何将一个DataFrame拆分成两个DataFrames？

、

我有一个DataFrame A的大数据。总之，它类似于下面的伪代码。

浏览 46提问于2017-06-26得票数 1

1回答

HiveContext vs spark sql

、、

=conf).getOrCreate()sqlContext.sql ('select * from table')spark.sql

浏览 11提问于2018-08-21得票数 0

2回答

过滤器与Hive where子句

、、、

我只是想知道这个火花密码就像这个一样有效率：在第一组中，我们是将所有的单元数据加载到RAM中，还是足够聪明地在执行生成的DAG时过滤蜂巢中的这些值

浏览 2提问于2020-08-28得票数 0

回答已采纳

1回答

在数据帧上使用聚合操作比使用spark.sql()直接实现SQL聚合有好处吗？

、

我见过来自数据仓库和SQL背景的人正在使用SQL实现聚合和其他转换逻辑(where spark is the sparkSession object) dataframe.createOrReplaceTempView().但是，如果我们看到，我们还有其他选择，比如windows函数或其他选项，它们可以直接在dataframes.Or上实现，甚至我们可以将函数注册为UDF，并可以在dataframe上实现。假设我需要在数据帧CITY_CENSUS上实

浏览 1提问于2019-05-05得票数 0

1回答

是否有可能加入TempView中的火花，因为它正在抛出不能解决符号错误

、、

我正在尝试加入Apache中的3视图与scalafinaldf.createOrReplaceTempView("product{DataFrame, SaveMode, SparkSession}以下连接视图 val result = customer.join

浏览 1提问于2020-08-01得票数 1

回答已采纳

2回答

SQL与Spark中的SQL类似

、、、

这是我正在运行的查询： val joined = spark.sql("SELECT A.revision, B.revision FROM RAWDATA A LEFT JOIN TPTYPE B ON

浏览 0提问于2016-11-07得票数 10

回答已采纳

1回答

Pyspark最昂贵的产品

、、

我正在试着用PySpark买到最贵的产品。基本上，我必须将这个查询从SQL转换为pyspark：FROM lotstempLIMIT 1

浏览 0提问于2020-05-06得票数 0

1回答

批量删除表(Pyspark)

我有一个有很多表的数据库。我希望删除该数据库中所有在批处理中的名称中有"oct“的表。有办法这样做吗？我在网上找不到明确的答案，我不想犯错误，删除不该删除的表格。谢谢你的帮助！

浏览 4提问于2022-01-07得票数 0

1回答

用标量乘PySpark数组列

、、、

我试图用标量乘以数组类型化的列。这个标量也是来自同一个PySpark数据的值。df = sc.parallelize([([1, 2],3)]).toDF(["l","factor"])| l|factor||[1, 2]| 3|我想要做到的是：| l|factor||[3, 6]| 3|这就是我尝试过的：

浏览 1提问于2020-06-19得票数 3

回答已采纳

1回答

Hadoop 3和spark.sql:同时使用HiveWarehouseSession和spark.sql

、、、、

在此之前，我可以完全在spark.sql api中工作，以便与蜂巢表和火花数据帧进行交互。我可以查询使用同一个api注册的spark或hive表中的视图。要对蜂窝表执行任何操作，必须使用“HiveWarehouseSession”api，而不是spark.sql api。是否有任何方法继续使用spark.sql api并与hive交互，或者我必须重构我的所有代码？hive = HiveWarehouseSession.session(

浏览 0提问于2019-08-29得票数 1

1回答

使用列值作为火花DataFrame函数的参数

、、

-+---+df = spark.createDataFrame([("X", 3),("Y", 1),("Z", 2)], ["letter", "rpt"])""" query = query.replace("\n", " ") # replace newlines with spaces, avoid EOF

浏览 2提问于2018-07-02得票数 11

回答已采纳

2回答

如何比较PySpark中两个数据帧的计数？

、、

我的代码如下所示： df1 = spark.sql ("""SELECT Col1, Col2, Col3, Col4, Col5 FROM Table1""")df2.createOrReplaceTempView("df2&qu

浏览 8提问于2020-08-21得票数 1

回答已采纳

2回答

Spark DataDrame中=== null与isNull的区别

、、、、

我对我们使用时的区别感到有点困惑。我在===中得到的相同数据帧计数为null，但在isNull中得到的计数为零。请帮我理解其中的区别。谢谢

浏览 0提问于2017-01-08得票数 22

回答已采纳

1回答

如何根据主键从表中删除重复行？

、、

我在Dataframe中加载了一个表，我尝试在PKs中使用groupBy。df_remitInsert = spark.sql("""SELECT * FROM trac_analytics.mainremitdata""") df_remitInsert_filter =我想从df_remitInsert实现全部数据，这些数据是完全重复的w.r.t主键。

浏览 9提问于2022-05-05得票数 0

1回答