在spark数据帧中执行字符串作为查询

我有一个带有followig模式(event_id，country，unit_id，date)的hive表(8,000,000条记录)，我需要将这些数据导出到一个文本文件中，满足以下要求:1- event_id使用spark完成这项工作的最佳性能明智解决方案是什么？注意:这应该是一个批处理作业。

浏览 6提问于2017-05-05得票数 0

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

1回答

如何优化巨大的spark数据帧SQL查询来比较来自spark streaming RDDs的值？

、、、

我正在创建一个使用火花SQL (数据帧)和火花流的演示。我不是火花专家，所以我需要一些帮助！我从一个数据库加载了大约100万个对象到spark Dataframe，我执行SQL查询来匹配一些字段和来自spark streaming的实时数据。现在，问题是，对于具有100万行和几列的数据帧，即使DF持久存储在内存中，上面的SQL查询也可能需要一些时间才能执行。我有一

浏览 1提问于2015-06-27得票数 2

1回答

在Spark SQL中传递参数

、

我需要在Spark SQL中传递参数。例如，我有以下查询作为Val时间戳=spark.sql("select timestamp from tablea ")，现在，我有另一个查询要在where类Spark.sql中传递这个时间戳(s“select但是上面的查询返回不匹配的表达式错误。有没有人能提个解决方案

浏览 1提问于2020-02-04得票数 0

2回答

Pyspark:通过ID和最近日期向后加入2个数据帧

、、、

在pyspark (和一般的python )中执行两个数据帧的滚动连接时，我遇到了很多问题。我希望将两个pyspark数据帧通过它们的ID和最近日期反向连接在一起(这意味着第二个数据帧中的日期不能晚于第一个数据帧中的日期) Table_2：期望的结果：从本质上讲，我知道SQL查询可以做spa

浏览 1提问于2020-08-08得票数 2

2回答

什么是Apache Spark* (SQL)中的Catalyst Optimizer？*

、

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

2回答

当编码时Row模式未知时，如何将string与Row合并以创建新的spark* dataframe？*

、、、、

我已经创建了一个函数，它接受一行作为输入，并给出一个字符串作为输出。我计划将此函数应用于不同模式的各种数据帧。这些数据帧非常庞大，每个数据帧有数百万行，但每个数据帧都有一个定义好的模式我想创建另一个函数，它将调用第一个函数，将函数的输出字符串与它发送到函数的行合并，并创建一个新的数据帧，该数据帧将作为

浏览 46提问于2019-10-15得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark* rdd吗？*

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

将MySQL更新语句转换为Amazon

我有一个python脚本，它使用MySQL从CSV文件中清除一些数据。我想把这个脚本变成Glue可以使用的东西，但是我不知道Glue可以使用的SQL语法。这是我需要修改的python / mysql脚本中的语句： SET identity_LineItemIdbill_BillType=NULLIF(bill_BillType,

浏览 1提问于2019-09-05得票数 0

回答已采纳

1回答

在Spark中聚合大型数据集

、、、、

", "state") sum("power").alias("totalPower"), ) 它是在具有大约100 GB RAM的集群上执行的。

浏览 0提问于2018-04-20得票数 5

回答已采纳

1回答

当从文件加载时，Spark会在内存中保留DataFrame吗？

、、

如果我像这样创建一个数据帧：spark实际上是将数据(从csv文件)加载(/copy)到内存中，还是作为分布式数据集加载到底层文件系统中？我之所以这样问，是因为在加载df之后，底层文件数据<

浏览 1提问于2019-10-25得票数 2

3回答

Apache可以用作数据库替换吗？(例如替换Mysql)

、、

我需要一个可伸缩的数据库解决方案，它可以扩展到多个工作节点，并且我遇到了Apache，它看起来非常强大的弹性。我可以用它作为Mysql的替代品吗？我尝试过创建、读取、更新、删除DataFrame中的值，但它似乎不是为此目的构建的吗？我(目前)能找到更新和行的方法.这几乎就像是一旦有了数据就可以查询数据，但不适合插入数据。如果它不能用作数据库.这是否意味着星火只是用于分析？如果需要实时信息，

浏览 4提问于2020-02-07得票数 1

回答已采纳

2回答

Spark dataframe将行中特定列的值替换为空值

、、、、

在尝试用空值替换Spark dataframe的特定列的值时，我遇到了一个问题。我有一个超过50列的数据帧，其中两列是键列。我想创建一个具有相同模式的新数据帧，并且新数据帧应该具有来自键列的值和非键列中的空值。) 当我在old_df中只有字符串类型的列时，这种方法很好。为了避免这种情况，我尝试将

浏览 18提问于2018-08-29得票数 1

回答已采纳

1回答

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---++--1| 0| 0| 10| 17|+---------+---+---+---+---+ 如果我添加一列来获得行和，并再次show()它，

浏览 6提问于2021-04-21得票数 0

回答已采纳

1回答

pyspark dataframe是否在第一次加载时缓存

、

我有一个通过spark sql查询从hive datastore加载的pyspark dataframe。我知道只有当我在数据帧上调用show()这样的操作时，查询才会执行。如果我在数据帧上多次调用一个操作，查询是否会被重新执行，或者是否可以缓存它？

浏览 26提问于2018-01-04得票数 0

回答已采纳

1回答

在foreachPartition中执行Mysql查询spark运行缓慢

、

我想在spark中的foreachparition中执行mysql查询，并最终将所有查询结果放到一个数据帧中。{ rowAccumulator.add(result)然后将rowAccumulator转换为数据帧例如，第一个查询花费130ms，第20个查询可能花

浏览 52提问于2018-06-09得票数 0

1回答

spark.read。从零件文件读取数据时，将空字符串读取为null

、、

让我们考虑包含以下数据的csv文件 Id、职务、年份 1，,2000 CSV读卡器代码： var inputDFRdd = spark.emptyDataFrame.rdd .option("mode", "FAILFAST")

浏览 49提问于2021-09-16得票数 0

1回答

如何将值从一个dataframe传递到另一个dataframe？

、、、

> val a=spark.sql(select max(CID) as C_ID from AAA > 我必须将C_ID值作为参数传递到数据帧下面的where条件。我不应该使用子查询的概念，因为数据在数百万中，多个表在联接中，这里我提到了示例查询。

浏览 2提问于2020-03-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云