如何使用Spark中现有dataframe列中的数据查询表？

、

我有一个写入SQL Server数据库的PySpark代码，如下所示然而，问题是，我想继续在表people中写入，即使表存在，我在Spark文档中看到可能有error，append，overwrite和ignore for模式，所有这些选项都抛出错误，如果表已经存在于数据

浏览 1提问于2015-10-11得票数 3

1回答

缓存查询性能火花

、

如果我试图缓存一个巨大的DataFrame (例如:100 to表)，当我对缓存的DataFrame执行查询时，它会执行完整的表扫描吗？星星之火将如何索引数据。星火文件说： Spark可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()来使用内存中

浏览 8提问于2017-08-14得票数 2

1回答

如何将新列添加到现有数据框中，同时指定它的数据类型？

、

我有一个dataframe：yearDF，它是通过读取Postgres上的关系型数据库管理系统表获得的，我需要在HDFS上的Hive表中摄取它。该列用于标记主键是否在源表中删除该行。要向现有数据帧添加新列，我知道有一个选项：dataFrame.withColumn("del_flag",someoperati

浏览 9提问于2018-08-30得票数 0

1回答

使用JDBC连接将数据写入Azure SQL DB with Scala代码Databricks notebook

、、、、

我正在尝试将数据从配置单元表插入Azure SQL DB表。SQL DB表已经存在，我只想用下面的Scala JDBC编写代码覆盖其中的数据。此代码将数据写入SQL DB表，但它正在更改其DDL (数据类型/列名)。我怎么才能避免它。我想要简单的插入表。 ?

浏览 18提问于2019-04-29得票数 0

1回答

、、

我有一个数据帧df，看起来像这样。+----++----+| 2 || 4 |+----+ 我想要做的是在一个SQL查询中使用这个Id列从另一个表中提取信息。我正在查询的这个表非常庞大，所以查询整个表，然后执行连接是不会有效率的。我试过这样的东西。spark.sql(f&quo

浏览 24提问于2021-08-12得票数 1

回答已采纳

1回答

我有一个场景，通过where条件从同一个DataFrame中使用另一个列从DataFrame读取一列，这个值作为IN条件通过，从另一个DataFrame中选择相同的值，我如何在spark DataFrame中实现。在SQL中，它将类似于： select distinct(A.date) from table A where A.key in (select B.key from t

浏览 19提问于2021-05-28得票数 0

回答已采纳

2回答

对dataframe的200万次查询

、

我需要对大小为100亿行的三列表t (s，p，o)运行200万次查询。每一列的数据类型为字符串。数据库中，则使用Java ThreadPoolExecutor需要6个小时。你认为Spark能更快地处理查询吗？最好的策略是什么？以下是我的想法：将表加载到一个dataframe中，并启动对<

浏览 4提问于2020-07-13得票数 1

2回答

将星星之火DataFrame写入表

、、

我正在尝试理解名为DataFrame的火花saveAsTable API方法。我有以下问题如果我只使用saveAsTable API df7.write.saveAsTable("t1")编写数据，(假设t1之前不存在)，那么新创建的表是否是一个可以使用hive在外部读取的Hive表呢？星星之火是否也创建了一些非蜂窝表(这些表是使用saveAsTable

浏览 8提问于2020-12-22得票数 2

1回答

如何在phoenix中只更新一个栏目？

、

我有一个现有的HBase表，并且我正在使用phoenix-sqlline。我向现有表添加了两个新列(让我们称它们为A和B)，到目前为止，它们的值都是NULL值。我想不加任何条件地将这两列更新为一个值(假设A为1.0，B为0.1)。如何使用phoenix sqlline执行此操作？注意:有一种方法可以从Spark dataframe中的HBas

浏览 20提问于2020-10-16得票数 0

1回答

如何将标题添加到Avro Kafka消息中

、、、

我们使用Avro Datum Reader和Datum Writer在Scala中构建Kafka消息。如何在avro文件中添加标题并生成kakfa消息？

浏览 8提问于2022-11-09得票数 0

1回答

创建具有嵌套结构的DataFrame并从输入表填充数据

、、

我正在使用Scala中的Spark，希望将现有的数据集(dataframe)转换为包含嵌套结构的新表。columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD，columnE} (创建一个同时包含D和E作为嵌套结构的新列) 转换columnA-C很简单，因为我可以使用.withCol

浏览 25提问于2021-08-12得票数 0

2回答

星星之火SQL/Hive查询使用永久连接

、、

所以我正在做一些应该很简单的事情，但显然它不在Spark中。如果我在MySQL中运行以下查询，查询将在一秒钟内完成：FROM user u inner join user_address ua on ua.address_id添加更多的联接会使查询运行很长时间(超过10分钟)。我不知道我在这里做错了什么，怎么才能加快速度。这些表是加载到Hive上下文中的MySQL表

浏览 0提问于2015-12-02得票数 4

回答已采纳

2回答

火花镶嵌地板隔断移除了隔断柱

、、

如果我使用的是df.write.partitionby(col1).parquet(path)。如何避免呢？

浏览 2提问于2021-03-16得票数 0

1回答

将熊猫保存到天蓝色数据库中的新表中

、、、

上下文:我有一个使用SQl查询的数据文件。在这个查询中，我使用spark上的熊猫保存到一个数据文件中。现在，经过一些转换后，我想将这个新的dataframe保存在给定数据库的新表上。示例： spark = SparkSession.builder.appName('transform

浏览 13提问于2022-11-18得票数 0

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.s

浏览 0提问于2018-12-06得票数 2

回答已采纳

2回答

如果分区列不在Where谓词中，查询优化是否会失败？

我有一张这样的表格：id int not null,time timestamp notnullPARTITION BY COLUMN timeselect sum(value) from example_timeseries_table如果是这样，我将如何改进如何进行这种类型的查询？表<

浏览 0提问于2016-08-25得票数 1

1回答

将PySpark DataFrames写入MySQL时的最佳实践

、、、、

我试图开发几个数据管道使用Apache气流与预定的火花作业。java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver 我想知道的第一件事是如何解决上述问题。其次，我想知道将数据从Spark写入数据库(如MySQL )时的最佳实践是什

浏览 2提问于2021-10-28得票数 1

回答已采纳

6回答

如何将PySpark中的表数据框导出到csv？

、、、、

我使用的是Spark 1.3.1 (PySpark)，并且我已经使用SQL查询生成了一个表。我现在有一个对象，它是一个DataFrame。我想把这个表对象(我把它叫做“DataFrame”)导出到一个csv文件中，这样我就可以操作它并绘制列。如何将DataFrame“表”导出为csv文件？谢谢!

浏览 813提问于2015-07-13得票数 92

回答已采纳

4回答

用星星之火覆盖蜂窝分区

、、、、

我正在使用AWS，我有使用Spark和Hive的工作流。我的数据是按日期划分的，所以每天我在S3存储中都有一个新的分区。我的问题是，当有一天加载数据失败时，我必须重新执行该分区。接下来编写的代码是： .write .format(getForm

浏览 2提问于2018-04-23得票数 11

回答已采纳

2回答

什么是Apache Spark* (SQL)中的Catalyst Optimizer？*

、

我想知道更多关于在Apache ( PySpark )中使用Catalyst Optimizer的信息，在pyspark数据帧中使用Catalyst Optimizer是可能的。

浏览 23提问于2019-05-18得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用PySpark写入Microsoft SQL Server表

缓存查询性能火花

如何将新列添加到现有数据框中，同时指定它的数据类型？

使用JDBC连接将数据写入Azure SQL DB with Scala代码Databricks notebook