从循环中的Spark数据集中读取行数据

文章/答案/技术大牛

发布

1回答

、、、

我想用Java在循环中读取spark数据集行，并且我必须在其中读取其他数据集。假设ds是数据集，如果如下所示的写入循环，我可以读取其他数据集 ds.toJavaRDD().collect().forEach() 但我删除了collect()和JavaRDD()并直接应用 ds.foreach() 那么我就不能读取其他数据集。

浏览 48提问于2021-08-26得票数 1

1回答

如何通过将dataframe作为输入来编写pytest，以获取palantir foundry中所有必需的值

、、、

我可以通过手动提供列名和值来创建数据框，并将其传递给生产代码以检查palantir foundry代码库中所有转换后的字段值，从而编写pytest函数。我不想手动传递列名及其各自的值，而是希望将所有必需的数据存储在dataset中，并将该数据集导入pytest函数以获取所有所需的值，然后传递给生产代码以检查所有转换后的字段值。是否可以接受数据集作为planatir代码库中测试函数的输入。

浏览 7提问于2020-11-17得票数 2

3回答

我们可以为Spark中的行提供一个序列Id吗？

、

我是spark的新手，我在数据文件中有大约10000行要读取 .builder().getOrCreate(); 我有一个向数据集中的

浏览 2提问于2020-05-28得票数 0

1回答

N列m行的动态数据帧

、

从json(动态模式)读取数据，并将其加载到dataframe。示例数据帧：import spark.implicits._ (1, "ABC"), (3, "GHIJ") ).toDF("id", "word&qu

浏览 6提问于2020-06-04得票数 0

回答已采纳

1回答

只在第一个文件中读取多个带有头的CSV文件-火花

、、

我想阅读并创建一个使用火花的数据格式。但是，下面的代码可以使用此方法丢失4行数据，因为在最终读取时，标头设置为true。如果我将头设置为false，我将返回4行数据，但也会从数据中的第一个文件中获得实际的头。是否有更有效的方法来做到这一点，使标题在我的数据集中不显示为一行？header = spark

浏览 4提问于2021-10-22得票数 1

回答已采纳

1回答

具有JDBC连接的SparkSql

、

我想使用Spark的JDBC从数据库中读取数据。我将使用200个执行者来读取数据。我的问题是，如果我提供了200个执行器，那么它会创建到集中式数据库(JDBC)的200个连接，还是会从具有单个连接的驱动程序中获取数据？

浏览 1提问于2018-05-17得票数 2

2回答

数据格式与其他数据结构模式的比较

、、、、

我从两个数据集中读取了从hdfs路径读取的模式，定义如下：df.printSchema() |-- name: string

浏览 4提问于2021-07-12得票数 0

回答已采纳

1回答

用scala读取bigquery中的数据

、、

我正在尝试从bigquery读取数据并打印这些数据。我试过的东西，val spark = SparkSession .master("local") .appName.config("fs.gs.auth.service.account.json.keyfile", "<key_file>")

浏览 2提问于2019-04-08得票数 2

回答已采纳

2回答

使用Spark库，我想将ElasticSearch中的数据直接读取到elasticsearch-hadoop数据集中。但是，它的API返回RDD[(String，MapString，Any)]，其中元组的第一个元素是文档名，第二个元素(映射)是数据本身。我想把它变成一个DatasetT，其中T是某个case类，以使返回的数据更容易处理。我会考虑使用其他库(我找不到任何库)或者一个整洁的</e

浏览 20提问于2020-07-17得票数 0

1回答

如何在Spark* Java中将带有值的列添加到新数据集中？*

、、、、

因此，我从java Spark API创建了一些数据集。这些数据集是使用spark.sql()方法从hive表填充的。因此，在执行了一些sql操作(比如joins)之后，我就有了一个最终的数据集。我想要做的是向最终数据集中添加一个新列，该数据集中的所有行的值都为"1“。因此，您可能

浏览 1提问于2017-07-07得票数 8

回答已采纳

2回答

在Parquet中使用嵌套数据类型有什么好处？

、、、

在Parquet文件格式中使用嵌套数据类型会带来任何性能上的好处吗？AFAIK Parquet文件通常是专门为查询服务(如Athena )创建的，因此创建这些文件的过程可以简单地平缓值--从而允许更容易地查询、简化模式，并保留每列的列统计信息。使用嵌套数据类型(如struct )有什么好处？

浏览 0提问于2018-03-25得票数 3

回答已采纳

1回答

Spark cache是否会以任何时间间隔自动更新新的数据值？

、、

我使用pyspark和cassandra，并使用cache()函数缓存数据。我想知道cassandra中的数据每次更新时，缓存是否会自动更新？

浏览 0提问于2015-08-21得票数 3

2回答

使用火花红移插入红移

、、

我正在尝试从S3 (拼花文件)中插入红移数据。通过SQLWorkbench完成它，600万行需要46秒。但通过连接器的火花红移，它需要大约7分钟。val df = spark.read.option("basePath", "s3a://parquet/items")

浏览 0提问于2018-02-07得票数 3

回答已采纳

1回答

如何在spark中使用完整的单元数据库，并从外部文件中读取sql查询？

、、、、

我有一个用TPC样本数据填充的Hive数据库。我想从外部文件中读取一些SQL查询，并在spark中的hive数据集中运行它们。我遵循这个主题，只是在我的数据集中使用一个表，并且它再次用spark编写了SQL查询，但是我需要将整个dataset定义为我的源来查询，我认为我应该使用数据格式，但我不确定，也不知道如何！另外，我希望从外

浏览 5提问于2016-12-26得票数 0

回答已采纳

4回答

如何在Spark* sql中访问HIVE ACID表？*

、、、

如何在Spark sql中访问HIVE ACID表？

浏览 2提问于2018-11-08得票数 1

1回答

当表很大时，可以在关系数据库中使用Spark吗？

、、、

我想知道如何使用spark来处理存储在关系数据库中的结构化大数据？我有包含超过40亿行(GPS坐标)的表格。在使用合并操作时，Spark试图处理内存中的所有表，这是不可能的。我知道Spark是“内存中的”处理，但在我的例子中，内存不能适用于整个表。那么，当表很大时，是否可以在关系数据库中使用spark呢？

浏览 3提问于2017-02-01得票数 1

1回答

筛选火花数据集

、、

在火花会议上 .builder() .config("spark.some.config.option", "some-value")从数据集中val

浏览 4提问于2022-07-21得票数 2

回答已采纳

2回答

将每个文件激发到dataset行。

、、

我在一个目录中有许多文件，每个文件包含跨越多行的文本。目前，我使用以下代码将所有这些文件读入星火数据集(>2.0)但是，这会创建一个数据集，其中每一行都是一行我希望数据集中的每一行都有每个文件(作为字符串)。如何实现这一点，而不迭代每个文件，并将其单独<

浏览 3提问于2017-01-27得票数 2

回答已采纳

1回答

在Foreach循环中填充的SSIS对象变量设置为循环外的最后一行，无法访问整个数组

、

我有一个SSIS包，它将汇编动态SQL语句，并在不同的服务器上执行，结果需要写回第一个服务器。由于SQL是作为变量创建和传入的，因此将使用Foreach循环来运行每个实例。如果我将我的脚本任务放在Foreach循环本身中，我可以将结果写回原始服务器。然而，出于性能原因，我真的希望将插入操作从Foreach循环中取出，并读取结果集/对象变量，以打开一个连接并一次性写入所有数据。但是，当我从循环中拉出读取结果并

浏览 0提问于2020-07-20得票数 1

1回答

在for循环中构造Spark* sql数据集*

、、、

TestDF是一个数据帧。它可以在for循环中编辑/修改10次吗？java也没有动态变量赋值。需要在for循环中执行类似"Dataset <Row> testDF+(i+1) = testDF+(i)“(动态变量)或"Dataset <Row> testDF = testDF”(在同一个dataset中)的操作。有没有办法在for循环中</e

浏览 1提问于2017-10-31得票数 2

点击加载更多