Spark + Java -从数据集中获取结果_如何从spark java数据集中删除某些记录？_如何从结果集中获取单行 - 腾讯云开发者社区

、、

我有一个小型数据集，其中包含HDFS上按国家/地区划分的人口数据。sparkSession = new SparkSession(context); System.out.println("========== Print Data =============="); df.show();

浏览 12提问于2020-04-17得票数 0

回答已采纳

1回答

使用Java使用Spark列从java Map读取值

、

我尝试了下面的代码，通过java中的spark列获取Map值，但根据每个关键字搜索，从Map获取期望精确值的null值。Spark数据集包含一列，名称为KEY，数据集名称为dataset1 数据集中的值： KEY2 Java代码- Map<String,string> map1 = new HashMap<>()

浏览 118提问于2021-10-14得票数 1

回答已采纳

1回答

加载蜂巢表中的火花org.apache.spark.sql.catalyst.analysis.UnresolvedException错误

、

在尝试将数据集中的数据加载到Hive表时，获取错误： Date IPL_APPL_S

浏览 0提问于2018-09-03得票数 1

1回答

scala.collection.immutable.List$SerializationProxy的java.lang.ClassCastException:无法分配实例

我从Spring java应用程序处理csv文件来触发清理。获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法将org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$dependencies_实例分配给java.io.ObjectStreamClass$FieldReflector.setObjFieldV

浏览 0提问于2019-05-07得票数 2

2回答

使用java获取Apache中的单一列值作为平面列表。

、、

我刚接触过Java和，并试图找出如何从spark中的数据集中作为一个平面列表来获取单个列的值。如何使用java在spark中实现这一点？

浏览 3提问于2020-04-06得票数 0

回答已采纳

1回答

如何在火花数据集中保留除函数之外的顺序

我必须对spark数据集应用一些限制，并且必须创建spark数据集的子集，并且需要从该数据集中提取一行。我通过使用dataset的除了函数和限制函数实现了这个逻辑。这里的问题是，当我使用时，数据集的顺序已被更改。就我的逻辑而言，维持秩序是很重要的。例如：我的数据集是:有3行的数据集我想获取Icecreams，当我申请限制，除了我得到我的子集为 Soft

浏览 1提问于2018-04-03得票数 0

1回答

如何处理JSON文档(来自MongoDB)并在结构化流中写入HBase？

、、、

我正在获取mongoDB文档，然后在处理之后，我想使用Bson.Document库将其存储到Hbase中在结构化流媒体中，我得到了DatasetDocument scala> val stream = spark.readStream.format("kafka").option("subscribe", s"topic

浏览 15提问于2019-11-09得票数 2

1回答

从Spark SQL (java)中的数据集中获取JSON

、、

我有一个运行在服务器上的Spark SQL应用程序。它从.parquet文件中获取数据，并在每个请求中对这些数据执行SQL查询。我需要在响应中发送与查询输出相对应的JSON。这就是我要做的sqlDF.show(); 所以我知道这个查询是有效的。

浏览 2提问于2017-08-13得票数 1

4回答

从java中的结果集中获取数据

、

我正在尝试从java代码中获取列的最大数据，但是在结果集中得到了一个错误。

浏览 6提问于2013-09-27得票数 0

回答已采纳

1回答

如何在Spark Java中将带有值的列添加到新数据集中？

、、、、

因此，我从java Spark API创建了一些数据集。这些数据集是使用spark.sql()方法从hive表填充的。因此，在执行了一些sql操作(比如joins)之后，我就有了一个最终的数据集。我想要做的是向最终数据集中添加一个新列，该数据集中的所有行的值都为"1“。因此，您可能会将其视为向数据集添加约束。举个例子，我有一个数据集：

浏览 1提问于2017-07-07得票数 8

回答已采纳

7回答

在Java文本文件中写入大数据的最快方法

、、

我必须在textcsv文件中写入大量数据。我使用BufferedWriter来写数据，写174MB的数据花了大约40秒。这是java能提供的最快速度吗？bufferedWriter = new BufferedWriter ( new FileWriter ( "fileName.csv" ) ); 注意：这40秒还包括迭代和从结果集中获取记录的时间。174MB用于结果集中的400000行。

浏览 73提问于2009-06-30得票数 71

回答已采纳

2回答

使用Spark处理比群集更大的数据集

、、、

我在由5个节点组成的Spark2.3集群上，每个节点都有12 of的可用内存，我正在尝试使用大约130 of的Parquet数据集，在此之上我创建了一个分区的外部Hive表。假设我想知道数据集中的记录数量。我最初的猜测是，Spark将按分区读取数据分区，聚合当前分区以获取记录计数，将结果传递给驱动程序，然后删除该分区以读取下一个分区。然而，要么这不是它的工作方式(而是，Spark试图首先读取内存中的所有内容)，要么我把它编码错了。像s

浏览 0提问于2018-12-05得票数 0

回答已采纳

1回答

Spark Streaming:将处理后的数据存储到elasticsearch中

、、、

我有一个练习，实现一个服务，从Kafka获取数据，处理它，并使用Spark Streaming将结果存储到elasticsearch中。我可以从Kafka获取数据到我的服务中，并在Spark集群中处理它，但我不知道如何在操作中将结果持久化到elasticsearch中。Process event t here // here I want to persist the re

浏览 0提问于2018-10-25得票数 0

1回答

获取Apache spark数据集中包含的列的列数据类型

、、

我想知道是否有一种方法可以使用java获取Apache spark数据集中包含的列的数据类型？我有一个数据集，其中包含一个名为SSN的列，我编写了以下代码来修剪该列中的数据：我正在尝试获取SSN列的数据</em

浏览 16提问于2018-02-07得票数 1

3回答

使用agg()方法(在Java中)计算数据集计数行的匹配条件

、

我在Java中使用ApacheSpark2.3.1。我希望使用agg()类的Dataset方法来计数与给定条件匹配的数据集中的行数。例如，我希望在以下数据集中计算label等于1.0的行数：rows.add(RowFactory.create(1, 1.0)); spark.sqlCo

浏览 1提问于2019-11-20得票数 0

回答已采纳

1回答

为什么需要编码器来创建spark中的数据集

、

为此，我将RDD转换为dataset，因为从RDD，我们不能直接获得拼花表单。而对于创建数据集，我们需要使用隐式编码器，否则，它就会产生编译时错误。我只在这方面有几个问题。以下是我的代码： val ds: Datasetds.write .parquet(configuration.outputPath)

浏览 3提问于2018-12-27得票数 4

回答已采纳

1回答

具有JDBC连接的SparkSql

、

我想使用Spark的JDBC从数据库中读取数据。我将使用200个执行者来读取数据。我的问题是，如果我提供了200个执行器，那么它会创建到集中式数据库(JDBC)的200个连接，还是会从具有单个连接的驱动程序中获取数据？

浏览 1提问于2018-05-17得票数 2

1回答

来自S3 -java.lang.ClassNotFoundException的Pyspark : com.amazonaws.services.s3.model.MultiObjectDeleteException

、、、

我正在尝试从AWS EMR集群中使用pyspark从s3获取数据。. : java.lang.NoClassDefFoundError: com/amazonaws/services/s3/model/MultiObjectDeleteException.我尝试了不同版本的jars/集群，仍然没有结果。","/usr/lib/spark/jars&#x

浏览 87提问于2021-04-07得票数 0

1回答

星星之火SQL java* add列并计数不同的行。*

、

SQL和Spark是非常新的，我正在尝试在数据集中添加一个列，其中包含distinct计数。数据集：| A | B || A | B |预期结果：| A | B | 3 |我的Java代码： return dataset.agg(co

浏览 0提问于2019-06-19得票数 0

回答已采纳

1回答

如何将一行与spark数据集中的所有其他行进行比较？

、、、

我有一个从MySQL加载的spark数据集，我想将每一行与数据集中的所有其他行进行比较，并使用获得的结果创建一个新的数据集。有没有办法做到这一点？

浏览 0提问于2017-03-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云