如何在Spark 2.1中为集合编写编码器？

、

我有这个：import org.apache.spark.sql.catalyst.encoders.RowEncoder val mydata:Dataset[Row] = spark.read.format("csv").option("header", true).option("inferSchema", true).load("mydata.csvval rowEncoder = RowEncoder(myd

浏览 12提问于2017-03-11得票数 0

3回答

斯卡拉星火中的Encoder[Row]

、、

我试图在Spark2.0.0中的Dataset[Row] (DataFrame)上执行一个简单的映射。

浏览 5提问于2016-09-30得票数 2

1回答

什么是Apache spark.sql.types.DataTypes of java.time.LocalDate？

、、

import java.io.Serializable;import org.apache.spark.sql.types.StructField; @Data但是在静态structType变量中，我将date的类型设置为DateTypes.DateType。当我将pojo类绑定到<

浏览 1提问于2021-01-28得票数 2

回答已采纳

1回答

用于不可变数据类型的spark sql编码器

、、、、

在编写java代码时，我通常使用不可变的值类型。在Spark中，数据类型需要一个Encoder。使用现成的编码器如Encoder.bean(MyType.class)，使用这种不可变的数据类型会导致“非法的反射访问操作”。此外(并已记录在案)唯一受支持的集合类型是array、list和map (而不是set)。

浏览 3提问于2021-10-20得票数 0

回答已采纳

2回答

Kryo在SparkSQL中有帮助吗？

、、

Kryo通过高效的序列化方法帮助提高Spark应用程序的性能。case class Info(name: String, address: String)val df = spark.sparkContext.textFile(args(0))&#

浏览 1提问于2018-03-14得票数 6

回答已采纳

1回答

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

、、、、

我有一个PySpark表，其中的许多列都是VectorUDT类型的。这些列是使用PySpark中的OneHotEstimator函数创建的。我可以将这个表写到拼图文件中，但是当我尝试使用PyArrow将这个表读回到Pandas时，我得到了这个异常： ArrowNotImplementedError: Currently only nesting with Lists is supported. 有什么办法可以绕过这个问题吗？我不希望将每个VectorUDT列拆分成各自的列。

浏览 18提问于2019-06-10得票数 0

1回答

引申在火花中的不起作用

、、、、

下面是代码： }然后，此特性用于对象如下：} 错误:无法找到存储在数据集中的类型的编码器导入spark.implicits._支持基

浏览 0提问于2018-01-18得票数 1

回答已采纳

1回答

如何使用Pyspark从mongodb中仅提取特定行？

、、、

我正在从mongodb集合中提取数据，并使用Spark python代码将其写入bigquery表。下面是我的代码片段： .format("com.mongodb.spark.sql.DefaultSource")\ .option("uri","mongodb_url但我只想提取满足条件的文档(如sql查询中的where条件)。dataframe中的整个数据，并对该dataframe使用过滤器，如下所示：

浏览 1提问于2021-02-18得票数 0

1回答

使用idea调试Spark独立集群

、、

我正在尝试使用主节点和工作节点在本地集群上调试Spark应用程序。我已经成功地使用start-master.sh和it works.But设置了Spark独立集群管理器的主节点和工作节点。我想知道Spark应用程序在spark集群中是如何工作的，所以我想在调试模式下启动集群。) at org.apache.spark.deploy.master.ui.MasterWebUI.at org.apache.spark.rpc.netty.Inbox$$anonfun$process$

浏览 3提问于2018-04-25得票数 1

2回答

为什么使用编码器比java序列化快得多？

、、、

为什么使用编码器比java和kryo序列化快得多？

浏览 5提问于2018-05-05得票数 1

回答已采纳

1回答

无法将数组从MongoDB传递到需要向量的火花机学习函数

、、、

我的用例：{ "label" : 167.517838916715我的问题是：LinearRegression.fit(.)期望一个带有标签列和功能列的DataSet。我不能.map从ArrayDouble到DenseVector的特性，因为没有相关的编码器： Error:(23,

浏览 5提问于2016-11-16得票数 1

回答已采纳

5回答

如何将行映射到protobuf生成的类？

、、、

我需要编写一个读取DataSetRow并将其转换为DataSetCustomClass的作业，其中CustomClass是一个protobuf类。关于为类编写自定义编码器有什么建议/示例吗？:126) at org.apache.spark.sql.catalyst.JavaTypeInference$$anonfun$2.apply(JavaTypeInference.scala:125$.org$apache$spark$sql$catalyst$JavaTypeInf

浏览 8提问于2017-06-27得票数 6

1回答

Spark是在java语言中加载数据集的最佳方式

、、

我有一个这样的数据集：N红一个苹果……这种情况下加载数据的最佳方式是什么？(数据帧、数据集、RDD)

浏览 0提问于2017-05-10得票数 1

4回答

当试图将dataframe行映射到更新的行时出现编码器错误

、、、、

make = if (row1.toLowerCase == "tesla") "S" else row1}) 注:我正在使用火花2.0！

浏览 1提问于2016-09-11得票数 42

回答已采纳

1回答

火花kryo编码器ArrayIndexOutOfBoundsException

、、

我正在尝试使用spark和esri创建一个带有地理数据集的数据集。import com.esri.core.geometry.Pointimport org.apache.spark.org.apache.spark.sql.Dataset.showString(Dataset.scala:263) at org.apache.spark.sql.Dataset.show(Datase

浏览 4提问于2016-07-21得票数 1

1回答

Spark2.x数据集的Kryo序列化

、、

(前提是将正确的配置传递给Spark，并正确注册类) 如果它有效的话，它能提供多少性能改进？谢谢。

浏览 0提问于2017-06-24得票数 7

1回答

Apache光束上的Spark.ml

是否可以在束管道中使用星火库(如Spark.ml )？根据我的理解，您将用“Beam语法”编写管道，并让Beam使用spark作为流道在火花上执行它。因此，我看不出如何在beam中使用spark.ml。但也许我在这里出了什么问题？

浏览 1提问于2018-11-27得票数 1

回答已采纳

1回答

我们如何开始使用Repast4Py

我对使用Ubuntu非常陌生，所以我不太确定如何在下载之后开始使用Repast4py。我以前已经在“辛普森晚餐”中运行过它，它运行得很好，但是如何在python中实现呢？

浏览 11提问于2022-07-29得票数 1

回答已采纳

1回答

如何使用scala连接到Apache中的postgreSQL数据库？

、、

我想知道如何在scala中执行以下操作？编写SQL查询，如SELECT、UPDATE等，以修改数据库中的表。我知道如何使用scala来实现它，但是如何在打包时将psql scala的连接器jar导入sbt？

浏览 0提问于2014-07-23得票数 40

回答已采纳

1回答

为什么Spark Mongo连接器不下推过滤器？

、、

我有一个很大的Mongo集合，我想在我的Spark应用程序中使用Spark Mongo连接器。该集合非常大(>10 GB)，并且具有每日数据，并以original_item.CreatedDate字段为索引。在Mongo中选择几天的查询速度非常快(不到一秒)。然而，当我使用dataframe编写相同的查询时，该过滤器不会下推到Mongo，导致性能极低，因为Spark显然会获取整个集合并自行进行过滤。在物理计划中我看到：PushedFilters:

浏览 22提问于2019-04-18得票数 2

点击加载更多