Spark (scala) -迭代DF列并计算一组项目中的匹配项数量

Spark是一个开源的大数据处理框架，使用Scala编程语言进行开发。它提供了高效的数据处理能力，可以处理大规模数据集，并且具有良好的可扩展性和容错性。

在Spark中，DataFrame是一种数据结构，类似于关系型数据库中的表。DataFrame可以包含多个列，每个列可以包含不同类型的数据。迭代DataFrame的列并计算一组项目中的匹配项数量，可以通过以下步骤实现：

导入Spark相关的库和模块：

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

创建SparkSession对象：

val spark = SparkSession.builder()
  .appName("Spark Scala Example")
  .getOrCreate()

加载数据集并创建DataFrame：

val data = Seq(
  ("Alice", "ProjectA"),
  ("Bob", "ProjectB"),
  ("Alice", "ProjectC"),
  ("Charlie", "ProjectA"),
  ("Alice", "ProjectB")
)
val df = spark.createDataFrame(data).toDF("Name", "Project")

使用groupBy和count函数进行分组和计数：

val result = df.groupBy("Project")
  .agg(count("Name").alias("MatchedItemCount"))

打印结果：

result.show()

以上代码将迭代DataFrame的"Project"列，并计算每个项目中的匹配项数量。最后，将结果打印出来。

腾讯云提供了与Spark相关的产品和服务，例如腾讯云EMR（Elastic MapReduce），它是一种大数据处理平台，基于开源的Hadoop和Spark生态系统。EMR提供了强大的集群管理和资源调度功能，可以方便地部署和管理Spark应用程序。

更多关于腾讯云EMR的信息和产品介绍，可以访问以下链接：腾讯云EMR

请注意，以上答案仅供参考，具体的实现方式可能因环境和需求而异。

页面内容是否对你有帮助？

有帮助

没帮助

Spark:迭代过大抛出stackoverflowError时的PageRank示例

、、、

我测试了spark默认PageRank示例，并将迭代设置为1024，然后它抛出stackoverflowerror。我在我的另一个program.How中也遇到了这个问题，我能解决它吗？ object SparkPageRank { def main(args: Array[String]) { if (args.length < 3) { System.err.println("Usage: PageRank <master> <file> <number_of_iterations>") Syst

浏览 3提问于2014-03-11得票数 8

4回答

如何在Spark中强制DataFrame求值

、

有时(例如，为了测试和标记)，我想强制执行在DataFrame上定义的转换。AFAIK调用像count这样的操作并不能确保所有的Columns都是实际计算的，show可能只计算所有Rows的一个子集(参见下面的示例) 我的解决方案是使用df.write.saveAsTable将DataFrame写到HDFS，但是这会“扰乱”我的系统，我不想再保存更多的表。那么触发DataFrame求值的最佳方式是什么呢编辑：请注意，在spark开发人员列表上还有一个最近的讨论：http://apache-spark-developers-list.1001551.n3.nabble.com/Will-

浏览 62提问于2017-03-10得票数 20

回答已采纳

1回答

火花作业陷入局部模式

我正面临一个问题，我的火花工作被困在当地，而运行在IntelliJ的想法。我的工作一直持续到一个阶段，比如完成200个任务中的199个，或者完成3个任务中的一个，然后被困在那里。我试图在IDE中使用评估表达式查看正在发生的事情，并注意到了一个奇怪的问题。如果我使用的是myDf.rdd.map(r => r).cache() java.io.IOException: Class not found at org.apache.xbean.asm5.ClassReader.a(Unknown Source) at org.apache.xbean.asm5.ClassReader.<

浏览 1提问于2018-03-15得票数 1

1回答

如何使用partitionBy调优保存操作

、、、、

我需要将数据集数据划分为6列: region/year/month/day/id/quadkey，其中在顶层我只有二进制区域状态，而在最底层实际上是它进入许多分区的位置。假设我们有两个区域/通常是一年/通常是一个月/3-4天/100-150个I/ 50-200个四键，当我执行这个操作时，我得到了非常不平衡的随机操作，有时执行器会因为超出内存限制而失败。此外，我从History UI中注意到，hat阶段的一些任务非常大(约15 1Gb)，而其他任务则小得多(约1 1Gb)。我试着去玩 sqlContext.setConf("spark.sql.shuffle.partitions

浏览 0提问于2019-04-11得票数 1

1回答

星火作业失败，但有org.apache.spark.shuffle.FetchFailedException异常

、、

我正在运行一个具有以下属性的星火作业： "spark.driver.disk": "10g", "spark.driver.maxResultSize": "40g", "spark.driver.memory": "50g", "spark.driver.memoryOverhead": "85g", "spark.executor.cores": "5", "spark.executor.disk&

浏览 19提问于2022-05-11得票数 0

1回答

火花:如何使用RowEncoder创建流数据集？

、、、

我有一个流数据流，使用火花结构化流创建。就像这样- val dataStream = spark .readStream .format("kafka") .option("kafka.bootstrap.servers", bootstrapServer) .option("subscribe", topic) .load() 现在，当我尝试使用一个名为newKey的额外列从newKey创建一个数据集时，它会给出以下错误- [error] (run-main-0) java.l

浏览 0提问于2018-05-07得票数 1

回答已采纳

1回答

使用SPARK从S3分区数据中删除基于分区列的重复项

、、

I have a partitioned data structure on S3 as below which store parquet files in it: date=100000000000 date=111620200621 date=111620202258 The S3 key will look like s3://bucket-name/master/date={a numeric value} 我从SPARK代码中读取数据，如下所示： Dataset<Row> df = spark.read().parquet("s3://bucket-nam

浏览 0提问于2020-11-19得票数 0

1回答

在groupBy之后过滤数据并在Pyspark中使用用户定义聚合函数将导致java.lang.UnsupportedOperationException。

、、、、

我在编写代码时发现了一些奇怪的错误。在调用groupBy函数和agg函数之后，我想从剩余的数据中过滤一些数据，但它似乎不起作用。我的示例代码如下。 >>> from pyspark.sql.functions import pandas_udf, PandasUDFType, col >>> df = spark.createDataFrame( ... [(1, 1.0), (1, 2.0), (2, 3.0), (2, 5.0), (2, 10.0)], ... ("id", "v")) >>&

浏览 0提问于2019-07-22得票数 0

1回答

火花ML(使用PySpark)：使用多层感知器分类器时的错误

、、、、

我正在研究一个使用Spark上不同分类器的二进制分类问题；能够成功地训练和评估模型(如朴素贝叶斯、随机森林、Logistic Reg等)，然而，我在使用相同的培训和测试数据开发多层Perceptron分类器时遇到了一些问题。也许能帮我找出我哪里出了问题！ # spark version sc.version >>u'2.3.0.2.6.5.25-1' # python version import sys print (sys.version) >>2.7.5 (default, May 3 2017, 07:55:04) [GCC 4.8.5

浏览 1提问于2018-09-29得票数 0

1回答

火花与卡夫卡流集成

、、、

我想整合星火流和卡夫卡我在用火花。3.0.0 / Kafka_2.12-2.6.0 /火花流-kafka-0-10_2.12-2.4.0.jar 我用下面的绳子启动了火花壳。 `./bin/spark-shell --jars spark-streaming-kafka-0-10_2.12-2.4.0.jar` 我在斯卡拉身上试了一下，如下所示 val ds = spark.readStream.format("kafka").option("kafka.bootstrap.servers", "localhost:9092").option(

浏览 0提问于2020-09-17得票数 0

回答已采纳

1回答

使用Spark读取多个文本文件

、、、

我正在斯帕克工作，试图从一个目录中读取多个文本文件。我读过关于这个主题的多篇教程和问答课，它应该是简单明了的。尽管如此，我还是不能让它在我的系统上工作。我正在使用Python8.5、Java 8和Anaconda 3开发Windows 10。为了保持测试的简单性，我所要做的就是将文本文件加载到RDD中并打印出内容。以下是我对成功和不起作用的东西的实验： #THESE WORK #files = sc.textFile("C:/spark/HW1/data/199901.txt,C:/spark/HW1/data/200002.txt,C:/spark/HW1/data/20040

浏览 11提问于2022-09-10得票数 0

2回答

无法在文件中转换拼花列，预期: bigint，查找: INT32

、、、、

我有一个带有tlc列的胶水表，它的数据类型是Bigint。我试图使用PySpark执行以下操作：读取Glue表并将其写入dataframe 与另一个表，将结果数据写入S3 path 我的代码看起来是： df = spark.sql('select tlc from monthly_table') df.createOrReplaceTempView('sdc') df_a = spark.sql('select tlc from monthly_table_2') df_a.createOrReplaceTempView('abc&#

浏览 4提问于2020-03-24得票数 10

6回答

如何计算星火数据表中的列数？

、、、

我在星火中有这个数据，我想计算其中可用列的数量。我知道如何计数列中的行数，但我希望计数列数。 val df1 = Seq( ("spark", "scala", "2015-10-14", 10,"rahul"), ("spark", "scala", "2015-10-15", 11,"abhishek"), ("spark", "scala", "2015-10-16", 12,"J

浏览 0提问于2018-07-27得票数 17

回答已采纳

3回答

字符串列包含通过spark scala进行精确匹配的单词

、、

我有两个数据帧，第一个数据帧包含实际数据(从CSV文件读取)，第二个数据帧包含一个具有多个关键字的列。即下面的Dataframe-1外观相似(我们必须搜索的地方)：数据帧-2：我想要的输出：我在这里使用spark scala。我想要一个与dataframe-1中的dataframe-2完全匹配的单词。我使用了like、rlike、contains等函数，但它没有给出我想要的输出。有人知道如何在spark scala SQL中或使用dataframe的spark scala函数来开发此逻辑吗？请帮我弄一下这个。

浏览 1提问于2021-02-12得票数 0

3回答

LogesticRegression fit()函数正在抛出此错误

、、

我在跟踪，当我执行以下行时，会得到这个错误 best_lr = lr.fit(training) 误差 --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) <ipython-input-102-88042cb88c20> in <module>() ----> 1 best_lr = lr.fit(training)

浏览 0提问于2018-12-04得票数 0

1回答

分区JDBC在Spark中写入

、、、

我正在一个Scala + Spark项目中工作，在该项目中，我们将数据从文件加载到PostgreSQL中。它在独立模式下使用jdbc.write在本地运行良好，测试数据很小。但是由于生产数据是巨大的，我想使用一个集群，每个执行者拥有多个工作人员和一个逻辑处理器核心。考虑到这一点，我如何在集群中的所有可用核之间划分数据？谢谢! PS:使用Scala2.13.9和Spark3.3.0

浏览 4提问于2022-10-12得票数 1

回答已采纳

2回答

ApacheSpark1.6.0，callUDF正在失败

、

我正在与callUDF功能做斗争，我总是收到函数未注册的错误。我已经粘贴了下面的示例代码： UDF1<String, String> func = new UDF1<String, String>(){ public String call(String s) throws Exception { return s +"fixedString"; } }; sqlContext.udf().register("test",func, DataTypes.StringType); out = out.

浏览 0提问于2016-02-26得票数 1

回答已采纳

2回答

如何在spark scala中处理模式匹配中的空值

、

下面是spark shell代码 scala> val colName = "time_period_id" scala> val df = spark.sql("""select time_period_id from prod.demo where time_period_id = 202101102 """) df: org.apache.spark.sql.DataFrame = [time_period_id: int] scala> val result = df.agg(max(

浏览 24提问于2021-03-11得票数 2

回答已采纳

2回答

PySpark Dataframe基于函数返回值创建新列

、、、、

我有一个dataframe，我想根据函数返回的值添加一个新列。这个函数的参数是来自同一个dataframe的四列。 one和 one有点类似于我想要的内容，但没有回答我的问题。这是我的数据框架(列比这四列更多) + ------ + ------ + ------ + ------ + | lat1 | lng1 | lat2 | lng2 | + ------ + ------ + ------ + ------ + | -32.92 | 151.80 | -32.89 | 151.71 | | -32.92 | 151.80 | -32.89 | 151.71

浏览 0提问于2018-11-22得票数 5

回答已采纳

2回答

用Spark (字段名中的空格)将json映射到case类

、、、、

我试图用spark Dataset API读取json文件，问题是这个json在某些字段名中包含空格。这将是一场麻烦事。 {"Field Name" : "value"} 我的案例课需要这样 case class MyType(`Field Name`: String) 然后，我可以将文件加载到一个DataFrame中，它将加载正确的模式。 val dataframe = spark.read.json(path) 当我试图将DataFrame转换为Dataset[MyType]时，问题就出现了。 dataframe.as[MyType] 由StructSch

浏览 1提问于2017-10-27得票数 3

回答已采纳

2回答

尝试使用Spark将CSV文件转换为Parquet文件

、、、

下面是spark-shell脚本，我使用它将csv数据转换为parquet： import org.apache.spark.sql.types._; val sqlContext = new org.apache.spark.sql.SQLContext(sc); val df = sqlContext.read.format("com.databricks.spark.csv").option("header","true").load("/uploads/01ff5191-27c4-42db-a8e0-0d6594de3a5d/Wo

浏览 2提问于2017-10-24得票数 0

1回答

带instanceOf元组的滤波器

、

我在努力找出词语的共现点。下面是我正在使用的代码。 val dataset = df.select("entity").rdd.map(row => row.getList(0)).filter(r => r.size() > 0).distinct() println("dataset") dataset.take(10).foreach(println) 示例数据集 dataset [aa] [bb] [cc] [dd] [ee] [ab, ac, ad] [ff] [ef, fg] [ab, gg, hh] 代码片段 case clas

浏览 1提问于2018-07-26得票数 0

回答已采纳

1回答

Spark的Scala矩阵(50x50)失配误差

、、、

当我试图用下面的代码编写我的矩阵时，我会得到代码下面定义的不匹配错误。我希望能够将它打印到csv文件中，因为在控制台上很难观察到这么大的矩阵。所以我的问题是: 1-如何修复这个错误? 2-如何将"correlMatrix“打印到csv文件中？(我尝试了多种方法，但错误发生了)你的帮助是非常感谢的！ import org.apache.spark.mllib.linalg._ import org.apache.spark.mllib.stat.Statistics import org.apache.spark.rdd.RDD import scala.io.Source import

浏览 1提问于2018-03-24得票数 0

回答已采纳

1回答

创建spark会话时的NoSuchMethodError

、

我是spark的新手。我只是试图在我的本地创建一个spark会话，但我得到了以下错误： Exception in thread "main" java.lang.NoSuchMethodError: org.apache.spark.internal.config.package$.SHUFFLE_SPILL_NUM_ELEMENTS_FORCE_SPILL_THRESHOLD()Lorg/apache/spark/internal/config/ConfigEntry; at org.apache.spark.sql.internal.SQLConf$.<in

浏览 104提问于2021-10-20得票数 1

2回答

在Spark中读取文件名中具有特殊字符“{”和“}”的文件

、、

我想在Scala中读一个名为：monthlyPurchaseFile{202205}-May.TXT的文件我使用的代码如下： val df = spark.read.text("handel_special_ch/monthlyPurchaseFile{202205}-May.TXT" 但我不例外： org.apache.spark.sql.AnalysisException: Path does not exist: file:/home/hdp_batch_datalake_dev/handel_special_ch/monthlyPurchaseFile{202205}

浏览 4提问于2022-05-09得票数 1

回答已采纳

3回答

在spark 1.6中将csv读取为数据帧

、

我使用的是Spark 1.6，正在尝试将csv (或tsv)文件读取为数据帧。以下是我采取的步骤： scala> val sqlContext= new org.apache.spark.sql.SQLContext(sc) scala> import sqlContext.implicits._ scala> val df = sqlContext.read scala> .format("com.databricks.spark.csv") scala> .option("header", "true") sc

浏览 12提问于2016-07-27得票数 2

1回答

为什么DataFrame.stat.approxQuantile在n个任务的序列化结果(1030.8 MB)的大小大于spark.driver.maxResultSize时失败？

、、

val postsQuantiles = posts.stat.approxQuantile("_score", Array(0.25, 0.75), 0.0)失败，有以下错误。显然，我可以设置spark.driver.maxResultSize来克服这个错误，但是我很好奇为什么会收集数据给驱动程序呢？ [Stage 3:==================> (7 + 15) / 22]19/06/01 20:46:30 ERROR TaskSetManager: Total size of se

浏览 0提问于2019-06-02得票数 1

回答已采纳

2回答

如何在Spark2.2.0中加载XML文件？

、、、

当我在spark-2.2.0中加载xml文件时，如下所示： var ac = spark.read.format("xml").option("rowTag", "App").load("/home/sid/Downloads/Files/*.xml") 它给我显示了一个错误： java.lang.ClassNotFoundException:未能找到数据源: xml。请在org.apache.spark.sql.execution.datasources.DataSource$.lookupDataSource(DataSou

浏览 2提问于2018-01-24得票数 1

1回答

星星之火- Java -无法在插入到Oracle列类型时为array<string>获取JDBC类型

、、

我在Oracle中有一个表，其列类型为Array类型。当向Oracle插入dataframe时，我收到了一个异常。请注意，这个问题不是关于我应该加入"，“并将其存储为VARCHAR2类型列中的字符串值.。下面是我创建这个表的方法。 CREATE OR REPLACE TYPE dbObj_arr IS VARRAY (5) OF varchar2(6); CREATE TABLE MyTable ( "ID" NUMBER, "Set" dbObj_arr ); INSERT INTO MyTable (

浏览 26提问于2021-02-26得票数 0

2回答

将编译器错误呈现为“值countByValue不是org.apache.spark.sql.Dataset[String]的成员”

、

嗨，我正在试图找到评级直方图，使用scastie program...here的实现。星条旗的设置 scalacOptions ++= Seq( "-deprecation", "-encoding", "UTF-8", "-feature", "-unchecked" ) libraryDependencies ++= Seq( "org.

浏览 4提问于2020-09-10得票数 0

回答已采纳

3回答

谷歌/番石榴库中的火花错误: com.google.common.cache.CacheBuilder.refreshAfterWrite :java.lang.NoSuchMethodError

我有一个简单的spark项目--在pom.xml中，依赖项仅是基本的scala、scalatest/junit和spark。 <dependency> <groupId>net.alchim31.maven</groupId> <artifactId>scala-maven-plugin</artifactId> <version>3.2.0</version> </dependency> <dependency>

浏览 0提问于2018-04-08得票数 2

1回答

Scala:星星之火用于拟合多项式曲线，got“类型(char[])不能转换为字符串类型”错误

、、、

我试图在类似于下面的星火数据框架上进行多项式曲线拟合(使用Spark版本2.4.0.7.1.5，ScalaVersion2.11.12 (OpenJDK 64位服务器VM，1.8.0_232))。我为此编写了一个联非新议程，它可以注册，但在运行时得到一个错误。我是斯卡拉和联非新议程的新手。你能帮我看看我的功能，看看它有什么问题吗？谢谢, 示例df val n = 2 val data = Seq( (1,80.0,-0.361982467), (1,70.0,0.067847447), (1,50.0,-0.196768255), (1,40.0,-0.135489192)

浏览 21提问于2022-04-07得票数 0

回答已采纳

3回答

在java中加入spark RDD时需要帮助

、、

需要在spark中执行以下join操作 JavaPairRDD<String, Tuple2<Optional<MarkToMarketPNL>, Optional<MarkToMarketPNL>>> finalMTMPNLRDD = openMTMPNL.fullOuterJoin(closedMTMPNL); 要执行此操作，我需要两个JavaPairRDD，即closedMTMPNL和openMTMPNL。OpenMTM和closeMTM运行得很好，但是两个RDD上的keyBy在运行时都出现了错误。 JavaPairRDD<Strin

浏览 0提问于2015-06-28得票数 1

1回答

为什么我的UDF (在"cluster“模式下)是在本地(在驱动程序中)而不是在worker(s)上执行的？

、、

两个spark workers正在运行，代码如下(JUnit： import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.commons.lang3.tuple.ImmutablePair; import org.apache.spark.SparkConf; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.RowF

浏览 20提问于2020-04-07得票数 1

回答已采纳

2回答

访问Spark中的数组列

、、、、

Spark DataFrame包含类型为ArrayDouble的列。当我试图在map()函数中将其取回时，它会抛出一个ClassCastException异常。下面的Scala代码生成了一个异常。 case class Dummy( x:Array[Double] ) val df = sqlContext.createDataFrame(Seq(Dummy(Array(1,2,3)))) val s = df.map( r => { val arr:Array[Double] = r.getAs[Array[Double]]("x") arr.sum })

浏览 3提问于2015-10-28得票数 10

回答已采纳

1回答

线程“java.lang.IllegalArgumentException: Field”特性中的异常不存在

、

Exception in thread "main" java.lang.IllegalArgumentException: Field "features" does not exist. at org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264) at org.apache.spark.sql.types.StructType$$anonfun$apply$1.apply(StructType.scala:264) at s

浏览 2提问于2017-06-13得票数 2

1回答

火花Mongodb: Error - java.lang.NoClassDefFoundError: com/mongodb/MongoDriverInformation

、、

我正在使用spark使用蒙戈火花连接器读写数据到MongoDB，而我正面临以下错误，除了放置所需的罐子如下，谁能找到问题，并帮助我！提前谢谢你罐子： mongodb-driver-3.4.2.jar; mongodb-driver-sync-3.11.0.jar; mongodb-driver-core-3.4.2.jar; mongo-java-driver-3.4.2.jar; mongo-spark-connector_2.11-2.2.0.jar; mongo-spark-connector_2.11-2.2.7.jar 错误： scala> MongoSpark.save

浏览 12提问于2019-10-14得票数 1

1回答

如何在.CSV或.XLSX文件中高效导出python中使用pyspark生成的关联规则

、、

在解决了这个问题之后：How to limit FPGrowth itemesets to just 2 or 3，我正在尝试将使用pyspark的fpgrowth的关联规则输出导出到python中的.csv文件。在运行了近8-10小时后，它给出了一个错误。我的机器有足够的空间和内存。 Association Rule output is like this: Antecedent Consequent Lift ['A','B'] ['C']

浏览 19提问于2019-07-02得票数 2

1回答

将DataSourceRegister保存为cvs时触发2.0 DataFrame配置错误

、、、、

我试图在Spark2.0，Scala2.11(从Spark1.6迁移代码的过程)中将一个数据帧保存到cvs中。 sparkSession.sql("SELECT * FROM myTable"). coalesce(1). write. format("com.databricks.spark.csv"). option("header","true"). save(config.resultLayer) 火花会话的构建是否正确？ implicit val sparkSe

浏览 3提问于2017-01-06得票数 4

2回答

用户定义的函数会破坏pyspark的数据

、、、

我的火花版本是1.3，我使用的是电火花。我有一个叫做df的大数据。 from pyspark import SQLContext sqlContext = SQLContext(sc) df = sqlContext.parquetFile("events.parquet") 然后选择dataframe的几个列，并尝试计算行数。这个很好用。 df3 = df.select("start", "end", "mrt") print(type(df3)) print(df3.count()) 然后我应用用户定义的函数将一个列从一个字

浏览 2提问于2015-10-26得票数 4

回答已采纳

1回答

Spark - Executor心跳在X毫秒后超时

我的程序从一个目录中的文件读取数据，这些文件的大小是5 GB。我对这些数据应用了许多函数。我在一个具有32 GB RAM的虚拟机上以独立(本地)方式运行spark。使用的命令： bin/spark-submit --class ripeatlasanalysis.AnalyseTraceroute --master local --driver-memory 30G SparkExample-lowprints-0.0.5-SNAPSHOT-jar-with-dependencies.jar 1517961600 1518393600 3600 1517961600 151

浏览 0提问于2019-01-04得票数 3

回答已采纳

1回答

火花流作业在运行约1小时后死亡

、、、

我有一个火花流的工作，从gnip读取推特流，并将它写到Kafak。星火和卡夫卡是在同一个集群上运行的。我的集群由5个节点组成。卡夫卡-B01.卡夫卡-B05 星火大师正在卡法克-B05上运行。下面是我们提交火花作业的方法 nohup sh $SPZRK_HOME/bin/spark提交--总计-执行器-核心5-级com.test.java.gnipStreaming.GnipSparkStreamer -主火花:// kafka-b05 :7077 GnipStreamContainer.jar powertrack kafka-b01，kafka-b02，kafka-b03，kafka

浏览 0提问于2016-04-24得票数 3

回答已采纳

2回答

Spark中的尺寸失配误差

、、、、

我对ML和Spark都很陌生，我试图用神经网络和Spark建立一个预测模型，但是当我在我的学习模型上调用.transform方法时，我会得到这个错误。这个问题是由OneHotEncoder的使用引起的，因为没有它，一切都很好。我已经试着把OneHotEncoder从管道里拿出来了。我的问题是:如何使用OneHotEncoder而不获取此错误？ java.lang.IllegalArgumentException: requirement failed: A & B Dimension mismatch! at scala.Predef$.require(Predef.scala

浏览 3提问于2017-02-17得票数 5

回答已采纳

2回答

从PySpark字符串列获取UTC时间戳

、、、、

我有一个带有单个字符串列的PySpark数据have，从该列中我寻求组成一个包含相应的UTC时间戳的额外列(请参见2个示例行和列数据类型)： df.show(2, False) df.dtypes +-------------------------+ |local_timestamp | +-------------------------+ |2020-11-16T08:42:10+01:00| |2020-11-16T08:41:49+01:00| +-------------------------+ only showing top 2 rows [('l

浏览 2提问于2020-11-30得票数 1

回答已采纳

1回答

Pyspark KAFKA ReadStream兼容jar版本

、、、、

我正在尝试找到一个兼容版本的jar为pyspark readStream。我已经探索了许多版本，但没有找到兼容的jar。如果我做错了什么，请让我知道。我的系统配置和使用过的jars OS: OSX pyspark==3.1.2 JAVA==1.8 SPARK-KAFKA-CLIENT==kafka-clients-3.0.0.jar spark-sql-kafka==spark-sql-kafka-0-10_2.12-3.1.2.jar 异常:我在KafkaConfigUpdater上收到一个错误，不确定解决方案是什么。 21/10/05 20:08:22 ERROR MicroBatchE

浏览 9提问于2021-10-05得票数 0

1回答

星星之交sql dataframe与循环中的重命名连接

、、、、

我试着对数据文件做一个传递的结束。经过几次迭代，我得到了一些内部火花异常。任何关于什么原因以及如何解决它的想法。这是我的节目： val e = Seq((1, 2), (1, 3), (2, 4), (4, 5), (5, 6), (6, 7), (7, 8), (8, 9), (9, 10), (10, 11), (11, 12), (12, 13), (13, 14), (14, 15), (15, 16), (16, 17), (17, 18), (18, 19)) var edges = e.map(p => Edge(p._1, p._2)).toDF() var filter

浏览 0提问于2016-01-28得票数 2

回答已采纳

2回答

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException错误

、、、

我是Spark的新手，尝试使用Java maven项目读取CSV文件，但遇到ArrayIndexOutOfBoundsException错误。依赖关系： <dependencies>  <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2

浏览 0提问于2018-11-12得票数 2

1回答

我可以用SQL语句指定并行度吗？

、

我很喜欢使用Spark，但就在此之前我遇到了一个问题。由于RDD的每个分区的大小限制，Spark会产生以下错误消息；(INT_MAX)。 16/03/03 15:41:20 INFO TaskSetManager: Lost task 142.2 in stage 4.0 (TID 929) on executor 10.1.100.116: java.lang.RuntimeException (java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImp

浏览 5提问于2016-03-03得票数 1

回答已采纳

1回答

与JDBC一起使用SparkSession.sql()

、、、

问题: 我希望使用JDBC连接来使用spark发出自定义请求。此查询的目标是优化工作人员的内存分配，因为我不能使用： ss.read .format("jdbc") .option("url", "jdbc:postgresql:dbserver") .option("dbtable", "schema.tablename") .option("user", "username") .option("password", "passwor

浏览 2提问于2018-04-20得票数 0

回答已采纳

2回答

如何在spark scala Dataframe中找到所有值都为null或NA值的列的列表？

如何在spark scala Dataframe中找到所有值都为null或NA值的列名列表？我已经尝试了下面的代码，我没有得到预期的结果。 val cond = df8.columns.map(x => col(x).isNull || col(x) === "NA") val df = Seq((Some(1.0), Some("NA"), null).toDF("A", "B", "C") 输出列表应包含B和C列预期结果：List[B,C]

浏览 28提问于2019-07-16得票数 1

回答已采纳