在scala函数中传递RDD。输出数据帧

文章/答案/技术大牛

发布

1回答

、、、、

val csv = sc.parallelize(Array( "1, cat, dog",我想将以下函数应用于RDD，以将其转换为具有以下所需逻辑的数据帧。import org.apache.spark.sql.Dataset在大多数情况下，我会使用Spark的核心功能将CSV

浏览 19提问于2019-11-20得票数 1

回答已采纳

2回答

我将Scala文件编译为JAR，并使用Databricks UI中的spark-submit运行作业。该程序的逻辑首先创建一个随机种子列表，并使用下面的代码行将其并行化： val myListRdd = sc.parallelize(myList, partitions) 接下来，我希望在这个RDD上运行一个处理函数该函数的返回类型为Array[Array[Double]]。因此，在Scala中，它将如下所示： val result = myListR

浏览 23提问于2021-02-12得票数 1

回答已采纳

1回答

如何将RDD从scala传递给python？

、、

我试图将Spark从Scala传递给Python，这样我就可以从PySpark调用函数了。我的scala代码返回rdd.toJavaRDD()，然后我在python中通过以下方法阅读：from pyspark.rdd import RDD python_rdd = RDD(sca

浏览 1提问于2022-01-29得票数 1

1回答

与Scala相比，使用groupBy的Pyspark聚合非常慢。

、、、

我移植了一个Scala代码，它可以简单地聚合到Python中：from utils import notHeader, parse, pprint return MatchedData(pieces[0], pieces[1], pieces[2:11], pieces[11]) val conf = new Sp

浏览 5提问于2017-01-25得票数 0

3回答

Spark合并不会减少分区数量

、

我有这个代码print(" after coalisce getting nb partition " + str(df.rdd.getNumPartitions())

浏览 1提问于2018-10-09得票数 0

1回答

数据帧的scala* joinWithCassandraTable结果*

、、

我正在使用Datastax spark- Cassandra -connector来访问Cassandra中的一些数据。我的需求是将RDD与Cassandra表连接起来，获取结果并将其存储在hive表中。我正在使用joinWithCassandraTable加入cassadra表。] = CassandraJoinRDD[17] at RDD at CassandraRDD.scala:19 我尝试了以下步骤来转换为数据帧，但所有

浏览 20提问于2020-07-17得票数 0

1回答

Dataset.rdd是一种动作还是一种转换？

、

评估数据帧是否为空的方法之一是执行df.rdd.isEmpty()，但是，我在sparkUI执行中看到了rdd at mycode.scala:123。这让我怀疑这个rdd()函数是否实际上是一个操作，而不是一个转换。我知道isEmpty()是一个动作，但我确实看到了一个单独的阶段，其中isEmpty() at mycode.scala:234，所以我认为它们是不同的动作？

浏览 3提问于2017-06-22得票数 4

回答已采纳

4回答

无法在Spark (Scala)中的数据帧上执行用户定义函数

、、

我有一个数据帧df，如下所示 +--------+--------------------+--------+------+ | id| path|somestff并非所有文件都存储在同一目录中。事实上，在不同的目录中有数百个文件。我想在这里完成的是读取列路径中的文件，对文件中的记录进行计数，并将行计数的结果写入到数据帧的新列中。我尝试了以下函数和udf：

浏览 30提问于2019-04-01得票数 2

回答已采纳

1回答

如何将map函数输出(行、行)元组转换为一个Dataframe

、、

我需要使用Scala在Spark中编写一个场景。我将用户定义的函数传递给Dataframe，它逐一处理每一行数据帧，并返回元组( row，Row)。如何将RDD (行，行)更改为Dataframe ( Row )？return (result1,result2) 现在，df_temp是一个RDD(Row1，Row2)。我的要求是通过将元组元素分解为RDD或Dataframe (Row)的1条记录，使其成为一个

浏览 3提问于2016-06-09得票数 2

回答已采纳

3回答

如何在Scala中读取列中的行

、、

我正在做一个将学生数据转换为时间间隔的小项目。程序只是读取数据，并从标记列中选择标记(整数)，以便在按升序对它们进行排序后将它们转换为间隔。

浏览 20提问于2017-07-17得票数 1

回答已采纳

1回答

Hbase-cloudera中的Spark连接器问题: java.lang.AbstractMethodError

我正在尝试将Spark数据帧写入Hbase，但当我在同一数据帧上执行任何操作或写入/保存方法时，它会给出以下异常： { at(HBaseTableScan.scala:60)

浏览 11提问于2019-02-21得票数 1

1回答

是否可以在scala中将apache ignite rdd转换为spark rdd

、、、、

在scala中，有没有人可以通过示例将ignite rdd转换为spark rdd？更新-使用案例:我将收到hbase表的数据帧..我将执行一些逻辑来构建报告，将其保存到ignite rdd中。将为每个表更新相同的ignite rdd ...一旦所有的表都被执行，最终的ignite rdd将被转换为spark或java rdd，最后的规则将在该rdd上执行...

浏览 3提问于2016-09-26得票数 0

1回答

火花缭乱

、

._3.toInt > 500)) 或当我使用-每个语句时，我没有得到预期的输出，我希望输出是一行打印的

浏览 4提问于2016-10-27得票数 0

回答已采纳

2回答

如何通过从现有的资源描述中选择特定的数据来创建资源描述，RDD[String]的输出应该在哪里？

、、、

我的场景是从现有的RDD捕获一些(不是全部)数据，然后将其传递给其他Scala class进行实际操作。让我们看看文本文件中的示例数据(empnum，empname，emplocation，empsal)。11,John,Paris,1000第一步，我用下面的代码用RDD[String]创建一个RDD， .sparkContext.textFile("empIn

浏览 17提问于2020-05-08得票数 2

回答已采纳

2回答

Scala -获得具有阶段和任务但不执行的DAG

、

我正在寻找一种方法来获得使用RDD的Scala Spark应用程序的DAG，包括阶段和任务。我已经尝试过rdd.toDebugString，但它只显示了RDD血统，而不是我正在寻找的DAG。我知道有显示DAG的web UI，但我想从代码中提取DAG，就像explain函数对数据帧所做的那样。

浏览 0提问于2020-04-03得票数 1

2回答

AttributeError：“”DataFrame“”对象没有属性“”map“”

、、、、

我想使用以下代码将spark数据帧转换为要添加的内容：spark_df = sqlContext.createDataFrame(pandas_df)model = KMeans.train(rdd, 2, maxIterations=10, runs=30, initialization

浏览 1提问于2016-09-16得票数 44

回答已采纳

2回答

Apache的RDD[Vector]不变性问题

、、、

我知道RDD是不可变的，因此它们的价值是不能改变的，但是我看到了以下行为：import org.apache.spark.mllib.clustering.FuzzyCMeans= data.map(s => Vectors.dense(s.split(' ').map(_.toDouble))).cache() > parsedData: org.apache.spark.rdd.RDD0.10946638900

浏览 7提问于2015-12-29得票数 0

回答已采纳

2回答

将RDD列提取到新的RDD中

、、、

我有一个包含多个列的rdd，并希望提取一个名为"age“的列。我试过了：代码不返回任何错误。

浏览 0提问于2017-02-10得票数 0

回答已采纳

1回答

将python函数传递给pyspark中的Scala RDD

、、、

我有一个scala库(简单地说)，它接收一个函数，将其应用于RDD并返回另一个RDD ..val res = rdd.map(function) }import mylibrary.runFunction runFunction(myRdd, myScala

浏览 14提问于2019-11-14得票数 0

1回答

打包客户端代码以传递给RDD

scala函数被传递到rdd.map()。逻辑太复杂，不能包含在函数本身中，而是封装在scala object中。string, returns a different string} val rdd2 = rdd.ma

浏览 1提问于2016-04-03得票数 0

回答已采纳

点击加载更多