Spark RDDs类型的混淆_从错误的JSON合并Spark RDDs_理解RDDs的Spark中的lambda函数输入 - 腾讯云开发者社区

pyspark、apache-spark-sql、rdd

我刚开始学习Spark，开始学习RDDs，现在开始学习DataFrames。在我当前的pyspark项目中，我正在将一个S3文件读入RDD，并对其运行一些简单的转换。下面是代码。. \ filter(lambda line: line.split(",")[5] == '1') SplitComma是一个对行数据执行一些日期计算并返回10个逗号分隔字段的函数。一旦我得到它，我运行最后一个过滤器，如图所示，只拾取字段5中value = 1的行

浏览 20提问于2020-01-30得票数 0

回答已采纳

2回答

使用scala在Apache spark中连接不同RDDs的数据集

scala、apache-spark、apache-spark-sql、distributed-computing、rdd

有没有办法在spark中连接两个不同RDD的数据集？需求是-我使用scala创建了两个具有相同列名的中间RDDs，需要组合这两个RDDs的结果并缓存结果以访问UI。我如何在这里组合数据集？RDDs的类型为spark.sql.SchemaRDD

浏览 2提问于2014-12-10得票数 35

回答已采纳

1回答

如何在火花放电中设置KryoSerializer？

dataframe、apache-spark、pyspark、rdd

我是新来的，请帮我一下：sc.setSystemProperty("spark.dynamicAllocation.enabled", "true") sc.setSystemProperty("spark

浏览 3提问于2020-03-16得票数 1

回答已采纳

1回答

无法理解scala操作是如何在Apache spark中运行的

scala、apache-spark、time、rdd、operation

我所了解到的是，火花作业在有任务要在RDDS上操作的阶段上工作，在这些阶段中，它们是通过从spark控制台开始的惰性转换创建的。(如果我错了，请纠正我) ，那么这些函数和应用在RDDs上的任务之间有什么关系呢?Scala的编码有RDD上的操作，据我所知，RDD是逻辑

浏览 0提问于2019-07-07得票数 0

1回答

RDDs在spark中能持续多久？

apache-spark、persistence、spark-streaming、rdd

我已经写了一个程序，在其中我将RDD持久化到spark stream中，这样一旦新的RDD来自spark stream，我就可以将以前缓存的RDD与新的RDD连接起来。有没有办法为这个持久化的RDDs设置生存时间，这样我就可以确保我不会加入我在上一个流周期中已经得到的RDDs。另外，如果有人能解释并指出RDDs中的持久化是如何工作的，那就太好了，比如当我从spark</em

浏览 1提问于2015-07-15得票数 1

1回答

从spark* scala中类型为case类的列提取数据时出错*

scala、apache-spark

asInstanceOf[Employee].first_name**)) 我可以分解employees列表，但是当我试图从Employee获取first_name时，我得到了一个类转换异常，说明列不能转换为类型

浏览 32提问于2020-09-10得票数 0

1回答

的Scalaz类型类

scala、apache-spark、functional-programming、rdd、scalaz

目标是实现不同类型的类(如半群、Monad、函子等)。由Scalaz为Spark的RDD (分布式集合)提供。不幸的是，我无法创建任何接受更高类型类型(如Monad、函子等)的类型类。和RDDs合作得很好。RDDs被定义(简化)为： def map[U: ClassTag](f: T => U): RDD[U] = {

浏览 3提问于2016-04-17得票数 7

回答已采纳

1回答

将RDD转换为DataFrame时的java.lang.StackOverFlowError

python、dataframe、rdd、pyspark-sql

我得到的初始错误是 at java.lang.Thread.run(Thread.java:748) 我做了一些研究，似乎这个与数据帧相关的DAG(有向无环图)太大了，我应该对我的数据做一些缓存/检查点&#x

浏览 26提问于2019-11-08得票数 0

1回答

星火graphX使边缘/顶点RDD由数据挖掘而成

scala、apache-spark、type-conversion、spark-graphx

我有两个大型数据格式，edge和vertex，我知道它们需要特殊类型的Vertex和Edge RDDs，但是我找到的每个教程都将Edge和Vertex RDDs指定为3到10个条目的数组。我需要他们直接转换从一个实质性的RDD。如何将dataframe/普通的RDD转换为正确的类型？我遵循了这里的示例：，但是它列举了所有的关系，在我的用例中有很多关系。sc.parallelize((ve

浏览 1提问于2019-02-11得票数 2

1回答

在KryoSerializer和JavaSerializer上使用Scala酸洗序列化

scala、apache-spark、serialization、kryo、scala-pickling

在为Serialization搜索最佳apache-spark技术的同时，我在下面的链接中发现，使用该框架，在scala中的Serialization将更快、更自动。(参考文献- ) 注意:我正在使用scala语言编写apa

浏览 4提问于2017-03-21得票数 2

回答已采纳

1回答

PySpark如何在SparkSql和Dataframes中使用泡菜

pyspark、spark-dataframe、pickle、pyspark-sql

我试图了解PySpark是如何为RDDs使用泡菜的，并避免对SparkSql和Dataframes使用泡菜。这个问题的基础是slide#30 in link.I，我在下面引用它以供参考： "PySpark RDDs通常是腌制对象的RDDs。Spark (和DataFrames)可以避免其中的一些内容“。Spark中如何使用泡菜？

浏览 6提问于2017-06-25得票数 1

回答已采纳

3回答

Spark Streaming中的窗口？

apache-spark、spark-streaming

在spark streaming中，我们接收的DStreams是一批RDDs。那么窗口如何进一步提供帮助呢？据我所知，它还批处理RDDs。如果我错了，请纠正我( Spark Streaming的新手)。

浏览 4提问于2015-10-08得票数 7

回答已采纳

1回答

scala抛出java.util.NoSuchElementException:键未找到:0异常

scala、caching、apache-spark

val matrixA3=sc.textFile("A3") val cacheArray=rdds(0).asInstanceOf[RDD[Array[Double]]] val cacheLength=cacheArray.collect()

浏览 4提问于2015-03-26得票数 4

1回答

Spark SQL中Group By子句的底层实现

apache-spark、apache-spark-sql

Spark SQL中Group By子句的底层实现是什么？我知道Spark支持下面两种类型的Group by操作，即GroupByKey和ReduceByKey。ReduceByKey是一种map side reduce，它提供了比GroupByKey更好的性能。在我们的应用程序代码中，我们在Spark Dataframe上使用Spark SQL，而不是直接创建RDDs。所以，我想到了这个问题，Spark</

浏览 0提问于2019-08-30得票数 1

1回答

union()操作中的任务执行顺序

scala、apache-spark

下面是我的代码草图：但是，我对生成的DAG有问题。AFAIK，这意味着在最后一项任务中，Spark将以并行的80还原键调度，其中每个键都占用大量内存。在完成此RDD的映射阶段之后，为每个rdd单独

浏览 1提问于2018-07-19得票数 2

1回答

H20数据帧与Spark* RDD的区别*

h2o

我正在研究h2o框架，以使用其额外的机器学习工具。我只是好奇H20数据帧和Spark RDDs有什么不同。h2o数据帧可以像Spark RDDs一样缓存或持久化吗？

浏览 0提问于2017-05-21得票数 2

1回答

如何在Apache Spark中连接地图并对其执行RDD操作？

sql、csv、apache-spark

我一直在玩Apache Spark，首先我学习了PostgreSQL，我有几个问题需要在Spark上运行。我设法在Spark SQL中将它们作为SQL字符串运行，但现在我必须执行RDD操作才能获得相同的结果。我将数据从csv加载到地图。现在，我必须选择这些映射中的特定列，但我不知道如何连接它们(多个映射/csv文件)。我的第二个问题是如何最好地执行RDD操作，以便从postgresql查询中获得相同的结果？

浏览 7提问于2019-06-09得票数 0

1回答

df中的映射&按键约简

pyspark

首先-谢谢你花时间阅读我的问题。+-------+-------------+-------+------+-----+ 我想我需要为每一行创建一个<key><value>对，这意味着我的键

浏览 0提问于2019-05-01得票数 1

回答已采纳

2回答

如何将org.apache.spark.ml.linalg.Vector的RDD转换为Dataset？

apache-spark、apache-spark-sql、rdd、apache-spark-mllib、apache-spark-dataset

我很难理解RDDs、DataSets和DataFrames之间的转换是如何工作的。我对Spark非常陌生，每次我需要从一个数据模型传递到另一个数据模型(特别是从RDDs到数据集和Dataframes)时，我都会陷入困境。有人能解释一下我是怎么做的吗？举个例子，现在我有了一个RDD[org.apache.spark.ml.linalg.Vector]，我需要将它传递给我的机器学习算法，例如一个KMeans (火花DataSet MLlib)。因此，我需要

浏览 1提问于2018-06-04得票数 2

回答已采纳

1回答

spark.sql.shuffle.partitions到底指的是什么？

apache-spark、apache-spark-sql

spark.sql.shuffle.partitions到底指的是什么？我们是在谈论一个宽转换的结果的分区的数量，还是在中间发生的事情，比如在宽转换的结果分区之前发生的某种中间分区？因为根据我的理解，根据一个广泛的转变spark.sql.shuffle.partitions参数在这

浏览 3提问于2018-09-24得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云