在spark中寻找rdd中的最小子集

文章/答案/技术大牛

发布

1回答

、

我有一个BitSets的RDD，比如我想要(BitSet(1,2),BitSet(1,7),BitSet(8,9,10))的rdd，即我需要最少的子集或不是任何BitSet的子集</e

浏览 7提问于2018-03-03得票数 0

回答已采纳

1回答

将多个numpy数组加载到spark* rdd中的最快方法？*

、、、、

我是Spark新手。在我的应用程序中，我希望从许多numpy数组创建一个RDD。每个numpy数组是(10,000，5,000)。目前，我正在尝试以下操作：for np_array in np_arrays: spark_df= sqlContext.createDataFrame(pandas_df) ##SLOW STEP rdd</

浏览 0提问于2016-06-28得票数 0

3回答

如何在两个Spark上下文之间共享Spark* RDD？*

、

每个RMI服务器都有一个Spark上下文。有没有办法在不同的Spark上下文之间共享RDD？

浏览 1提问于2015-01-13得票数 8

1回答

"spark.sql.shuffle.partitions“配置是否影响非sql洗牌？

、、、

在星火作业中，我们没有太多的SQL (这是我知道的问题，但目前这是一个事实)。我想优化我们的星火洗牌分区的大小和数量，以优化我们的火花使用。我在很多资料中看到，设置spark.sql.shuffle.partitions是一个很好的选择。但是，如果我们几乎不使用spark，它会有什么效果吗？

浏览 3提问于2022-04-18得票数 1

回答已采纳

1回答

Spark类型与精确类型不匹配

、、

在尝试朴素贝叶斯示例时，我在Ubuntu上的Spark1.4上遇到了这个问题。我见过有类似问题的帖子，修复的是jar不匹配(通过Maven)，但在这种情况下，有问题的类是用Spark打包的，所以我不确定如何继续。[org.apache.spark.mllib.regression.LabeledPoint] required: org.apache.spark.rdd.org.a

浏览 2提问于2015-07-11得票数 0

2回答

ColumnarBatch DataSource失败，并显示下推列

在使用与pruneColumns覆盖中提供的requiredSchema长度相同数量的ColumnVectors填充ColumnarBatch后，我在Spark内部得到了一个ArrayIndexOutOfBoundsException我怀疑Spark正在寻找与readSchema override返回的列模式一样多的ColumnVectors，而不是使用pruneColumns提供的模式。执行"select

浏览 0提问于2018-08-07得票数 1

1回答

Apache Spark* Scala -数据分析-错误*

、

我是新手/仍在学习Apache Spark/Scala。我正在尝试分析一个数据集，并已将该数据集加载到Scala中。但是，当我尝试执行基本分析时，例如最大值、最小值或平均值，我得到一个错误- error: value select is not a member of org.apache.spark.rdd.RDD我在一个组织的云实验室上运行Spark。错误： <console>:40: error:

浏览 25提问于2020-04-15得票数 0

1回答

将过滤的RDD添加到另一个RDD

、、

我想要创建一个RDD，它基于另一个具有1到多个关系的RDD的过滤结果子集。 "/usr/lib/spark&#x

浏览 0提问于2020-09-08得票数 1

回答已采纳

1回答

Bluemix : Apache Spark* :为spark-submit配置驱动程序内存*

、

我使用spark-submit脚本将我的python脚本上传到Spark集群，但收到以下错误： File "/gpfs/fs01/spark-1.6.0-bin-2.6.0/python/lib/pyspark.zip/pyspark/rdd.py", line 771, in collect port = self.ctx_

浏览 1提问于2016-04-14得票数 0

1回答

带有参数化类型的mapValues后的mapValues不编译

、、

当我调用RDD.mapValues(...).reduceByKey(...)时，我的代码不会编译。但是当我倒序时，RDD.reduceByKey(...).mapValues(...)一个完整的最小复制示例是： new SparkContext().textFile("") .mapValuesreduceByKey is not a member of org.apache.<em

浏览 0提问于2018-03-21得票数 0

回答已采纳

1回答

在apache上运行带有本地性质的Spark查询时数据局部性问题

、、、、

例如，当我使用下面的PySpark代码在拼花文件中找到一个词时：df.filter(df['word与此形成对比的是，由于该查询的性质，它必须在本地运行，至少在Any.本地级上运行。当我在运行时检查集群的网络IO时，我发现这个查询使用网络(当查询运行时网络IO增加)。这种情况的奇怪之处在于，星星之UI

浏览 8提问于2021-03-13得票数 1

回答已采纳

1回答

在Spark中，为什么我们可以广播DataFrame而不能广播RDD？我们如何使用广播的DataFrame？

、、

我想知道为什么在星火，我们不被允许广播RDD，但我们可以广播DataFrame？val df = Seq(("t","t"),("t","f"),("f","t"),("f","f")).toDF("x1", "x2")val b_df = spark.sparkConte

浏览 233提问于2018-08-09得票数 0

回答已采纳

1回答

PySpark :如何从一个巨大的RDD中获取样本RDD？

、、

在开发一个以RDD作为参数的函数时，我一直在寻找调试选项。因为有一个巨大的RDD，所以我想用它的一个子集来开发函数。如何创建RDD的子集？新样本应该是RDD？

浏览 0提问于2015-07-25得票数 2

1回答

spark Async接口的部分结果？

有没有可能取消一个spark未来，并仍然得到一个较小的RDD与处理的元素？Spark Async动作在这里“记录” 我考虑的用例是有一个非常大的映射，它可以在计算30分钟后中止，并且仍然收集-or，甚至迭代或saveAsObjectFile-已经有效映射的RDD的子集。

浏览 1提问于2015-04-07得票数 2

1回答

ArrayWritable的Pyspark用法

、、

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有这样的类型，用伪代码编写：我想把它保存在hadoop文件系统上。<init>()无法使用sc.sequenceFile重新加载rdd。

浏览 2提问于2015-12-01得票数 2

1回答

类型HashPartitioner不是org.apache.spark.sql.SparkSession的成员

、

我在用火花壳来试验星火的HashPartitioner。错误显示如下：data: org.apache.spark.rdd.RDD(2)) <console>:26: error: type HashPartitioner is not a member of org.apache.spark.sql.SparkSession: org.apac

浏览 1提问于2017-05-24得票数 1

回答已采纳

1回答

如何在Pandas数据转换过程中处理时间戳类型？

、、、、

我有一个带有pandas.tslib.Timestamp类型时间戳列的熊猫数据。我看了一下“createDataFrame”()中的pyspark源代码，它们似乎将数据转换为numpy记录数组，并将其转换为列表：我知道的几种方法将涉及创建处理，这些方法包括：在熊猫中向datetime对象添加时区信息。然而，这似乎是不必要的，并可能导致错误取决于您自己的

浏览 2提问于2017-07-25得票数 5

1回答

从成对列表中创建一个三元组列表，使所有三元组子集都出现在对列表中。

、、、

我对scala/spark很陌生，在编写spark程序时对函数式编程不太确定。我有以下格式的rdd：scala> user_freq_pairres17: org.apache.spark.rdd.RDD[(Int, List[(Int, Int)])] 我想从双数中计算出一

浏览 1提问于2017-02-25得票数 1

回答已采纳

2回答

为什么shell无法加载带有RDD导入的类的文件？

、

我在Scala2.11.8中使用Spark2.1.1。这是我正在处理的代码 

浏览 2提问于2017-06-09得票数 3

回答已采纳

1回答

由于较长的RDD沿袭而导致的堆栈溢出

、、

我在HDFS中有数千个小文件。需要处理一个稍微小一点的文件子集(同样是以千为单位)，fileList包含需要处理的文件列表。的沿袭时间很长。org.apache.spark.rdd.RDD$$anonfun$partitions$2.apply(RDD.scala:239) at org.apach

浏览 0提问于2015-12-25得票数 18

回答已采纳

点击加载更多