如何在Spark RDD中获得具有确切样本大小的样本？

在Apache Spark中，RDD（弹性分布式数据集）是一种基本的数据抽象，它允许你在集群上进行分布式计算。要从RDD中获得具有确切样本大小的样本，你可以使用sample方法。这个方法允许你指定要从RDD中采样的元素比例或者确切的数量。

基础概念

sample方法的基本概念是基于概率的抽样。你可以指定一个浮点数作为第一个参数，这个参数是0到1之间的采样比例。如果你想要确切数量的样本，你可以使用takeSample方法。

类型

按比例抽样：使用sample(withReplacement, fraction, seed)方法。
确切数量抽样：使用takeSample(withReplacement, num, seed)方法。

应用场景

数据集缩减：当你需要处理的数据量太大，但又想进行一些初步分析时，可以使用抽样。
机器学习：在训练机器学习模型之前，通常需要对数据进行抽样以创建训练集和测试集。
统计分析：在进行统计分析时，可能会用到抽样来估计总体的某些特性。

示例代码

以下是如何使用takeSample方法从RDD中获取确切样本大小的示例代码：

from pyspark import SparkContext

# 初始化SparkContext
sc = SparkContext("local", "SampleApp")

# 创建一个RDD
data = sc.parallelize(range(1, 1001))

# 抽取10个样本
sampled_data = data.takeSample(withReplacement=False, num=10, seed=42)

# 打印样本
print(sampled_data)

# 停止SparkContext
sc.stop()

在这个例子中，withReplacement=False表示不放回抽样，num=10表示我们想要抽取10个样本，seed=42是随机数种子，用于确保每次运行代码时结果的可重复性。

参考链接

Apache Spark官方文档 - RDDs

如果你在使用Spark时遇到了抽样相关的问题，比如样本数量不正确或者抽样结果不符合预期，可能的原因包括：

随机数种子：如果你没有指定种子或者使用了不同的种子，每次抽样的结果可能会不同。
数据分布：如果RDD中的数据分布不均匀，抽样结果可能不会很好地代表整体。
参数设置：withReplacement和fraction或num参数的错误设置可能导致抽样结果不符合预期。

解决这些问题的方法包括：

确保设置了正确的随机数种子以获得可重复的结果。
检查数据的分布情况，必要时进行数据预处理以确保均匀分布。
仔细检查sample或takeSample方法的参数设置，确保它们符合你的抽样需求。

希望这些信息能帮助你更好地理解和使用Spark RDD进行抽样。

如何在Spark RDD中获得具有确切样本大小的样本？

、、

为什么Spark RDD上的rdd.sample()函数返回不同数量的元素，即使分数参数是相同的？例如，如果我的代码如下所示： val a = sc.parallelize(1 to 10000, 3) a.sample(false, 0.1).count 每次我运行代码的第二行时，它都会返回一个不等于1000的不同数字。实际上，我希望每次都能看到1000个元素，尽管这1000个元素可能不同。谁能告诉我怎样才能得到样本量恰好等于1000的样品？非常感谢。

浏览 1提问于2015-09-29得票数 22

回答已采纳

1回答

星火中的默认分区方案

、、

当我执行以下命令时： scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> rdd.partitions.size res9: Int = 10 scala> rdd.partitioner.isDefined

浏览 1提问于2015-12-28得票数 20

回答已采纳

2回答

星火error:java.lang.IllegalArgumentException:大小超过Integer.MAX_VALUE

、、

我试图计算负样本的数量，如下所示： val numNegatives = dataSet.filter(col("label") < 0.5).count 但我得到的大小超过了Integer.MAX_VALUE错误： java.lang.IllegalArgumentException: Size exceeds Integer.MAX_VALUE at sun.nio.ch.FileChannelImpl.map(FileChannelImpl.java:869) at org.apache.spark.storage.DiskStore$$anonfu

浏览 0提问于2018-04-13得票数 0

回答已采纳

2回答

将pyspark dataframe转换为大熊猫dataframe

、、

我有pyspark，其尺寸为(28002528,21)，并试图使用以下代码行将其转换为熊猫数据： pd_df=spark_df.toPandas() 我发现了一个错误：第一部分 Py4JJavaError: An error occurred while calling o170.collectToPython. : org.apache.spark.SparkException: Job aborted due to stage failure: Task 3 in stage 39.0 failed 1 times, most recent failure: Lost task 3.0

浏览 0提问于2019-02-25得票数 5

1回答

为什么spark创建空分区以及默认分区是如何工作的？

、、

我通过指定分区数从文本文件创建RDD。但是它给出了与指定分区不同的分区数。 scala> val people = sc.textFile("file:///home/pvikash/data/test.txt", 0) people: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[72] at textFile at <console>:27 scala> people.getNumPartitions res47: Int = 1 scala> val people = sc.

浏览 0提问于2018-01-18得票数 0

回答已采纳

7回答

如何从Scala列表或数组中随机采样？

、、、、

我想从Scala列表或数组(不是RDD)中随机采样，样本大小可以比列表或数组的长度长得多，我如何有效地执行此？因为样本大小可能非常大，并且采样(在不同的列表/数组上)需要进行大量的次数。我知道对于Spark RDD我们可以使用takeSample()来做，有没有Scala list/array的等价物？非常感谢。

浏览 445提问于2015-10-04得票数 16

1回答

如何在没有java堆内存错误的情况下将csv读入pyspark

、、、

我正在尝试用以下代码将csv读入pyspark控制台： from pyspark.sql import SQLContext import pyspark sql_c = SQLContext(sc) df = sql_c.read.csv('join_rows_no_prepended_new_line.csv') 然而，当我有144 get的空闲时，我在内存使用方面有一个很长的错误。此外，内存错误是在运行上述代码时立即发生的，因此我认为它实际上不是内存错误。我已经安装了java1.8、Spark2.4.0和python3.6。我也安装了scala，但我还没有深入研究它。我没

浏览 0提问于2019-01-29得票数 1

回答已采纳

2回答

从RDD获取模式

、

我希望使用Spark + Scala从rdd中获取模式(最常见的数字)。我可以让它做下面的工作，但我认为这可能是一个更好的计算方法。最重要的是，如果不止一个值有相同的重复次数，我需要返回这两个值。让我们看看我的示例代码： val l = List(3,4,4,3,3,7,7,7,9) val rdd = spark.sparkContext.parallelize(l) val grouped = rdd.map (e => (e, 1)).groupBy(_._1).map(e=> (e._1, e._2.size)) val maxRep = grouped.collect

浏览 1提问于2019-09-05得票数 0

回答已采纳

3回答

从中的文本文件中查找存储在rdd中的数据的大小。

、、

我是Apache的新手(1.4.1版)。我编写了一个小代码来读取文本文件，并将其数据存储在Rdd中。是否有一种方法可以获得rdd中的数据大小。这是我的密码： import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.util.SizeEstimator import org.apache.spark.sql.Row object RddSize { def main(args: Array[String]) { val sc = new Spar

浏览 9提问于2015-08-24得票数 5

回答已采纳

1回答

pyspark Spark 2.1.1 s3n输入路径不存在

、、、

在控制台上 aws s3 cp s3://com.philadelphia-reflections.php/.htaccess htaccess 执行预期的操作:它下载文本文件然而，在pyspark中， sc.hadoopFile(path = 's3n://com.philadelphia-reflections.php/.htaccess', conf = { 'fs.s3n.awsAccessKeyId': '...',

浏览 0提问于2017-05-24得票数 0

4回答

如何在一对RDD中找到最大值？

、、

我有一个火花对RDD (键，计数)如下 Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3)) 如何使用找到计数最高的密钥？编辑:数据类型对RDD是org.apache.spark.rdd.RDD(String，Int)

浏览 1提问于2014-11-12得票数 15

回答已采纳

1回答

我们如何看待同一个函数的不同实现

、

我想了解如何在Scala中实现相同方法。 def createDataFrame[A <: Product](data: Seq[A])(implicit evidence$3: reflect.runtime.universe.TypeTag[A]): org.apache.spark.sql.DataFrame def createDataFrame(rdd: org.apache.spark.api.java.JavaRDD[_],beanClass: Class[_]): org.apache.spark.sql.DataFrame def createDataFrame(row

浏览 0提问于2020-07-19得票数 0

回答已采纳

1回答

TypeError：'int‘对象不可迭代

、、、

这是我书中的示例代码： from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("spark://chetan-ThinkPad- E470:7077").setAppName("FlatMap") sc = SparkContext(conf=conf) numbersRDD = sc.parallelize([1, 2, 3, 4]) actionRDD = numbersRDD.flatMap(lambda x: x + x).collect() for val

浏览 3提问于2018-03-09得票数 1

回答已采纳

1回答

使用(显式)隐式参数调用方法时“散文”和“点符号”的差异

、、

我不是Scala专家，我对使用隐式参数调用方法的语法感到困惑。这是我的情况：我有一个这样的Spark RDD： val myData: RDD[Array[String]] = ... 并为其定义了一个排序： object MyOrdering extends Ordering[Array[String]] = ... 我想过滤这个RDD，并根据我的顺序获取RDD中的前n个条目。Spark RDD有一种方法，可以获取具有以下签名的前n个条目： def top(num: Int)(implicit ord: Ordering[T]): Array[T] 最初，我尝试了以下代码 myData

浏览 0提问于2015-02-07得票数 5

1回答

火花CombineByKey

、

我有以下格式的Spark RDD样本： Array[(String, (String, Double))] = Array( (2014-01-12 00:00:00.0,("XXX",829.95)), (2013-08-28 00:00:00.0,("YYY",469.95000000000005)), (2013-11-01 00:00:00.0,("ZZZ",129.99)), (2013-07-25 00:00:00.0,("XYZ",879.85999999

浏览 1提问于2017-07-17得票数 1

2回答

用于CCO抛出NegativeArraySizeException的Apache Mahout SimilarityAnalysis

、、、

在为CCO调用Apache Mahout的SimilarityAnalysis时，我得到了一个关于NegativeArraySizeException的致命异常。我运行的代码如下所示： val result = SimilarityAnalysis.cooccurrencesIDSs(myIndexedDataSet:Array[IndexedDataset], randomSeed = 1234, maxInterestingItemsPerThing = 3, maxNumInteractions = 4) 我看到了以下错误和相应的堆栈跟踪： 17/0

浏览 28提问于2017-04-20得票数 1

1回答

spark中的KernelDensity序列化错误

、、

最近我在Spark中使用了KernelDensity类，我试着在windows10中将它序列化到我的磁盘上，下面是我的代码： // read sample from disk val sample = spark.read.option("inferSchema", "true").csv("D:\\sample") val trainX = sample.select("_c1").rdd.map(r => r.getDouble(0)) val kd = new KernelDensity().setSample(tr

浏览 1提问于2020-05-10得票数 0

1回答

Apache Spark join操作的弱伸缩性差

、、、

我在Apache Spark上运行"join“操作，发现没有弱可伸缩性。如果有人能解释这一点，我将不胜感激。我创建了两个数据帧("a"，"b")和("a"，"c")，并通过第一列连接这两个数据帧。我为“一对一”连接生成数据帧值。此外，我使用相同的分割器来避免混洗。数据帧中的行数- 1024 * 1024 * 16 * cores_total (cores_total -在其上启动程序的核心总数)。列"a“由随机Int值组成，"b”列的所有值等于1，"c“列的所有值等于2。理论上，随着数据大小和

浏览 0提问于2017-10-04得票数 3

1回答

如何在启用检查点的情况下连接dstream和JDBCRDD？

、

我们有一个启用检查点的星火流作业，它第一次正确执行，但是当从检查点重新启动时抛出异常以下。 org.apache.spark.SparkException: RDD转换和操作只能由驱动程序调用，而不能在其他转换中调用；例如，rdd1.map(x => rdd2.values.count() * x)无效，因为值转换和计数操作不能在rdd1.map转换中执行。有关更多信息，请参见火花-5063。在org.apache.spark.rdd.RDD.org$apache$spark$rdd$RDD$$sc(RDD.scala:87) at org.apache.spark.rdd.RDD.w

浏览 3提问于2016-11-04得票数 1

1回答

sc.wholeTextFiles + toDebugString甚至在执行操作之前都要花很长时间

下面是一个简单的代码段。 inputForCust是总计57M的14762个文件，平均文件大小为0.5K。这些文件是从通过NFS安装的本地文件系统加载的。 val inputCustFiles = sc.wholeTextFiles(inputForCust, jobArgs.minPartitions) println("This prints immediately") inputCustFiles.toDebugString println("This prints after 20 mins") inputCustFiles.count println(

浏览 1提问于2017-03-20得票数 0

回答已采纳

1回答

Scala [type1，type2]

、

下面是其中一种用法的实际示例： val a: Either[Int, String] = { if (true) Left(42) // return an Int else Right("Hello, world") // return a String } 但是下面的条件不起作用:条件" text“只是用来确定输入文件是文本文件还是parquet文件 val a: Either[org.apache.spark.rdd.RDD[String], org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]]

浏览 2提问于2018-11-17得票数 1

2回答

跨分区的spark中的Reduce函数

、、

我已经用python编写了一个使用spark的示例函数。函数如下所示 #!/usr/bin/env python from __future__ import print_function from pyspark.sql import SparkSession import os import sys os.environ["SPARK_HOME"] = "/usr/local/spark" os.environ["PYSPARK_PYTHON"]="/usr/bin/python3.4" spark = SparkSessi

浏览 7提问于2017-07-20得票数 1

回答已采纳

1回答

如何在具有不同列数的RDD上执行集合转换？

、

我有两个RDD，一个是RDD[(String, String, String)]类型的RDD，另一个是RDD[(String, String, String, String, String)]类型的RDD。每当我尝试执行联合、交叉等操作时，我都会得到错误:- error: type mismatch; found: org.apache.spark.rdd.RDD[(String, String, String, String,String, String)] required: org.apache.spark.rdd.RDD[(String, String, String)] uid

浏览 5提问于2017-06-29得票数 0

1回答

SparkException: Python没有及时连接

、、、、

我正试图将Python作业提交给一个2个工作节点星火库集群，但始终看到以下问题，它最终会导致火花提交失败： 15/07/04 21:30:40 WARN scheduler.TaskSetManager: Lost task 0.1 in stage 0.0 (TID 2, workernode0.rhom-spark.b9.internal.cloudapp.net): org.apache.spark.SparkException: Python worker did not connect back in time at org.apache.spark.api.pyt

浏览 0提问于2015-07-04得票数 1

回答已采纳

2回答

如何在映射函数中创建RDD

我有键/值对的RDD，对于每个键，我需要调用一些接受RDD的函数。因此，我尝试了RDD.Map和内部映射，使用sc.parallelize(value)方法创建了RDD，并将这个rdd发送到我的函数中，但是由于Spark不支持在RDD中创建RDD，这是不起作用的。你能给我提出解决这个问题的办法吗？我正在寻找解决方案，建议在下面的线程，但我有一个问题是，我的钥匙不是固定的，我可以有任何数目的钥匙。谢谢

浏览 2提问于2016-12-28得票数 0

回答已采纳

1回答

未能在PySpark中用list列减去两个RDD

、、

我有两个如下类型的RDD： RDD[(int, List[(string, int)] 我想从两个RDD中得到减法集。守则是这样的： from pyspark.sql import SparkSession spark = SparkSession.builder.appName('xxxxx.com').getOrCreate() rdd1 = spark.sparkContext.parallelize([(1, [("foo", 101), ("bar", 111)]), (2, [("foobar", 22), (

浏览 5提问于2022-07-12得票数 1

回答已采纳

1回答

在Spark JDBC中使用区分大小写的partitionColumn

、

使用Spark的JDBC数据源访问Postgresql时，属性partitionColumn用作不区分大小写的属性，并引发异常 CREATE TABLE data USING org.apache.spark.sql.jdbc OPTIONS (url 'jdbc:postgresql://localhost:5432/postgres', dbtable 'public.datios', lowerBound '0', upperBound '10', partitionColumn 'COD_PERSON',

浏览 0提问于2019-08-02得票数 0

1回答

火花作业在纱线上失败-

、、

我正在尝试使用以下配置在纱线集群中执行星火作业。 /usr/bin/spark-submit --class com.example.DriverClass --master yarn-cluster app.jar hdfs:///user/spark/file1.parquet hdfs:///user/spark/file2.parquet hdfs:///user/spark/output 20151217052915 --num-executors 20 --executor-memory 12288M --executor-cores 5 --driver-m

浏览 2提问于2015-12-19得票数 2

1回答

hadoop 2.7.7的AWS-Java-SDK版本问题

、、、

我正在运行一个简单的spark应用程序来从rdd中的s3获取文件，并将其转换为pyspark数据帧： data=sc.textFile('s3a://bigdata-plat/churnData/transaction.csv') df=data.toDF() 也试过了， data=sc.textFile('s3a://bigdata-plat/churnData/transaction.csv') df = data.map(lambda x: Row(**f(x))).toDF() 但它给出了相同的错误： java.lang.NoSuchMethodErro

浏览 4提问于2019-01-02得票数 2

1回答

在火花流中遇到内存问题的泡菜对象(模型数据)

、、

一直在尝试应用一个泡沫化模型来预测流数据。最初，该模型几乎是1GB，并认为减少这可能会解决问题。使用不同的协议和压缩来选择对象，并将其减少到60 MB。输入数据流是一个json记录，并对3个键应用预测。泡菜对象创建：以前： joblib.dump(pipeline, 'itemc_nb.pkl') 当前： joblib.dump(pipeline, 'itemc_nb.pkl',compress=1,protocol=-1) 我测试的另一个理论是运行流脚本的边缘节点上的内存消耗。在满容量的情况下，它以70%的速度运行，如所见边缘节点的容量为22 GB

浏览 0提问于2018-10-26得票数 0

回答已采纳

3回答

为什么我可以使用SparkSQL显示()数据帧，但不能将其写入json并获得"java.lang.OutOfMemoryError“

、、、、

我使用SparkSQL处理数据，并且我想将我的数据写入一个子文件。 ... step12.show() step12.repartition(10).coalesce(1).write.json('wasb://liu@cliubo.blob.core.windows.net/test_data_4') step12是我的数据帧，但是我收到一个错误，告诉我java.lang.OutOfMemoryError: Unable to acquire 65536 bytes of memory, got 0它没有意义，因为我可以显示这个数据帧。我使用Microsoft Azure中的

浏览 0提问于2017-04-17得票数 0

2回答

星星之火和亚马逊S3没有在执行器中设置凭据

、、、

我正在执行一个从AmazonS3中读写的Spark程序。我的问题是，如果我在本地模式(--master local6)执行，但是如果我在集群中执行(在其他机器中)，我的凭据就会出错： org.apache.spark.SparkException: Job aborted due to stage failure: Task 2 in stage 1.0 failed 4 times, most recent failure: Lost task 2.3 in stage 1.0 (TID 33, mmdev02.stratio.com): com.amazonaws.AmazonClient

浏览 6提问于2017-06-13得票数 0

1回答

如何在SparkR中建立logistic回归模型

、、

我对星火和SparkR都是新手。我已经成功地安装了火花和SparkR。当我试图用存储在HDFS中的csv文件建立Logistic回归模型时，我得到了“不正确的维度数”的错误。我的守则是： points <- cache(lapplyPartition(textFile(sc, "hdfs://localhost:54310/Henry/data.csv"), readPartition)) collect(points) w <- runif(n=D, min = -1, max = 1) cat("Initial w: ", w,

浏览 9提问于2014-09-26得票数 3

2回答

partitionBy和groupBy在火花中有什么区别？

、

我有一个pyspark，它可以收集成一个元组列表，如下所示： rdds = self.sc.parallelize([(("good", "spark"), 1), (("sood", "hpark"), 1), (("god", "spak"), 1), (("food", "spark"), 1), (("fggood", "ssspark"), 1), (("

浏览 2提问于2020-06-17得票数 2

回答已采纳

1回答

Spark:与另一个汇总器合并时维度不匹配

、、

我想研究额外的训练数据如何帮助模型性能(在精度、召回率等方面)的影响。我将采样率改变为0.35，0.5，0.75和1.0 (从所有数据的25%到100% )。 val sampling_ratio = 0.25 从单独的文件中读取案例和控件。 val negative_training_data: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(spark, "negative_sorted.tsv") val positive_training_data: RDD[LabeledPoint] = MLUtils.loadLibSVMFi

浏览 2提问于2016-01-12得票数 0

1回答

在spark中尝试以avro格式保存文件时获取ClassCastException

、、

我正在尝试处理一个文件，然后使用saveAsNewAPIHadoopFile方法将其保存为avro文件格式。以下是我的节目： case类TrafficSchema(a: String，b: Int，c: Int，d: Int，e: Float) def main(args: Array[String]) { val tableName: String = "CHICAGO_TRAFFIC_TRACKER" System.setProperty("hadoop.home.dir", "D:\\") val input_Path = "E:

浏览 0提问于2018-12-11得票数 1

回答已采纳

1回答

Spark ML Kmeans give : org.apache.spark.SparkException:无法执行用户定义的函数($anonfun$2：(vector) => int)

、、、、

我尝试加载KmeansModel，然后从中获取标签：下面是我写的代码： val kMeansModel = KMeansModel.load(trainedMlModel.mlModelFilePath) val arrayOfElements = measurePoint.measurements.map(a => a._2).toSeq println(s"ArrayOfELements::::$arrayOfElements") val arrayDF = sparkContex

浏览 6提问于2017-03-09得票数 1

回答已采纳

1回答

火花ML(使用PySpark)：使用多层感知器分类器时的错误

、、、、

我正在研究一个使用Spark上不同分类器的二进制分类问题；能够成功地训练和评估模型(如朴素贝叶斯、随机森林、Logistic Reg等)，然而，我在使用相同的培训和测试数据开发多层Perceptron分类器时遇到了一些问题。也许能帮我找出我哪里出了问题！ # spark version sc.version >>u'2.3.0.2.6.5.25-1' # python version import sys print (sys.version) >>2.7.5 (default, May 3 2017, 07:55:04) [GCC 4.8.5

浏览 1提问于2018-09-29得票数 0

1回答

java.io.EOFException而不是空文件上的SequenceFile

、、、

我正试着用火花读一张桌子。 spark.table("table_name") sc.sequenceFile(path, classOf[Text], classOf[Text], 1000). map(x => x._2.toString.split(delimiter, -1)) 如果没有空文件，两者都可以工作；如果表中包含空文件，则两者都会在java.io.EOFException: /path/to/file/1612735495084_12eed62a-b1ee-4cf5-8b71-a87149acd9c8.sf not a SequenceFile中失败

浏览 5提问于2021-02-14得票数 1

回答已采纳

1回答

过载星火RDD函数zipPartitions中的错误

我正在尝试使用在Spark的RDD类中定义的zipPartitions函数(url到Scala这里是：)。该函数是重载的，包含几个实现。 def zipPartitions[B, C, D, V](rdd2: RDD[B], rdd3: RDD[C], rdd4: RDD[D])(f: (Iterator[T], Iterator[B], Iterator[C], Iterator[D]) ⇒ Iterator[V])(implicit arg0: ClassTag[B], arg1: ClassTag[C], arg2: ClassTag[D], arg3: ClassTag[V])

浏览 5提问于2014-05-14得票数 0

回答已采纳

2回答

必须包括log4J，但它会导致中的错误。如何避免错误？

、、、

由于jars的复杂性，我必须将其包含到Spark代码中，因此，我希望在不删除log4j导入的情况下寻求帮助，找出解决此问题的方法。简单代码如下： :cp symjar/log4j-1.2.17.jar import org.apache.spark.rdd._ val hadoopConf=sc.hadoopConfiguration; hadoopConf.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") hadoopCo

浏览 2提问于2015-03-31得票数 3

回答已采纳

2回答

如何使用Spark Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)

、

我想从数据流中的rdds中提取样本。因为数据流没有sample()转换，它是一个rdds序列，所以我这样做是为了从数据流中提取样本，并对其应用字数计数： from pyspark import SparkContext from pyspark import SparkConf # Optionally configure Spark Settings conf=SparkConf() conf.set("spark.executor.memory", "1g") conf.set("spark.cores.max", "2")

浏览 8提问于2016-08-19得票数 0

回答已采纳

1回答

Apache火花:从检查点恢复状态的NPE

、、、

我们正在构建简单的流应用程序，它使用HBase RDD与传入的DStream连接。样本代码： val indexState = sc.newAPIHadoopRDD( conf, classOf[TableInputFormat], classOf[ImmutableBytesWritable], classOf[Result]).map { case (rowkey, v) => //some logic} val result = dStream.transform { rdd => rdd.leftOuterJoin(indexState) } 它可

浏览 1提问于2017-02-16得票数 1

回答已采纳

2回答

Scala Spark : df.stat.sampleBy()返回的结果不同

、

我在stratifiedSampling上看到了很多问题，但都没有回答我的问题，所以以“新帖子”的形式提问，希望能得到一些更新。我注意到spark API:sampleBy()返回的结果有差异，这对于小尺寸的数据帧不是很重要，但对于大尺寸的数据帧(>1000行)更明显。示例代码： val inputRDD:RDD[(Any,Row)] =df.rdd.keyBy(x=> x.get(0)) val keyCount = inputRDD.countByKey() val sampleFractions = keyCount.map(x => (x._1,{(   x._

浏览 0提问于2017-03-24得票数 4

1回答

任务不可序列化的异常--在Spark中使用JMSTemplate

、、

我正在尝试在JMSTemplate方法中使用Spring rdd.foreach类，但是我得到的是任务而不是可序列化的错误。当我尝试使用静态变量时，它在本地运行，但在集群中，我得到的是空指针异常。示例代码： inputRDD.foreach(record -> { messageServices.send(record); } 错误日志： org.apache.spark.SparkException: Task not serializable at org.apache.spark.util.ClosureCleaner$.

浏览 3提问于2015-12-29得票数 0

回答已采纳

3回答

为什么df.limit在Pyspark中一直在变化？

、、

我正在使用一些dataframe df创建一个数据样本 rdd = df.limit(10000).rdd 这个操作需要相当长的时间(为什么呢？它不能在10000行之后省略吗？)，所以我假设我现在有了一个新的RDD。但是，当我现在使用rdd时，每次访问它都是不同的行。就像它再次重新采样一样。缓存RDD有一点帮助，但这肯定不是保存？背后的原因是什么？更新:这里是Spark 1.5.2的复制品 from operator import add from pyspark.sql import Row rdd=sc.parallelize([Row(i=i) for i in range(100

浏览 2提问于2016-05-11得票数 15

1回答

如何为HadoopPartitions计算Spark的默认分区？

、

我正在阅读，关于分区，他说默认情况下，为每个HDFS分区创建一个分区，默认为64 is。我对HDFS并不十分熟悉，但是我遇到了一些复制这条语句的问题。我有一个名为Reviews.csv的文件，它是大约330 of的亚马逊食品评论文本文件。给定默认的64‘d块，我希望使用ceiling(330 / 64) = 6分区。但是，当我将文件加载到我的Shell中时，我得到了9个分区： scala> val tokenized_logs = sc.textFile("Reviews.csv") tokenized_logs: org.apache.spark.rdd.R

浏览 1提问于2018-12-01得票数 1

回答已采纳

1回答

Spark中的RDD示例

RDD示例在spark中是如何工作的？它的不同参数的功能是什么，即样本(withReplacement，分数，种子)。我在web上找不到任何与'withReplacement‘和'seed’参数相关的东西。请举例说明。

浏览 7提问于2017-01-22得票数 1

1回答

使用UDF函数内的方法Scala

、、、

我希望在用户设计的函数中使用位于另一个类中的方法，但它不起作用。我有一个方法： def traitementDataFrameEleve(sc:SparkSession, dfRedis:DataFrame, domainMail:String, dir:String):Boolean ={ def loginUDF = udf((sn: String, givenName:String) => { LoginClass.GenerateloginPersone(sn,givenName,dfr) }) dfEleve.

浏览 0提问于2017-04-25得票数 0

1回答

使用DataFrame和Pandas制作列时出错

、、、、

我使用的是spark1.5.1和Python3.5 anaconda distribution.My代码一直运行得很好，直到我在第7个单元 pd.DataFrame(CV_data.take(5), columns=CV_data.columns) 我在这个单元格上遇到错误 Py4JJavaError Traceback (most recent call last) <ipython-input-10-d3dfeab0b119> in <module>() ----> 1 pd.DataFrame(CV_data.take(5), columns=CV_dat

浏览 1提问于2016-06-29得票数 0