Spark RDD查找键值对的比率

Spark RDD是Apache Spark中的一个核心概念，它代表了一个不可变的、可分区的、并行计算的数据集合。RDD支持丰富的操作，包括转换操作和行动操作，以便进行数据处理和分析。

在Spark RDD中查找键值对的比率可以通过使用countByKeyApprox()方法来实现。该方法可以用于估算RDD中每个键的出现次数，并返回一个近似的结果。它的参数包括一个相对误差和一个置信度，用于控制结果的准确性和可靠性。

具体步骤如下：

首先，创建一个包含键值对的RDD。
调用countByKeyApprox()方法，并传入相应的参数。
根据需要，可以进一步处理结果，例如排序、过滤等操作。

以下是一个示例代码：

// 创建一个包含键值对的RDD
val rdd = sc.parallelize(Seq(("key1", 1), ("key2", 2), ("key1", 3), ("key3", 4)))

// 使用countByKeyApprox()方法查找键值对的比率
val result = rdd.countByKeyApprox(0.1, 0.95)

// 打印结果
result.foreach(println)

在上述示例中，countByKeyApprox()方法的第一个参数0.1表示相对误差为10%，第二个参数0.95表示置信度为95%。根据实际情况，可以调整这两个参数以获得更准确的结果。

对于Spark RDD查找键值对的比率，腾讯云提供了适用于Spark的云原生计算服务Tencent Cloud TKE。TKE是一种高度可扩展的容器化集群管理服务，可以帮助用户快速构建和管理Spark集群，并提供强大的计算能力和资源调度功能。您可以通过以下链接了解更多关于Tencent Cloud TKE的信息：Tencent Cloud TKE产品介绍

请注意，以上答案仅供参考，具体的技术选型和产品选择应根据实际需求和情况进行评估和决策。

页面内容是否对你有帮助？

有帮助

没帮助

在RDD中找不到Spark RDD分区程序partitionBy

、

学习自定义Spark RDD分区，编写了一些逻辑，但不编译。在Spark 2.4.3中，启动spark shell： case class Transaction(name:String, amount:Double, country:String) val transactions = Seq( Transaction("Bob", 100, "UK"), Transaction("James", 15, "UK"), Transaction("Marek", 51, "US"), Tr

浏览 20提问于2019-08-19得票数 0

回答已采纳

1回答

在RDD中查找元素的替代和更快的方法是什么？

、、、

我是斯卡拉和斯派克的新手。这是我的整个代码的一个简单例子： package trouble.something import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Stack { def ExFunc2(looku: RDD[(Int, List[(Double, Int)])], ke: Int): Seq[List[(Double, Int)]] = { val y: Seq[List[(Double, Int)]] = looku.lookup(k

浏览 1提问于2017-10-29得票数 2

1回答

Scala无法在RDD中保存为序列文件，这是允许的。

、、

我使用的是Spark1.6，根据，允许保存一个RDD来对文件格式进行排序，但是我注意到我的RDD textFile： scala> textFile.saveAsSequenceFile("products_sequence") <console>:30: error: value saveAsSequenceFile is not a member of org.apache.spark.rdd.RDD[String] 我在谷歌上搜索，发现类似的讨论似乎表明这种方法适用于火花放电。我对官方医生的理解是错的吗？saveAsSequenceFile()可以在Sc

浏览 1提问于2018-03-12得票数 0

回答已采纳

1回答

从RDD创建DataFrame时出错

、、

在下面的代码中，我试图从管道the创建一个DataFrame： print type(simulation) sqlContext.createDataFrame(simulation) print语句打印如下： <class 'pyspark.rdd.PipelinedRDD'> 但是，在下一行中，我得到了以下错误： org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 3.0 failed 1 times, most recent failur

浏览 2提问于2016-07-06得票数 1

回答已采纳

1回答

Pyspark 2.1.0中的自定义分区程序

、、

我读到具有相同分区的RDDs将被放在同一位置。这对我来说很重要，因为我想连接几个未分区的大型Hive表。我的理论是，如果我可以对它们进行分区(通过一个名为date_day的字段)并将它们放在一起，那么我就可以避免混洗。下面是我尝试为每个表做的事情： def date_day_partitioner(key): return (key.date_day - datetime.date(2017,05,01)).days df = sqlContext.sql("select * from hive.table") rdd = df.rdd rdd2 = rdd.parti

浏览 2提问于2017-11-05得票数 5

1回答

星星之火-将scala转换为java

、、

使用apache-spark处理数据。考虑到这样的scala代码： val rdd1 = sc.cassandraTable("player", "playerinfo").select("key1", "value") val rdd2 = rdd1.map(row => (row.getString("key1"), row.getLong("value"))) 基本上，它将RDD 'rdd1‘隐藏到另一个RDD 'rdd2'，但它将'rdd1’存储为键值

浏览 0提问于2014-11-25得票数 0

回答已采纳

2回答

从RDD获取模式

、

我希望使用Spark + Scala从rdd中获取模式(最常见的数字)。我可以让它做下面的工作，但我认为这可能是一个更好的计算方法。最重要的是，如果不止一个值有相同的重复次数，我需要返回这两个值。让我们看看我的示例代码： val l = List(3,4,4,3,3,7,7,7,9) val rdd = spark.sparkContext.parallelize(l) val grouped = rdd.map (e => (e, 1)).groupBy(_._1).map(e=> (e._1, e._2.size)) val maxRep = grouped.collect

浏览 1提问于2019-09-05得票数 0

回答已采纳

1回答

如何测试某个值是否是RDD的键

、

我对Spark和Scala非常陌生，我想测试一个值是否是RDD中的一个键。我掌握的数据如下： RDD数据:键->值 RDD :关键的->统计数据我想要做的是过滤数据中的所有键值对，其中的键位于stat中。我的总体想法是将RDD的键转换为一个集合，然后测试一个值是否属于这个集合？是否有更好的方法，以及如何使用Scala将RDD的键转换为一组？谢谢。

浏览 1提问于2015-01-12得票数 1

回答已采纳

1回答

火花隐式RDD转换不起作用

、、

对于，我有一个类似的问题，但是接受的解决方案并不能为我解决这个问题。我试图在一个简单的RDD上应用combineByKey： package foo import org.apache.spark._ import org.apache.spark.SparkConf import org.apache.spark.SparkContext._ object HelloTest { def main(args: Array[String]) { val sparkConf = new SparkConf().setAppN

浏览 1提问于2015-06-19得票数 0

回答已采纳

1回答

在Array[String]上使用Spark和scala的实践

、、

我对斯派克和斯卡拉都很陌生，我正尝试在星火中练习命令。我有两个csv文件： Ads.csv是 5de3ae82-d56a-4f70-8738-7e787172c018,AdProvider1 f1b6c6f4-8221-443d-812e-de857b77b2f4,AdProvider2 aca88cd0-fe50-40eb-8bda-81965b377827,AdProvider1 940c138a-88d3-4248-911a-7dbe6a074d9f,AdProvider3 983bb5e5-6d5b-4489-85b3-00e1d62f6a3a,AdProvider3 0083290

浏览 4提问于2016-01-27得票数 0

回答已采纳

1回答

为spark中的pipelinemodel添加路径

、、

我想在spark中为Pipelinemodel添加路径，以便从我的本地文件系统加载模型，但它返回以下异常。 import org.apache.spark.ml.PipelineModel val pipeline = PipelineModel.load("C:/Users/meh/Desktop/PARC_ACTIF_OM/Partie1_OM/Models_save") Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: file:/C:/User

浏览 43提问于2021-11-14得票数 0

3回答

如何连接两个RDD: value不是org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]的成员

、、

我正在使用Spark2.1.0和Scala2.10.6 当我尝试这样做的时候： val x = (avroRow1).join(flattened) 我知道错误： value join is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row] 我为什么要收到这条消息？我有下列进口报表： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ impor

浏览 0提问于2017-07-10得票数 0

1回答

如何查询ignite RDD？

、

我正在使用CacheConfiguration和setIndexedTypes(Long.class，StructType.class)，其中StructType是Spark的一个对象，并使用igniteRDD.saveValues(df.rdd())来推送值。但是当我试图查询这个缓存时，我得到了“在CacheConfiguration上使用setIndexedTypes或setTypeMetadata方法来启用”。我知道在POJO上用querysqlfield注解字段，但是这里的值是Spark对象，我们该怎么做呢？

浏览 0提问于2016-11-09得票数 0

1回答

星星之火-卡夫卡流异常-对象而不是serializableConsumerRecord

、、、

我正在运行一台卡夫卡流读卡器以下是依赖项 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.0.1</version> </dependency> <dependency> <groupId>or

浏览 3提问于2016-12-01得票数 1

回答已采纳

2回答

如何将火花中的DataFrame转换为HadoopRDD

、、

我喜欢在spark中为dynamodb编写数据格式。所以我使用的是rdd.saveAsHadoopDataset(JobConf).But，rdd类型是mismatch.It，需要hadoopRDD.So类型的rdd，我喜欢将数据转换为rdd，我使用了df.rdd，它给了我rdd，而不是hadoopRDD。我正在使用星星之火-scala API.If有任何更好的方式从火花写数据到Dyanmodb，这将有所帮助。

浏览 2提问于2017-04-06得票数 2

回答已采纳

1回答

如何将火花上下文从foreach传递给函数

、

我需要将SparkContext传递给我的函数，请建议我如何在下面的场景中这样做。我有一个序列，每个元素都引用特定的数据源，从中获取RDD并对其进行处理。我已经定义了一个函数，它接受星火上下文和数据源，并做必要的事情。我在恶意使用while循环。但是，我想用foreach或map来做，这样我就可以暗示并行处理。我需要激发函数的上下文，但是我如何从前端传递它呢？只是一个示例代码，因为我不能显示实际代码： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.

浏览 3提问于2016-01-24得票数 0

回答已采纳

4回答

如何在一对RDD中找到最大值？

、、

我有一个火花对RDD (键，计数)如下 Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3)) 如何使用找到计数最高的密钥？编辑:数据类型对RDD是org.apache.spark.rdd.RDD(String，Int)

浏览 1提问于2014-11-12得票数 15

回答已采纳

2回答

如何在映射函数中创建RDD

我有键/值对的RDD，对于每个键，我需要调用一些接受RDD的函数。因此，我尝试了RDD.Map和内部映射，使用sc.parallelize(value)方法创建了RDD，并将这个rdd发送到我的函数中，但是由于Spark不支持在RDD中创建RDD，这是不起作用的。你能给我提出解决这个问题的办法吗？我正在寻找解决方案，建议在下面的线程，但我有一个问题是，我的钥匙不是固定的，我可以有任何数目的钥匙。谢谢

浏览 2提问于2016-12-28得票数 0

回答已采纳

1回答

在齐柏林飞艇中使用SparkSQL查询Hive表时，为什么会收到这个IO异常？

、、、、

我按照的第一部分创建了一个外部配置单元表，并将其指向特定的S3 Bucket。在Hue界面中，我可以在成功创建后浏览数据示例。如果我切换到齐柏林飞艇并运行以下命令：%sql show tables，我可以看到我的表列在default数据库旁边。现在，如果我实际尝试查询表，就会得到一个java.io.IOException: Not a file: s3://my-bucket/my-subdirectory错误。这个错误是有道理的，但是Hive会让你指定一个S3存储桶，而不是一个实际的S3文件，所以我不知道如何让两者都满意！请注意，此目录中只有一个文件，并且我没有尝试任何分区。该文件经过压

浏览 1提问于2017-06-03得票数 0

2回答

从卡夫卡星火流接收空值

、、、、

我是火花流的新手，我正在实现一些小练习，比如从kafka发送XML数据，并且需要通过火花流接收流数据。我尝试了所有可能的方法。但是每次我得到空值时. Kafka端没有问题，唯一的问题是从Spark .接收流数据。下面是我实现的代码： package com.package; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.streaming.Duration; import org.apache.spark.stream

浏览 5提问于2016-09-18得票数 1

回答已采纳

1回答

执行Spark streaming从Kafka主题读取数据时出错

、、、

我是卡夫卡和斯帕克的新手。我已经通过Kafka生产者传递了消息，并试图在spark流中读取，但在main方法中遇到错误。代码如下所示。 spark-submit --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.4.7 Streaming Example.py from pyspark import SparkContext from pyspark.sql import SparkSession from pyspark.streaming import StreamingContext from pyspar

浏览 15提问于2021-05-27得票数 0

1回答

尝试使用spark shell对本地HDFS上托管的文件中的行数进行计数时出现HadoopRDD错误

、、、、

我是Apache Spark、Scala和Hadoop工具的新手。我已经设置了一个新的本地单节点Hadoop集群，正如前面提到的，还设置了spark，提供了对前面提到的这个Hadoop环境的引用。我能够验证spark-shell，spark UI是否已启动并运行。此外，我还可以使用查看HDFS。更进一步，我将一个示例文件上传到HDFS，并使用Hadoop localhost验证它是否可用。现在，我尝试使用Java和spark-shell (Scala)计算文件中的行数，但是这两次调用都失败了。 Exception in thread "dag-scheduler-event-l

浏览 0提问于2018-06-23得票数 1

1回答

运行PySpark命令时出错

、、、

我在Hadoop2.6.0中安装了Spark1.4.1，并尝试运行以下PySpark命令来计算行数。它抛出以下错误。我是新来的火花，无法找到错误。有人能提供解决方案吗。 >>> distFile = sc.textFile("/home/hduser2/spark-1.4.1-bin-hadoop2.6/README.md") 15/12/31 09:31:50 INFO storage.MemoryStore: ensureFreeSpace(213560) called with curMem=695185, maxMem=278019440 15/12

浏览 0提问于2015-12-31得票数 0

回答已采纳

1回答

在从hdfs读取文件时出现Apache错误(不存在输入路径)

、、

当我尝试从hdfs读取一个带有Spark的文件时，我得到了以下错误： scala> val textfile = sc.textFile("tmp/opendata/les-arbres.csv").collect() 17/10/09 19:02:31 INFO MemoryStore: Block broadcast_0 stored as values in memory (estimated size 341.4 KB, free 341.4 KB) 17/10/09 19:02:31 INFO MemoryStore: Block broadcast_0_pi

浏览 3提问于2017-10-09得票数 0

回答已采纳

3回答

如何将Scala RDD转换为Map

、

我有一个RDD (字符串数组) org.apache.spark.rdd.RDD[String] = MappedRDD[18]，并将其转换为具有唯一Ids的映射。我做了'val vertexMAp = vertices.zipWithUniqueId‘，但这给了我另一个'org.apache.spark.rdd.RDD[(String, Long)]'类型的RDD，但我想要一个'Map[String, Long]’。如何转换我的'org.apache.spark.rdd.RDD[(String, Long)] to Map[String, Long]‘

浏览 4提问于2014-10-14得票数 5

回答已采纳

1回答

Apache Spark中的RDD和分区

因此，在Spark中，当一个应用程序启动时，就会创建一个包含该应用程序的数据集(例如，WordCount的words数据集)的RDD。到目前为止，我所理解的是，RDD是WordCount中这些单词的集合，以及对这些数据集所做的操作(例如，map、reduceByKey等)。然而，afaik，Spark也有HadoopPartition (或一般的:分区)，它由每个执行器从HDFS读取。我相信驱动程序中的RDD也包含所有这些分区。那么，Spark中的执行者之间是如何划分的呢？是否每个执行器都将这些子数据集作为单个RDD获取，与驱动程序中的RDD相比，RDD包含的数据更少，还是每个执行器只处

浏览 1提问于2016-04-11得票数 0

1回答

星星之火-5063 RDD转换和操作只能由驱动程序调用。

、、、

我有一个RDDRow，我想看看： val pairMap = itemMapping.map(x=> { val countryInfo = MappingUtils.getCountryInfo(x); (countryInfo.getId(), countryInfo) }) pairMap: org.apache.spark.rdd.RDD(String，com.model.item.CountryInfo) = MapPartitionsRDD8 val itemList = df.filter(not($"newItemType" =

浏览 3提问于2016-09-15得票数 1

回答已采纳

4回答

星火之火(rdd.map)(_.swap)

、

我对斯卡拉和斯派克都很陌生。有谁能解释一下 rdd.map(_.swap) ？如果我查看Scala/Spark，就无法在RDD类中找到swap方法。

浏览 8提问于2016-01-08得票数 5

回答已采纳

2回答

值联接不是org.apache.spark.rdd.RDD的成员

、

我得到了这个错误： value join is not a member of org.apache.spark.rdd.RDD[(Long, (Int, (Long, String, Array[_0]))) forSome { type _0 <: (String, Double) }] 我找到的唯一建议是import org.apache.spark.SparkContext._我已经在这么做了。我做错了什么？编辑:更改代码以消除forSome (即，当对象的类型为org.apache.spark.rdd.RDD[(Long, (Int, (Long,

浏览 1提问于2015-03-26得票数 4

回答已采纳

1回答

阿帕奇火花-卡桑德拉番石榴不相容

、、

我正在使用Apache 2.1.0、Apache连接器2.0.0-M3和Cassandra驱动程序核心3.0.0，当我试图执行该程序时，我得到了以下错误： 17/01/19 10:38:27 WARN TaskSetManager: Lost task 1.0 in stage 1.0 (TID 5, 10.10.10.51, executor 1): java.lang.NoClassDefFoundError: Could not initialize class com.datastax.driver.core.Cluster at com.datastax.spark.conn

浏览 0提问于2017-01-19得票数 1

回答已采纳

2回答

基于SparkR的s3数据Logistic回归

、、、、

嗨，我正在尝试用SparkR复制更多的例子，但是当我试图在s3中使用数据时，我遇到了一些错误。下面是我在rstudio中在emr集群中运行的代码： rm(list=c(ls())) library(SparkR) # Initialize Spark context sc <- sparkR.init(master="yarn-client", sparkEnvir=list(spark.executor.memory="5g"),'logistic') D <- 8 readPartition <- functio

浏览 1提问于2015-04-22得票数 1

回答已采纳

1回答

python未在windows 10上的中找到错误

、、

我试图在windows 10上安装pyspark。当我试图创建一个数据框架时，我得到了错误消息，错误消息如下： Python was not found; run without arguments to install from the Microsoft Store, or disable this shortcut from Settings > Manage App Execution Aliases. 21/07/21 21:53:00 WARN ProcfsMetricsGetter: Exception when trying to compute pagesize,

浏览 2提问于2021-07-22得票数 3

2回答

Spring Spark集成- org.springframework.context.annotation.AnnotationConfigApplicationContext :java.io.NotSerializableException

、、

我正在为我的spark应用程序使用spring boot，所有的依赖项都是通过spring来管理的，我正在使用Autowire来添加依赖项。提交给executors的My Function类和Custom类实现了Serializable。但当我运行它并将任务提交给执行器时，它抛出了异常:一个spring类不是serilazable - AnnotationConfigApplicationContext Caused by: java.io.NotSerializableException: org.springframework.context.annotation.AnnotationC

浏览 9提问于2018-08-12得票数 0

1回答

在scala中将RDD[(Int，Int)]转换为PairRDD

、

这个例子有什么问题？ val f = sc.parallelize(Array((1,1),(1,2))) val p = new org.apache.spark.rdd.PairRDDFunctions[Int,Int](f) Name: Compile Error Message: error: type mismatch; found : org.apache.spark.rdd.org.apache.spark.rdd.org.apache.spark.rdd.org.apache.spark.rdd.org.apache.spark.rdd.RDD[(Int, Int)]

浏览 7提问于2018-02-23得票数 1

回答已采纳

1回答

Spark:无法加载本机gpl库

、、、

当我试图运行一个非常简单的spark作业(在mllib中使用逻辑回归和SGD )时，我犯了以下错误： ERROR GPLNativeCodeLoader: Could not load native gpl library java.lang.UnsatisfiedLinkError: no gplcompression in java.library.path at java.lang.ClassLoader.loadLibrary(ClassLoader.java:1738) at java.lang.Runtime.loadLibrary0(Runtime.java:82

浏览 0提问于2014-08-07得票数 4

1回答

Spark未能使用MatrixFactorizationModel加载模型

、、

我正在尝试使用星火协同过滤实现推荐系统。首先，我准备模型并保存到磁盘： MatrixFactorizationModel model = trainModel(inputDataRdd); model.save(jsc.sc(), "/op/tc/model/"); 当我使用单独的进程加载模型时，程序会失败，例外情况如下：代码： static JavaSparkContext jsc ; private static Options options; static{ SparkConf conf = new SparkConf().

浏览 1提问于2016-08-17得票数 1

回答已采纳

2回答

如何在独立星火集群(pySpark)中使用FTP上的文件？

、、、

嘿，我是一个全新的火花，最近建立了一个星星之火独立集群，很少有笔记本电脑。我的本地ftp服务器上有一个名为new.txt的文件，名为"PySpark可以从Hadoop支持的任何存储源创建分布式数据集，包括本地文件系统、HDFS、Cassandra、HBase、S3等“()。在独立集群模式下，我通过以下操作打开了吡火花交互式shell： $ MASTER=spark://IP:PORT ./bin/pyspark 然后执行指南中的示例命令。 >>> ff= sc.textFile("ftp://192.168.125.124/new.txt") &

浏览 4提问于2016-05-16得票数 2

回答已采纳

2回答

将RDD保存为顺序文件

、、、

我能够运行这个脚本来以文本格式保存文件，但是当我试图运行saveAsSequenceFile时，它就会出错。如果有人知道如何将RDD保存为序列文件，请让我知道这个过程。我试着在“学习火花”和官方火花文档中寻找解决方案。它成功运行。 dataRDD = sc.textFile("/user/cloudera/sqoop_import/departments") dataRDD.saveAsTextFile("/user/cloudera/pyspark/departments") 这是失败的 dataRDD = sc.textFile("/user/cl

浏览 4提问于2015-12-28得票数 1

回答已采纳

1回答

为什么RDDs不适合流任务？

、

我正在广泛地使用Spark，Spark的核心是RDD，正如RDD论文所示，在流应用程序方面也有局限性。这是RDD文件的准确引文。正如在介绍中所讨论的，RDDs最适合于将相同操作应用于dataset所有元素的批处理应用程序。在这些情况下，RDDs可以高效地将每个转换记为谱系图中的一个步骤，并且可以恢复丢失的分区，而不必记录大量数据。RDDs不太适合于对共享状态进行异步细粒度更新的应用程序，例如web应用程序的存储系统或增量web爬虫。我不太明白为什么RDD不能有效地管理状态。星火流如何克服这些限制？

浏览 2提问于2016-03-06得票数 2

1回答

如何在其他RDD映射方法中使用RDD？

、、

我有一个名为index的rdd : RDD(String，String)，我想使用index来处理我的文件。这是代码： val get = file.map({x => val tmp = index.lookup(x).head tmp }) 问题是我不能在file.map函数中使用索引，我运行了这个程序，它给了我这样的反馈： 14/12/11 16:22:27 WARN TaskSetManager: Lost task 0.0 in stage 3.0 (TID 602, spark2): scala.MatchError: null org.apache.

浏览 4提问于2014-12-11得票数 4

回答已采纳

2回答

collectAsMap()函数如何为Spark工作？

、、、

我试图理解在spark中运行collectAsMap()函数时会发生什么。根据火星之火的文档，它说， collectAsMap(self)将此RDD中的键值对作为字典返回给主目录。对于核心火花，它说， def collectAsMap()：MapK，V将这个RDD中的键值对作为一个映射返回给主。当我试图运行清单中的样例代码时，我得到了以下结果：对于scala，我得到了这样的结果：我对它为什么不返回列表中的所有元素感到有点困惑。有人能帮助我理解在这种情况下发生了什么，为什么我会有选择性的结果。谢谢。

浏览 5提问于2016-06-09得票数 1

1回答

带字典的PySpark约简键

、、、、

为什么Spark强制从元组列表中构建RDD，以便在进行还原键转换的情况下？ reduce_rdd = sc.parallelize([{'k1': 1}, {'k2': 2}, {'k1': -2}, {'k3': 4}, {'k2': -5}, {'k1': 4}]) print(reduce_rdd.reduceByKey(lambda x, y: x + y).take(100)) 错误： for k, v in iterator: ValueError: need more than 1 v

浏览 0提问于2018-01-18得票数 1

2回答

如何查看see发送到我的数据库的SQL语句？

、、、

我有一个星星团和一个vertica数据库。我使用 spark.read.jdbc( # etc 若要将Spark数据文件加载到群集，请执行以下操作。当我执行某个群函数时 df2 = df.groupby('factor').agg(F.stddev('sum(PnL)')) df2.show() 然后我得到一个vertica语法异常。 Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobA

浏览 4提问于2016-11-09得票数 5

回答已采纳

3回答

为什么df.limit在Pyspark中一直在变化？

、、

我正在使用一些dataframe df创建一个数据样本 rdd = df.limit(10000).rdd 这个操作需要相当长的时间(为什么呢？它不能在10000行之后省略吗？)，所以我假设我现在有了一个新的RDD。但是，当我现在使用rdd时，每次访问它都是不同的行。就像它再次重新采样一样。缓存RDD有一点帮助，但这肯定不是保存？背后的原因是什么？更新:这里是Spark 1.5.2的复制品 from operator import add from pyspark.sql import Row rdd=sc.parallelize([Row(i=i) for i in range(100

浏览 2提问于2016-05-11得票数 15

1回答

PySpark以独立模式连接到MongoDB，在群集模式下失败

、、、

我有一个PySpark脚本，它从MongoDB数据库读取集合。当我以独立模式运行脚本时，它可以工作： MONGO_URL = "mongodb://USER:PASSWORD@HOST:27017/DB_NAME.COLLECTION" spark = SparkSession.builder \ .appName('TestMongoLoad') \ .config('spark.mongodb.input.uri', MONGO_URL) \ .getOrCrea

浏览 2提问于2020-03-01得票数 0

回答已采纳

5回答

pyspark: ValueError:某些类型在推断后无法确定

、、、、

我有一个熊猫数据帧my_df，my_df.dtypes给了我们： ts int64 fieldA object fieldB object fieldC object fieldD object fieldE object dtype: object 然后，我尝试通过执行以下操作将pandas数据帧my_df转换为spark数据帧： spark_my_df = sc.createDataFrame(my_df) 但是，我得到了以下错误： ValueErrorTraceback (most

浏览 1提问于2016-11-10得票数 34

1回答

我的本地火星雨少了什么？

、

我刚刚开始学习pyspark，这里似乎是一个展示器:我试图将一个本地文本文件加载到spark中： base_df = sqlContext.read.text("/root/Downloads/SogouQ1.txt") 16/12/29 11:55:20 text.TextRelation:在驱动程序上列出text.TextRelation base_df.show(10) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2存储在内存中(估计大小为61.8 KB，空闲78.0 KB) 16/12/29 11

浏览 5提问于2016-12-29得票数 1

1回答

Hadoop :如何在JavaRDD中区分元素？

、、

我想把一些不同的JavaRDD集合存储到火花中的一个文件中？通过使用RDD的distinct()方法，我无法实现相同的目标。我的猜测是，RDD将每个元素视为单独的实例。在这种情况下，我们如何才能达到不同的目的。下面是代码片段，有谁能帮忙吗？ public static void main(String[] args) { SparkConf conf = new SparkConf().setAppName("Xml Spark Demo"); JavaSparkContext sc = new JavaSparkContext(conf); J

浏览 2提问于2014-10-08得票数 1

2回答

从EMR写入DSE图形

、、

我们正在尝试从EMR写入DSE图(cassandra)，并不断收到这些错误。我的JAR是一个带有byos依赖项的阴影jar。任何帮助都将不胜感激。 java.lang.UnsatisfiedLinkError: org.apache.cassandra.utils.NativeLibraryLinux.getpid()J at org.apache.cassandra.utils.NativeLibraryLinux.getpid(Native Method) at org.apache.cassandra.utils.NativeLibraryLinux.callGetpi

浏览 20提问于2019-04-26得票数 0

1回答

火花GraphX :需求失败:初始容量无效

、、

斯派克，斯卡拉，我是新手。我试图在这个数据集中执行三角计数：做一个业余项目这是我到目前为止编写的代码： import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.graphx.Edge import org.apache.spark.graphx.Graph import org.apache.spark.graphx.Graph.graphToGraphOps import org.apache.spark.graphx

浏览 4提问于2016-10-31得票数 1

回答已采纳