理解RDDs的Spark中的lambda函数输入_列表理解中的Lambda函数返回函数_如何理解Haskell中的嵌套lambda函数 - 腾讯云开发者社区

、、、

我正在上一门关于Spark的课程，我有点困惑。所以这里有下面的代码。我知道第1行正在创建元组(word，1)。然后，第2行按字分组并对计数求和。我不明白的是，第2行中的X和y是什么，lamda函数只有一个数字输入，那就是wordcounts中的count列(全部为1)，那么为什么是y呢？wordCounts = words.map(lambda x: (x, 1)) #outputs [('self&#x

浏览 45提问于2019-10-22得票数 3

回答已采纳

1回答

这个RDD是什么样子的？

、、

是否有任何spark streaming文档来解释流中使用以下方法获得的RDDs的内容：lines = kvs.map(lambda x: x[1])(None,<line>)(None,<line>)

浏览 0提问于2015-10-22得票数 0

1回答

如何解决火花放电中的org.apache.kafka.clients.producer.KafkaProducer.flush()V错误java.lang.NoSuchMethodError

、、、

我从一个Kafka主题中读到了一些消息，对于每个rdd，都执行函数proccess_rdds。x: x) lines.foreachRDD(lambda y: proccess_rdds(: spark_streaming_online()) ssc.awaitTermination() 我不能在这里发布来自proccess_rdds<

浏览 6提问于2020-06-02得票数 1

1回答

将用户函数应用于整个Spark* DataFrame列*

、、

Spark DataFrame模式：root |-- Close:double (nullable = true)我希望在testtbl列中应用标量值函数。假设我想要计算“Close”列的平均值。对于rdd，我会这样做但是testtbl

浏览 1提问于2016-07-26得票数 1

2回答

Pyspark使用saveAsNewAPIHadoopFile将DStream数据写入Elasticsearch

、、、、

我正在尝试将Kafka Stream转换为RDDs，并将这些RDDs插入到Elasticsearch数据库中。这是我的代码：sc = SparkContext(conf=conf) "es.nodes(lambda a, b: a+b) val

浏览 0提问于2016-12-30得票数 1

2回答

partitionBy和groupBy在火花中有什么区别？

、

我有一个pyspark，它可以收集成一个元组列表，如下所示： (("good", "spark"), 7), ((&q

浏览 2提问于2020-06-17得票数 2

回答已采纳

1回答

从技术角度看RDD与Dataset/Dataframe的关系

我试图从技术角度理解RDDs和Dataframes/Datesets之间是否存在关系。RDDs通常被描述为Spark中的基本数据抽象。在我的理解中，这意味着Dataframes/Datasets也应该基于它。在原始Spark SQL Paper中，图1和图3指向此连接。但是，我还没有找到任何关于这个连接的文档(如果它存在的话)。所以我的问题是:

浏览 10提问于2020-07-24得票数 0

回答已采纳

1回答

spark中的迭代过滤器似乎不起作用

、、、

我试图逐个删除RDD的元素，但这不起作用，因为元素重新出现。下面是我的代码的一部分： rdd = spark.sparkContext.parallelize([0,1,2,3,4]) rdd=rdd.filter(lambda x:x!我在想，在这个循环之后，rdd应该是空的。然而，我不明白为什么，每次我将filter获得的新rdd保存在"rdd“中时，它不应该保留所有的转换吗？如果没有，我应

浏览 27提问于2021-01-20得票数 1

回答已采纳

2回答

如何使用Spark* Dstream进行简单的随机采样？(使用spark 1.6.1的pyspark)*

、

我想从数据流中的rdds中提取样本。import SparkConf conf=SparkConf()pairs = words.map(lambda word: (word , 1)) wordCount = pairs.reduceByKey(lambda</e

浏览 8提问于2016-08-19得票数 0

回答已采纳

1回答

Apache Spark:意外的过滤结果

、、

我在本地模式下使用Apache Spark v1.2。我已经创建了一个RDD并将其持久化在内存中。Spark Web UI显示，此RDD的85%存储在内存中。我在RDD中有一个特性/变量，它的值为0,1，正如我通过运行下面的脚本得到的结果所示：现在，当我基于此运行筛选器时，我得不到相同<em

浏览 3提问于2015-05-04得票数 3

2回答

通过thrift服务器从web浏览器访问Spark* RDDs - java*

、、

我们已经使用Spark 1.2.1和Java处理了我们的数据，并存储在Hive表中。我们希望通过web浏览器以RDDs的形式访问这些数据。我阅读了文档，并理解了完成任务的步骤。我无法找到通过thrift服务器与Spark SQL RDDs进行交互的方法。我找到的示例在代码中有以下行，但我在Spark 1.2.1Java API文档中找不到对应的

浏览 1提问于2015-04-24得票数 3

1回答

Spark的缓存似乎不起作用，因为在上没有RDD

、、

我将通过在PythonPageRank 7上运行CentOS 7来测试Spark的RDD缓存： links =但是，当我查看Spark的存储页面时，我无法找到任何关于缓存的</e

浏览 1提问于2020-09-14得票数 1

1回答

spark.sql.shuffle.partitions到底指的是什么？

、

spark.sql.shuffle.partitions到底指的是什么？我们是在谈论一个宽转换的结果的分区的数量，还是在中间发生的事情，比如在宽转换的结果分区之前发生的某种中间分区？因为根据我的理解，根据一个广泛的转变spark.sql.shuffle.parti

浏览 3提问于2018-09-24得票数 1

回答已采纳

3回答

我们应该什么时候使用Spark-sql，什么时候使用Spark* RDD*

、、、

在哪种场景下，我们应该更倾向于使用spark RDD来编写解决方案，在哪种场景下，我们应该选择使用spark-sql。我知道spark-sql提供了更好的性能，它对结构和半结构数据的处理效果最好。但是，在选择spark Rdd和spark-sql时，我们还需要考虑哪些因素。

浏览 1提问于2020-05-29得票数 0

2回答

中跨多行json字符串的统一模式

、

对于包含一系列json字符串的PySpark DataFrame中的行，我有一个困难的问题。问题的核心是每一行可能包含与另一行不同的模式，所以当我想将上述行转换为PySpark中的可订阅数据类型时，我需要有一个“统一”模式。json_3 = '{"c": 300, "b": "3000", "d": 100.0, "f": {"som

浏览 1提问于2020-05-08得票数 5

回答已采纳

1回答

如何删除星火(SCALA)中的整个数据帧？

有一些函数可以删除Spark(SCALA)中的列和行，但是却找不到任何函数来删除整个数据frame.Is，有一种方法可以删除Spark(SCALA)中的数据帧吗？

浏览 0提问于2016-10-15得票数 3

1回答

将RDD拆分为较小的RDD并将其存储在列表中时出现奇怪的行为

、

由于资源的限制，我需要能够将一个大的RDD拆分为n个较小的RDD，并在它们上作为单独的作业调用spark-submit。= item[0], item[1] filt_rdd = input_rdd.filter(lambda(filt_rdd) 上面的代码在生成时打印每个较小的rdd<e

浏览 0提问于2017-10-18得票数 0

2回答

如何克隆RDD对象[Pyspark]

、、、

3)我知道我需要将巨大的数据转换为RDDs，但我是否也需要将单个int值转换为RDDs？如果我只声明一个int变量，它会跨节点分布吗？

浏览 2提问于2017-06-28得票数 0

2回答

运算符图形生成

例如，我从一个1MB的textFile创建一个RDD，并执行flatMap转换，但在调用操作.collect之前，我将本地文件系统中的文件替换为具有相同名称的100MB textFile。既然Operator Graph是在动作调用之后生成的，那么DAG不是应该从大文件中计算出来吗？/ Replace the textfile SampleData.txt(1 MB size) with SampleData (100 MB size)但是当我尝试这样做的</e

浏览 1提问于2017-10-06得票数 0

1回答

在吡火花RDD上执行map/减时出错

、、、

我只是想学习PySpark，但对下面两个RDDs之间的区别感到困惑，我知道一个是类型集，一个是列表，但都是RDDs。：priceMap.reduceByKey(add).take(10) 我可以很容易地对第二个rdd数据执行map /还原函数，但是当我试图执行映射或减少时，我会得到以下错误:那么我们如何将第一个rdd数

浏览 1提问于2020-11-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云