Pyspark:如何计算RDD中每个等距区间的个数_如何计算PySpark中嵌套列表中重复元素的个数？_如何计算R中向量中每个n个数的和？ - 腾讯云开发者社区

apache-spark、pyspark

我有一个RDD[Double]，我想把RDD分成k等距离间隔，然后计算每个等距离间隔的个数。例如，RDD类似于[0,1,2,3,4,5,6,6,7,7,10]。我想把它分成相等的间隔，所以间隔是[0,1), [1,2), [2,3), [3,4), [4,5), [5,6), [6,7), [7,8), [8,9), [9,10]。正如您所看到的，RDD的<em

浏览 21提问于2020-07-01得票数 0

回答已采纳

1回答

忽略缺失值计算pyspark数据框列的百分位数

pyspark、apache-spark-sql

我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中，并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西，我只能使用Pyspark语法。Window.orderBy(df.BALANCE) test = df.withColumn('percentile_col',F.percent_

浏览 14提问于2019-07-11得票数 0

1回答

如何通过在python中添加2个RDD的对应元素来创建RDD

python、pyspark、rdd

所以我有两个RDD1 (假设是RDD1和RDD2)，每个都有一个数字列表。这两个列表的大小相同。我想创建一个RDD3，其中RDD3中的每个元素都是RDD1和RDD2的相应元素的相加。如何在python中使用pyspark函数完成此操作？

浏览 12提问于2020-07-10得票数 0

3回答

火花-计算每个样本的特征之和。

python、apache-spark

如果我有一个如下所示的RDD，那么我知道如何计算每个样本数据的特性之和：from pyspark import SparkContext rdd1.sum() 输出将是这样的数组：( 0，2，4，6，8，10，12，14，16，18)，这就是我想要的。我的问题是:如果我像下面这样解析一个csv

浏览 1提问于2017-06-08得票数 0

2回答

星火StorageLevel在本地模式不工作？

apache-spark、pyspark

局部模式运行 from pyspark import SparkConf, SparkContext rdd = sc.textFile('file

浏览 2提问于2019-01-31得票数 0

1回答

如何将Pandas Dataframe对象的PySpark RDD转换为单个？

python、pandas、dataframe、pyspark、rdd

我有一个PySpark RDD，其中每一行都是Pandas对象，我需要获得一个数据have结果。这类似于已经回答的以下问题，但所接受的解决方案使用的是仅在旧版本(3.0.0)中可用的PySpark功能。 RDD.toDF() rdd.c

浏览 6提问于2022-08-04得票数 0

2回答

火花RDD -分区总是在RAM中吗？

hadoop、apache-spark、pyspark、hdfs、rdd

我们都知道斯派克在内存中做计算。我只是对下面的内容感到好奇。如果我的数据集(文件)大小超过可用RAM大小，数据将存储在哪里？

浏览 5提问于2016-11-22得票数 21

回答已采纳

1回答

PySpark:从数据帧列表创建RDD

python、pyspark、rdd

我无法从pyspark数据帧列表创建RDD，如下所示：df = sqlContext.createDataFrame(l)df2Trace: py4j.Py4JException: Method __getnewargs__([]) does not exist 在parallelize调用中。它适用于像[1,2,3]这样的简单列表，但是当列表的元素变成一个数据帧时，它似乎

浏览 4提问于2017-04-10得票数 1

1回答

Scala案例方法在火花放电中的应用

scala、pyspark

在scala中，当我有一个类似于：List(("a",1),("a",2),("b",3),("b",4),("b",5),("a",6))的RDD列表时，我想要计算每个字符的avg数。在Scala中，我可以编写如下代码： val newRdd = rdd.aggregateByKey((0,0))((t,v) => {(t._

浏览 5提问于2021-12-24得票数 0

回答已采纳

1回答

PySpark -如何根据CoordinateMatrix中表示的相似项获取top-k in？

python、sorting、pyspark、cosine-similarity

我有一个数据字典(键代表项目(项目的1，2，3..are I)，它们的值(‘712907’，'742068')指的是用户)。因此，我想使用spark来计算行(1,2,3...)之间的余弦相似度。在sv (稀疏矩阵)中。以下是我到目前为止所取得的成果：from pyspark.sql.types import Row sc = pyspark.S

浏览 0提问于2018-01-08得票数 1

2回答

星火中映射到ResultIterable的映射函数

apache-spark、pyspark

我有这样的数据集。rdd = sc.parallelize((('A',('a',1)),('B',('b',3)),('A',('c',3)))) rdd.g

浏览 7提问于2017-05-11得票数 0

1回答

将键值rdd转换为仅包含值列表的rdd。

python-3.x、apache-spark、pyspark、rdd

如何将键值rdd转换为只有PySpark中的值列表的rdd？假设rdd有(key1，“这是一个测试”)和(key2，“今天是周日”)，我想将这个rdd转换成一个包含(“这是一个测试”，“今天是周日”)的rdd。键值对是user_id和tweet，我希望首先标记这些tweet，并报告每个令牌的计数。然后对特定用户组执行相同的操作。都是PyS

浏览 0提问于2018-05-20得票数 0

回答已采纳

1回答

使用lambda表达式理解map()函数的概念

python、pyspark、rdd

rdd.map(lambda x : (x[1],0))

浏览 2提问于2022-04-19得票数 -2

回答已采纳

1回答

主成分分析在PySpark中的应用

python、apache-spark、apache-spark-mllib、pca、apache-spark-ml

Spark MLlib是否支持Python的主成分分析？如果是这样，请给我举个例子。如果没有，如何将Spark与scikit-learn结合起来？

浏览 2提问于2015-08-03得票数 10

回答已采纳

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积大小超出了executor上分配的内存。请参见下面的小示例，该示例演示了此行为。cache_test.py： from <em

浏览 9提问于2016-04-28得票数 39

回答已采纳

2回答

如何将2个RDDs的列从单个RDD中添加到其中，然后根据PySpark中的日期数据进行行聚合

python、apache-spark、aggregate、pyspark、rdd

我在PySpark中有两个PySpark：[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00RDD2:两个RDDs都有相同的数字或

浏览 7提问于2015-12-07得票数 5

0回答

在UDF中引用另一个数据帧时，如何引用该数据帧？

apache-spark、dataframe、pyspark、user-defined-functions、broadcast

当在另一个数据帧上执行UDF时，如何引用一个pyspark数据帧？fr

浏览 6提问于2016-12-30得票数 6

回答已采纳

1回答

ArrayWritable的Pyspark用法

hadoop、apache-spark、pyspark

我尝试在pyspark上保存一个键值RDD。RDD的每个单元都有这样的类型，用伪代码编写：我想把它保存在hadoop文件系统上。<init>()无法使用sc.sequenceFile重新加载rdd。

浏览 2提问于2015-12-01得票数 2

1回答

Pyspark:向每个任务传递完整字典

pyspark

PySpark:我想传递我的自定义字典，其中包含了几个位置到每个任务的距离，因为对于我的rdd中的每一行，我需要计算从每个位置到字典中每个位置的距离，并取最小的距离。广播不能解决我的问题。示例: dict = {(a,3)，(b,6)，(c,2)} RDD：(location1，5) (location2，9)

浏览 3提问于2016-05-03得票数 1

回答已采纳

2回答

测试将值插入到mongodb中(pyspark，pymongo)

python、mongodb、apache-spark、pyspark、mocking

我想(在本地)测试将一些值插入到mongo数据库中。table.find_one({}) import pysparkimport pymongo servers=(("mong

浏览 2提问于2019-08-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云