腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
按行
删除
星火
RDD
中
的
重复
、
、
、
我正在使用做一些工作,并有一个包含在每一行
中
的
重复
事务示例
的
rdd
。这将导致模型训练函数因这些
重复
项
而引发错误。我对Spark相当陌生,我想知道如何
删除
rdd
行
中
的
重复
项
。例如: from
pyspark
.mllib.fpm import FPGrowth data = [["a&qu
浏览 2
提问于2016-09-06
得票数 0
回答已采纳
1
回答
在
pyspark
RDD
中
保存
删除
的
重复
项
、
从这里,Removing duplicates from rows based on specific columns in an
RDD
/Spark DataFrame,我们学习了如何根据一些特定
的
变量
删除
重复
的
观测值如果我想以
RDD
的
形式
保存
这些
重复
的
观测值,我该怎么做?我猜如果
rdd
.substract()包含数十亿个观察值,那么
RDD
的
效率可能会
浏览 18
提问于2019-09-18
得票数 0
1
回答
如何批量收集
RDD
中
的
元素
、
、
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.take.html#
pysp
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
3
回答
如何从
RDD
[
PYSPARK
]
中
删除
重复
的
值
、
、
我有以下表格作为
RDD
:1 y1 y1 n2 n我想从Value
中
删除
所有的
重复
项
。输出应如下所示:1 y2 y
在
pyspark
中
工作时,输出应该是如下所示
的
键值对列表: [(u'1',u'n'),(u'2
浏览 4
提问于2014-09-18
得票数 14
回答已采纳
1
回答
从星火RDDPair值
中
删除
重复
项
、
、
我是Python和Spark
的
新手。我有一对包含(key,List)
的
RDD
,但是有些值是
重复
的
。
RDD
是表单(zipCode,streets),我想要一对不包含
重复
项
的
RDD
。streetsGroupedByZipCode = zipCodeStreetsPairTuple.groupByKey() [(123456, <
pyspark
.re
浏览 2
提问于2015-06-16
得票数 0
回答已采纳
2
回答
将数据
保存
到HDFS
的
格式是什么?
、
、
、
创建DataFrame后,我可以将其
保存
为avro、csv或拼板格式。
在
dataframe或
rdd
中
是否有其他格式可用于
在
Hadoop中
保存
数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
如何在Spark
中
从另一个
RDD
的
前n
项
生成
RDD
?
在
pyspark
中
给出一个
RDD
,我想创建一个新
的
RDD
,它只包含它
的
前n
项
(副本),如下所示: n=100
rdd
2 =
rdd
1.limit(n) 除了
RDD
没有像DataFrame那样
的
方法limit注意,我不想收集结果,结果必须仍然是
RDD
,因此我不能使用
RDD
.take()。 我使用
的
是
pyspark
浏览 19
提问于2019-10-13
得票数 0
回答已采纳
1
回答
ArrayWritable
的
Pyspark
用法
、
、
我尝试
在
pyspark
上
保存
一个键值
RDD
。
RDD
的
每个单元都有这样
的
类型,用伪代码编写:我想把它
保存
在hadoop文件系统上。<init>()无法使用sc.sequenceFile重新加载
rdd
。 下面是一个尝试
保存
(int,int)
的
RDD
的
最小示例。import
py
浏览 2
提问于2015-12-01
得票数 2
1
回答
如何像scala .drop
中
那样
删除
rdd
列
、
、
、
、
文件videos.csv如下所示099acca-8888-48ca,Action,Comedy
在
Scala
中
,Scala可以使用.drop(1)
删除
RDD
列1,以便对所有行
删除
rdd
列1,例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在
PySpark
rdd
中
PySpark
中
这样做,如下所示
浏览 2
提问于2016-12-29
得票数 3
1
回答
将一个简单
的
字符串作为文本文件存储
在
蔚蓝突触
中
(到数据湖gen2)
、
、
、
我试图
在
datalakeGen2
中
将一个简单
的
字符串存储为文本文件,编写在Synapse记事本上
的
python代码。但它似乎并不是直接
的
。我试图将文本转换为
rdd
,然后存储:from
pyspark
import SparkContextst
浏览 2
提问于2021-06-29
得票数 0
回答已采纳
2
回答
在
Spark
RDD
;python
中
查找值
的
所有排列
、
、
、
、
我有一个spark
RDD
(myData),它已经被映射为一个列表。myData.collect()
的
输出结果如下:我可以
在
myData上执行什么操作来映射到或创建一个包含xyz
的
所有排列列表
的
新
RDD
?例如,newData.collect()将输出: ['xyz', 'xzy', 'zxy', 'zyx',
浏览 1
提问于2017-04-30
得票数 0
1
回答
PicklingError:未能序列化对象:同时将数据插入到dynamoDB
、
、
我试图
在
dynamoDB
中
插入200万
项
(WCU = 40,000)。但是当我使用星图时,它是抛出
的
错误。/
pyspark
/
rdd
.py", line 205, in __repr__ File "/usr/lib/spark/python/lib/
pyspark
.zip/
pyspar
浏览 6
提问于2021-02-27
得票数 0
1
回答
从
PySpark
RDD
中
删除
重复
的
元组对
、
、
、
我得到了一个
rdd
。示例: test = sc.parallelize((1,0),(2,0),(3,0)) print(result1.collect())<class '
pyspark
.
rdd
.
RDD
'> [((1, 0), (), ((2, 0
浏览 7
提问于2021-08-31
得票数 2
回答已采纳
1
回答
需要
RDD
的
实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
、
、
、
嗨,我
在
Notebook中有这段代码,并尝试编写python spark代码: spark.sql("SELECTdf,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temper
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
3
回答
从
PySpark
中
的
数据
中
删除
重复
项
、
、
、
我
在
本地使用pyflem1.4
中
的
dataframes,并且
在
让dropDuplicates方法工作时遇到了问题。它不断地返回错误:
rd
浏览 2
提问于2015-06-26
得票数 25
回答已采纳
2
回答
火花
RDD
-分区总是
在
RAM
中
吗?
、
、
、
、
我们都知道斯派克在内存
中
做计算。我只是对下面的内容感到好奇。 如果我
的
数据集(文件)大小超过可用RAM大小,数据将存储在哪里?
浏览 5
提问于2016-11-22
得票数 21
回答已采纳
1
回答
如何将深度学习模型数据传递给Spark
中
的
map函数
、
、
、
我有一个非常简单
的
用例,我使用sc.binaryFiles方法从s3读取大量图像作为
rdd
。一旦创建了
RDD
,我将把
rdd
中
的
内容传递给vgg16特征提取器函数。因此,在这里,我需要模型数据来进行特征提取,所以我将模型数据放入广播变量
中
,然后访问每个map函数
中
的
值。[1])
在
write_to_s3方法
中
,我获取了
RDD
,提取了要
保
浏览 0
提问于2018-11-07
得票数 1
2
回答
从Spark
RDD
中
删除
重复
的
、
、
、
我
在
我
的
文件
中
收集了
重复
的
记录作为字典列表。下面是我
的
sampleRDD变量内容,它是一个
pyspark
.
rdd
.
RDD
对象:,{"A": 111, "B": 222, "C":
浏览 1
提问于2016-01-18
得票数 0
1
回答
如何将<class‘class’_. How .
、
、
、
、
/lib/
pyspark
.zip/
pyspark
/worker.py",第106行
中
,
在
process serializer.dump_stream(split_index迭代器)
中
,
在
文件"/usr/hdp/2.5.0.0-1245/spark/python/lib/
pyspark
.zip/
pyspark
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
使用lambda表达式理解map()函数
的
概念
、
、
rdd
.map(lambda x : (x[1],0))
浏览 2
提问于2022-04-19
得票数 -2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券