腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
python
、
python-2.7
、
apache-spark
、
pyspark
我目前正在自学Spark programming,并试图用
PySpark
重新编写
一个
现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的
分布式数据结构,
如
RDD
、DataFrame、Datasets、vector等。Spark有自己
的
转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark</
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
如
何在
pyspark
中
播放
一个
巨大
的
rdd
?
apache-spark
、
pyspark
当我打印出
rdd
的
第
一个
元素时,如下所示: print("input = {}".format(input.take(1)[0])) 我得到
的
结果是:(u'motor', [0.001,..., 0.9]) [0.001,..., 0.9]
的
类型是列表。输入
rdd
中
的
元素数等于53304100 当我想广播输入
RDD
时,我
的
问题出现了,如下所示: brod = sc.broadc
浏览 11
提问于2019-02-25
得票数 0
回答已采纳
2
回答
将数据保存到HDFS
的
格式是什么?
hadoop
、
apache-spark
、
hdfs
、
apache-spark-sql
在dataframe或
rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
需要
RDD
的
实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
python
、
apache-spark
、
spark-dataframe
、
rdd
df,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temperature))任何帮助都将是
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
ArrayWritable
的
Pyspark
用法
hadoop
、
apache-spark
、
pyspark
我尝试在
pyspark
上保存
一个
键值
RDD
。
RDD
的
每个单元都有这样
的
类型,用伪代码编写:我想把它保存在hadoop文件系统上。<init>()无法使用sc.sequenceFile重新加载
rdd
。 下面是
一个
尝试保存(int,int)
的
RDD
的
最小示例。import
pyspark
as spar
浏览 2
提问于2015-12-01
得票数 2
1
回答
如
何在
星火中检查或保存大型矩阵文件
python
、
pyspark
、
google-cloud-platform
、
google-cloud-dataproc
、
bigdata
我在
PySpark
中
创建了
一个
大块矩阵,名为mtm,具有85Kx85K维度。我想检查矩阵,以确保它是以我想要
的
方式创建
的
。我尝试过不同
的
路径,它们都失败了,退出代码143或92
的
内存问题都失败了。我已经尝试过
的
选项: 1.将矩阵转换为
rdd
,并查看第
一个
条目:mtm_
rdd
= mtm_coor.entries mtm_<em
浏览 2
提问于2017-08-22
得票数 1
3
回答
排除
rdd
映射中
的
特定列
python
、
apache-spark
、
pyspark
、
slice
、
rdd
我有
一个
巨大
的
数据集,大约有20列。我正在使用
pyspark
中
的
rdds,需要做一些事情,比如
rdd
.map(lambda x: (x[9], x[:] - x[9])) 基本上。创建
一个
ley值对,其中一列是键,其余列是值。我无法用一种有意义
的
方式来切分它。我试过了
rdd
.map(lambda x: (x[9], x[:] - x[9]))
rdd
.map(lambda x: (x[9], x
浏览 7
提问于2020-09-04
得票数 0
1
回答
从
RDD
-
PySpark
创建数据帧
python-3.x
、
apache-spark
、
pyspark
、
rdd
在执行
PySpark
代码时,通过提供所需
的
模式从现有的DataFrame创建DF时,我无法展示在什么情况下会引发以下异常,此代码在Databricks社区平台中执行。请帮助解决将数据框显示为输出
的
问题。代码: from
pyspark
import SparkConf, SparkContextsc = SparkContext.getOrCreate(conf=conf)
rdd
=s
浏览 108
提问于2021-10-25
得票数 0
回答已采纳
1
回答
将
RDD
转换为DataFrame时
的
java.lang.StackOverFlowError
python
、
dataframe
、
rdd
、
pyspark-sql
尝试为大量
RDD
文档计算tf-idf分数,每当我尝试将其转换为数据帧时,它总是崩溃。我得到
的
初始错误是from
pyspark
.sql import
浏览 26
提问于2019-11-08
得票数 0
1
回答
如何通过在python
中
添加2个
RDD
的
对应元素来创建
RDD
python
、
pyspark
、
rdd
所以我有两个
RDD
1 (假设是
RDD
1和
RDD
2),每个都有
一个
数字列表。这两个列表
的
大小相同。我想创建
一个
RDD
3,其中
RDD
3
中
的
每个元素都是
RDD
1和
RDD
2
的
相应元素
的
相加。如
何在
python中使用
pyspark
函数完成此操作?
浏览 12
提问于2020-07-10
得票数 0
1
回答
由于PicklingError,
Pyspark
操作未执行
neo4j
、
pyspark
我想要执行"execute“方法,所以为了避免对Spark
的
惰性计算,我想做
一个
动作(saveAsTextFile),
如
代码所示: line = line1/
pyspark
/
rdd
.py", line 1585, in saveAsTextFile File "/usr/local/spark/python/lib/
pyspark
浏览 1
提问于2018-08-09
得票数 1
回答已采纳
2
回答
如何使用
pyspark
在cassandra数据上创建
RDD
对象
python
、
scala
、
cassandra
、
pycassa
、
apache-spark
我正在使用cassandra 2.0.3,我想使用
pyspark
(Apache Spark Python API)从cassandra数据创建
一个
RDD
对象。请注意:我不想做导入CQL,然后从
pyspark
API查询CQL,而是我想创建
一个
RDD
,我想在上面做一些转换。 我知道在Scala
中
可以做到这一点,但我不知道如
何在
pyspark
中
做到这一点。
浏览 10
提问于2013-12-30
得票数 9
2
回答
如何将2个RDDs
的
列从单个
RDD
中
添加到其中,然后根据
PySpark
中
的
日期数据进行行聚合
python
、
apache-spark
、
aggregate
、
pyspark
、
rdd
我在
PySpark
中有两个
PySpark
:[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00
RDD
2:两个RDDs都有相同
的
数字或
浏览 7
提问于2015-12-07
得票数 5
2
回答
打印
RDD
/ Dataframe
的
特定分区
pyspark
我一直在试验
PySpark
RDD
的
分区和重新分区。
rdd
.glom().collect()
rdd
6.glo
浏览 2
提问于2021-05-19
得票数 1
回答已采纳
1
回答
PySpark
:如何从
一个
巨大
的
RDD
中
获取样本
RDD
?
apache-spark
、
rdd
、
pyspark
在开发
一个
以
RDD
作为参数
的
函数时,我一直在寻找调试选项。因为有
一个
巨大
的
RDD
,所以我想用它
的
一个
子集来开发函数。 如何创建
RDD
的
子集?新样本应该是
RDD
?
浏览 0
提问于2015-07-25
得票数 2
3
回答
pySpark
将mapPartitions
的
结果转换为spark DataFrame
python
、
apache-spark
、
pyspark
我有
一个
作业需要在分区
的
spark数据帧上运行,该进程如下所示:
rdd
= sp_df.repartition(n_partitions, partition_key).
rdd
.mapPartitions(lambda x: some_function(x)) 结果是pandas.dataframe
的
rdd
, type(
rdd
) =>
pyspark
.
rdd
.PipelinedRDD type(
rdd
.col
浏览 124
提问于2019-12-10
得票数 4
回答已采纳
1
回答
在
PySpark
中
连接列表
apache-spark
在我
的
Spark Dataframe
中
,有一列是字符串"1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0"我希望从这一列
的
每一行
中
收集字符串,并通过连接创建
一个
单独
的</e
浏览 3
提问于2018-07-23
得票数 0
1
回答
如何批量收集
RDD
中
的
元素
pyspark
、
rdd
、
batch-processing
我有
一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是
一个
潜在
的
解决方案,但我怀疑还有更好
的
方法:收集
一个
批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
PySpark
分析查询
的
执行时间
pyspark
我使用
一个
带有jupyter /
pyspark
笔记本
的
Docker映像,并在
一个
巨大
的
数据集中运行不同
的
查询。我使用and以及DataFrames,我想分析各种查询
的
执行时间。这些查询可能嵌套在某个函数
中
。) 大概是这样
的
:我希望你明白这个想法。我正在寻找一种
浏览 3
提问于2022-06-06
得票数 0
1
回答
如何计算
RDD
中
某一行中有多少项?
python
、
scala
、
pyspark
如
您所知,我对使用
Pyspark
相当陌生,我
的
RDD
设置如下:(ID、名字、姓氏、地址) (ID、名字、姓氏、地址)--无论如何,我可以数一数我在
RDD
中
存储
的
这些记录
中
的
多少,例如
RDD
中
的
所有ID。我尝试过使用
RDD
.count(),但这似乎只是返回了我
的
数据集中共有多少项。
浏览 0
提问于2018-11-25
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
机器学习实践:如何将Spark与Python结合?
PySaprk之DataFrame
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券