腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
中
重新排列
RDD
apache-spark
、
pyspark
、
rdd
我有一个这样的
RDD
[('a', [('d2', 1), ('d1', 1)]), ('administrative', [('d1', 1also', [('d1', 1)])] 我希望输出看起来像这样 a#d2:1;d1:1administrative#d1:1 also#d1:1 我尝试先去掉括号以获得输出 <em
浏览 30
提问于2021-02-11
得票数 0
回答已采纳
1
回答
需要
RDD
的实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
python
、
apache-spark
、
spark-dataframe
、
rdd
嗨,我
在
Notebook中有这段代码,并尝试编写python spark代码: spark.sql("SELECTdf,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temper
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
如何使用
pyspark
.mllib
rdd
api度量来测量
pyspark
.ml (新数据帧api)?
pyspark
、
apache-spark-mllib
、
apache-spark-ml
MlLib的旧API有评估指标类:,而新的dataframe API没有这样的类:
浏览 0
提问于2016-09-06
得票数 0
2
回答
将数据保存到HDFS的格式是什么?
hadoop
、
apache-spark
、
hdfs
、
apache-spark-sql
在
dataframe或
rdd
中
是否有其他格式可用于
在
Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
1
回答
电火花纱获得烟斗拒绝许可
pyspark
、
hadoop-yarn
、
cloudera-cdh
我试图用CDH
在
纱线上运行电火花,在这个生火的主程序
中
,有一条类似于
rdd
.pipe("XXX.sh")的语句,每次我运行它时,都会弹出一个被拒绝的错误,我该怎么办来解决这个错误呢?谢谢。_0079/container_1495632173402_0079_01_000001/
pyspark
.zip/
pyspark
/
rdd
.py",第2346行,
在
"/data/yarn&
浏览 3
提问于2017-05-25
得票数 0
2
回答
访问火花放电
中
的JavaRDD
java
、
apache-spark
、
pyspark
、
apache-zeppelin
在
中
,我通过调用从Java加载的类的静态函数来创建一个JavaRDD对象。是否可以使用
Pyspark
访问这个JavaRDD? 从SqlContext访问表。获取表的
RDD
,并将其内容映射回反序列化版本。
浏览 8
提问于2015-08-20
得票数 3
1
回答
Pyspark
:“
rdd
”对象没有属性“平面映射”
python
、
apache-spark
、
pyspark
、
rdd
我是刚接触过
Pyspark
的人,我实际上是
在
尝试用
Pyspark
对象构建一个平面图。但是,根据文档,即使这个函数显然存在于吡火花
RDD
类
中
,我也无法使用它并得到以下错误:我在下面一行
中
调用后一个函数: my_
rdd
= my_
rdd
.flatmap(lambda r: (r[5].s
浏览 2
提问于2018-10-28
得票数 4
回答已采纳
1
回答
如何将<class‘class’_. How .
python
、
apache-spark
、
machine-learning
、
pyspark
、
k-means
中
,当它运行model = kmeans.fit(vdf)时,我得到了以下错误:
在
org.apache.spark.api.python.PythonRunner/lib/
pyspark
.zip/
pyspark
/worker.py",第106行
中
,
在
process serializer.dump_stream(split_index迭代器)
中
,
在
文件&quo
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
PicklingError:未能序列化对象:同时将数据插入到dynamoDB
amazon-web-services
、
apache-spark
、
amazon-dynamodb
我试图
在
dynamoDB
中
插入200万项(WCU = 40,000)。但是当我使用星图时,它是抛出的错误。/
pyspark
/
rdd
.py", line 205, in __repr__ File "/usr/lib/spark/python/lib/
pyspark
.zip/
pyspark
/
rd
浏览 6
提问于2021-02-27
得票数 0
1
回答
如何批量收集
RDD
中
的元素
pyspark
、
rdd
、
batch-processing
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是一个潜在的解决方案,但我怀疑还有更好的方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.take.html#
pyspark
.
RDD</
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
火花放电
rdd
分裂问题
pyspark
、
split
、
rdd
我试图从
rdd
中
筛选值为"01-10-2019“的 ### Split
RDD</em
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
3
回答
检查类型:如何检查是
RDD
还是DataFrame?
python
、
apache-spark
、
dataframe
、
apache-spark-sql
、
rdd
我使用的是Python,这是一个Spark
RDD
/ DataFrame。我正在编写一个函数,其中
RDD
和DataFrame都可以传入,所以如果传入了DataFrame,我将需要执行input.
rdd
来获取底层的
RDD
。
浏览 1
提问于2016-04-20
得票数 11
回答已采纳
1
回答
如何在没有模式的情况下查询dataframe和
rdd
pyspark
如何将csv文件without any schema加载到spark
rdd
和dataframe
中
并分配模式AA,19970101,47.82,47.82,47.82,47.82,0
浏览 0
提问于2019-07-17
得票数 0
2
回答
火花相交
apache-spark
、
pyspark
我希望
在
pyspark
中
得到两个
RDD
的交集。它们看起来如下:
rdd
2 = sc.parallelize([["abc","123"],["df",345],["ghi","678"]) 是否可以使用
pyspark
的
浏览 4
提问于2016-12-19
得票数 1
回答已采纳
1
回答
火花放电
中
循环到并行过程的替换
python
、
apache-spark
、
pyspark
、
pyspark-sql
我
在
脚本中使用for循环为size_DF(数据帧)的每个元素调用一个函数,但这需要很长时间。我尝试通过逐个映射删除for循环,但是我没有得到任何输出。size_DF是我从表
中
获取的大约300个元素的列表。用于:size_
RDD
= sc.parallelizelength, end_date)if len(size_DF) == 0: print "No recor
浏览 0
提问于2018-02-28
得票数 2
回答已采纳
1
回答
如何在Spark
中
从另一个
RDD
的前n项生成
RDD
?
pyspark
在
pyspark
中
给出一个
RDD
,我想创建一个新的
RDD
,它只包含它的前n项(副本),如下所示: n=100
rdd
2 =
rdd
1.limit(n) 除了
RDD
没有像DataFrame那样的方法limit注意,我不想收集结果,结果必须仍然是
RDD
,因此我不能使用
RDD
.take()。 我使用的是
pyspark
2.44。
浏览 19
提问于2019-10-13
得票数 0
回答已采纳
1
回答
Spark
RDD
- Scala写和Python读
python
、
json
、
scala
、
apache-spark
、
rdd
我有一个简单的Spark Scala脚本,它读取一堆日志文件并返回一个
RDD
[Map[String, String]]spark.read.json("/path/to/export.json").take(5) org.apache.spark.sql.AnalysisException#20458.; at org.apache.spark.sql.catalyst.plans.lo
浏览 0
提问于2017-03-29
得票数 0
1
回答
如何像scala .drop
中
那样删除
rdd
列
python
、
scala
、
csv
、
apache-spark
、
pyspark
文件videos.csv如下所示099acca-8888-48ca,Action,Comedy
在
Scala
中
,Scala可以使用.drop(1)删除
RDD
列1,以便对所有行删除
rdd
列1,例如482cal-2792-48da和099acca-8888-48ca。我想知道如何在
PySpark
rdd
中
PySpark
中
这样做,如下所示,
在
第2行代码<e
浏览 2
提问于2016-12-29
得票数 3
1
回答
Pyspark
-读取包含多个JSON的文本文件时,spark streaming时无法解码json对象
python
、
apache-spark
、
pyspark
latitude": 40.71911552, "statusKey": 1, "availableBikes": 30, "id": 79, "location": ""}from
pyspark
.sqlimport SQLContext, Rowimport json ssc = StreamingContext'] =
浏览 3
提问于2017-04-25
得票数 0
8
回答
ImportError:火花工作者上没有名为numpy的模块
python
、
numpy
、
apache-spark
、
pyspark
在
客户端模式下启动火花放电。bin/
pyspark
--master yarn-client --num-executors 60,shell上的导入numpy很好,但是
在
kmeans
中
失败了。我试着设置
PYSPARK
_PYTHON,但这也不起作用。= sc.parallelize(features, 5000) from numpy/
pyspa
浏览 7
提问于2016-02-05
得票数 19
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券