腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何在PySpark中加入两个
RDD
?
、
、
、
我需要加入PySpark中的两个
RDD
,但是我遇到了一些麻烦,下面是
RDD
的样子:+------+---+---++------+---+---+| C| 6| 1|+------+---+---+ +------+---++------+---+| C| 15| | C#
浏览 4
提问于2022-04-11
得票数 1
2
回答
将数据从吡咯烷酮写入ElasticSearch
、
、
、
、
line 11, in <module> File "/home/user/spark-2.1.0-bin-hadoop2.7/
python
浏览 1
提问于2017-05-05
得票数 4
回答已采纳
1
回答
如何在PySpark中加入两个
RDD
?
、
、
、
我很难找到正确的方法加入到PySpark中的
RDD
中,以达到预期的结果。Here is the first
RDD
:| _1| _2||
Python
| 36|| C#| 8|+------+---+ +------+---++------+---+| C| 1#| 1| +------+---
浏览 4
提问于2022-04-10
得票数 0
回答已采纳
1
回答
将一个简单的字符串作为文本文件存储在蔚蓝突触中(到数据湖gen2)
、
、
、
我试图在datalakeGen2中将一个简单的字符串存储为文本文件,编写在Synapse记事本上的
python
代码。但它似乎并不是直接的。我试图将文本转换为
rdd
,然后存储:from pyspark import SparkContextstr = "test string" text_path = adls_path + &
浏览 2
提问于2021-06-29
得票数 0
回答已采纳
2
回答
如何将列表保存到spark中的文件?
、
、
我有如下数据集:23458ef12111223345
rdd
= spark_context.textFile('a.tx').takeSample(False, 3)所以takeSample返回list,它会有一个错误: 'list' object has
浏览 0
提问于2016-12-26
得票数 7
回答已采纳
1
回答
python
未在windows 10上的中找到错误
、
、
当我试图创建一个数据框架时,我得到了错误消息,错误消息如下:org.apache.spark.SparkException:
Python
at org.apache.spark.api.
python
.PythonWorkerFactory.createSi
浏览 2
提问于2021-07-22
得票数 3
1
回答
Apache火花错误,未找到克隆
Python
环境
、
、
、
org.apache.spark.SparkException: Cloned
Python
environment not found at /local_disk0/.ephemeral_nfs/envs:313)at org.apache.spark.api.
python
.
浏览 7
提问于2021-08-23
得票数 0
回答已采纳
1
回答
火花放电
rdd
分裂问题
、
、
/pyspark/
rdd
.py", line 2371, in pipeline_func File "/usr/local/spark/
python
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
2
回答
测量pySpark中两列之间的均方误差
、
、
、
、
174, in main File "/opt/mapr/spark/spark-2.1.0/
python
/pyspark/worker.py", line 169,$$anon$1.read(PythonRDD.scala:193) at org.apache.spark.api.
python
.P
浏览 0
提问于2018-07-08
得票数 0
回答已采纳
1
回答
用电火花将时间戳写到Postgres
、
、
、
、
我正在
Python
上开发一个Spark脚本(使用Pyspark)。",我得到以下错误: File "/Users/pau/Downloads/spark-2.0.2-bin-hadoop2.7/
python
/lib/
浏览 5
提问于2017-01-19
得票数 0
回答已采纳
1
回答
PySpark3在将yyyyMMddhhmmss解析为TimestampType()时没有属性'tzinfo‘错误
、
) at org.apache.spark.
rdd
.
RDD
.computeOrReadCheckpoint(
RDD
.scala:313) at org.apache.spark.
rdd</em
浏览 1
提问于2017-02-21
得票数 3
1
回答
使用DataFrame和Pandas制作列时出错
、
、
、
、
我使用的是spark1.5.1和
Python
3.5 anaconda distribution.My代码一直运行得很好,直到我在第7个单元307at org.apache.spark.api.
python
.Py
浏览 1
提问于2016-06-29
得票数 0
5
回答
ModuleNotFoundError:没有名为“pyarrow”的模块
、
、
org.apache.spark.
rdd
.
RDD
.computeOrReadCheckpoint(
RDD
.scala:324) at org.apache.spark.
rdd
.
RDD
.iteratoror
浏览 4
提问于2018-09-14
得票数 5
2
回答
访问火花放电中的JavaRDD
、
、
、
Java部件: 从SqlContext访问表。获取表的
RDD
,并将其内容映射回反序列化版本。
浏览 8
提问于2015-08-20
得票数 3
1
回答
来自
python
worker的错误:...SyntaxError:无效语法
、
、
(
RDD
.scala:323)at org.apache.spark.api.
python
.PairwiseRDD.compute(
RDD
.scala:323)at org.apache.spark.api.
pytho
浏览 1
提问于2017-09-16
得票数 2
1
回答
在google云实例上运行Spark时出错
、
、
、
in thread stdout writer for
python
at java.nio.HeapByteBuffer(
RDD
.scala:263) at org.apache.spark.api.
python
.PythonRDD$WriterThread$$anonfun$r
浏览 10
提问于2015-02-28
得票数 0
4
回答
spark UDF结果可以做'show',但不能做'filter‘
、
、
、
df_punct.where(col("cip") == True).collect() at org.apache.spark.api.
python
.PythonRunner$$anon$1.<init>(PythonRDD.scala:234) at o
浏览 0
提问于2018-11-21
得票数 1
5
回答
来自自定义模块的函数不是在PySpark中工作,而是在交互模式下输入时工作。
、
(sc, command, self) [x.(sc, command, self) File "/usr/hdp/
浏览 6
提问于2016-03-10
得票数 7
回答已采纳
1
回答
如何将
RDD
从scala传递给
python
?
、
、
我试图将Spark从Scala传递给
Python
,这样我就可以从PySpark调用函数了。我的scala代码返回
rdd
.toJavaRDD(),然后我在
python
中通过以下方法阅读:from pyspark.
rdd
import
RDD
这在一开始看起来是可行的,但是如果我在这个<em
浏览 1
提问于2022-01-29
得票数 1
1
回答
pyspark:重新分区后出现“值太多”错误
、
、
、
、
at org.apache.spark.api.
python
.PythonRunner$$anon$1.:125) at org.apache.spark.
rdd
.
RDD
.computeOrReadCheckpoint(
RDD
.scala:297) at org.apache.spark.
rdd
.
浏览 0
提问于2015-11-21
得票数 5
点击加载更多
相关
资讯
大数据技术,Spark之RDD,RDD的两种算子介绍
什么是 Spark RDD?
Spark地基之RDD
Spark 核心编程RDD 行动算子
Spark SQL DataFrame与RDD交互
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券