腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
正在
删除
不带
过滤器
的
RDD
行
、
我编写了一个
Pyspark
程序,该程序获取同一输入文件
的
两个完全相同
的
副本,并将数据转换为两个新文件,每个文件都有自己
的
格式。我将这两个文件读入dataframe,其中包含相同
的
行数。之后,我将该数据帧改回
RDD
,并应用不同
的
映射逻辑来转换行
的
字段(映射时不应用
过滤器
)。然而,输出数据帧不包含相同数量
的
行
-它们在没有任何解释
的
情况下被丢弃。(OUTPUT_FORMAT).optio
浏览 6
提问于2019-07-19
得票数 0
1
回答
火花
删除
行
、
、
、
、
我有一个包含大约20k
行
的
DataFrame。为了理解上下文--我
正在
测试缺失数据
的
分类模型,每一
行
都有一个unix时间戳。186
行
对应于3秒(每秒有62
行
数据)。 我
的
目标是,当数据
正在
流时,数据很可能会丢失几秒钟。我
正在
从一个时间窗口中提取特性,所以我想看看缺少
的
数据对模型性能
的
影响。我认
浏览 4
提问于2016-08-08
得票数 1
回答已采纳
1
回答
如何像scala .drop中那样
删除
rdd
列
、
、
、
、
videos.csv如下所示099acca-8888-48ca,Action,Comedy火花Scala val
浏览 2
提问于2016-12-29
得票数 3
1
回答
如何将<class‘class’_. How .
、
、
、
、
我对Spark完全陌生,目前我
正在
尝试使用Python编写一段简单
的
代码,对一组数据执行KMeans操作。/spark/python/lib/
pyspark
.zip/
pyspark
/serializers.py",第263
行
中,在dump_stream vs =list(迭代器,itertools.islice更新:@Garren我得到
的
错误是: 我得到
的
错误是:>>> kmm =
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
按
行
删除
星火
RDD
中
的
重复
、
、
、
我
正在
使用做一些工作,并有一个包含在每一
行
中
的
重复事务示例
的
rdd
。这将导致模型训练函数因这些重复项而引发错误。我对Spark相当陌生,我想知道如何
删除
rdd
行
中
的
重复项。例如: from
pyspark
.mllib.fpm import FPGrowth data = [["a", "a", "b", &
浏览 2
提问于2016-09-06
得票数 0
回答已采纳
1
回答
电火花纱获得烟斗拒绝许可
、
、
我试图用CDH在纱线上运行电火花,在这个生火
的
主程序中,有一条类似于
rdd
.pipe("XXX.sh")
的
语句,每次我运行它时,都会弹出一个被拒绝
的
错误,我该怎么办来解决这个错误呢?谢谢。/
pyspark
/
rdd
.py",第2346
行
,pipeline_func文件"/data/yarn/nm/usercache/work/appcache/
浏览 3
提问于2017-05-25
得票数 0
1
回答
Spark RDDs类型
的
混淆
、
、
在我当前
的
pyspark
项目中,我
正在
将一个S3文件读入
RDD
,并对其运行一些简单
的
转换。下面是代码。一旦我得到它,我运行最后一个
过滤器
,如图所示,只拾取字段5中value = 1
的
行
,到目前为止一切都很好。 接下来,我想使用模式将segmentsRDD转换为DF,如下所示。start_offset","end_offset","time_shifted","day_shifted"
浏览 20
提问于2020-01-30
得票数 0
回答已采纳
1
回答
Pyspark
:“
rdd
”对象没有属性“平面映射”
、
、
、
但是,根据文档,即使这个函数显然存在于吡火花
RDD
类中,我也无法使用它并得到以下错误:我在下面一
行
中调用后一个函数:进口商品如下:from
pysp
浏览 2
提问于2018-10-28
得票数 4
回答已采纳
1
回答
如何批量收集
RDD
中
的
元素
、
、
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.take.html#
pysp
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
socket.timeout mongoDB火花放电
、
、
、
、
我
正在
尝试使用mongoDB连接器在SPARK中执行python文件。python文件执行一个查询,从mongoDB获取一些数据,然后他们使用星火中
的
映射操作来处理这些数据。,在bad_reviews = reviews_1.
rdd
.map(lambda r: r.text).collect()文件"/usr/local/spark/python/lib/
pyspark
.zip/
pyspark
/
rdd</em
浏览 4
提问于2016-11-27
得票数 4
5
回答
我在Spark中创建简单
的
RDD
时遇到错误
、
、
我
正在
使用Jupyter notebook,刚刚开始学习Apache spark,但在创建简单
的
RDD
时遇到错误:错误是:,每种情况下都会发生这种情况
浏览 3
提问于2017-03-30
得票数 5
1
回答
无法将
RDD
转换为DataFrame (
RDD
有数百万行)
、
、
、
我
正在
使用ApacheSpark1.6.2但是,我必须首先将它转换为
RDD
来进行映射,以获得我想要
的
数据(列)。_inferSchema File "c:\spark\python\lib\
pysp
浏览 3
提问于2017-01-14
得票数 4
回答已采纳
6
回答
PySpark
下降
行
、
、
如何在
PySpark
中从
RDD
中
删除
行
?特别是第一
行
,因为这往往在我
的
数据集中包含列名。通过仔细阅读API,我似乎找不到一种简单
的
方法来做到这一点。当然,我可以通过Bash / HDFS来完成这个任务,但我只想知道这是否可以在
PySpark
内部完成。
浏览 5
提问于2014-07-13
得票数 28
回答已采纳
1
回答
Scala案例方法在火花放电中
的
应用
、
在scala中,当我有一个类似于:List(("a",1),("a",2),("b",3),("b",4),("b",5),("a",6))
的
RDD
列表时,我想要计算每个字符
的
avg数。/
pyspark
/python/lib/
pyspark
.zip/
pyspark
/worker.py",第611<em
浏览 5
提问于2021-12-24
得票数 0
回答已采纳
3
回答
如何在Spark (Python)中对Row对象
的
字段进行排序
、
、
、
、
我
正在
Spark中创建Row对象。我不希望我
的
字段按字母顺序排序。但是,如果我这样做,它们是按字母顺序排序
的
。row = Row(foo=1, bar=2)Row(bar=2, foo=1) 然后,当我在这个对象上创建一个dataframe时,列
的
顺序将是bar优先,foo第二,而我更喜欢
的
是相反
的
顺序。我知道我可以使用"_1“和"_2”(分别表示"foo“和"bar”),然后分配一个模式(使用
浏览 1
提问于2016-02-11
得票数 14
回答已采纳
1
回答
在ImportError上运行NuPIC模型时
的
PySpark
、
、
我
正在
尝试运行这个函数def iterateRDD(record, model):(lambda
行
:iterateRDD(
行
,模型))文件"C:\Python\Python27\lib\site-packages\
pyspark
\
rdd
.py",第789
行
中,在foreach self.mapPartitions(processPa
浏览 2
提问于2019-07-17
得票数 0
2
回答
Python版本在工作者和驱动程序中
的
不同
、
我想回答
的
问题是:使用映射创建列指定
的
NumPy数组
的
RDD
。
RDD
的
名称将是
行
。我
的
代码:Rows = df.select(col).
rdd
.map(make_array) 输入这个之后,我会得到一个奇怪
的
错误,它基本上是这样
的
:
PySpark
在worker中有不同
的
版本2.7与在驱动程序3.6中有不同
的
版本,
浏览 2
提问于2019-07-04
得票数 2
回答已采纳
1
回答
pyspark
使用'in‘子句将一个
RDD
馈送到另一个
RDD
、
、
、
我有一个
pyspark
RDD
(myRDD),它是一个可变长度
的
ID列表,比如我有一个包含列ID和value
的
pyspark
数据框架(myDF)。myDF.select(F.collect_set("value&qu
浏览 26
提问于2017-08-24
得票数 0
1
回答
拟星体: kmeans
的
分类变量准备
我知道Kmeans不是一个适用于分类数据
的
很好
的
选择,但是我们在spark 1.4中没有太多
的
选择来对分类数据进行聚类。不管上面的问题。我在下面的代码中有错误。所有的评论都被
删除
了,谢谢你
的
帮助!我得到
的
错误:"/usr/hdp/2.3.2.0-2950/spark/python/lib/
pyspark
.zip/
pyspark
/serializers.p
浏览 1
提问于2016-02-02
得票数 0
1
回答
KeyError:'1‘后压缩方法-跟随学习火花放电教程
、
、
我
正在
学习“学习
PySpark
”教程(在)。: < class '
pyspark
.
rdd
.PipelinedRDD‘> < class‘pyspk.
rdd
.
rdd
’>",第139
行
,迭代器中用于obj
的
dump_stream :文件"/content/spark-2.3.1-bin-hadoop2.7
浏览 0
提问于2018-08-08
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
PySaprk之DataFrame
一文读懂PySpark数据框
Python Spark安装及配置步骤
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券