腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
遍历
成对
的
RDD
(
Pyspark
)
的
值
并
替换
空
值
、
、
、
我正在使用Spark
RDD
API收集数据,
并
创建了一个
成对
的
RDD
,如下所示: spark = SparkSession.builder.master('local').appName('app'.map(lambda x: x.split(","))\ .map(lambda x: (x[2], [x[1], x[3],x[5]])) 以下是
成对
RDD
的
示例摘录: [('
浏览 126
提问于2021-10-14
得票数 1
回答已采纳
1
回答
如何在python中计算大型spark数据帧
的
kendall's tau?
、
、
、
、
我想为一个大
的
spark数据帧计算
成对
的
kendall
的
tau等级相关性。它很大(比如10m行,10k列),不能转换成pandas数据帧,然后使用pandas.DataFrame.corr进行计算。此外,每列可能具有空
值
,因此在计算
成对
的
kendall's tau时,需要排除两列中任何一列中具有空
值
的
行。 我查过
pyspark
.mllib.stat.Statistics.corr了。df_
rdd</
浏览 18
提问于2019-07-20
得票数 2
2
回答
获取
RDD
中每个键
的
最大
值
和最小
值
、
、
、
、
spark = SparkSession.builder.getOrCreate()ssc = StreamingContext(sc , 10)
rdd
.take(1)[['0.02703300', '1.30900000'],0.02704600', '3.90800000'], ['0
浏览 6
提问于2021-01-02
得票数 1
1
回答
如何检测
pyspark
中
的
单调下降
、
、
、
我正在使用spark DataFrame,我希望检测来自特定列
的
任何
值
,其中该
值
不是单调递减
的
。对于这些
值
,我想根据排序条件将它们
替换
为以前
的
值
。下面是一个概念性
的
示例,假设我有一个
值
为[65, 66, 62, 100, 40]
的
列。
值
"100“不遵循单调下降趋势,因此应
替换
为62。因此,结果列表将是[65, 66, 62, 62, 40]。下面是我创建
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
2
回答
Apache spark处理case语句
、
、
、
、
我正在处理将SQL代码转换为
PySpark
代码,
并
遇到了一些SQL语句。我不知道如何在
pyspark
中使用case语句?我计划创建一个
RDD
,然后使用
rdd
.map,然后做一些逻辑检查。这是正确
的
方法吗?请帮帮我! case when (e."
浏览 2
提问于2016-10-12
得票数 24
1
回答
PySpark
:迭代PairRDD中
的
值
、
、
如何在
RDD
(key,value)中迭代
值
。tsRDD.map(lambda x:(x,1)).groupByKey()[('abc', <
pyspark
.resultiterable.ResultIterable object at 0xb0e8242c>), ('xyz', <<
浏览 1
提问于2015-06-30
得票数 2
1
回答
根据
pyspark
RDD
检查列表中
的
项
、
、
、
、
我有以下
的
pyspark
RDD
及其I和计数:id_list = ['12', '125', '78'] 我想要一个新
的
键列表,
值</
浏览 8
提问于2021-03-13
得票数 1
回答已采纳
1
回答
从
PySpark
数据框中
的
重复行中提取和
替换
值
、
、
、
我有重复
的
行,可能包含相同
的
数据或在
PySpark
数据框中有缺失
值
。我写
的
代码非常慢,并且不能作为分布式系统工作。有谁知道如何从
PySpark
数据帧中
的
重复行中保留单个唯一
值
,该数据帧可以作为分布式系统运行,并且具有快速
的
处理时间? 我已经写了完整
的
Pyspark
代码,这个代码工作正常。(): # Match duplicates using std na
浏览 25
提问于2019-06-21
得票数 0
1
回答
JSON文件解析-在创建星火数据帧时忽略格式错误
的
记录
、
、
我正在创建一个spark,其中模式是从json records.But推断出来
的
,其中一些json数据集
的
行比其他行有更多
的
列,因此数据格式解析失败。我是否可以将
空
值
替换
为缺少
的
额外列
的
记录。raw_event_data_
rdd
= sc.textFile(INPUT_DATA_DIR) pre_processed_raw_event_data_
rdd
= raw_event_data_
rdd
.ma
浏览 2
提问于2017-10-31
得票数 0
1
回答
mapPartitions在火花放电中
的
应用
、
、
、
、
在下面的代码中,我希望看到初始
的
RDD
,就像在函数myfunc中一样,我只是在打印
值
之后返回迭代器。但是,当我在
RDD
上执行collect时,它是
空
的
。from
pyspark
import SparkConf print(it.next()) n = 5
rdd</e
浏览 0
提问于2017-03-23
得票数 1
回答已采纳
2
回答
如何在保持顺序
的
同时用另一个
RDD
的
内容
替换
?
我有两个((a, 0), (b, 1), (c, 2)),一个是(a, b, a, c, b, c, a),另一个是
成对
的
RDD
。我想将第一个
RDD
中
的
as,bs和cs分别
替换
为0,1,2 (它们分别是第二个
RDD
中
的
键a,b,c
的
值
)。我想保留第一个
RDD
中事件
的
顺序。 如何在Spark中实现它?
浏览 4
提问于2016-01-05
得票数 1
1
回答
火花放电中循环到并行过程
的
替换
、
、
、
我在脚本中使用for循环为size_DF(数据帧)
的
每个元素调用一个函数,但这需要很长时间。我尝试通过逐个映射删除for循环,但是我没有得到任何输出。size_DF是我从表中获取
的
大约300个元素
的
列表。用于:size_
RDD
= sc.parallelizelength, end_date)if len(size_DF) == 0: print "
浏览 0
提问于2018-02-28
得票数 2
回答已采纳
2
回答
利用Apache-Spark分析时间序列
、
、
、
我有很大
的
时间序列数据,数据格式是:(arrival_time,键,
值
),时间单位是秒,例如:0.03, k, v1.00, k, v1.20我需要做
的
是获取整个数据每秒
的
行数。到目前为止,我使用
的
是
pySpark
,我
的
代码如下:lo =
rdd
.take(1)[0]end =
rdd
.collect()[-1]
浏览 1
提问于2015-11-16
得票数 4
回答已采纳
2
回答
如何在火花放电中将密集向量
的
关系式转换成DataFrame?
、
、
、
、
我有这样
的
DenseVector
RDD
[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,我试过像这样它会产生这样
的
错误 Traceback/sql/session.py", line 520,
浏览 3
提问于2016-12-26
得票数 11
回答已采纳
1
回答
加入
PySpark
不加入任何
值
、
、
、
、
在
PySpark
中,我想用键值对对两个
RDD
进行完全
的
外部连接,其中键可以是None。])看起来,
PySpark
加入了键为
空
的
记录:>>> [(None, ('a',a NULL c SEL
浏览 0
提问于2016-03-02
得票数 1
1
回答
字符串:+:'NoneType‘和’TypeError‘不支持
的
操作数类型“?
、
我使用
Pyspark
来编写这段代码: df.na.fill("").show()
rdd
2=df.
rdd
.map(lambda x:(x.firstName+""+x.lastName,x.street+","+x.town,x.city,x.code) #error linedf2=
rdd
2.toDF(["name,上面写着: PythonException: 'Typ
浏览 16
提问于2021-09-28
得票数 0
回答已采纳
1
回答
声明字段类型和实际字段类型不匹配时生成
空
值
的
PySpark
SQLContext.createDataFrame
、
、
在
PySpark
(v1.6.2)中,当使用指定
的
模式将
RDD
转换为DataFrame时,
值
类型与模式中声明
的
值
类型不匹配
的
字段将转换为null。from
pyspark
import SparkContextfrom
pyspark
.sql.types import StructType= sc.parallelize([{"foo&
浏览 27
提问于2016-07-27
得票数 0
回答已采纳
1
回答
火花放电
rdd
分裂问题
、
、
我试图从
rdd
中筛选
值
为"01-10-2019“
的
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
1
回答
无法运行读取元组
RDD
并
返回元组
RDD
的
spark map函数
、
我需要从另一个
成对
的
RDD
生成
成对
的
RDD
。基本上,我正在尝试编写一个执行以下操作
的
map函数。
RDD
[Polygon,HashSet[Point]] =>
RDD
[Polygon,Integer]Scala函数,
遍历
HashSet并将"Point“对象
的
值
相加。._1,Integer.valueOf(outageCnt))
浏览 6
提问于2017-07-11
得票数 0
回答已采纳
1
回答
将键/
值
对
的
Pyspark
解析为.csv格式
、
、
、
、
我正在构建一个解析器,它接受"key"="value“对
的
原始文本文件,
并
使用
PySpark
写入tabular/..csv结构。在我被困
的
地方,我可以访问函数中
的
键和
值
来构造每个csv_row,甚至可以检查键是否等于预期键(col_list)
的
列表,但是当我在lambda中调用函数processCsv时,我不知道如何将每个csv_row如何以键/
值
格式
遍历
RDD
<em
浏览 5
提问于2017-08-02
得票数 1
回答已采纳
点击加载更多
相关
资讯
PQ实例:把包含特定值的内容替换成空,这样做多简单!
Java:如何更优雅的处理空值?
Java:如何更优雅的处理空值?
C#的未来:简化参数空值验证
利用Python实现表格中指定列的值替换
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券