腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Dataframe
join
返回
pyspark
的
空
结果
、
、
我正在尝试连接两个Spark数据帧(一个
的
源是Postgres表,另一个是CosmosDB集合),但是尽管验证了它们都有连接
的
键,但我没有看到这个键连接
的
表。123456 |Fizzbuzzer 2000 | +----------------+--------------------+ 如上所述,当使用id进行查询时,两个数据帧都
返回
一行但是当我试着加入他们
的
时候 该操作看起来没有连接id为== '123456‘
的
表 _ 名称在下面保留为
空<
浏览 24
提问于2021-03-01
得票数 -1
回答已采纳
1
回答
与单独运行相比,具有多个聚合
的
吡火花旋转数据要长/冻结得多。
、
、
假设这一步骤是必要
的
,它似乎无休止地运行在16节点4 cpu上,每个cpu
的
内存为30 16,cpu利用率为100% (4)。见 我做错了什么?df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a, b).count()print(toc-tic)df_groupby.pivot(pivot_col, pivot_distinct_values).agg(a).count
浏览 1
提问于2021-01-28
得票数 1
2
回答
如何删除星火表列中
的
空白
、
、
、
、
我想从特定列(Purch_location)中
的
所有值中删除空格。我使用
的
是spark表,而不是
dataframe
或SQL表(但如果需要,我可以使用
dataframe
或SQL表)。下面是我
的
星火表
的
生成方式:cols = dataset.columns+----------+----TORONTO | 4| 0| +----------+-------------+-
浏览 6
提问于2017-12-03
得票数 2
1
回答
加入
PySpark
不加入任何值
、
、
、
、
在
PySpark
中,我想用键值对对两个RDD进行完全
的
外部连接,其中键可以是None。= rdd1.
join
(rdd2)print(rdd1.
join
(rdd2).take(10))我有一个
空
的
结
浏览 0
提问于2016-03-02
得票数 1
2
回答
在
Pyspark
中将任意数量
的
列合并为Array类型
的
新列
、
我有一个
pyspark
dataframe
,它包含N个包含整数
的
列。某些字段也可能为
空
。f为前缀
的
列组合成一个新列中
的
pyspark
数组。我越接近这一点: features_filtered = features.select(F.concat(* features.columns[1:]).alias('combined')) 它
返回
null (我假设是由于初始
dataframe
中
的
null)
浏览 67
提问于2020-06-18
得票数 1
回答已采纳
1
回答
PySpark
和Pandas读取从S3中分离
的
csv文件跳过空文件
、
、
、
、
使用
PySpark
,我有一些代码可以运行在一系列查询中。to_put_in.append(pandas.read_csv(csv)) passmy_big_
dataframe
= pandas.concat(to_concat) 问题是
Pyspark
编写了大量
的
空文件。所以我
的
代码花了很多时间试图读取一个
空
的</em
浏览 3
提问于2018-02-07
得票数 1
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个列a和b,其中b列中
的
值是a列中值
的
a子集。有没有人知道一个更好
的
火花成语来完成这个任务,比如anti_
join
**?** df = spark.createDataFrame(pandas.
DataFrame
(numpy.array(('b').alias('bs
浏览 2
提问于2019-11-18
得票数 0
2
回答
如何创建
空
的
考拉df
、
我正在尝试使用以下命令创建
空
的
考拉
DataFrame
但是我得到了以下错误我也尝试了执行命令,但发现了类似的错误 df = ks.
DataFrame
(columns=['col1
浏览 3
提问于2020-08-24
得票数 0
1
回答
如何将
dataframe
列转换为字典
、
首先,我要预先感谢大家
的
帮助!我有4张桌子,我加入了它们,得到了一个
PySpark
数据。:无论如何,我再次尝试使用"loads“方法:但我也犯了同样
的
错误:我尝试使用不同
的
选项来
浏览 4
提问于2022-04-26
得票数 0
1
回答
具有数据帧查询
的
PySpark
UDF函数?
、
我有另一种解决方案,但我更喜欢使用
PySpark
2.3来实现它。我有一个二维
PySpark
数据框架,如下所示:---------- | ----09/31/2018 | 1009/01/2018 | null我希望通过查找过去最接近
的
值来替换ID
空
值,或者如果该值是
空
<
浏览 0
提问于2019-02-02
得票数 0
回答已采纳
2
回答
在数据库环境中尝试合并或连接两个
pyspark
.sql.
dataframe
.
DataFrame
、
、
、
两种类型都是:
pyspark
.sql.
dataframe
.
DataFrame
Error Message: TypeError: cannot concatenate object of type "<class '
pyspark
.sql.
dataframe
.
DataFrame
'>";
浏览 8
提问于2020-02-06
得票数 0
回答已采纳
1
回答
PySpark
比较空地图文字
、
、
、
我想在
PySpark
DataFrame
中删除行,其中某个列包含一个
空
映射。我该怎么做?我似乎不能声明一个类型化
的
空
MapType来比较我
的
列。我已经看到,在Scala中,您可以使用typedLit,但是在
PySpark
中似乎没有类似的东西。我还尝试过使用lit(...)并将其转换为struct<string,int>,但我没有为lit()找到可接受
的
参数(尝试使用
返回
null
的
None和
返回</
浏览 2
提问于2019-09-29
得票数 2
回答已采纳
1
回答
pyspark
.sql.functions -计数以考虑
空
值:
、
我试图让
pyspark
.sql.functions.count()函数或
pyspark
.sql.functions.count_distinct()函数在计算列中不同元素
的
数量时考虑null值。(4,"vikram",None,None)],\
结果
的
从我
的
研究来看,这似乎与
浏览 12
提问于2022-06-07
得票数 0
2
回答
PySpark
.sql.filter没有按其应有的方式执行
、
、
、
我在执行以下代码时遇到了问题:from
pyspark
.sql import Row, HiveContext df1 = hc.createDataFrame(rows1)df3 = df1.
join
(df2, df1.id2 == df2.id1, &
浏览 0
提问于2018-04-24
得票数 7
回答已采纳
2
回答
如何从另一个火花放电数据中使用isin进行过滤
、
、
df1有很多数据,我想过滤那些在df2中有id
的
数据。以下是我所做
的
这是错误信息, 1216 1217 args_command = "
浏览 8
提问于2022-07-20
得票数 0
回答已采纳
1
回答
并行运行任务-
pyspark
、
、
、
我有一个
pyspark
dataframe
,并使用相同
的
dataframe
来创建新
的
dataframe
,并在最后连接它们。例如:df3 = function3(source_<
浏览 16
提问于2020-05-27
得票数 0
回答已采纳
2
回答
基于条件
的
火花放电连接
、
、
bbb| 23| 12| red|| 14| 32|L22| 32|L22|blue|但上述
结果
是通过提取条件(如
join
_condition = (when(B.type == 'red', A.id == B.id2) ... )得到
的
。(reds, A.id1 == B.id2, 'left') a_blues = A.
join
(blues, (A.id2 == B.
浏览 1
提问于2022-06-22
得票数 0
1
回答
在Dataproc上获取
Pyspark
join
失败
、
、
、
我试图在Dataproc集群上运行一些python
pyspark
脚本,但失败了,错误如下:if isinstance(on[0], basestring): IndexError: list index out o
浏览 0
提问于2018-01-05
得票数 0
1
回答
用户定义函数
返回
序列
、
、
该函数将列名与列值连接起来,然后以行方式连接生成
的
字符串。例如: d2 =
dataframe
.astype(s
浏览 3
提问于2021-07-21
得票数 2
回答已采纳
2
回答
Dataframe
空
检查
pyspark
我正在尝试使用下面的代码检查
Pyspark
中
的
dataframe
是否为
空
。我检查了我
的
对象是否真的是使用类型(Df)
的
dd,以及它是否是类'
pyspark
.sql.
dataframe
.
Dataframe
‘
浏览 207
提问于2021-09-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
数据分析工具Pandas的数据结构学习
大数据下Python的三款大数据分析工具
Python之数据规整化:清理、转换、合并、重塑
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券