腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
连接
Pyspark
中
的
特定
列
、
、
在pandas
中
,
Pyspark
中
特定
列
连接
由以下代码执行: datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用
Pyspark
尝试了类似的逻辑 datamonthly = datamonthly.join(datal
浏览 13
提问于2021-08-30
得票数 1
回答已采纳
2
回答
从
pyspark
中
的
一个非常大
的
数据帧中选择随机
列
、
我有一个
pyspark
格式
的
dataframe,大约有150
列
。这些
列
是从
连接
不同
的
表
中
获得
的
。现在,我
的
要求是以
特定
的
顺序将数据帧写入文件,例如,首先写入1到50
列
,然后是第90到110
列
,最后是第70和72
列
。也就是说,我只想选择
特定
的
列
,并重新排列它们。我知道其中一种方法是使用df.se
浏览 1
提问于2017-07-14
得票数 0
回答已采纳
2
回答
在多个列上使用AWS胶
连接
创建重复
、
、
、
id
列
,第二个'id’是table_2
中
的
id
列
。这个调用成功地将表
连接
成一个表,但是,生成
的
joined_table具有匹配
列
的
重复字段。我
的
两个问题是: 我
如何
利用AWS Glue作业与
Pyspark
连接
跨两个表匹配
的
所有
列
,以便在添加新字段时不存在重复
的
列
?这个样例调用只接受'id
浏览 0
提问于2018-02-13
得票数 4
1
回答
检查火花数据
中
的
行值是否为空。
、
、
、
、
我正在使用
pyspark
中
的
自定义函数来检查星火数据true
中
每一行
的
条件,如果条件为true,则添加
列
。守则如下:from
pyspark
.sql.functions import *sdf.show()Attr
浏览 3
提问于2016-08-19
得票数 7
4
回答
如何
在Spark
中
压缩两个数组
列
、
、
、
、
我有潘达
的
数据。我尝试将包含字符串值
的
两个
列
连接
到一个列表
中
,然后使用zip将列表
中
的
每个元素都用'_‘
连接
起来。我
的
数据集如下:df['column_2']: '1.0, 2.0, 3.0' 我想将这两
列
连接
到第三
列
中
浏览 2
提问于2019-01-21
得票数 9
回答已采纳
2
回答
通过JDBC从
pyspark
dataframe插入到外部数据库表时
的
重复键更新
、
、
、
、
嗯,我使用
的
是
PySpark
,我有一个Spark dataframe,我使用它将数据插入到mysql表
中
。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过
列
值和
特定
数字
的
总和来更新
列
值(不
浏览 4
提问于2015-09-16
得票数 12
2
回答
将
pyspark
dataframe插入到现有的分区配置子表
中
、
我有一个hive表,它是按插入时间
列
分区
的
。df.insertInto('tablename',overwrite=True) df.insertInto('tablename
浏览 0
提问于2017-09-16
得票数 1
1
回答
Pyspark
删除多
列
连接
后
的
列
、
、
我尝试在
pyspark
中
对两
列
进行左
连接
,其中只有一
列
的
名称是相同
的
:
如何
删除
连接
的
数据帧df2.date和df2.accountnr
的
两
列
dfAll = ( .join(df2, how =
浏览 30
提问于2019-02-10
得票数 0
2
回答
PySpark
列
向绑定
在
PySpark
中有什么
特定
的
方法可以像我们在r
中
那样绑定两个数据帧吗? 我需要在
PySpark
中
同时绑定数据帧和作为一个数据帧。
浏览 1
提问于2017-08-30
得票数 3
2
回答
未知解释器
PySpark
。toree无法安装
PySpark
当我为木星笔记本安装
PySpark
时,我使用以下cmd:但是,我知道所以我不知道有什么
浏览 0
提问于2019-03-15
得票数 9
1
回答
在
PySpark
DataFrames
中
,为什么__setitem__没有完全实现?
、
、
、
在
PySpark
中
,我们不能使用传统
的
熊猫或R风格
的
符号来根据DataFrame
中
的
旧
列
来制作新
的
列
。例如,假设我试图
连接
两
列
:df['newcol'] = F.concat(df['col_1'], df['col_2']) 结果:TypeError:
浏览 1
提问于2016-07-28
得票数 1
回答已采纳
1
回答
PySpark
动态
连接
条件
、
、
、
我有PK
列
的
列表。我在存储主键,因为每个表
的
主键数可能会发生变化。我想根据pk_list
中
的
列
连接
两个数据帧。现在,我
的
代码如下所示: full_load_tbl_nc = full_load_tbl.join(delta_load_tbl, (col(f) == col(s) for (f,s/yarn/use
浏览 0
提问于2018-12-07
得票数 2
1
回答
如何
筛选出满为空或列表之和等于0
的
列表?
、
、
在
pyspark
中
,我们可以很容易地过滤出
特定
列
中
的
单个空值,方法如下:但是,在我
的
例子
中
,
列
中
的
值变成了[null,null,null]或[0,0,0],我想知道
如何
过滤掉这两种情况。
浏览 4
提问于2021-07-07
得票数 0
回答已采纳
1
回答
函数从大型数据集中删除重复
的
列
。
尝试在
连接
hdfs表后删除
pyspark
df
中
的
重复列名称? 您好,我正在尝试
连接
多个具有200+最终
列
数
的
数据集。由于要求和大量
的
列
,我不能在
连接
时选择
特定
的
列
。有没有办法在
连接
后删除重复
的
列
。我知道有一种方法可以通过spark df
的
.join方法来做到这一点,但是我加入
的</e
浏览 20
提问于2018-12-20
得票数 1
1
回答
在
PySpark
中
写入增量表时
如何
使用Zorder集群?
、
、
、
databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到
的
建议,我正在尝试编写一个非常大
的
PySpark
数据帧 然而,这个页面使用Scala显示建议,我不知道
如何
将其转换为
PySpark
我看到Scala代码是这样
的
: spark.read.table(connRandomsaveAsTable(
浏览 4
提问于2019-01-08
得票数 2
回答已采纳
3
回答
对子字符串匹配(或包含)加入
PySpark
数据帧
我想在两个数据帧之间执行左
连接
,但是
列
并不完全匹配。第一个数据帧
中
的
联接
列
相对于第二个数据帧有一个额外
的
后缀。from
pyspark
import SparkContext ['AB
浏览 1
提问于2017-08-08
得票数 3
回答已采纳
1
回答
错误:无法在BigQuery
中
访问类型为ARRAY<STRUCT<element STRING>>
的
值上
的
字段元素
、
、
、
、
我将一个df从
pyspark
导出到BigQuery。df包含包含数组元素
的
列
,
如何
将数组转换为
连接
字符串?每当我尝试查询导出
的
BigQuery表
的
数组
列
时,都会得到以下错误。Error: Cannot access field element on a value with type ARRAY<STRUCT<element STRING>> 下面是导出到BigQuery
的
pyspark
<e
浏览 48
提问于2020-06-03
得票数 2
1
回答
创建一个新
列
,详细说明一个
PySpark
数据row
中
的
行是否与另一
列
中
的
一个行匹配。
、
、
、
我想要创建一个函数,该函数从
PySpark
中
的
左联接创建一个新
列
,详细说明一个
列
中
的
值是否匹配或不匹配另一个dataframe逐行
的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同
的
列
- ID和Name。我试图创建一个
连接
这两个表
浏览 3
提问于2021-12-11
得票数 0
1
回答
使用csv文件
中
的
pyspark
数据绘制RDD数据
、
、
、
、
我刚刚开始在非常大
的
csv文件上使用
pyspark
。我使用
的
是Spark版本2.1.0。我希望从一个.csv文件
中
读取数据,并将其加载到
中
,然后在过滤
特定
的
行之后,使用matplotlib绘制2
列
(纬度和经度),将其可视化。这就是我到目前为止所做
的
:from
pyspark
.sql import SparkSession from
pyspark
.conf import SparkCo
浏览 0
提问于2017-06-28
得票数 1
3
回答
向
PySpark
数据帧
中
添加组计数列
、
、
我来自R和到
PySpark
,因为它
的
出色
的
火花处理,我正在努力从一个上下文映射到另一个
特定
的
概念。尤其是,假设我拥有如下数据集--+--a | 8b | 1x | y | na在
PySpark
中
,我可以做一些几乎同样简单
的
事情,如果我要查看,根据行数概括: from
pyspark</em
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券