腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
将
列
拆
分到
具有
应用
架构
的
新
数据
帧
、
、
、
如何通过逗号
将
字符串列拆分为
具有
应用
模式
的
新
数据
帧
?作为示例,下面是一个包含两
列
(id和value)
的
pyspark
DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列</e
浏览 18
提问于2021-11-10
得票数 1
1
回答
将
numpy中
的
不同数组添加到
数据
帧
的
每一行
、
、
、
我有一个SparkSQL
数据
帧
和2Dnumpy矩阵。它们
具有
相同
的
行数。我打算
将
numpy矩阵中
的
每个不同数组作为
新
列
添加到现有的
PySpark
数据
帧
中。这样,添加到每一行
的
列表是不同
的
。例如,
PySpark
数据
帧
如下所示 | Id | Name || 1
浏览 16
提问于2019-10-05
得票数 0
3
回答
如何在
pyspark
数据
框中将字符串类型
的
列
转换为int形式?
、
、
我在
pyspark
有
数据
帧
。它
的
一些数字
列
包含'nan‘,所以当我读取
数据
并检查dataframe
的
模式时,这些
列
将
具有
'string’类型。如何将它们更改为int类型。我
将
'nan‘值替换为0,并再次检查了
架构
,但同时也显示了这些
列
的
字符串类型。=True, inferSchema="true"
浏览 2
提问于2017-10-26
得票数 64
1
回答
pySpark
jdbc写入错误:调用o43.jdbc时出错。:scala.MatchError:空
、
、
、
我正在尝试使用
pySpark
将
简单
的
spark
数据
帧
写入db2
数据
库。Dataframe只有一个
数据
类型为double
的
列
。这是只有一行和一
列
的
数据
帧
: 这是
数据
帧
架构
: 当我尝试使用以下语法将此
数据
帧
写入db2表时: dataframe.write.mode(&
浏览 0
提问于2018-03-21
得票数 1
1
回答
Spark使用前一行中
的
值向dataframe添加
新
列
、
、
、
、
我想知道如何在Spark (
Pyspark
)中实现以下内容+--+---++--+---++--+---++--+---++--+---++--+---++--+---+-------++--+---+-------++--+---+-------++--+---+
浏览 50
提问于2015-12-16
得票数 38
回答已采纳
1
回答
如何使用
pyspark
和自定义python函数处理均匀
的
to流
、
、
我当前
的
设置是:我使用作为如何读取
数据
的
示例,但是:获取
浏览 52
提问于2018-03-19
得票数 3
1
回答
Pyspark
轮函数
的
问题
、
、
、
、
在运行
pyspark
中
的
round函数时遇到了一些问题-我有下面的代码块,我试图
将
new_bid
列
舍入到两个小数位,然后将该
列
重命名为bid -我正在导入
pyspark
.sql.functions ASfunc以供参考,并使用其中包含
的
round函数: col("part&quo
浏览 1
提问于2017-11-01
得票数 20
回答已采纳
1
回答
如何
将
所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在
将
csv文件读取为
具有
2个日期
列
的
PySpark
数据
帧
。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是Dataframe和Dataframe模式。 如何使用
pyspark
将
date
列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
1
回答
雪花:从美国AWS到澳大利亚AWS
的
数据
分离
、
、
、
在美国AWS地区
的
雪花
数据
库中有10 db
的
数据
。要求
将
列
中带有某些标志
的
数据
子集拆
分到
AWS澳大利亚区域。1.
将
整个
数据
库从A复制到B。然后在中断复制之前暂停
应用
浏览 3
提问于2020-02-14
得票数 1
2
回答
如何使用monotonically_increasing_id连接两个没有公共
列
的
pyspark
数据
帧
?
、
、
、
我有两个相同行数
的
pyspark
dataframe,但它们没有任何公共
列
。因此,我使用monotonically_increasing_id()
将
新
列
添加到这两个
列
中 from
pyspark
.sql.functions import monotonically_increasing_idcont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner'
浏览 2
提问于2017-06-03
得票数 1
1
回答
如何对
pyspark
dataframe
列
应用
函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe,并尝试在dataframe
的
一
列
上
应用
函数。我在pandas dataframe中做了一些如下
的
事情。在操作了几个
列
值之后,
将
新
列
添加到pandas
数据
帧
中,如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何使用
PySpark
更新hive表中
的
记录?
、
我们正在使用spark来处理大型
数据
,并且最近获得了
新
的
用例,我们需要使用spark更新Hive表中
的
数据
。下面是一个简单
的
例子:
数据
驻留在Hive表中,
应用
程序使用
PySpark
读取
数据
帧
(比如
PySpark
)。例句:
数据
帧
在
列
下面。例如:加5 Add 30 32000
应用</
浏览 1
提问于2019-03-29
得票数 2
2
回答
从
pyspark
中
的
字典
列
创建
数据
帧
、
、
、
、
我想从
pyspark
中现有的dataframe创建一个
新
的
dataframe。
数据
帧
"df“包含一个名为"data”
的
列
,该
列
具有
字典行,并
具有
字符串形式
的
模式。并且每个字典
的
键都不是fixed.For,例如,name和address是第一个行字典
的
键,但对于其他行来说情况并非如此,它们可能不同。如何转换为包含单个
列
的
浏览 2
提问于2018-11-09
得票数 1
1
回答
删除
PySpark
数据
帧
中
具有
无效多边形值
的
行?
、
、
、
、
我们在
数据
帧
上使用
PySpark
函数,这会引发错误。错误很可能是由于
数据
帧
中
的
错误行造成
的
。
数据
帧
的
架构
如下:|-- geo_name: string (nullable = true)|--中
的
"geometry_polygon“
列
转换为几何类型
浏览 14
提问于2022-10-18
得票数 1
回答已采纳
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
Pyspark
数据
框架操作
的
单元测试用例
、
、
、
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过
将
csv转换为
pyspark
dataframe来对csv执行一些操作(df操作,如预处理、重命名列名、创建
新
列
并将其附加到相同
的
我没有在
数据
帧
上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe上写单元测试用例吗?或者给我一些
数据
帧
上
的</em
浏览 1
提问于2016-04-14
得票数 3
1
回答
比较
数据
帧
的
两个字符串列,其值为"PO“、"GO”等,并创建第三个值为"High“、"Low”和"No Change“
的
列
、
、
、
我在一个
数据
帧
中有两
列
。第一
列
被命名为previous_code,第二
列
被命名为New_code.These
列
,这些
列
具有
"PO“、"GO”、"RO“等值。这些代码
具有
优先级例如"PO”比“GO”
具有
更高
的
优先级.I想要比较这两
列
的
值,并在
新
列
中放入输出为“高”、“低”和“无更改”,以防这
浏览 13
提问于2019-12-26
得票数 1
回答已采纳
1
回答
星火SQL窗口函数-手动重新分区必要吗?
、
、
我正在用
PySpark
处理按"A“
列
划分
的
数据
。在
应用
窗口之前,我需要手动按
列
"B“重新划分
数据
吗?
浏览 3
提问于2021-05-17
得票数 1
1
回答
大
数据
结构
还要解释两个join语句要实现
的
目标。
浏览 2
提问于2021-10-28
得票数 0
1
回答
PySpark
数据
帧
Pandas UDF返回空
数据
帧
、
、
、
我正在尝试按照groupby('Key').apply(UDF)方法
将
pandas_udf
应用
于我
的
PySpark
数据
帧
以进行一些过滤。为了使用pandas_udf,我定义了一个输出schema,并在
列
Number上有一个条件。作为一个例子,这里
的
简化思想是我只希望返回
具有
奇数Number
的
行
的
ID。这就带来了一个问题,有时在一个组中没有奇怪
的
Number,因此
浏览 2
提问于2020-05-18
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
Jupyter在美团民宿的应用实践
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券