腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
从
现有
列
的
值
创建
多个
列
python
、
apache-spark
、
pyspark
我有一个这样
的
数据帧: +------------------------------------+-----+-----++-----------------id_1|5 |9 ||id_3|4 |3 ||id_2|4 |3 | id点对是唯一
的
。我想按id分组,并使用来自count
列
的
值
从
point
列
创建
浏览 21
提问于2021-07-28
得票数 1
回答已采纳
1
回答
MapType :
从
现有
列
创建
pyspark
列
python
、
apache-spark
、
pyspark
我需要在
现有
列
的
基础上
创建
一个新
的
Spark DF MapType
列
,其中列名称是键,
值
是
值
。| 1.5| 2.0| 2.2|+----+-------+-------+-------+|123k|[1.3,6.3,7.6]||as3d|[2.2,4.3
浏览 2
提问于2016-12-23
得票数 21
回答已采纳
2
回答
PySpark
在
pyspark
.sql.functions.col和
pyspark
.sql.functions.lit中
的
差异
pyspark
、
apache-spark-sql
我发现很难理解这两种方法与
pyspark
.sql.functions之间
的
区别,因为
PySpark
官方网站上
的
文档并不能提供很好
的
信息。例如,以下代码:print(F.col('col_name'))研究结果如下:
浏览 10
提问于2017-09-24
得票数 15
1
回答
PySpark
使用
值
列表
从
现有
列
创建
新
列
python
、
pyspark
我有一个这样
的
DataFrame:from
pyspark
import Row | 1| |[0, 1]|foo|| 3| |[0, 1]|foo|我想用"c"
列
的
第一个元素
创建
列
"c&q
浏览 0
提问于2019-08-22
得票数 0
回答已采纳
1
回答
如何
从
具有可空False
的
现有
列
中
创建
PySpark
中
的
新
列
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-streaming
是否可以使用模式中没有空
值
但"nullable: True“
的
现有
列
在
PySpark
数据create中
创建
"nullable: False”
的
新
列
。我很难找到答案,但没有什么关系。
浏览 2
提问于2022-05-10
得票数 -1
1
回答
将
多个
字段
创建
为
Pyspark
中
的
数组?
apache-spark
、
pyspark
我有
多个
列
的
dataframe,如下所示:|----|----------|----| B | C | M |我希望
创建
2个新
列
,并在新字段中存储
现有
列
的
列表,并在
现有</em
浏览 0
提问于2020-11-20
得票数 0
回答已采纳
2
回答
基于
pyspark
中
的
现有
列
值
创建
新
列
pyspark
、
apache-spark-sql
、
pyspark-dataframes
我有一个有机场名称
的
现有
列
的
数据框架,我想用它们
的
缩写
创建
另一个
列
。例如,我有一个具有以下
值
的
现有
列
:MIAMI INTERNATIONAL AIRPORT, FL USSAN FRANCISCO INTERNATIONAL
浏览 5
提问于2020-11-02
得票数 0
回答已采纳
1
回答
在火花放电中
创建
计数器
python
、
r
、
apache-spark
、
pyspark
如何在
Pyspark
中实现以下R代码l$d2[1]= 0for(i in2:nrow(l)) c= ifelse(l$d2[i]<=3,c,c+1) }如果
值
大于或等于3,我想迭代一
列
假设我
的
专栏中
的
元素是国旗应为: 1,1,1,2,2,2,3,
浏览 3
提问于2016-11-07
得票数 2
1
回答
组内火花拼花分配指数
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我想知道生成
列
index以唯一标识每组标签中
的
记录
的
最有效方法:| label | value | index |from <e
浏览 1
提问于2018-05-28
得票数 0
回答已采纳
1
回答
创建
一个新
列
,详细说明一个
PySpark
数据row中
的
行是否与另一
列
中
的
一个行匹配。
python
、
dataframe
、
apache-spark
、
pyspark
我想要
创建
一个函数,该函数
从
PySpark
中
的
左联接
创建
一个新
列
,详细说明一个
列
中
的
值
是否匹配或不匹配另一个dataframe逐行
的
列
。例如,我们有一个
PySpark
dataframe (d1)具有
列
ID和名称,另一个
PySpark
dataframe (d2)具有相同
的
列
- ID和Name。我试图
创
浏览 3
提问于2021-12-11
得票数 0
1
回答
如何将电火花
列
(
pyspark
.sql.column.Column)转换为火花放电数据?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换为dataFrame # like c
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Pyspark
-处理异常并在
pyspark
数据帧中引发RuntimeError
apache-spark
、
pyspark
、
spark-dataframe
、
pyspark-sql
、
apache-spark-1.6
我有一个dataframe,我正在尝试基于
现有
列
的
值
创建
一个新
列
: F.when(dfg['list'].isin(["A",""A","B","C","D",'E','F'])==False,lit('unknown
浏览 14
提问于2018-02-01
得票数 0
1
回答
用复变函数更新
列
json
、
apache-spark
、
dataframe
、
hive
、
pyspark
是否可以使用一个复杂
的
函数更新hiveContext数据
列
? 我有一个包含许多
列
的
dataframe,其中2
列
称为时间戳和数据。我需要从数据中
的
JSON字符串中检索时间戳,如果数据中
的
时间戳满足某些条件,则需要更新时间戳
列
。我知道该数据格式是不可变
的
,但是可以以某种方式构建一个新
的
dataframe,保留旧
的
dataframe
的
所有
列
,但更新时间戳
列</e
浏览 7
提问于2016-05-10
得票数 1
回答已采纳
1
回答
得到圆柱
的
“圆形滞后”
python
、
pyspark
、
pyspark-sql
、
window-functions
我想根据
现有
列
的
滞后
值
在
pyspark
.sql.DataFrame中
创建
一个新
列
。但是..。我也希望最后
的
值
成为第一
值
,第一
值
成为最后
的
值
。id|value|| 1| 100|| 3| 300|| 5| 500|预期
的
产出将
浏览 1
提问于2018-08-07
得票数 2
回答已采纳
1
回答
如何用
PySpark
DataFrame中
的
另一
列
覆盖DataFrame中
的
现有
列
?
python
、
apache-spark
、
pyspark
比方说,我有下面的
PySpark
DataFrame。----+| Mike| Carson|+-----+-----------++-----------++-----------+| Mike|+------->>>
浏览 1
提问于2021-08-02
得票数 1
回答已采纳
2
回答
从
行中
的
多个
值
计算一个
值
python
、
pyspark
我有一个
PySpark
Dataframe,我想添加一个
从
其他
列
的
多个
值
计算出来
的
列
。l = [('Ankit',25),('Jalfaizy',22),('saurabh',20),
浏览 1
提问于2019-11-29
得票数 1
回答已采纳
3
回答
将多
列
数据合并为分散在行中
的
单个
列
。
python
、
apache-spark
、
pyspark
我有一个具有
多个
列
的
pyspark
数据框架如下所示:A 1 6 7D 4 9 4我希望通过将col1、col2、col3
的
列名和
列
值
组合成两个新
的
列
,例如new_col和new_c
浏览 5
提问于2020-02-06
得票数 2
回答已采纳
1
回答
创建
一个spark dataframe
列
,它包含一个列表作为数据类型
pyspark
我有一个具有
列
'list_len‘
的
现有
数据帧'df’,我想
创建
一个由空字符串组成
的
列
,其长度由'list_len‘
的
值
指示。我试着用
pyspark
做df.withColumn('new_list', array(['']*col('list_len'))).show(),但它不起作用。 任何想法/帮助都是非常感谢
的
!
浏览 18
提问于2020-10-23
得票数 0
回答已采纳
2
回答
从
拼图自动推断模式/有选择地将字符串转换为浮点型
apache-spark
、
pyspark
、
parquet
、
pyspark-sql
我有一个包含400+
列
的
parquet文件,当我读取它时,附加到许多
列
的
默认数据类型是字符串(可能是由于其他人指定
的
模式)。spark.read.parquet, present for spark.read.csvmergeSchema=True #but it doesn't improve the resultsdf_temp.select(*(col(c).cast("float").alias(c)
浏览 0
提问于2018-02-02
得票数 0
1
回答
PySpark
:根据
列
的
有序连接
创建
列
python
、
apache-spark
、
pyspark
我在
创建
一个新
列
时遇到了一个问题,该
列
是
从
有序
的
中将两个
现有
列
连接在一个
pyspark
上
的
,即:| Col1 | Col2 | NewCol | +-
浏览 0
提问于2018-04-25
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
010 如何从列中找到需要的值
一文读懂PySpark数据框
一文读懂 PySpark 数据框
《SQL入门经典》笔记
Python开源数据分析工具TOP 3!
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券