腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
Pyspark
dataframe
列
中
选择
一些
行
并
将其
添加到
新
的
dataframe
中
?
、
、
我有10个数据帧,df1...df10有2
列
:id | 2011_result,id | 2012_result,...id| 2018_result在此之后,我需要从列表
的
所有其他数据框中
选择
其他
列
的</
浏览 7
提问于2019-11-14
得票数 0
1
回答
'
DataFrame
‘对象不支持项分配
、
、
、
、
我将df作为一个
pyspark
.sql.
dataframe
.
DataFrame
导入到Databricks
中
。在这个df
中
,我有3
列
(我已经证实它们是字符串),我希望将它们连接起来。我试过先使用一个简单
的
"+“函数。因此,我试图在每一
列
后面添加.astype(str),但没有结果。最后,我尝试简单地添加另一
列
,其中满是数字5:也收到了同样
的
错误。所以现
浏览 1
提问于2022-12-02
得票数 0
1
回答
如何
对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码转换为
pyspark
dataframe
,
并
尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中
做了
一些
如下
的
事情。在操作了几个
列
值之后,将
新
列
添加到
pandas数据帧
中
,如下所示。return USD_amount salesData['
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何
将numpy数组存储为
PySpark
DataFrame
中
的
新
列
?
、
、
、
、
我已经
从
np.select获得了一个numpy数组,我希望
将其
存储为
PySpark
DataFrame
中
的
一个
新
列
。我怎么能这么做?from
pyspark
.sql import SparkSession pdf = pd.
DataFrame
({abc', 'cde', 'edf'
浏览 6
提问于2022-05-25
得票数 1
1
回答
使用检查点
从
胞表读取和更新同一个表
、
、
我正在使用spark版本2.3,
并
试图将spark
中
的
蜂巢表读取为:from
pyspark
.sql.functions import*在这里,我添加了一个
新
列
,其中包含了
从
system到现有的
dataframe
的当前日期 import
pyspark
.s
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
10
回答
如何
将
新
列
添加到
星火
DataFrame
(使用
PySpark
)?
、
、
、
、
我有一个火花
DataFrame
(使用
PySpark
1.5.1),
并
希望添加一个
新
的
列
。我尝试过以下几种方法,但都没有成功:还得到了一个错误,使用如下: my_df_spark.withColumn(&
浏览 13
提问于2015-11-12
得票数 179
回答已采纳
2
回答
如何
使用来自另一个数据帧
的
随机值更新
PySpark
中
的
数据帧?
、
、
、
我在
PySpark
中有两个数据帧,如下所示:
Dataframe
A:总共1000条记录 +-----++-----+| b|+-----+
Dataframe
B:共3条记录 +-----++-----+|06901|+-----+ 我需要在
Dataframe
A
中
添加一个名为Zip
的
新
列
,
并
使用
从
<em
浏览 12
提问于2021-02-10
得票数 2
回答已采纳
1
回答
windowPartitionBy和
pyspark
中
的
重新分区
、
、
、
我在SparkR中有一个小代码,我想把它转换成
pyspark
。我对这个windowPartitionBy并不熟悉,并且重新分区。你能帮我了解一下这段代码是做什么
的
吗?
浏览 34
提问于2020-12-18
得票数 0
回答已采纳
1
回答
如何
将Sklearn SVM实现应用于使用SPARK ML计算
的
特征( Spark ML
中
缺少多类SVM )
、
、
、
、
我有220 GB
的
数据。我已经
将其
作为两
列
读取到spark
dataframe
中
: JournalID和Text。现在,我
的
数据帧
中
缺少27
行
。使用NGram类,我在
dataframe
中
添加了另外两个
列
Unigram和Bigram,其中包含文本
列
中
的
单字和双字。然后,我使用一元和二元语法列上
的
pyspark
<e
浏览 1
提问于2018-12-17
得票数 0
1
回答
将向量
列
添加到
吡咯
DataFrame
中
、
、
、
如何
将Vectors.dense
列
添加到
pyspark
中
?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115.
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
2
回答
在collect_set后按值
选择
行
、
、
使用方法f.agg和f.collect_set I在
dataFrame
中
创建了一个
列
colSet,如下所示:我还尝试
从
调用方中删除f.col,并
将
浏览 0
提问于2018-06-11
得票数 1
回答已采纳
1
回答
创建一个
新
列
,详细说明一个
PySpark
数据row
中
的
行
是否与另一
列
中
的
一个
行
匹配。
、
、
、
我想要创建一个函数,该函数
从
PySpark
中
的
左联接创建一个
新
列
,详细说明一个
列
中
的
值是否匹配或不匹配另一个
dataframe
逐行
的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,另一个
PySpark
dataframe
(d2)具有相同
的
<
浏览 3
提问于2021-12-11
得票数 0
2
回答
使用来自另一个
dataframe
的
JSON对象创建
新
的
数据
、
、
、
、
我有一个
dataframe
,它在一个
列
中
存储一个JSON对象。我希望处理JSON对象来创建一个
新
的
dataframe
(
列
的
数目和类型不同,每行将从JSON对象生成n个
新
行
)。我在下面编写了这样
的
逻辑:在迭代原始数据集时,将字典(
行
)附加到列表
中
。for item in row.json_object['obj']: # cre
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
如何
将一个csv文件
中
的
列
附加到第二个csv (具有不同索引)
、
、
我正在将许多csv文件连接在一起,
并
希望
从
多
列
csv
中
获取一
列
,并
将其
作为
新
列
附加到第二个csv
中
。问题是,
列
的
行数不同,所以一旦达到现有csv
中
的
行
索引,我
添加到
现有csv
中
的
新
列
就会被缩短。我尝试将
新
列作为第二个
datafram
浏览 6
提问于2019-06-26
得票数 3
1
回答
为什么我得到了df.select(dayofyear(df['Date']))['dayofyear(Date)']
的
一个例外,而不是withColumn('Days',Days(df[‘Date’])
、
、
很抱歉标题太长了,但正如网站所建议
的
那样,这是我
的
问题。在编写
PySpark
DataFrame
时,我希望
从
DataFrame
的
Date
列
中提取天数,并
将其
添加到
名为new_df
的
新
DataFrame
中
。= new_df.withColumn('Days', df.select(dayofyear(df['Date&
浏览 4
提问于2020-11-11
得票数 0
回答已采纳
2
回答
可以
从
Scala调用python函数吗?
、
、
、
、
我正在创建一个火花作业,它要求使用用python编写
的
函数将
列
添加到
dataframe
中
。其余
的
处理是使用Scala完成
的
。我已经找到了
如何
从
pyspark
调用Java/Scala函数
的
示例: 我发现用另一种方式发送数据
的
唯一例子是使用pipe。我是否可以将整个
dataframe
发送到python函数,让函数操作数据
并</em
浏览 3
提问于2017-09-15
得票数 5
1
回答
选择
一
行
并
根据最大值显示列名。
、
、
、
我有一个
Pyspark
数据框架+---+----+----+----+|ID2| 4| 12| 7|+---+----+----+----+ 我要
选择
行
ID3
并
选择
三
列
的
最大值,然后显示最大值
的
列名。因此,如果我为
行
ID3
选择
三
列
的
最大值,它
浏览 0
提问于2021-02-20
得票数 0
回答已采纳
3
回答
将
新
列
追加到现有的拼花文件
中
、
、
是否有任何方法将
新
列
附加到现有的拼花文件
中
? pysaprk.
DataFrame
.withColumn()。之后,我想将
新
列
保存在源文件
中<
浏览 1
提问于2015-08-04
得票数 14
1
回答
向类添加功能
的
最佳方法-
PySpark
、
、
、
、
有一段时间,我在寻找
如何
将多个
列
一次重命名为一个
PySpark
DF,
并
遇到了如下情况:def rename_sdf(df, mapper={}, **kwargs_mapper,其中通过赋值语句将方法
添加到
pyspark
.
DataFrame
类
中
。问题是,我正在创建一个Github来存储我
的
所有函数和ETL,我认为如果我能够应用上面显示
的
逻辑,就可以非常容易地创建一个
浏览 6
提问于2020-07-09
得票数 1
1
回答
需要一种
从
现有的
Dataframe
中
创建熊猫数据
的
方法
、
、
、
我有一个
Dataframe
,我
从
csv文件
中
获得了我想
选择
这个
Dataframe
的
一些
行
并
创建一个
新
的
Dataframe
,但是
选择
这些
行
的
逻辑很复杂,需要在函数
中
。此筛选器逻辑仅使用来自该行
的
数据,而不使用来自<e
浏览 2
提问于2021-12-22
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券