腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
2
回答
将
Pyspark
Dataframe
列
从
数组
转
换为
新
列
、
我有一个
Pyspark
Dataframe
,其结构如下: |-- Id: string (nullable = true) |-- Q: array (nullable = true)我想把q
数组
转换成
列
(名为pr,值,qt)。另外,我想通过合并(添加)相同的
列
来避免重复的
列
。
浏览 12
提问于2017-12-19
得票数 11
回答已采纳
1
回答
pyspark
将
数组
转
换为
循环中的字符串
、
、
、
我有一个心理公园数据框架,它有字符串,整型和
数组
类型的
列
。我尝试对所有
列
运行for循环,以检查它们是否为任何
数组
类型的
列
,并将其转
换为
字符串。然后,
pyspark
数据框中的输出应该包含int、string
列
。 下面的代码
将
只返回
从
数组
转
换为
字符串的
列
。如何包含else语句以
从
dataframe
中获取不是
数组
类型
浏览 20
提问于2021-04-11
得票数 0
回答已采纳
1
回答
Databricks:如何
将
行的值转
换为
数组
类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
如何
将
电火花
列
(
pyspark
.sql.column.Column)转
换为
火花放电数据?
、
、
我有一个用例来映射基于条件的
pyspark
列
的元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法
将
pyspark
列
转
换为
dataFrame
带有时间戳字符串的
pyspark
列
在验证时间戳格式的基础上,为每个
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
2
回答
使用来自另一个
dataframe
的JSON对象创建
新
的数据
、
、
、
、
我有一个
dataframe
,它在一个
列
中存储一个JSON对象。我希望处理JSON对象来创建一个
新
的
dataframe
(
列
的数目和类型不同,每行将从JSON对象生成n个
新
行)。我在下面编写了这样的逻辑:在迭代原始数据集时,
将
字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each row of a new
da
浏览 4
提问于2022-10-19
得票数 1
回答已采纳
1
回答
如何
将
所有的日期格式转
换为
日期
列
的时间戳?
、
、
、
我使用的是
PySpark
版本3.0.1。我正在
将
csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加的屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将
date
列
中的行值转
换为
时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前的格式,但如何转
换为
正确的时间戳,如
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我的pandas代码转
换为
pyspark
dataframe
,并尝试在
dataframe
的一
列
上应用函数。我在pandas
dataframe
中做了一些如下的事情。在操作了几个
列
值之后,
将
新
列
添加到pandas数据帧中,如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply(convert_USD_INR,
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
将
字符串
数组
的
pyspark
列
转
换为
databricks上的字符串时出错
、
、
、
我正在尝试
将
pyspark
dataframe
列
从
字符串
数组
转
换为
字符串。, 我的py3代码: import
pyspark
.sql.functions as F t = df.withColumn('text', F.concat_ws(", ", df.text)
浏览 7
提问于2020-09-14
得票数 0
回答已采纳
1
回答
如何
将
numpy
数组
存储为
PySpark
DataFrame
中的
新
列
?
、
、
、
、
我已经
从
np.select获得了一个numpy
数组
,我希望将其存储为
PySpark
DataFrame
中的一个
新
列
。我怎么能这么做?from
pyspark
.sql import SparkSession我使用np.select的一些条件和选择如下 np.select(cond
浏览 6
提问于2022-05-25
得票数 1
1
回答
如何
将
列
转
换为
十六进制,然后连接到具有固定长度的
新
列
?
、
我有3个数字
列
,如下所示:df = pd.
DataFrame
()df['col2']=[7, 65, 150]我希望在
将
这三
列
转
换为
十六进制后创建一个
新
的
列
,以便
将
col1
转
换为
5位十六进制,<
浏览 4
提问于2018-09-11
得票数 1
回答已采纳
1
回答
从
星星之火数据中的列表中提取值,而不转
换为
熊猫
、
、
我非常绿色的火花,所以我把它转换成一个熊猫
DataFrame
,然后使用地图功能,我提取所需的元素。问题是,数据是巨大的,因此这种方法是不可扩展的。让我花时间的是toPandas()命令。是否有
从
每一行访问列表中的值的选项? 谢谢!
浏览 5
提问于2021-12-09
得票数 1
回答已采纳
4
回答
PySpark
计算相关性
、
、
、
、
我想使用
pyspark
.mllib.stat.Statistics.corr函数来计算
pyspark
.sql.
dataframe
.
DataFrame
对象的两
列
之间的相关性。如何
将
df['some_name']
列
转
换为
rdd of Vectors.dense对象?
浏览 12
提问于2016-06-03
得票数 16
回答已采纳
1
回答
从一个ArrayType数据中获取
PySpark
列
,并在另一个数据中获取相应的值
、
、
、
、
4300000953...| [1673]|+--------------------+------------+ 我需要添加几个
新
列
来执行计算在第一种情况下,我需要向规则
dataframe
中添加一个
新
列
,该
列
具有来自itemset
dataframe
的相应频率。因此,例如,在结果为7084781116的情况下,
新
列
将
具有来自item
浏览 1
提问于2019-08-01
得票数 1
回答已采纳
1
回答
创建一个
新
列
,详细说明一个
PySpark
数据row中的行是否与另一
列
中的一个行匹配。
、
、
、
我想要创建一个函数,该函数
从
PySpark
中的左联接创建一个
新
列
,详细说明一个
列
中的值是否匹配或不匹配另一个
dataframe
逐行的
列
。例如,我们有一个
PySpark
dataframe
(d1)具有
列
ID和名称,另一个
PySpark
dataframe
(d2)具有相同的
列
- ID和Name。我试图创建一个连接这两个表的函数,并创建一个
新
<em
浏览 3
提问于2021-12-11
得票数 0
1
回答
Pyspark
数据框架操作的单元测试用例
、
、
、
我已经用python写了一些带有sql上下文的代码,即
pyspark
,通过
将
csv转
换为
pyspark
dataframe
来对csv执行一些操作(df操作,如预处理、重命名列名、创建
新
列
并将其附加到相同的
dataframe
中等)。有谁能帮我在
pyspark
的
dataframe
上写单元测试用例吗?或者给我一些数据帧上的测试用例的来源?
浏览 1
提问于2016-04-14
得票数 3
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.squeeze()
将
datafram
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
pandas数据帧行使用sklearn进行缩放
、
、
、
如何
将
sklearn缩放器应用于pandas数据帧的所有行。这个问题与相关。如何
将
sklearn缩放器应用于一行的所有值?注意:我知道对于特性缩放来说,在
列
中包含特性和按
列
缩放特性是很正常的,就像refenced问题中那样。然而,我想使用sklearn标度器来预处理可视化数据,在我的例子中,按行扩展是合理的。
浏览 11
提问于2019-11-13
得票数 1
回答已采纳
1
回答
从
字符串列中提取每个不同的单词,并将它们放入
新
的
dataframe
中。
、
、
、
我正试图在中找到
列
中的所有字符串。val_new word_index car 2 book 4 import
pyspark
.sql.functions ascar'), (18, 'car TV bike')], ['id', 'val'])我已经
将</e
浏览 6
提问于2020-11-09
得票数 1
回答已采纳
2
回答
从
PySpark
DataFrame
列
中删除元素
我知道
PySpark
DataFrames是不可变的,所以我想创建一个
新
列
,该
列
是根据应用到
PySpark
DataFrame
的现有
列
的转换生成的。我的数据太大了,无法使用collect()。该
列
是唯一int列表(在给定列表中不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我的实际
DataFrame
有一个最大长度为52个唯一ints的列表。我想要生成一个
列
,它遍历int
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
1
回答
Pyspark
:
从
列表的RDD创建spark数据帧,其中列表的一些元素是对象
、
、
、
、
我正在尝试
将
pandas.
DataFrame
代码转
换为
等效的
pyspark
DataFrame
。我有一个以下格式的RDD。在pandas数据帧中,我可以
将
第三
列
视为dtype=object。pdDF = pandas.
DataFrame
(myRdd, columns=columnNames) 我可以做一些类似的事情,将上述格式的
pyspark
RDD转
换为
pyspark
DataFrame<
浏览 1
提问于2018-04-07
得票数 1
点击加载更多
相关
资讯
一个Python大数据处理利器:PySpark入门指南
肝了3天,整理了90个Pandas案例
这些很实用的Pandas技巧,你都会了吗?-乌森数据可视化系列(1)
PySaprk之DataFrame
WPS再放大招,新增11个数组函数,太牛了!
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券