腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
将所有的日期格式
转换
为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。
如何
使用
pyspark
将date
列
中
的
行
值
转换
为时间戳格式?我已经尝试了很多东西,但所
浏览 16
提问于2020-12-30
得票数 2
1
回答
如何
对
pyspark
dataframe
列
应用函数
、
、
我正在尝试将我
的
pandas代码
转换
为
pyspark
dataframe
,并尝试在
dataframe
的
一
列
上应用函数。我在pandas
dataframe
中做了一些如下
的
事情。在操作了几个
列
值
之后,将新
列
添加到pandas数据帧中,如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply
浏览 15
提问于2020-01-03
得票数 1
回答已采纳
1
回答
如何
将电火花
列
(
pyspark
.sql.column.Column)
转换
为火花放电数据?
、
、
我有一个用例来映射基于条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列
转换
为
dataFrame
# like column.map(lambd
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
4
回答
PySpark
计算相关性
、
、
、
、
我想使用
pyspark
.mllib.stat.Statistics.corr函数来计算
pyspark
.sql.
dataframe
.
DataFrame
对象
的
两
列
之间
的
相关性。
如何
将df['some_name']
列
转换
为rdd of Vectors.dense对象?
浏览 12
提问于2016-06-03
得票数 16
回答已采纳
1
回答
使用map函数将Spark
Dataframe
转换
为RDD
、
、
我正在尝试将spark数据框中
的
列
拆分为多个
值
。因此,我分隔了要拆分
的
列
,并检查了其类型:O:
pyspark
.sql.
dataframe
.
DataFrame
当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.te
浏览 0
提问于2016-06-22
得票数 0
5
回答
火花放电中柱
的
比较
、
、
我正在开发一个包含n
列
的
PySpark
DataFrame
。我有一组m
列
(m < n),我
的
任务是选择其中包含最大
值
的
列
。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
1
回答
spark将日期时间
转换
为时间戳
、
、
、
我在
pyspark
dataframe
中有一个
列
,它
的
格式是2021-10-28T22:19:03.0030059Z (字符串数据类型)。
如何
在
pyspark
中将其
转换
为时间戳数据类型?我正在使用下面的代码片段,但它返回空
值
,因为它无法
转换
它。有没有人能推荐一下
如何
转换
这个?
浏览 173
提问于2021-11-05
得票数 1
1
回答
PySpark
PCA:
如何
将数据行从多
列
转换
为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了
如何
在
PySpark
:中执
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
如何
转换
pyspark
dataframe
列
的
值
?
、
、
、
、
我在
pyspark
数据框中有一
列
表示电子设备
的
年龄,这些
值
是以毫秒为单位给出
的
。有没有一种简单
的
方法将该
列
的
值
转换
为年份?我不是很精通Spark。编辑:我知道你可以很容易地用基本
的
数学将毫秒
转换
为年,我正在尝试获取
pyspark
数据帧
的
一
列
,并迭代它,并将所有
列
值
转换
为不同<
浏览 17
提问于2021-05-20
得票数 1
2
回答
列
的
值
为null,并在中进行交换。
、
、
、
、
我正在使用
pyspark
==2.3.1。我用熊猫对数据进行了数据预处理,现在我想把我
的
预处理功能
转换
成熊猫
的
火花放电。但是,当使用
pyspark
读取数据CSV文件时,许多值将变为空
列
,而该
列
实际上有一些
值
。如果我试图对这个
dataframe
执行任何操作,那么它将与其他
列
交换
列
的
值
。我也尝试过不同版本
的
火花放电。谢谢 <
浏览 5
提问于2022-02-16
得票数 0
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据
的
共生矩阵。该代码在熊猫中运行良好,但在使用
pyspark
.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。
pyspark
.pandas.
DataFrame
.dot() 以串联作为输入。我尝试使用psdf.squeeze()将
datafram
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
pyspark
中
的
to_json包含空
值
,但我需要空
值
作为空
、
、
、
、
我正在使用
pyspark
中
的
to_json将
dataframe
中
的
结构
列
转换
为json
列
,但是在json中忽略了少数结构字段中
的
空
值
,我不希望这些空
值
被忽略。
浏览 6
提问于2020-10-14
得票数 0
1
回答
Databricks:
如何
将行
的
值
转换
为数组类型
、
假设我有下面的数据帧col1 a b c有什么想法吗?
浏览 16
提问于2019-11-07
得票数 0
1
回答
如何
使用
pyspark
将数值
转换
为分类变量
有一系列数值变量
的
pyspark
数据帧。 例如 我
的
dataframe
有一个从1到100
的
列
值
。1-10 - group1<== 1到10
的
列
值
应包含group1作为
值
11-20 - group2。。。91-100 group10
如何
使用
pyspark
dataframe
实现这一点?
浏览 15
提问于2019-04-10
得票数 1
回答已采纳
1
回答
用电火花将稠密向量
转换
成数据
、
、
、
首先,我尝试了下面链接中
的
所有内容来修复我
的
错误,但是没有一个有效。 我正试图将密集向量
转换
为
dataframe
(最好是星火),并附带列名并遇到问题。我在中
的
列
是使用创建
的
一个向量,现在我想将它
转换
回一个
dataframe
,因为我想在向量中
的
一些变量上创建图。
转换
为Pandas
dataframe
,之后我无法将
值
拆分为不同
的
列</em
浏览 0
提问于2018-09-27
得票数 3
回答已采纳
4
回答
如何
将向量
的
列
拆分成两
列
?
、
、
我使用
PySpark
。output2 = output.withColumn('prob1', output.m
浏览 2
提问于2016-05-19
得票数 7
1
回答
将向量
列
添加到吡咯
DataFrame
中
、
、
、
如何
将Vectors.dense
列
添加到
pyspark
中?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115., 156., 421.], &qu
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
Pyspark
:从列表
的
RDD创建spark数据帧,其中列表
的
一些元素是对象
、
、
、
、
我正在尝试将pandas.
DataFrame
代码
转换
为等效
的
pyspark
DataFrame
。我有一个以下格式
的
RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中
的
第三个元素没有特定<
浏览 1
提问于2018-04-07
得票数 1
2
回答
pyspark
数据帧中所有
列
的
总计数为零
、
、
我需要找出
pyspark
dataframe
中所有
列
中0
的
百分比。
如何
在数据帧中找到每一
列
的
零计数? 附言:我尝试过将数据帧
转换
为pandas数据帧,并使用了value_counts。但是,对于大型数据集来说,推断它
的
观察
值
是不可能
的
。
浏览 0
提问于2018-08-20
得票数 4
2
回答
在
pySpark
中按条件分割数据
、
、
、
我有一个
dataframe
值
为false、true或null。我想创建两个dataframes,1)只使用True列名,2)只使用假列名。我最初
的
想法是创建两个dataframes (因为它们稍后将被附加到一个更大
的
数据集中),或者我还考虑将适当
的
列名
转换
为一个列表,然后将列表名称
转换
为列名。我是
pySpark
新手,我想知道
如何
在不硬编码任何列名(我有几百
列
)
的
情况下做到这一点,我知道我不能遍历行,
浏览 3
提问于2020-05-07
得票数 1
回答已采纳
点击加载更多
相关
资讯
如何对 dataframe中的某一列数据 开根号呢?
Python使用DataFrame打印指定列的方法
一个Python大数据处理利器:PySpark入门指南
010 如何从列中找到需要的值
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券