腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6339)
视频
沙龙
3
回答
如何
消除
PySpark
DataFrame
列
中
条
目的
前
几个
字符
?
、
、
、
、
所以我有一个给定的
PySpark
DataFrame
,比如df,如下所示: df.show()||+--------------------+-------------------+ 在series
列
中
,我想去掉XXXX-子串(即长度为5个
字符
),它对于该
列
的每个条目都是相同的,从而获得下面的
DataFra
浏览 101
提问于2021-01-15
得票数 0
回答已采纳
2
回答
如何
修改/转换数据框
中
的
列
?
、
、
、
我有一个使用以下命令创建的
pyspark
.sql.
dataframe
.
DataFrame
实例
如何
修改此列,使其只取其中的
前
4个
字符
,并丢弃其余的
字符
?
如何
将此列的类型从
字符
串转换为日期?在graph
浏览 0
提问于2016-08-20
得票数 4
回答已采纳
2
回答
如何
拆分
dataframe
列
值,并将
前
两个
字符
串仅取到新
列
、
我在
dataframe
中有一个
列
,它的
字符
串值如下"Software part not present"nullnull null
浏览 5
提问于2022-09-30
得票数 0
1
回答
字符
串
中
的
Pyspark
双
字符
替换避免未映射到pandas或rdd的特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe
中一些
字符
串的程序。其中一个步骤涉及从
字符
串
中
的一些单词
中
删除双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。目前,这是通过将
dataframe
转换为具有udf的pandas,然后在读回
pyspark
之前对生成的pandas
dataframe
中
的
字符
串应用自定义函数来完成的。我需要直接在
pysp
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
1
回答
如何
在
pyspark
中
写入csv文件时为
列
保留数据
中
的空格(4space)
、
、
、
、
我有一个带有一
条
记录的输入csv文件。当我在
pyspark
中
读取文件时,
dataframe
分别有三
列
a、b、c。A和c有数据,b有4个空格的数据。将文件写入csv时,4个空格的数据丢失,它将以空
字符
串的形式写入文件。aaaa, , bbbbaaaa,"", bbbb
如何
按原样保留这4个空间的数据?
浏览 19
提问于2020-02-20
得票数 0
4
回答
在一辆火花放电机里修剪一下
、
、
我有一个具有下面数据(所有
列
都有
字符
串数据类型)的
Pyspark
(原始
Dataframe
)。在我的用例
中
,我不确定输入数据中有哪些
列
。用户只需将
dataframe
的名称传递给我,并要求我修剪这个
dataframe
的所有
列
。1504 " Test"不管怎样,我可以不依赖于这个
dataframe
中</
浏览 2
提问于2017-07-31
得票数 0
1
回答
如何
将所有的日期格式转换为日期
列
的时间戳?
、
、
、
我使用的是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为
字符
串类型。 ? ? 上面附加的屏幕截图是
Dataframe
和
Dataframe
模式。
如何
使用
pyspark
将date
列
中
的行值转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前的格式,但
如何
转换为正确的时间戳,如
浏览 16
提问于2020-12-30
得票数 2
4
回答
如何
解析电火花中的twitter日期时间
字符
串?
、
、
、
我的数据在
pyspark
('
pyspark
.sql.
dataframe
.
DataFrame
')
中
。其中一
列
以Twitter
字符
串格式存储日期时间。我为python找到了
几个
解决方案,但是没有具体的解决方案。 这是
列
的样子。created_at', from_unixtime(unix_timestamp('created_at', '%a %b %d %H:%M:%S %z
浏览 0
提问于2019-05-03
得票数 1
回答已采纳
2
回答
Pyspark
中
的填充
、
我有一个具有以下数据(所有
列
都有
字符
串数据类型)的
Pyspark
(原始数据): 1 103我需要在value
列
中
创建一个新的带有填充的修改的
dataframe
,这样该
列
的长度应该是4
字符
。如果长度小于4个
字符
,则在数据
中
添加0,如下所示: id
浏览 2
提问于2017-07-30
得票数 11
1
回答
使用python或
pyspark
中
的regex从
字符
串中提取所需的
字符
之间的数据。
、
、
、
我想从
dataframe
列
的行
中
的
字符
串数据中提取
几个
字符
之间的数据。例如,
列
中
的数据如下所示:||因此,我应该在"[]“和带有单个元素的行之间提取数据,并使用
pyspark
/python re
浏览 3
提问于2022-03-30
得票数 -3
回答已采纳
1
回答
从Spark创建标记点&
如何
将名称列表传递给VectorAssembler
、
、
、
我还有更多的问题要问-- ,我正在尝试从一个
dataframe
构建labledPoints,在这里,我有
列
中
的特性和标签。这些特性都是布尔型的,只有1/0。下面是来自
dataframe
的一个示例行: transformed = assembler.transform(
浏览 1
提问于2016-06-01
得票数 1
回答已采纳
0
回答
提取与Spark
Dataframe
(
Pyspark
)
中
的特定条件匹配的第一个“行集合”
、
、
、
| Unidentified9 | UseCase211 | Unidentified我必须提取
列
UseCase中值为Unidentified的
前
4行,并对它们进行进一步处理。我希望避免使用ID
列
,因为它们不是固定的。以上数据只是一个样本。当我使用映射函数(在将其转换为RDD之后)或UDF时,我在输出
DataFrame
中最终得到8行(这是这些函数所期望的)。
如何
才能做到这一点?我在
PySpark</
浏览 5
提问于2016-12-15
得票数 1
2
回答
如何
查看熊猫数据
中
字符
串的整行
、
我有一个
dataframe
,其中一个
列
是一个description
列
,该
列
中
的每个单元格都是一个长
字符
串。当我打开DF的时候,我只把
前
几个
字跟在后面.
如何
查看
列
中
每个单元格的全部描述?
浏览 2
提问于2022-06-03
得票数 0
1
回答
使用map函数将Spark
Dataframe
转换为RDD
、
、
我正在尝试将spark数据框
中
的
列
拆分为多个值。因此,我分隔了要拆分的
列
,并检查了其类型:O:
pyspark
.sql.
dataframe
.
DataFrame
O:
pyspark
.rdd.PipelinedRDD万分感谢
浏览 0
提问于2016-06-22
得票数 0
1
回答
PySpark
:将值作为后缀传递给
dataframe
名称
、
我有一个
PySpark
dataframe
,并希望添加一个“迭代后缀”。对于每次迭代,counter都应该由1引发,并作为后缀添加到
dataframe
名称
中
。出于测试
目的
,我的代码如下所示:def loop: counter = counter + 1这里有两个问题:我不知道
如何
设置计数器变量,因为这个版本遇到了一个错误(赋
浏览 2
提问于2021-09-09
得票数 1
回答已采纳
1
回答
pySpark
3.0
如何
裁剪所有
列
的空格[复制]
、
、
这个问题在这里已经有答案了 : 在
Pyspark
Dataframe
中
修剪 (3个答案) 3天
前
就关门了。 对于此数据帧:
如何
修剪循环中每
列
的所有前导空格和尾随空格?types. ['col1', 'col2','col3'] # add your columns label here df.show(5) 我知道
如何
通过如下方式指定每一
列</
浏览 19
提问于2021-02-26
得票数 0
回答已采纳
1
回答
pyspark
:从map类型的
列
中选择带有特殊
字符
的
列
、
、
、
在从
dataframe
中选择一些
列
的查询
中
,我有一个
列
类型: map,它有多个属性。我试图从该
列
中
只选择
几个
属性,但这向我返回了一个错误,因为一些属性包含特殊
字符
,如'-‘,该
列
的其他属性工作正常sqlContext.sql("select colA, colB.attribute1most recent call last): File "<stdin>", line
浏览 0
提问于2018-08-29
得票数 1
1
回答
用于显示不带小数点的整数
、
、
在下面的代码
中
,数据文件的所有
列
都是
字符
串。其中一
列
用一个小数位存储整数或小数(6.1,4.8,3,9.4,6,...etc.)。但是,一旦将数据加载到
pyspark
dataframe
中
,它也会显示带有单个小数位(例如3.0)的整数。from <
浏览 7
提问于2022-05-21
得票数 0
3
回答
当值与
pyspark
中
的
字符
串的一部分匹配时,过滤df
、
、
、
我有一个很大的
pyspark
.sql.
dataframe
.
DataFrame
,我想保留(所以filter)保存在location
列
中
的所有行,其中的URL包含预先确定的
字符
串,例如'google.com我试过了:df.filter(sf.col('location').contains('google.com')).show(5)但是这抛出了一个 T
浏览 2
提问于2017-01-27
得票数 66
回答已采纳
2
回答
如何
在
PySpark
中将向量类型的
列
转换为数组/
字符
串类型?
、
、
、
考虑以下
pyspark
中
的
dataframe
:| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A
列
的类型是向量,
如何
创建一个值为A
列
但类型为数组或
字符
串的新
列
?
浏览 1
提问于2020-03-04
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
一个Python大数据处理利器:PySpark入门指南
pandas系列学习(三):DataFrame
PySpark,大数据处理的Python加速器!
数据分析工具Pandas的数据结构学习
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券