腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
在
Pyspark
中
替换
dataframe
中值
的
SubString
、
、
、
、
我有一个带有一些属性
的
dataframe
,它
的
外观如下: +-------+-------++-------+-------++-------+-------+ 如您所见,数据帧
的
Atr1和Atr2
的
值是带有',‘字符
的
数字。这是因为我从CSV加载了这些数据,其中DoubleType数字
的
小数用',‘表示。当我将数据加载到
dataframe
中</e
浏览 106
提问于2017-07-11
得票数 0
回答已采纳
1
回答
如何使用Python
Dataframe
API
在
Apache Spark中找到中位数?
、
、
、
Pyspark
API提供了除median之外
的
许多聚合函数。Spark 2附带了approxQuantile,它给出了近似的分位数,但精确
的
中位数计算起来非常昂贵。对于Spark
Dataframe
中
的
一列值,是否有更多
的
Pyspark
方法来计算
中值
?
浏览 3
提问于2016-08-03
得票数 3
回答已采纳
1
回答
如何创建函数,以求
Pyspark
数据
中
列
的
中值
、
、
我想用
Pyspark
.How
中
的
中值
替换
null值,我能这样做吗?
浏览 2
提问于2020-10-01
得票数 0
回答已采纳
4
回答
带子字符串
的
Pyspark
列
、
如何用其本身
的
子字符串
替换
列?我正在尝试从字符串
的
开头和结尾删除选定
的
字符数。from
pyspark
.sql.functions import
substring
pdf = pd.
DataFrame
({'COLUMN_NAME':['_COLUMN_NAME_fix is blank df.withColumn('COLUMN_NAME_fix',
substring<
浏览 3
提问于2017-10-14
得票数 19
回答已采纳
3
回答
PySpark
SQL
中
的
LEFT和RIGHT函数
、
、
、
、
我是
PySpark
的
新手。我使用pandas拉出了一个csv文件。并使用registerTempTable函数创建了临时表。from
pyspark
.sql import SQLContextimport pandas as pd sqlc.sql(""" select right(phone_number,4) fro
浏览 6
提问于2016-11-11
得票数 2
回答已采纳
1
回答
在
pyspark
数据帧中用数字
替换
字符串
、
我刚接触
pyspark
,我想在
pyspark
dataframe
列
中
动态地用数字
替换
名称,因为我
的
dataframe
中有超过500,000个名称。如何继续?
浏览 9
提问于2019-07-25
得票数 0
3
回答
如何在
PySpark
中用零
替换
句号?
、
、
我试图用
PySpark
中
的
0值
替换
原始数据
中
的
句号。 from
pyspark
.sql import functions as F
dataframe
2 =
dataframe
1.withColumn("test_col", F.wh
浏览 8
提问于2019-09-01
得票数 1
1
回答
星星之火1.6:如何将从Scala jar生成
的
RDD转换为吡火花RDD?
、
、
、
我正在尝试创建一些POC代码,演示如何从
PySpark
调用Scala函数,结果是一个
PySpark
.RDD。以下是Scala端
的
代码: } 这就是我
在
PySpark
端访问它所做
的
事情: >>> foo = s
浏览 18
提问于2017-05-05
得票数 0
回答已采纳
1
回答
如何在
PySpark
DataFrame
中
替换
无穷大
、
、
、
、
似乎不支持
替换
无穷大值。我尝试了下面的代码,但它不起作用。还是我漏掉了什么?=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)])或者我必须走一条痛苦
的
道路:将
PySpark
DataFrame
转换为
DataFrame
,
替换
无穷大值,然后将其转换回
PySpark
DataFrame
。
浏览 7
提问于2015-12-23
得票数 6
回答已采纳
2
回答
用java代码和python代码创建
的
数据
、
、
、
我
在
java中有一个类,它构建了一些复杂
的
星火
DataFrame
。return
dataframe
;}b = sc.b.build()))VS#prints:
pys
浏览 0
提问于2018-03-14
得票数 1
回答已采纳
1
回答
左反团员
、
、
、
我有一个
dataframe
,它有两个列a和b,其中b列
中
的
值是a列
中值
的
a子集。,其中anti_b列
中
的
值是来自a列
的
任何值,这样a!=anti_b和行(a,anti_b)就不会出现在原始
的
数据格式
中
。因此,在上面的数据
中
,结果应该是:+---+------++---+------+| 2| 3| +---+----
浏览 2
提问于2019-11-18
得票数 0
1
回答
将
Dataframe
激发到StringType
、
、
、
在
PySpark
中
,如何将
Dataframe
转换为普通字符串?我将
PySpark
与Kafka一起使用,而不是硬编码代理名称,而是
在
PySpark
中
参数化了Kafka broker名称。这些变量为带有字符串
的
Dataframe
类型。错误: 只能将字符串(不是
Dataf
浏览 0
提问于2021-03-05
得票数 0
1
回答
Pyspark
-> StringIndexer:用数字
替换
“无”值
、
我有几个“无”值
的
数据框架。通过StringIndexer,将字符串列转换为浮动列后,"None“值被
替换
为number。谢谢。(self.rawData, columnName) @staticmethod def TransformNominalToNumeric(
dataFrame
inputCol = inputColumn, outputCol = outputColumn, handleInvalid
浏览 1
提问于2018-04-29
得票数 0
1
回答
根据
Pyspark
中
的
列表和列创建列
、
、
我有一个
pyspark
,比如df1,它有多个列。df2 = df1.withColumn('new_column', expr("case when col_1 in l then 'yes' else 'no
浏览 0
提问于2016-05-16
得票数 1
回答已采纳
6
回答
Pyspark
:通过搜索字典
替换
列
中
的
值
、
、
、
、
我是
PySpark
的
新手。deviceDict = {'Tablet':'Mobile','Phone':&
浏览 5
提问于2017-05-15
得票数 23
回答已采纳
1
回答
使用regex语句
的
case语句
、
、
、
、
在
代码
中
,我将从另一个已转换为临时视图
的
dataframe
创建一个
dataframe
。然后,我将使用sql查询
在
最后一个查询
中
创建一个新字段。我想要创建
的
字段
的
代码最初来自postgresql,我想知道
在
pyspark
中正确版本
的
case语句和regex是什么?另外,什么是regex测试
的
正确
的
pyspark
版本?代码: fro
浏览 1
提问于2021-04-16
得票数 0
回答已采纳
5
回答
在
spark
dataframe
中
创建子字符串列
、
、
我想要获取一个json文件并对其进行映射,以便其中一列是另一列
的
子字符串。例如,取左边
的
表并生成右边
的
表: ------------ ------------------------ | a | |
浏览 59
提问于2017-03-16
得票数 15
回答已采纳
2
回答
CSV文件
中
的
任何" null“字符串都应
替换
为
pyspark
dataframe
- Databricks
中
的
SQL值null
、
、
我有一个以" null“作为字符串
的
Dataframe
,我想将其
替换
为数据库
中
PySpark
Dataframe
中
的
SQL值null。 有没有人能帮个忙。我是Spark
的
新手。 谢谢。
浏览 38
提问于2021-09-02
得票数 2
3
回答
如何根据列
中
字符串
的
长度有条件地从
PySpark
Dataframe
StringType()列
中
删除字符
的
子字符串?
、
、
、
我有一个
PySpark
Dataframe
,它
的
StringType()列主要有15个字符。但是,有些行有11个字符。|'45532234553' |al |+--------------+--------+from
pyspark
.sql.fu
浏览 1
提问于2019-04-20
得票数 3
2
回答
如何从子字符串
的
左边和
PySpark
列
中
同一子字符串
的
右侧提取字符?
、
、
我
的
Pyspark
dataframe
是这样
的
:+--+-------+|2|700024||4|70004|我想移除三个零一起出现,并得到数字
的
左和右
的
三个零
在
单独
的
列。就像这样:+--+-------+|2|7|24||4|7|4|问题是A可以变长,B
中
的<
浏览 12
提问于2020-09-17
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
Pandas的2 种不同的替换函数
Python开源数据分析工具TOP 3!
如何在CDH集群上部署Python3运行环境及运行Python作业
Dataiku DSS Code Recipe 介绍
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券