腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pyspark
:
根据
其他
记录
获取
列
、
、
我是新来
Pyspark
的,所以请帮助我。
浏览 9
提问于2019-04-18
得票数 0
1
回答
根据
其他
列
替换
pyspark
列
、
、
在我的"data“数据框中,我有两
列
,”time_stamp“和”hour“。我想在缺少'time_stamp‘值的地方插入'hour’
列
值。我不想创建新
列
,而是在'time_stamp‘中填充缺少的值 我想要做的是将这个pandas代码替换为
pyspark
代码: data['time_stamp'] = data.apply(lambda
浏览 8
提问于2019-03-21
得票数 0
回答已采纳
1
回答
使用自定义
列
和
记录
删除器读取
pyspark
中的文件
、
、
、
在
pyspark
中读取csv文件时,有没有办法使用自定义
记录
分隔符?在我的文件中,
记录
用**分隔,而不是换行符。在将csv读入
PySpark
数据帧时,有没有办法使用这个自定义的行/
记录
分隔符?我的
列
分隔符也是';‘下面的代码正确地
获取
了
列
,但它只计为一行sc = SparkSession.builder.appName(
浏览 11
提问于2021-05-26
得票数 0
2
回答
根据
其他
列
值从DataFrame
获取
值(
PySpark
)
、
、
、
、
我有一个Spark数据帧,我想要
获取
统计数据stats_df.show()| max| 3100|如何使用summary min max
列
值提取
浏览 14
提问于2016-07-27
得票数 1
回答已采纳
1
回答
Pyspark
根据
其他
列
值添加新
列
、
、
NULL 0.092020-11-05 2 3 0.41 我想创建一个"Ratios_latest“
列
。为此,我应该向下查看每个客户端的" value“
列
的值。这将是我的"Ratio_latest“
列
值。我
根据
上面的数据分享了期望的输出; Date Client Values Ratios Ratios_latest 2020-10-26 1 NU
浏览 35
提问于2021-01-11
得票数 0
回答已采纳
1
回答
基于
其他
列
更新
列
的
Pyspark
行
、
我有一个data frame在
pyspark
,如下所示。---+----++---+----+| 2| Tim|| 4| sam|现在,我向df添加了一个新
列
,如下所示from
pyspark
.sql.types import StringType| 2| Tim| null|
浏览 1
提问于2018-05-02
得票数 0
回答已采纳
1
回答
如何重命名所有
列
,在
pyspark
中创建dataframe之后,如何
根据
模式/从csv文件中读取数据类型来转换数据类型
、
在
pyspark
中创建示例数据 from
pyspark
.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0spark.sparkContext.parallelize
浏览 1
提问于2020-05-04
得票数 0
回答已采纳
1
回答
Pyspark
删除包含10个空值的
列
、
我是
PySpark
的新手。我只想保留至少有10个值的
列
现在如何提取值小于10的列名,然后在写入新文件之前删除这些
列
df = spark.read.parquet(file
浏览 1
提问于2019-09-28
得票数 1
2
回答
如何
根据
其他
列
更新
PySpark
中的
列
?
、
我有一个包含"CUSTOMER_MAILID“、"OFFER_NAME”、"OFFER_ISAPPLIED“
列
的数据帧。amit1185@gmail.com|Jaipur Pink Panth...| N| 如果"OFFER_ISAPPLIED“列有一些值,我想用"Y”更新"OFFER_NAME“
列
值
浏览 0
提问于2016-11-14
得票数 1
1
回答
基于2个spark数据帧中的匹配zip,创建用于距离计算的纬度和经度对
、
、
、
我有一个
pyspark
dataframe A,它有3
列
:-69 40 trp我有另一个
pyspark
dataframe B,它具有相同的
列
,但捕获的值将不同:-68 43 trp我希望
根据
dataframe B中匹配的邮政编码为A的每个
记录
创建纬度经度对。
浏览 2
提问于2017-11-16
得票数 0
3
回答
如何从Scala Spark DataFrameReader csv中
记录
格式错误的行
、
、
、
的文档表明,spark可以
记录
在读取.csv文件时检测到的错误行。 如何
记录
格式错误的行?是否可以获得包含格式错误的行的val或var?链接文档中的选项是: maxMalformedLogPerPartition (默认值为10):设置Spark将为每个分区
记录
的最大格式错误行数。超过此数目的错误
记录
将被忽略
浏览 1
提问于2017-01-27
得票数 6
2
回答
如何在Hibernate中使用唯一键而不是主键检索
记录
、
、
使用session.load()或session.get()或org.hibernate.session的任何
其他
方法,是否可以在hibernate中
根据
唯一
列
而不是PK
列
值来
获取
记录
?我的要求是需要
根据
唯一的
列
值而不是主键来
获取
记录
。 这就像我不想使用Criteria API一样。我需要使用session.get或load这类方法。你提到的答案是为了进行搜索。但我要求
根据
唯一键
获取</em
浏览 2
提问于2012-09-04
得票数 10
1
回答
aws胶水下降大部分为空字段
、
、
、
它有几个
列
,大多为null。我使用下面的代码将它写到一个s3桶中。然后,我抓取s3桶以
获取
数据
记录
中的表模式。我发现当我抓取数据时,大部分为null的字段会被删除。我已经检查了输出的json,我发现有些
记录
有字段,而另一些则没有。有人知道问题可能是什么吗?我想包括这些字段,即使它们大部分是空的。libraries from awsglue.transforms import *from
pyspark
浏览 0
提问于2019-08-29
得票数 1
2
回答
Pyspark
-
根据
其他
列
值移位列值
我需要
根据
dataframe中的
其他
列
向左移
列
。
浏览 24
提问于2019-05-03
得票数 0
回答已采纳
1
回答
在哪里
记录
了Databricks的"create table using“选项
、
、
", path = "/FileStore/tables/prod/global/value_set_meta" ) 我想知道是否有从所有
列
(和/或特定
列
)中裁剪空白的选项。此处列出并
记录
了哪些允许使用的选项?
浏览 20
提问于2020-12-13
得票数 0
2
回答
使用
pyspark
根据
多个
列
值删除
记录
、
我有一个
pyspark
数据帧,如下所示: ? 如果两
列
uniq_id和date_time具有相同的值,我希望只保留一条
记录
。 预期输出: ? 我想用
pyspark
来实现这一点。
浏览 28
提问于2020-10-06
得票数 0
回答已采纳
1
回答
使用索引
列
筛选器进行选择查询时,RDS实例CPU利用率超过90%
、
、
、
、
数据大小超过6亿条
记录
。该查询正在从表中检索几个
列
,并通过电子病历上的
PySpark
运行。我正在向JDBC调用中添加分区信息,以并行化读取。分区
列
是一个自动增量数字
列
,它已被索引以更快地
获取
记录
。因此,火花引擎
根据
分区
列
的值动态地生成子句。以下是查询:FROM <db>.
浏览 2
提问于2021-04-18
得票数 1
1
回答
使用
PySpark
有效地将多个小的csv文件(130,000个,每个列有2
列
)合并成一个大框架
、
、
、
、
这些文件都具有类似的格式,第一
列
称为日期,第二
列
是一系列都命名为值的
列
。因此,首先,值列名需要重命名为每个csv文件中的文件名。第二,帧需要完全外部连接,以日期为主要索引。VALUE,框架变成了两
列
,第一
列
是日期,第二
列
是值,加载速度相当快,大约38秒,2
列
大约380万个值,所以我知道它没有执行完全的外部连接,而是按行顺序追加文件。SparkSession.builder.appName('spark-dataframe-demo').getOrCr
浏览 4
提问于2020-02-18
得票数 0
回答已采纳
1
回答
Pyspark
句柄从字符串转换为十进制
、
我是在Databricks中使用
Pyspark
的新手,所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe,它有数据类型为string的
列
。一个例子(见下图)是
列
netto_resultaat。 要求将此列和
其他
与财务相关的
列
从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法: 从
pyspark
.sql.functions导入列从
pyspark
.sql.types导入DecimalType newouterj
浏览 23
提问于2021-10-25
得票数 0
回答已采纳
1
回答
maxRecordsPerFile不在Azure数据砖中工作
、
、
、
100000) \ .mode("overwrite") \
根据
customer
列
,我正在使用上面的
pyspark
脚本将我的大CSV文件分割成小块。maxRecordsPerFile选项不起作用,它在每个客户文件夹下创建多个文件,每个文件的
记录
少于5K。 我怎样才能控制
记录
浏览 18
提问于2022-10-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Python开源数据分析工具TOP 3!
遇见YI算法之初识Pyspark(二)
大数据下Python的三款大数据分析工具
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券