pyspark:根据其他记录获取列

、、

我是新来Pyspark的，所以请帮助我。

浏览 9提问于2019-04-18得票数 0

1回答

根据其他列替换pyspark列

、、

在我的"data“数据框中，我有两列，”time_stamp“和”hour“。我想在缺少'time_stamp‘值的地方插入'hour’列值。我不想创建新列，而是在'time_stamp‘中填充缺少的值我想要做的是将这个pandas代码替换为pyspark代码： data['time_stamp'] = data.apply(lambda

浏览 8提问于2019-03-21得票数 0

回答已采纳

1回答

使用自定义列和记录删除器读取pyspark中的文件

、、、

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？我的列分隔符也是';‘下面的代码正确地获取了列，但它只计为一行sc = SparkSession.builder.appName(

浏览 11提问于2021-05-26得票数 0

2回答

根据其他列值从DataFrame获取值(PySpark)

、、、、

我有一个Spark数据帧，我想要获取统计数据stats_df.show()| max| 3100|如何使用summary min max列值提取

浏览 14提问于2016-07-27得票数 1

回答已采纳

1回答

Pyspark根据其他列值添加新列

、、

NULL 0.092020-11-05 2 3 0.41 我想创建一个"Ratios_latest“列。为此，我应该向下查看每个客户端的" value“列的值。这将是我的"Ratio_latest“列值。我根据上面的数据分享了期望的输出； Date Client Values Ratios Ratios_latest 2020-10-26 1 NU

浏览 35提问于2021-01-11得票数 0

回答已采纳

1回答

基于其他列更新列的Pyspark行

、

我有一个data frame在pyspark，如下所示。---+----++---+----+| 2| Tim|| 4| sam|现在，我向df添加了一个新列，如下所示from pyspark.sql.types import StringType| 2| Tim| null|

浏览 1提问于2018-05-02得票数 0

回答已采纳

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

、

在pyspark中创建示例数据 from pyspark.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0spark.sparkContext.parallelize

浏览 1提问于2020-05-04得票数 0

回答已采纳

1回答

Pyspark删除包含10个空值的列

、

我是PySpark的新手。我只想保留至少有10个值的列现在如何提取值小于10的列名，然后在写入新文件之前删除这些列 df = spark.read.parquet(file

浏览 1提问于2019-09-28得票数 1

2回答

如何根据其他列更新PySpark中的列？

、

我有一个包含"CUSTOMER_MAILID“、"OFFER_NAME”、"OFFER_ISAPPLIED“列的数据帧。amit1185@gmail.com|Jaipur Pink Panth...| N| 如果"OFFER_ISAPPLIED“列有一些值，我想用"Y”更新"OFFER_NAME“列值

浏览 0提问于2016-11-14得票数 1

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度对。

浏览 2提问于2017-11-16得票数 0

3回答

如何从Scala Spark DataFrameReader csv中记录格式错误的行

、、、

的文档表明，spark可以记录在读取.csv文件时检测到的错误行。如何记录格式错误的行？是否可以获得包含格式错误的行的val或var？链接文档中的选项是: maxMalformedLogPerPartition (默认值为10)：设置Spark将为每个分区记录的最大格式错误行数。超过此数目的错误记录将被忽略

浏览 1提问于2017-01-27得票数 6

2回答

如何在Hibernate中使用唯一键而不是主键检索记录

、、

使用session.load()或session.get()或org.hibernate.session的任何其他方法，是否可以在hibernate中根据唯一列而不是PK列值来获取记录？我的要求是需要根据唯一的列值而不是主键来获取记录。这就像我不想使用Criteria API一样。我需要使用session.get或load这类方法。你提到的答案是为了进行搜索。但我要求根据唯一键获取</em

浏览 2提问于2012-09-04得票数 10

1回答

它有几个列，大多为null。我使用下面的代码将它写到一个s3桶中。然后，我抓取s3桶以获取数据记录中的表模式。我发现当我抓取数据时，大部分为null的字段会被删除。我已经检查了输出的json，我发现有些记录有字段，而另一些则没有。有人知道问题可能是什么吗？我想包括这些字段，即使它们大部分是空的。libraries from awsglue.transforms import *from pyspark

浏览 0提问于2019-08-29得票数 1

2回答

Pyspark -根据其他列值移位列值

我需要根据dataframe中的其他列向左移列。

浏览 24提问于2019-05-03得票数 0

回答已采纳

1回答

在哪里记录了Databricks的"create table using“选项

、、

", path = "/FileStore/tables/prod/global/value_set_meta" ) 我想知道是否有从所有列(和/或特定列)中裁剪空白的选项。此处列出并记录了哪些允许使用的选项？

浏览 20提问于2020-12-13得票数 0

2回答

使用pyspark根据多个列值删除记录

、

我有一个pyspark数据帧，如下所示： ? 如果两列uniq_id和date_time具有相同的值，我希望只保留一条记录。预期输出： ? 我想用pyspark来实现这一点。

浏览 28提问于2020-10-06得票数 0

回答已采纳

1回答

使用索引列筛选器进行选择查询时，RDS实例CPU利用率超过90%

、、、、

数据大小超过6亿条记录。该查询正在从表中检索几个列，并通过电子病历上的PySpark运行。我正在向JDBC调用中添加分区信息，以并行化读取。分区列是一个自动增量数字列，它已被索引以更快地获取记录。因此，火花引擎根据分区列的值动态地生成子句。以下是查询：FROM <db>.

浏览 2提问于2021-04-18得票数 1

1回答

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

、、、、

这些文件都具有类似的格式，第一列称为日期，第二列是一系列都命名为值的列。因此，首先，值列名需要重命名为每个csv文件中的文件名。第二，帧需要完全外部连接，以日期为主要索引。VALUE，框架变成了两列，第一列是日期，第二列是值，加载速度相当快，大约38秒，2列大约380万个值，所以我知道它没有执行完全的外部连接，而是按行顺序追加文件。SparkSession.builder.appName('spark-dataframe-demo').getOrCr

浏览 4提问于2020-02-18得票数 0

回答已采纳

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。一个例子(见下图)是列netto_resultaat。要求将此列和其他与财务相关的列从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark.sql.types导入DecimalType newouterj

浏览 23提问于2021-10-25得票数 0

回答已采纳

1回答

maxRecordsPerFile不在Azure数据砖中工作

、、、

100000) \ .mode("overwrite") \根据customer列，我正在使用上面的pyspark脚本将我的大CSV文件分割成小块。maxRecordsPerFile选项不起作用，它在每个客户文件夹下创建多个文件，每个文件的记录少于5K。我怎样才能控制记录

浏览 18提问于2022-10-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

根据其他列替换pyspark列

使用自定义列和记录删除器读取pyspark中的文件

根据其他列值从DataFrame获取值(PySpark)

Pyspark根据其他列值添加新列

基于其他列更新列的Pyspark行

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

Pyspark删除包含10个空值的列

如何根据其他列更新PySpark中的列？

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

如何从Scala Spark DataFrameReader csv中记录格式错误的行

如何在Hibernate中使用唯一键而不是主键检索记录

aws胶水下降大部分为空字段

Pyspark -根据其他列值移位列值

在哪里记录了Databricks的"create table using“选项

使用pyspark根据多个列值删除记录

使用索引列筛选器进行选择查询时，RDS实例CPU利用率超过90%

使用PySpark有效地将多个小的csv文件(130,000个，每个列有2列)合并成一个大框架

Pyspark句柄从字符串转换为十进制

maxRecordsPerFile不在Azure数据砖中工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐