Pyspark动态列名

文章/答案/技术大牛

发布

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

使用for循环遍历所有列表元素，并尝试使用以下代码提供动态列值： for i in months: adjustment_1_prepared_df.select().alias( ) ) 因此，基本上在别名中，我试图将列名指定为常量如何将列名指定为固定字符串和变量的组合。提前感谢！

浏览 8提问于2021-11-09得票数 0

回答已采纳

1回答

PySpark从所有列名中移除字符前的字符串

、、、、

我在dataset中有一些列名，在字符串中有三个下划线___。使用PySpark，我希望删除下划线之前的所有字符，包括下划线，并将其余字符保留为列名。我需要代码来动态重命名列名，而不是在代码中写入列名。如果___位于列名的开头或结尾，那么它应该只删除___并保留原来的字符。示例：sequence_number user___first_name phone___mo

浏览 2提问于2022-07-28得票数 0

回答已采纳

1回答

PySpark使用另一列中的值查询一个列名

、、、、

Input_pyspark_dataframe:111777 454output_pyspark_dataframe1 300 我们可以

浏览 0提问于2020-08-20得票数 0

1回答

使用pyspark dataframe从列名中删除特殊字符

、、

我正在尝试使用pyspark读取csv文件，大多数列名都有特殊字符。我想要使用pyspark dataframe.Is删除所有列名中的特殊字符，有什么特定的函数可以同时删除所有列名的特殊字符吗？

浏览 1提问于2020-08-05得票数 2

回答已采纳

1回答

动态列.withColumn Python DataFrame

、、、、

我想在我的星火DataFrame上动态地应用. list中的列名。from pyspark.sql.functions import col 结果 Out[67]: ['verified_flag', 'standard_flag', 'overseas_flag',

浏览 3提问于2020-04-21得票数 1

回答已采纳

1回答

如何从F.col对象中恢复列名？

、

简单的问题:假设我们那么如何从pyspark.sql.column.Column对象F.col('a')中恢复列名字符串'a‘。例如，如果我们把str(F.col('a'))，我们有而不是原始列名'a‘。

浏览 2提问于2020-05-10得票数 0

回答已采纳

1回答

从oracle检索时，值将转换为浮点数

、

oracle中使用pyspark检索时的列数据类型为NUMBER的数据库将转换为float。例如：ID列-数据类型编号在检索时具有值111该值显示为111.000000 列名是动态的，我不想通过硬编码来转换它。oracle中的数据是否可以按其在数据库中的显示方式进行检索。

浏览 28提问于2019-03-04得票数 0

1回答

Pyspark:基于其他pyspark数据框架中的列名创建一个pyspark数据框架

我有两个pyspark dfs df1有列- a，b，c，d，e，f df2有列- c，d，e(列名不断动态变化) 我想要一个从df1中提取的基于df2中的列名的df3数据帧。

浏览 11提问于2020-08-02得票数 0

回答已采纳

1回答

我正在开发一个动态脚本，它可以join任何给定的pyspark。问题是文件中的列名会发生变化&连接条件的数目可能会有所不同。我可以在一个循环中处理这个问题，但是我使用一个变量名执行连接，它失败了。(我的目的是根据文件结构和联接条件动态填充a和b或更多列)a="existingFile.Id" unChangedRecords = existingFile.join(incrementalFile,(a==b),"le

浏览 2提问于2018-02-24得票数 0

回答已采纳

1回答

在pyspark中参数化连接条件

、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col, when

浏览 14提问于2019-04-13得票数 0

2回答

PySpark动态时语句

、、、

我有一个用于创建列名的字符串列表。此列表是动态的，可能会随着时间的推移而变化。根据字符串的值，列名会更改。df.withColumn("newCol", F.when(df.pet == dfvalues[0], \问题是，我不知道如何在Pyspark

浏览 1提问于2018-06-20得票数 3

回答已采纳

1回答

移除“来自星火DataFrame列名

、、、

从星火DataFrame的列名？下面的代码是可复制的。# import Spark libraries, configuration, Contexts, and types.from pyspark.sql importSparkSession############# # Star

浏览 12提问于2017-11-15得票数 3

回答已采纳

1回答

在没有硬编码连接条件的情况下，在多列上动态地连接两个星火-scala数据

、、、

我想动态地加入多列上的两个星星之火-scala数据格式。我将避免硬编码的列名比较，如以下状态所示；这个查询的解决方案已经存在于pyspark版本中--在下面的链接中提供我想使用编写相同的代码。

浏览 3提问于2017-04-08得票数 2

回答已采纳

2回答

如何在AWS Glue中正确重命名动态数据帧的列？

、、、、

问题是，为了更快的雅典娜查询，一旦保存为parquet格式，列名就包含点，这违反了雅典娜SQL查询语法，因此我无法进行特定于列的查询。为了解决这个问题，我还对Glue作业中的列名进行了重命名，以排除圆点并添加下划线。我的问题是，这两种方法中哪一种更好，为什么？(效率-内存？节点上的执行速度？等等)。此外，考虑到可怕的aws glue文档，我无法提出一个仅限动态框架的解决方案。我在以动态方式获取列名时遇到了问题，因此我使用了toDF()。 1)第一种方法是从从动态df中提取的df中获取<e

浏览 132提问于2019-11-29得票数 4

回答已采纳

1回答

如何(动态)使用结构连接数组，以便从结构中获得数组中每个元素的值？

、、、、

data_struct“中的列名是实际的id (来自"data_array")。尽我最大的努力使用一个动态连接，但得到错误“列是不可迭代的”。我们不能像在PySpark中那样使用动态连接条件吗？} }期望产出：1 ABC 123 1234我的PySpark代码： from pyspark.sql.functions impor

浏览 1提问于2022-10-18得票数 1

回答已采纳

2回答