如何枚举Spark的DataFrame中的列？如果列是嵌套的呢？

在Spark中，可以使用columns属性来枚举DataFrame中的列。该属性返回一个包含所有列名的数组。

以下是一个示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据并创建DataFrame
df = spark.read.csv("data.csv", header=True, inferSchema=True)

# 枚举DataFrame中的列
columns = df.columns
print(columns)

对于嵌套列，可以使用select方法来选择嵌套列，并使用alias方法为列指定别名。然后，可以使用columns属性来枚举嵌套列的别名。

以下是一个示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 读取数据并创建DataFrame
df = spark.read.json("data.json")

# 选择嵌套列并为列指定别名
df = df.select("nested.column1.alias1", "nested.column2.alias2")

# 枚举嵌套列的别名
columns = df.columns
print(columns)

请注意，以上示例代码仅为演示目的，实际使用时需要根据具体情况进行调整。

向PySpark数据帧中添加组计数列

apache-spark、pyspark、dplyr

我来自R和到PySpark，因为它的出色的火花处理，我正在努力从一个上下文映射到另一个特定的概念。尤其是，假设我拥有如下数据集 x | y --+-- a | 5 a | 8 a | 7 b | 1 我希望添加一个列，其中包含每个x值的行数，如下所示： x | y | n --+---+--- a | 5 | 3 a | 8 | 3 a | 7 | 3 b | 1 | 1 在dplyr中，我只想说： import(tidyverse) df <- read_csv("...") df %>% group_by(x) %>% mutate(n

浏览 0提问于2018-02-14得票数 37

回答已采纳

1回答

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在使用下面的语句在spark中读取csv。 df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True) 当我检入spark dataframe时，一些整型和双精度列被存储为dataframe中的字符串列。但是，并不是所有的列都是这样。我已经检查了特定列的值，所有的值都是双精度类型，但spark仍然推断为StringType。因为我加载的CSV文件大约有1000列，所以也显式地指定模式是不可行的。如有任何建议或帮助，我们将不胜感激。致以敬意， Neeraj

浏览 5提问于2017-08-31得票数 2

1回答

使用when语句对多个数据帧列进行协调

python-3.x、apache-spark、pyspark、apache-spark-sql、pyspark-dataframes

我正在尝试连接多个dataframe列，我无法在下面的concat_ws语句中执行pyspark或expr。 from pyspark.sql.functions import udf from pyspark.sql.types import StringType from pyspark.sql.functions import concat_ws,concat,when,col,expr from pyspark.sql.functions import lit from pyspark.sql import SparkSession spark = SparkSession.build

浏览 1提问于2020-08-30得票数 0

回答已采纳

3回答

如何从火花放电的数据中删除空列

pyspark

我们有一份数据： names = spark.read.csv("name.csv", header="true", inferSchema="true").rdd 我想这么做： res=names.filter(lambda f: f['Name'] == "Diwakar").map(lambda name: (name['Name'], name['Age'])) res.toDF(['Name','Age']).write.csv("

浏览 1提问于2020-01-10得票数 2

回答已采纳

1回答

如何确定错误发生在哪一列上？

apache-spark、pyspark、azure-sql-database

使用Pyspark时，当将数据文件中的数据导入到Azure SQL Db表时，我将得到以下错误。错误本身是不言自明的.但是数据文件和目标表有大约100列，其中75列作为字符串列。并且，错误没有指定错误所在的列。问题：在pyspark中，如何确定错误所在的列？错误：来自数据源的VARCHAR(56)类型的给定值不能转换为指定目标列的varchar(45)类型。码 df = spark.read.csv(".../Test/MyFile.csv", header="true", inferSchema="false") ...........

浏览 3提问于2022-08-07得票数 0

1回答

如何用电火花移除字符串中的每一个空格？

apache-spark、pyspark、apache-spark-sql

df1 = spark.read.csv('/content/drive/MyDrive/BigData2021/Lecture23/datasets/cities.csv', header = True, inferSchema= True) import pyspark.sql.functions as F for name in df1.columns: df1 = df1.withColumn(name, F.trim(df1[name])) df1.show() 这是我的一段代码，我试着修剪列标题中的每一个空格以及值，但是它不起作用，我需要函数来

浏览 13提问于2022-01-09得票数 -2

回答已采纳

2回答

PySpark DataFrame在使用.select()时显示不同的结果

python、apache-spark、pyspark

为什么.select()显示/解析值的方式与我不使用它不同？我有个CSV： CompanyName, CompanyNumber,RegAddress.CareOf,RegAddress.POBox,RegAddress.AddressLine1, RegAddress.AddressLine2,RegAddress.PostTown,RegAddress.County,RegAddress.Country,RegAddress.PostCode,CompanyCategory,CompanyStatus,CountryOfOrigin,DissolutionDate,Incorporati

浏览 19提问于2022-08-20得票数 2

2回答

如何在pyspark中读取csv文件？

pyspark、pyspark-sql、pyspark-dataframes

我正在尝试读取csv文件使用pyspark，但它显示一些错误。你能说出读取csv文件的正确过程吗？ python代码： from pyspark.sql import * df = spark.read.csv("D:\Users\SPate233\Downloads\iMedical\query1.csv", inferSchema = True, header = True) 我也尝试了下面的一个： sqlContext = SQLContext df = sqlContext.load(source="com.databricks.spark.csv",

浏览 9提问于2019-11-11得票数 0

3回答

电火花数据格式中所有列中的唯一元素数

python、apache-spark、dataframe、pyspark、apache-spark-sql

如何才能计算的每一列中的唯一元素数： import pandas as pd from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = pd.DataFrame([[1, 100], [1, 200], [2, 300], [3, 100], [4, 100], [4, 300]], columns=['col1', 'col2']) df_spark = spark.createDataFrame(df) print(df_spark.show()

浏览 0提问于2018-12-13得票数 11

回答已采纳

2回答

使用pyspark从文本文件中提取JSON字符串

python、json、apache-spark、pyspark

我有一个包含4个字段的文本文件，第三个字段是JSON字符串，我想提取它并在dataframe中创建一个单独的列。 pk,line,json,date DBG,CDL,{"line":"CDL","stn":"DBG","latitude":"12.298915","longitude":"143.846263","isInterchange":true,"isIncidentStn":false,"stnKpis":[{

浏览 7提问于2022-11-18得票数 0

1回答

_jdf丢弃数据帧中的报头，AttributeError: Pyspark

csv、dataframe、header、pyspark-sql

from pyspark.sql import SQLContext sqlContext = SQLContext(sc) spark = sqlContext.sparkSession avg_calc = spark.read.csv("quiz2_algo.csv", header= True,inferSchema=True) header = avg_calc.first() no_header = avg_calc.subtract(header) no_header avg_calc包含2列，我正在尝试从这两列中删除第1行，但是我收到以下错误： -------

浏览 1提问于2018-05-12得票数 0

2回答

火花流- json格式的Dstream消息到DataFrame

apache-spark、spark-dataframe、spark-streaming、kafka-consumer-api

我试图通过阅读Kafka的主题，但无法理解如何将DStream中的数据转换为DataFrame，然后存储在临时表中。Kafka中的消息采用Avro格式，由从数据库中创建。下面的代码运行良好，直到它执行spark.read.json来将json读取到dataframe。 package consumerTest import io.confluent.kafka.serializers.KafkaAvroDeserializer import org.apache.spark.sql.{SQLContext, SparkSession} import org.apache.spark.{Sp

浏览 1提问于2018-05-10得票数 2

回答已采纳

1回答

如何读入JSON，使dict/hash的每个元素都是dataframe中的新行？

python、json、apache-spark、pyspark

我正在尝试将用JSON编写的大型数据集读取到dataframe中。此数据帧的最小工作示例： {"X":{"sex":"Male","age":57,"BMI":"19.7"},"XX":{"BMI":"30.7","age":44,"sex":"Female"},"XXX":{"age":18,"sex":"Female","BM

浏览 25提问于2021-02-12得票数 0

回答已采纳

1回答

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

apache-spark、pyspark、apache-spark-sql、quantile、percentile

我有一个非常大的CSV文件，它已经作为一个PySpark数据文件导入：df。dataframe包含许多列，包括列ireturn。我想要计算该列的0.99和0.01百分位数，然后将另一列添加到dataframe df中，作为new_col_99和new_col_01，它们分别包含0.99和0.01百分位数。我编写了下面的代码，它适用于小数据格式，但是当我将它应用到我的大型数据文件时会出现错误。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.read.csv(&#

浏览 0提问于2019-01-15得票数 3

1回答

如何通过删除空列来创建变量PySpark数据

pyspark、apache-spark-sql、pyspark-dataframes

我在一个名为“source_data”的相对文件夹中有两个JSON文件 "source_data/data1.json" { "name": "John Doe", "age": 32, "address": "ZYZ - Heaven" } "source_data/data2.json" { "userName": "jdoe", "password": "passwor

浏览 1提问于2021-02-11得票数 0

回答已采纳

2回答

如何键入星火DataFrame列？使用火花放电

apache-spark、pyspark

我以以下方式创建了一个DataFrame： from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate() df = spark.read.csv("train.csv", header=True) 我的DataFrame的架构如下： root |-- PassengerId: string (nullable = true) |-- S

浏览 3提问于2018-10-18得票数 0

回答已采纳

1回答

对象中没有属性“map”错误的pyflem2.4.4中的

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正在使用python2.7运行Spark2.4.4，IDE是py魅力。输入文件在列中包含编码值，如下所示。 .ʽ|!3-2-704A------------ (dotted line is space) 我想得到结果就像 3-2-704 a 我试过下面的代码。 from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark") \ .config("spark.some.config.option",

浏览 2提问于2019-09-22得票数 0

回答已采纳

2回答

PySpark textFile替换文本

apache-spark、pyspark、amazon-emr

下面是一个示例文件中的几行，该示例文件为~30 is ### s3://mybucket/tmp/file_in.txt "one"|"mike"|"456"|"2010-01-04" "two"|"lisa"|"789"|"2011-03-08" "three"|"ann"|"845"|"2012-06-11" 我想用PySpark . 使用spark的parallelismreplace读取文本文件-

浏览 6提问于2021-01-13得票数 0

2回答

检查某个特定记录的列是否存在

python、pyspark、apache-spark-sql

我使用的是pyspark 3.1.1和python 3.8 输入中有一个json文件，如下所示： {"id" :1, "field_a": "test"} {"id" :2, "field_a": "test", "field_b": "z"} {"id" :3, "field_a": "test", "field_b": null} 当我尝试使用spark读取该文件时，它会自动将第一条记录的列field

浏览 3提问于2022-07-11得票数 1

回答已采纳

1回答

如何读取头中具有不同分隔符的数据帧中的csv文件，如“”，其余行以"|“分隔

scala、dataframe、apache-spark、apache-spark-sql

是否用逗号分隔csv文件头，用另一个分隔符"|“.How分隔其余行，以处理这种不同的分隔符情况？请给我建议。 import org.apache.spark.sql.{DataFrame, SparkSession} var df1: DataFrame = null df1=spark.read.option("header", "true").option("delimiter", ",").option("inferSchema", "false") .optio

浏览 12提问于2020-08-25得票数 0

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何枚举Spark的DataFrame中的列？如果列是嵌套的呢？

相关·内容

向PySpark数据帧中添加组计数列

spark 2.x正在使用csv函数将整型/双精度列作为字符串读取

使用when语句对多个数据帧列进行协调

如何从火花放电的数据中删除空列

如何确定错误发生在哪一列上？

如何用电火花移除字符串中的每一个空格？

PySpark DataFrame在使用.select()时显示不同的结果

如何在pyspark中读取csv文件？

电火花数据格式中所有列中的唯一元素数

使用pyspark从文本文件中提取JSON字符串

_jdf丢弃数据帧中的报头，AttributeError: Pyspark

火花流- json格式的Dstream消息到DataFrame

如何读入JSON，使dict/hash的每个元素都是dataframe中的新行？

如何将列添加到PySpark数据column中，该数据column中包含另一列的第9分位数

如何通过删除空列来创建变量PySpark数据

如何键入星火DataFrame列？使用火花放电

对象中没有属性“map”错误的pyflem2.4.4中的

PySpark textFile替换文本

检查某个特定记录的列是否存在

如何读取头中具有不同分隔符的数据帧中的csv文件，如“”，其余行以"|“分隔

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐