Pyspark:基于其他pyspark数据框架中的列名创建一个pyspark数据框架

Pyspark是一种基于Python的Spark编程接口，它提供了在大数据处理中使用Spark的能力。Pyspark数据框架是一种类似于关系型数据库表的数据结构，可以用于处理和分析大规模数据集。

要基于其他Pyspark数据框架中的列名创建一个Pyspark数据框架，可以按照以下步骤进行操作：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建SparkSession对象：

spark = SparkSession.builder.appName("DataFrameExample").getOrCreate()

定义数据集：

data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]

将数据集转换为Pyspark数据框架：

df = spark.createDataFrame(data, ["Name", "Age"])

在这个例子中，我们使用createDataFrame方法将数据集转换为Pyspark数据框架，并指定列名为"Name"和"Age"。

使用列名进行操作：

df.select(col("Name")).show()

在这个例子中，我们使用select方法选择"Name"列，并使用show方法显示结果。

Pyspark数据框架的优势包括：

分布式处理：Pyspark数据框架可以在集群上进行分布式处理，处理大规模数据集时具有高性能和可伸缩性。
强大的数据处理功能：Pyspark数据框架提供了丰富的数据处理函数和操作，可以进行数据过滤、转换、聚合等操作。
兼容性：Pyspark数据框架与其他Spark组件和生态系统工具无缝集成，可以与Spark的机器学习库、图处理库等进行配合使用。

Pyspark数据框架适用于以下场景：

大数据处理和分析：Pyspark数据框架适用于处理大规模数据集，可以进行数据清洗、特征提取、机器学习等任务。
数据仓库和数据湖：Pyspark数据框架可以用于构建和管理数据仓库和数据湖，支持数据的存储、查询和分析。
实时数据处理：Pyspark数据框架可以与Spark Streaming结合使用，实现实时数据处理和流式分析。

腾讯云提供了一系列与Pyspark相关的产品和服务，例如：

腾讯云Spark：提供了基于Spark的大数据处理和分析服务，支持Pyspark编程接口。
腾讯云数据仓库：提供了构建和管理数据仓库的服务，支持Pyspark数据框架进行数据处理和分析。
腾讯云流计算Oceanus：提供了实时数据处理和流式分析的服务，支持Pyspark编程接口。

你可以通过访问腾讯云官方网站获取更多关于这些产品的详细信息和文档。

参考链接：

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

2回答

我正在用PySpark处理csv文件的PCA。我得到了一些奇怪的行为；我的代码有时运行良好，但有时返回此错误： File "C:/spark/spark-2.1.0-bin-hadoop2.7/bin/pca_final2.py", line 25, in <module> columns = (fileObj.first()).split(';') File "C:\spark\spark-2.1.0-bin-hadoop2.7\python\lib\pyspark.zip\pyspark\rdd.py", line 1361,

浏览 1提问于2017-03-14得票数 4

回答已采纳

1回答

在PYSPARK中从联接表中选择所有列

、、

我有一个'type = pyspark.sql.dataframe.DataFrame‘的数据，我想从这个数据df和另一个具有相同类型的数据df1中选择所有列。我从r创建df，这是一个元组列表。 df = spark.createDataFrame(r, schema =column ) df_final = spark.sql('select * \ from df \ Inner Join df1 \ on df.a = df1.b') 我有一个错误: AnalysisE

浏览 4提问于2022-07-08得票数 0

1回答

计算带有点‘’的数据帧列的approxQuantile。

我无法计算列名称中包含点的pyspark数据帧的approxQuantile。例如，数据帧模式是 root |-- col.dot: double (nullable = true) 那我就不能 df.approxQuantile(('`col.dot`'), [0.5], 0.25) 导致错误: pyspark.sql.utils.IllegalArgumentException：‘字段"col.dot“不存在。\n可用字段: col.dot’ 我也试过 df.approxQuantile(('col.dot'), [0.5], 0.25) 这会

浏览 7提问于2019-06-12得票数 1

1回答

pyspark:创建多个dataframe失败

、、

我想将几个大型Pandas数据帧转换为Spark数据帧，然后对它们进行操作和合并，如下所示： import pandas as pd from pyspark import SparkContext,SQLContext df1 = pd.read_csv('data1.cat',delim_whitespace=True) df2 = pd.read_csv('data2.cat',delim_whitespace=True) sc = SparkContext() sql = SQLContext(sc) spark_df1 = sql.createDa

浏览 208提问于2020-06-08得票数 0

回答已采纳

1回答

如何推断大熊猫的数据类型

、、、

我有一个数据文件，我在使用pyspark时看到了它： df1 = spark.read.csv("/user/me/data/*").toPandas() 不幸的是，pyspark将所有类型保留为Object，甚至是数值。我需要将它与我在df2 = pd.read_csv("file.csv")中读到的另一个数据格式合并，所以我需要精确地推断df1中的类型，就像熊猫所做的那样。你如何推断出现有熊猫的数据类型？

浏览 0提问于2017-09-18得票数 3

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

、、

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

1回答

有没有办法将pyspark随机森林模型转换成pmml？

我在pyspark2.1中训练了RandomForest，但另存为pyspark模型文件。 rf_model = RandomForestClassifier(featuresCol='features', labelCol='click', maxDepth=10, maxBins=32, numTrees=100,

浏览 6提问于2020-06-23得票数 0

1回答

PySpark -将DF列组合为命名StructType

、、、

我希望将一个PySpark数据帧的多个列组合到StructType的一个列中。假设我有这样一个数据框架： columns = ['id', 'dogs', 'cats'] vals = [(1, 2, 0),(2, 0, 1)] df = sqlContext.createDataFrame(vals, columns) 我希望生成的数据框架类似于此(不是像实际打印的那样，而是给出一个概念，如果您还不熟悉StructType的话)： id | animals 1 | dogs=2, cats=0 2 | dogs=0, cats=1 现在，

浏览 0提问于2018-08-14得票数 2

回答已采纳

2回答

在pyspark中旋转行的值

我目前正在清理一个数据集，我一直在尝试使用pyspark来做这件事。数据从csv读取到dataframe中，我需要的值在它们各自的行中，但对于某些行，值是混合的。我需要轮换这些行的值，以便这些值位于正确的列中。例如，假设我有以下数据集： +-------+-------+-------+ | A | B | C | +-------+-------+-------+ | 2 | 3 | 1 | +-------+-------+-------+ 但是第一行中的值应该是 +-------+-------+-------+ | A | B

浏览 18提问于2020-02-07得票数 0

回答已采纳

1回答

如何连接s3文件而不访问密钥详细信息

、、、

我们有一台unix机器，可以直接访问我们的s3桶。我们能够从unix机器上运行所有cli命令，比如"aws s3 ls“。现在，我们需要从那里读取一个文件，并使用pyspark创建一个星火数据框架。因此，现在需要对unix框进行ssh连接，并读取该文件并创建星火数据框架。有没有人能帮助我们如何访问s3而不用使用pyspark访问关键细节。

浏览 2提问于2022-10-19得票数 0

1回答

星星之火:统计数据数据的每一列中每个单词的出现情况。

、、、

我有一个带有一些列的pyspark数据格式。我想为dataframe的每一列计算每个单词的出现情况。我可以使用group查询来计数单词，但我需要弄清楚如何仅使用一个查询来获取每个列的这个细节。我附上了一个样本数据框架，以供参考和预期输出。下面是我用来获取计数的查询，但它只适用于特定的列: DF.groupBy('ColumnName').count() 我很感谢你对此的投入。示例输入数据格式：预期输出：

浏览 2提问于2022-11-22得票数 0

1回答

选择一行并根据最大值显示列名。

、、、

我有一个Pyspark数据框架 | ID|colA|colB|colC| +---+----+----+----+ |ID1| 3| 5| 6| |ID2| 4| 12| 7| |ID3| 2| 20| 22| +---+----+----+----+ 我要选择行ID3并选择三列的最大值，然后显示最大值的列名。因此，如果我为行ID3选择三列的最大值，它应该返回如下： |colC| +----+ |22 | +----+ 因此，我的问题是，我们如何选择一行，并选择一个列名根据最大列值的选定行从吡火花DataFrame？

浏览 0提问于2021-02-20得票数 0

回答已采纳

1回答

Pyspark管道在pandas数据帧上的应用

、、、

我有一个pyspark管道(包含估算和一个机器学习模型)和一个pandas数据帧。我是否可以在不将其转换为Pyspark dataframe的情况下将管道应用于此pandas数据帧？如果不可能，我如何有效地使用pyspark管道来生成对pandas数据帧的预测？

浏览 3提问于2021-09-13得票数 1

1回答

使用pyspark向Mariadb插入数据时出现SQL错误

、、、、

我尝试使用pyspark和jdbc将数据插入到mariadb中，但似乎pyspark没有生成正确的SQL，我的Spark版本是2.1.0，我没有这个问题，直到集群管理器将Spark从1.6.1更新到2.1.0，这是我的python代码 from pyspark.sql import Row, SparkSession as SS if __name__ == "__main__": spark = SS.builder.appName("boot_count").getOrCreate() sc = spark.SparkContext

浏览 3提问于2017-01-07得票数 0

1回答

、、、、

我正在尝试在pyspark中创建实现k-means聚类。我使用mnist作为我的数据集，它有数百列和整数值。在创建了一个数据框之后，当我尝试创建一个要在集群中使用的features列时，我不知道应该为VectorAssembler提供什么作为inputCols参数。下面是我的代码 sc = SparkContext('local') spark = SparkSession(sc) df = spark.read.csv('mnist_train.csv') df.show() df_feat = df.select(*(df[c].cast("f

浏览 27提问于2019-03-04得票数 2

2回答

如何利用spark从word2vec模型中获取数据

、、、、

我目前正致力于一个闪闪发光的水应用程序，我是一个完全初学者的火花和h2o。我想做的是：加载输入文本文件创建word2vec模型使用列word和列向量创建数据格式将数据作为h2o的输入通过创建模型，我得到了一个映射，但我不知道如何创建它的数据。输出应该如下所示： word 向量断言: 0.3，0.4. 感觉到0.6，0.2.诸若此类。到目前为止，这是我的代码： from pyspark import SparkContext from pyspark.mllib.feature import Word2Vec from pysparkling import

浏览 4提问于2016-06-28得票数 2

回答已采纳

1回答

运行spark.read.json时在json中找到重复列，即使没有重复列

、、、

在PySpark和Synapse数据流中，我遇到了非常奇怪的错误。我正在使用下面的查询读取JSON文件，但得到重复的列错误，即使没有重复的列。我可以使用其他工具和JSON验证器来读取它，也可以使用数据流，但不能在PySpark中读取。 PySpark查询如下： df = ( spark.read.option("multiline", "true") .options(encoding="UTF-8") .load( "abfss://<Container>]@<DIR>.

浏览 3提问于2021-11-25得票数 0

、、、

在pyspark中，我遇到了将数组拆分成单独列的问题。数组长度可变(范围为0-2064)。我试图重用我发现的一段代码，但由于数据太大，它不起作用。这是我在将数组转换为字符串(dec_spec_str)后尝试的部分。这需要永远的时间。任何帮助都是非常感谢的。提前感谢 df2 =df2.select( "hashval", f.split("dec_spec_str", ",").alias("dec_spec_str"), f.posexplode(f.split("dec_

浏览 82提问于2020-11-01得票数 0

1回答

在存储过程中返回的地理列在Entity Framework自动生成的复杂类型中未显示

、、、

我正在使用Entity Framework6和.Net 4.5。我有一个选择和返回数据的存储过程。其中一个返回列是地理类型。在Visual Studio2013中，我右键单击.edmx文件，单击“从数据库更新模型...”。此操作获取我的存储过程并创建一个复杂类型的storeprocedurename_Result。除地理类型外，所有列都在复杂类型对象中表示。我不想手动修改复杂类型。我想通过点击“从数据库更新模型...”自动获取它。Entity Framework6是否支持此功能？实现这一特性的步骤是什么？

浏览 13提问于2015-02-19得票数 3

1回答

OverflowError: mktime参数超出范围

、、

我正在处理火星雨中的拼花文件。我的版本信息是：我的数据包含日期和时间戳字段，其值小于'1970-01-01‘。在Monterey v12.6.1上本地运行下面的错误。 22/11/27 20:22:46 ERROR Utils: Aborting task org.apache.spark.api.python.PythonException: Traceback (most recent call last): File "/Users/pm/opt/spark-3.3.0-bin-hadoop3/python/lib/pyspark.zip/pyspark/

浏览 5提问于2022-11-28得票数 0

1回答

ParseException:不匹配的输入')‘预期'，’问题

、

嗨，我自己和Jupyter一起学习pyspark。我将CSV文件放在本地系统中，并加载到dataframe中。我为这个数据帧创建了临时表。当使用下面的代码时，我得到了解析错误。COuld，你能帮帮我吗？ sqlContext.sql('select distinct(Eye color) * from superhero_table').show() 错误如下所示: ParseException:不匹配的输入')‘预期'，’(第1行，位置25) == SQL == select distinct(眼睛颜色)* from superhero_table -^^

浏览 16提问于2020-07-11得票数 0

3回答

如何在Pyspark中替换dataframe的所有空值

、、

我在pyspark中有一个超过300列的数据框架。在这些列中，有一些列的值为null。例如： Column_1 column_2 null null null null 234 null 125 124 365 187 and so on 当我想对column_1求和时，我得到的结果是一个空值，而不是724。现在，我想用空格替换数据框所有列中的null。所以当我尝试对这些列求和时，我不会得到空值，但我会得到一个数值。我们如何在pyspark中实现这一点呢？

浏览 1提问于2017-02-18得票数 56

回答已采纳

2回答

Pyspark -使用dataframe中其他两个列的RMSE创建新列

、

我对Pyspark还是个新手。我有一个数据框架，我想用col1和col2之间的均方根计算创建第三列。我使用了一个用户定义的lambda函数来计算均方根值，但是一直收到这个错误AttributeError: 'int' object has no attribute 'mean' from pyspark.sql.functions import udf,col from pyspark.sql.types import IntegerType from pyspark import SparkContext from pyspark.sql import Sp

浏览 39提问于2020-04-11得票数 0

回答已采纳

2回答

作为记录数据出现在Pyspark数据库中的列名

、、、

我在研究火花放电巨蟒。我从Kaggle (Covid Live.csv)下载了一个示例csv文件，表中的数据在可视化代码中打开时如下所示(原始CSV数据仅为部分数据) #,"Country, Other","Total Cases","Total Deaths","New Deaths","Total Recovered","Active Cases","Serious, Critical","Tot Cases/ 1M pop","Deaths/

浏览 9提问于2022-10-21得票数 0

1回答

如何同时获得R中具有相同列名的所有列？

假设我有以下数据框架： > test <- cbind(test=c(1, 2, 3), test=c(1, 2, 3)) > test test test [1,] 1 1 [2,] 2 2 [3,] 3 3 现在，从这样的数据框架中，我想将名为"test“的所有列提取到一个新的数据框架中： > new_df <- test[, "test"] 但是，最后一次尝试只获取测试数据框架中名为" test“的第一列： > new_df [1] 1 2 3 在这个例子中，我如何获得所有名

浏览 1提问于2019-09-23得票数 6

回答已采纳

1回答

KeyError：“[‘花瓣长度’]不在索引中”

、

我对Pandas数据框架中的索引有一些问题。我要做的是从csv文件中加载数据，创建一个Pandas数据框架，然后从该数据帧中选择特定的列并将其转换为一个数组。 KeyError：“花瓣长度”不在索引中我使用的代码是 import pandas as pd import numpy as np data = pd.read_csv('iris.csv') x = np.array(data[['sepal length', 'petal length']]) 这张桌子是：使用reindex将为列创建缺少的值。

浏览 0提问于2016-12-13得票数 1

1回答

模块pyspark_csv没有属性“csvToDataframe”

、、

我是新的火花和面临一个错误，同时将.csv文件转换为数据。我使用pyspark_csv模块进行转换，但是错误地说“模块'pyspark_csv‘没有属性’csvToDataframe‘”。这是我的代码： import findspark findspark.init() findspark.find() import pyspark sc=pyspark.SparkContext(appName="myAppName") sqlCtx = pyspark.SQLContext #csv to dataframe sc.addPyFile('/usr/s

浏览 2提问于2016-05-02得票数 1

回答已采纳

1回答

在pyspark中参数化连接条件

、、

我有一个列名列表，每次列名都不同。列名存储在列表中。因此，我需要传递列表中的列名(在下面的示例中，列名是其id和programid id)，以便在源数据帧和目标数据帧之间进行比较。在下面的示例中，我想检查src_id == id和src_programid == programid是否。 from pyspark import SparkContext, SparkConf, SQLContext from pyspark.sql.functions import col, when srccolumns = ['src_id','src_programid'

浏览 14提问于2019-04-13得票数 0

1回答

如何以编程方式将Kafka主题加载和流到PySpark数据

、、、

卡夫卡有许多读/写火花数据的方法。我试着阅读来自卡夫卡主题的信息，并从中创建一个数据框架。可以从主题中提取消息，但无法将其转换为数据文件。任何建议都会有帮助。 import pyspark from pyspark.sql import SparkSession, Row from pyspark.context import SparkContext from kafka import KafkaConsumer sc = SparkContext.getOrCreate() spark = SparkSession(sc) consumer = KafkaConsumer('J

浏览 1提问于2020-06-12得票数 1

1回答

由多个列重新划分Pyspark数据

、、

编辑:既然我再次阅读了这篇文章，那么在这个问题上添加更多的上下文：假设我有一个我正在使用的pyspark，并且目前我可以这样重新划分dataframe： dataframe.repartition(200, col_name) 我把这个分区的数据写到一个拼花文件里。在读取目录时，我看到仓库中的目录是按我想要的方式分区的： /apps/hive/warehouse/db/DATE/col_name=1 /apps/hive/warehouse/db/DATE/col_name=2 我想了解如何在多个层中重新划分这个分区，这意味着我将一个列用于顶层分区，一个列用于第二级分区，另一个列用于第三级分

浏览 4提问于2020-11-03得票数 3

回答已采纳

1回答

PySpark:如何创建包含日期范围的DataFrame

、、、、

我正在尝试创建一个包含日期范围的单一列的PySpark数据框架，但是我一直收到这个错误。我也尝试将它转换为int，但我不确定您是否应该这样做。 # Gets an existing SparkSession or, if there is no existing one, creates a new one spark = SparkSession.builder.appName('pyspark-shellTest2').getOrCreate() from pyspark.sql.functions import col, to_date, asc from pyspar

浏览 20提问于2022-12-02得票数 0

2回答

、、

我希望使用dropna()删除包含所有空值的列。使用Pandas，您可以通过在axis = 'columns'中设置关键字参数dropna()来实现这一点。这里是GitHub文章中的一个例子。我如何在PySpark中做到这一点？dropna()可以作为PySpark中的转换使用，但是axis不是可用关键字。注意:我不想将我的数据转移到工作中。我该如何从这个数据栏中删除家具栏呢？ data_2 = { 'furniture': [np.NaN ,np.NaN ,np.NaN], 'myid': ['1-12', '0-

浏览 0提问于2020-02-11得票数 1

1回答

如何在不指定架构的情况下使用PySpark中的struct列创建数据格式？

、、、、

我正在学习PySpark，它可以方便地快速创建示例数据文件来尝试PySpark API的功能。以下代码(其中spark是火花会话)： import pyspark.sql.types as T df = [{'id': 1, 'data': {'x': 'mplah', 'y': [10,20,30]}}, {'id': 2, 'data': {'x': 'mplah2', 'y': [100,200,300]}}, ]

浏览 2提问于2022-05-01得票数 3

回答已采纳

1回答

OnModelCreating - EF核心数据库第一方法的目的

、、

我先用数据库学习EF核心。在逆向工程之后，获取实体和DbContext是没有问题的。但我无法理解OnModelCreating方法在DbContext(数据库第一方法)中的角色(或用途)。这是代码片段。 public partial class VitiLevuContext : DbContext { public virtual DbSet<Order> Orders { get; set; } public virtual DbSet<Invoice> Invoices { get; set; } protected override

浏览 3提问于2022-04-08得票数 1

回答已采纳

1回答

pyspark.sql.utils.IllegalArgumentException：‘字段’features‘不存在

、、

我正在尝试通过SparkNLP对文本数据进行主题建模和情感分析。我已经对数据集执行了所有预处理步骤，但在LDA中遇到错误。 Error 程序是： from pyspark.ml import Pipeline from pyspark.ml.feature import StopWordsRemover, CountVectorizer, IDF from pyspark.ml.clustering import LDA from pyspark.sql.functions import col, lit, concat, regexp_replace from pyspark.sql.ut

浏览 187提问于2021-04-22得票数 1

回答已采纳

1回答

使用PySpark上传数据到红移

、、、、

我有一个用pyspark写的脚本。我尝试做的是使用pyspark从亚马逊网络服务的S3存储桶中读取*.csv文件。我创建了一个包含所有数据的DataFrame，选择我需要的所有列，并将它们转换为我的红移表期望的类型： mapping = [('id', StringType), ('session', StringType), ('ip', StringType)] df = spark.read.\ format("csv").\ option("header"

浏览 17提问于2020-12-30得票数 4

回答已采纳

1回答

由json创建的熊猫数据框具有未命名列-由于未命名列问题无法插入到MySQL中

、、、、

现在，我正在处理一些JSON数据，我正在尝试将它动态地推到MySQL数据库中。JSON文件是巨大的，所以我必须仔细地使用Python中的产率函数逐行遍历它，将每个JSON行转换为小熊猫DF并将其写入MySQL中。问题是，当我从JSON创建DF时，它会添加索引列。而且，当我给MySQL写东西时，它似乎忽略了index=False选项。代码如下 import gzip import pandas as pd from sqlalchemy import create_engine #stuff to parse json file def parseJSON(path): g = open(

浏览 3提问于2017-04-18得票数 3

回答已采纳