Pyspark:复制连接2个不同行数的数据帧_连接两个数据帧后的Pyspark复制_pyspark运行数据帧的线性回归 - 腾讯云开发者社区

python、apache-spark、join、pyspark、apache-spark-sql

大家好，假设我想联接以下两个数据帧，以便在df1中具有相同id的每一行的联接中复制df2的一行： df1 = sc.parallelize(Array((0, 1.5, 8.4, 9.1),sc.parallelize(Array((0, 2.1, 3.4, 4.2))) .toDF("id", "col4", "col5", "col6") 期望<em

浏览 12提问于2021-04-19得票数 0

回答已采纳

1回答

从PySpark运行大量配置单元查询

apache-spark、hive、pyspark、livy

我想要执行大量的配置单元查询，并将结果存储在数据帧中。我有一个非常大的数据集，结构如下：| visid_high，它使用每一行作为二级查询的输入：for session in sessions.collect()[:100]: query = "SELECT prop8,sessi

浏览 5提问于2018-07-23得票数 0

1回答

通过连接比较两个pyspark数据帧

python、dataframe、join、pyspark

我有两个pyspark数据帧，它们的行数不同。我试图通过在多个键上连接这两个数据帧来比较所有列中的值，这样我就可以找到这些列中具有不同值的记录和具有相同值的记录。df1 and df2 on multiple keys same=df1.join(df2, on=['id','age','sex',&#

浏览 14提问于2021-02-13得票数 0

1回答

将numpy中的不同数组添加到数据帧的每一行

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我有一个SparkSQL数据帧和2Dnumpy矩阵。它们具有相同的行数。我打算将numpy矩阵中的每个不同数组作为新列添加到现有的PySpark数据帧中。这样，添加到每一行的列表是不同的。例如，PySpark数据帧如下所示 | Id | Name || 1 | Bo

浏览 16提问于2019-10-05得票数 0

4回答

Pyspark:有没有等同于pandas info()的方法？

python、pandas、apache-spark、pyspark

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

5回答

火花复制数据栏- Python/PySpark中的最佳实践？

python、apache-spark、pyspark

这是用于使用Spark2.3.2的Python/PySpark。我正在寻找最佳实践方法，将一个数据框架的列复制到另一个数据框架，使用PySpark对一个非常大的10+十亿行数据集(按年/月/日平均划分)。每一行都有120列要转换/复制。输出数据帧将被写入另一组文件中，日期分区。示例模式是：input DFinput (colA，colB，co

浏览 1提问于2018-12-19得票数 5

2回答

如何使用monotonically_increasing_id连接两个没有公共列的pyspark数据帧？

apache-spark、join、dataframe、pyspark

我有两个相同行数的pyspark dataframe，但它们没有任何公共列。因此，我使用monotonically_increasing_id()将新列添加到这两个列中cont_data = cont_data.join(df1,df1.match_id==cont_data.match_id, 'inner').drop(df1.match_id) 但是在连接</

浏览 2提问于2017-06-03得票数 1

2回答

如何使用SparkR访问使用PySpark创建的DataFrame？

pyspark、sparkr、apache-spark-dataset

我在Databricks上创建了一个PySpark DataFrame。"sep", delimiter) \现在我想在SparkR中使用df1library('SparkR')sparkR无法使用或找到由PySpark创建的df1。数据帧，反之亦然？或者每个Dataframe都是一个完全不同的对象？

浏览 1提问于2018-10-05得票数 0

1回答

如何在Spark SQL中优化非equi-join？

python、apache-spark、apache-spark-sql

我有两个数据帧，我需要使用具有两个连接谓词的非相等连接(即不等式连接)将它们连接在一起。一个数据帧是直方图DataFrame[bin: bigint, lower_bound: double, upper_bound: double] 另一个数据帧是观察值DataFrame[id: bigintobservations_df包含100000行，当histogram_df中的

浏览 1提问于2018-10-02得票数 1

3回答

从csv文件向现有apache spark数据帧添加数据

python、apache-spark、pyspark、spark-dataframe

我有一个spark dataframe，它有两列: name，age，如下：数据帧是使用以下命令创建的sqlContext.createDataFrame() 两个数据</e

浏览 9提问于2016-09-16得票数 0

回答已采纳

1回答

从两个值不同的数据帧中获取列

python、pyspark、apache-spark-sql、pyspark-sql

我有两个几乎相同的Pyspark数据帧:相同的行数和row_id，相同的模式，但每行的某些列上的值不同。我想确定每一行的列是什么。示例：数据帧A id fname lname email2 Roger Moore rm@rocketmail.com3 Angela

浏览 22提问于2020-03-23得票数 1

回答已采纳

1回答

Pyspark: PicklingError:无法序列化对象：

pyspark、pickle、user-defined-functions

我有以下两个数据帧: df_whitelist和df_text|keyword| whitelist_terms |import py

浏览 4提问于2017-11-12得票数 9

回答已采纳

1回答

将PySpark数据帧从几个月重采样到几周

python、pandas、dataframe、pyspark、time-series

对于每个key_id和date_month，输入pyspark数据帧都有一行。数据帧和Pandas之间进行切换的代码大约有30行:日期范围、连接等。有没有一种在PySpark中用一种直接的方式来做这件事的方法？我尝试过Pandas resampling from months to weeks，但当我的“主键”是date_month和key_id的组合时，我不知道如何让它工作。目前

浏览 46提问于2019-04-30得票数 1

1回答

如何在不使用计数函数的情况下计算联接、筛选器或写入后获得的行数

pyspark

我正在使用PySpark连接、过滤并将大型数据写入csv。然而，计算行数意味着重新加载数据并重新执行各种操作。如何计算每个不同操作期间的行数，而不像使用df.count()那样重新加载和计算？我知道缓存函数可能是一个不重新加载和重新计算的解决方案，但是我正在寻找另一个解决方案，因为它并不总是最好的解决方案。提前谢

浏览 5提问于2022-04-21得票数 0

2回答

使用spark连接器从snowflake自定义数据类型映射

python、pyspark、pyspark-sql、snowflake-cloud-data-platform

使用snowflake spark连接器从snowflake复制表时，默认行为是将结构化数据映射到spark字符串：https://docs.snowflake.net/manuals/user-guide/spark-connector-use.html#from-snowflake-to-spark-sql 例如，给定snowflake中的一个表： create table schema.tableas array_construct(

浏览 26提问于2019-05-30得票数 1

2回答

如何将现有列追加到另一列，使其与索引对齐？

python、pandas

我有三个数据帧，每个数据帧都有不同的列，但它们都有相同的索引和相同的行数(完全相同的索引)。我如何将它们组合成一个单独的数据帧，保持每个列的分离，但在索引上连接？目前，当我尝试将它们添加到一起时，我得到的是NaNs，并且相同的索引被复制。我创建了一个空的da

浏览 3提问于2014-10-28得票数 0

1回答

基于一列将pyspark.sql dataFrame拆分为多个表

python、dataframe、pyspark、pyspark-sql

给定一个pyspark.sql.dataframe.DataFrame x：name day earnings revenue Oliver 1 100 44 Oliver11 John 2 415 54 John 3 33 10 John 4 82 82 请注意，每个“子表”中的行数可能不同我尝试过以下方法：dict(tuple(x.groupby('name')))，它在Pandas

浏览 0提问于2018-10-09得票数 0

1回答

如何使用Pyspark从xml文件创建子数据帧？

pyspark

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子<em

浏览 11提问于2019-03-15得票数 0

2回答

对spark数据帧中的行数进行监控，最好的方法是什么？

performance、apache-spark、pyspark、monitoring

我有一个运行在EMR上的pyspark应用程序，我想监控它的一些指标。例如，计数已加载、已保存的行数。目前我使用count操作来提取值，这显然会减慢应用程序的运行速度。我在想，是否有更好的选择来从数据帧中提取这些指标？我使用的是pyspark 2.4.5

浏览 0提问于2021-01-26得票数 0

1回答

如何使用pyspark合并来自两个不同数据帧的数据？

python、dataframe、apache-spark、pyspark、amazon-emr

我有两个不同的(非常大的)数据帧(详细信息如下)。我需要合并他们两个人的数据。由于这些数据帧非常庞大(第一个数据帧有数百万行，第二个数据帧有数千行)，我尝试使用AWS EMR服务。但我不太明白它是如何在那里完成的，我看到的教程大多只显示了一个数据帧的说明。所以，我一直想知道如

浏览 11提问于2021-06-03得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云