在PySpark中操作复杂的数据帧_PySpark。多数据帧操作_在Python中向量化数据帧上的复杂操作 - 腾讯云开发者社区

python、dataframe、apache-spark、pyspark、apache-spark-sql

我正在准备一个使用PySpark训练机器学习模型的数据集。我正在处理的数据帧包含数千条关于不同建筑和城市不同房间内不同日期登记的存在的记录。，当然，outHour和outMinute表示退出的时间。小时数以0-23的格式考虑。所有列都只包含整数值。我缺少的是我的机器学习模型的目标值，即房间、建筑物、城市、日、月和时间间隔的组合的人数。我将尝试更

浏览 12提问于2021-01-10得票数 1

回答已采纳

1回答

将列有条件地添加到数据帧中

python、apache-spark、dataframe、pyspark、multiple-columns

我在PySpark中有一个数据帧。我想有条件地在数据框架中添加一列。如果数据帧没有列，那么添加一个带有null值的列。如果列存在，则不执行任何操作，并返回与新数据帧相同的数据帧。如何在PySpark中传递条件语句

浏览 6提问于2017-01-20得票数 0

回答已采纳

1回答

如何将Azure Synapse Dataframe转换为JSON on Databricks？

azure、pyspark、databricks、azure-databricks、azure-synapse

因为当我尝试的时候，它得到了一个错误。下面是我的synapse的脚本： @staticmethod .mode(write_mode) ) 这是我选择我的表的时候= df_dim_store.to

浏览 19提问于2021-05-31得票数 0

回答已采纳

1回答

对于.head(20)这样的操作，如何让Dask变得像PySpark一样懒惰？

python、dask

在PySpark中，每当我在一个非常大的数据帧df上排列一组复杂的操作，然后键入：Spark将只执行必要的操作(在部分数据集上)，以便快速返回20条记录以供显示。除非我用.collect()强制它这样做，否则它不会对dataframe df的所有行执行操作。另一方面，在</em

浏览 38提问于2018-06-03得票数 1

1回答

Cassandra过滤pyspark数据帧的时间戳格式正确

python、apache-spark、pyspark、cassandra、spark-cassandra-connector

我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ，并且我能够在cql shell中过滤数据以获得特定的时间范围，但是当我在pyspark数据帧上尝试同样的操作时，我在过滤后的数据帧中没有得到任何值有谁能帮我在pyspark中找到合适的dateti

浏览 6提问于2020-03-05得票数 1

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将p

浏览 0提问于2016-07-27得票数 1

3回答

`df.loc`的火花源等价？

python、pandas、apache-spark、dataframe、pyspark

我正在寻找等同于pandas数据帧的pyspark。特别是，我想对pyspark dataframe执行以下操作# assuming dfdf.loc[index, 'column_B'] * df.loc[index, 'column_C']) / sum(df.loc[index, 'colum

浏览 0提问于2018-05-13得票数 8

回答已采纳

2回答

将数据类型从yyyy-MM-dd格式的字符串更改为DateType

python、apache-spark、datetime、pyspark

我正在尝试将数据帧中的列从yyyy-MM-dd格式的字符串类型转换为DateType。我目前正在运行这段代码，但它不会改变类型，但它也不会失败--所以我想我遗漏了一些相当基本的东西我从得到了这个格式，但我不确定我错过了什么谢谢你的帮助！

浏览 0提问于2020-01-18得票数 0

1回答

在PySpark中，为什么数据帧聚合在Kerberized源表上比相同的查询内聚合工作得更好？

pyspark、kerberos

我使用Cloudera发行版Spark 2.1.0在多节点集群上操作，它的配置单元分区是Kerberized的。我的查询相当复杂(三个表，包含两个连续聚合的嵌套子查询)，在写入PySpark数据帧之前，我在SQL中运行聚合步骤时遇到了GSSException问题。对dataframe的操作需要30到45分钟，并尝试将datafr

浏览 3提问于2018-08-23得票数 0

3回答

取消持久化(py)spark中的所有数据帧

python、caching、apache-spark、pyspark、apache-spark-sql

这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的累积

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

从PySpark中的复杂列中提取值

apache-spark、pyspark、apache-spark-sql

我有一个PySpark数据帧，它有一个复杂的列，请参考下列值：1 [{"label":"animal","value":"cat"},{"label":null,"value":"George"}] 我想在PySpark dataframe中添加一个新列，它基本上将它转换为一个字符串列表。因此，对于上面的示

浏览 0提问于2021-02-09得票数 0

1回答

如何使用Pyspark/SQL/DataFrames SPARK RDD来插入/删除DB2源表数据？

pyspark、apache-spark-sql、spark-streaming、pyspark-sql

我尝试运行upsert/delete命令来插入/删除DB2数据库源表中的一些值，这是DB2上的一个现有表。是否可以使用Pyspark/Spark SQL/Dataframes。

浏览 2提问于2019-05-10得票数 0

1回答

Pyspark数据框架操作的单元测试用例

python、unit-testing、spark-dataframe、pyspark-sql

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的</em

浏览 1提问于2016-04-14得票数 3

1回答

Spark SQL更新/删除

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在<

浏览 7提问于2019-11-15得票数 1

0回答

减去Pandas或Pyspark* Dataframe中的连续列*

python、pandas、pyspark、multiple-columns、subtraction

我想在pandas或pyspark数据帧中执行以下操作，但我仍然没有找到解决方案。我描述的操作可以在下图中看到。请记住，输出数据帧在第一列上不会有任何值，因为输入表中的第一列不能被前一列减去，因为它不存在。

浏览 1提问于2016-07-12得票数 4

回答已采纳

2回答

将PySpark数据帧转换为PySpark.pandas数据帧

python-3.x、apache-spark、pyspark

在链接中，用户可以在Spark3.2中的PySpark之上与熊猫合作。是否需要很长时间才能将PySpark数据帧转换为PySpark熊猫数据框架？我知道将PySpark数据帧转换为熊猫数据框架需要很长时间。

浏览 9提问于2022-03-02得票数 1

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

pyspark

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

PySpark滑动窗口计算

pyspark、window-functions、moving-average

我有一个PySpark数据帧，我想在其上运行滑动窗口计算。下面是我想要运行的操作的示例代码(显示为pandas dataframe)：有人能告诉我如何在PySpark中复制这个操作吗？

浏览 0提问于2018-03-18得票数 0

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

2回答

以每列为关键字将PySpark数据帧转换为JSON

apache-spark、pyspark、apache-spark-sql、databricks

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Pandas数据帧，然后在将其作为JSON转储之前转换为字典，并成功地完成了转换，

浏览 14提问于2019-12-18得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云