Spark中多个数据帧上的大量转换

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、

我有一个基于spark的转换引擎，它是元数据驱动的。我在Scala MapString DataFrame中对内存中存储的多个数据帧执行一组转换。我遇到一种情况，我使用84种转换生成数据帧，包括(withColumn、Join、union等)。在这些之后，输出数据帧被用作另一组转换</

浏览 11提问于2020-06-27得票数 0

2回答

使用Python将Dask Dataframe转换为Spark* dataframe*

、、、、

我想将Dask Dataframe转换为Spark Dataframe。让我们考虑这个例子：dask_df = dd.read_csv("file_name.csv") spark_df = spark_session.createDataFrame(dask_df) 但这是行不通的。

浏览 18提问于2021-02-25得票数 0

2回答

从RDD中的Pandas DataFrames创建Spark* DataFrame*

、、

我正在尝试将每个worker节点(每个元素都是Pandas DataFrame的RDD )上的Pandas DataFrame转换为跨所有worker节点的Spark DataFrame。the data is a pandas dataframe, and I am using some datetime indexing which isn't available for spark在完成熊猫处理后，我如何将其转换为Spa

浏览 31提问于2019-06-05得票数 0

回答已采纳

1回答

Scala Spark/Databricks：.cache()不会阻止重新计算

、、

如下所示：据我所知，spark有“转换”和“动作”。转换懒惰地建立起你想要做的事情的描述，然后行动让它发生。这可以提高性能(允许优化的计划)，或者，如果您在单个数据帧上使用多个操作，则可能会导致重复的工作，从而导致转换重复触发。为了避免这种情况，.cache()告诉Spark实际“保存它的工作”，所以你调用它的数据</

浏览 4提问于2020-02-20得票数 1

1回答

在另一个dataframe的转换中创建/访问数据

、、、

我正在修改一些现有的代码来使用Spark。我有多个包含不同数据集的数据帧。在转换主数据帧(或主数据集)时，我需要使用来自其他数据帧的数据来完成转换。我还有一种情况(至少在当前结构中)，我需要在另一个数据帧的转换函数中创建新

浏览 1提问于2017-09-01得票数 7

回答已采纳

1回答

在spark数据帧上实现pythonic统计函数

、、、

我在spark数据帧中有非常大的数据集，它们分布在节点上。我可以使用spark库pyspark.sql.functions进行简单的统计，如mean、stdev、skewness、kurtosis等。但为了做到这一点，我必须将spark数据帧转换为pandas，这意味着将数据强制到主节点中，如下所示： import scipy.stats as stats pan

浏览 30提问于2020-09-13得票数 0

1回答

Spark问题:如果我不缓存数据帧，它会被多次运行吗？

、、

如果我不缓存使用带有limit选项的spark SQL生成的dataframe，当我编辑得到的dataframe并显示它时，我会得到不稳定的结果吗？描述。我有一个类似下面的表格，它是通过使用带有limit选项的spark SQL生成的： +---------+---+---+---+---++--1| 0| 0| 10| 17|+-

浏览 6提问于2021-04-21得票数 0

回答已采纳

1回答

在Pyspark中管理多个数据帧

、、、、

我是PySpark的新手。在我的实现中，我使用了多个数据帧。在这些数据帧中，有一些中间数据帧稍后将不会在代码中使用。我该如何处理它们呢？我面临着GC、OverHead和内存问题。: java.lang.OutOfMemoryError: GC overhead limit exceeded at org.spark_project.guava.cache.LocalCache

浏览 6提问于2020-12-18得票数 0

1回答

基于列值高效地从宽Spark数据帧中删除列

、、

如果我有一个只包含IP地址的宽数据帧(200m cols)，并且我想删除包含空值或格式不佳的IP地址的列，那么在Spark中执行此操作的最有效方法是什么？我的理解是Spark并行地执行基于行的处理，而不是基于列的处理。因此，如果我尝试在列上应用转换，将会有大量的混洗。首先转置数据帧，然后应用筛

浏览 11提问于2019-10-31得票数 1

1回答

同一组任务在Spark作业中的多个阶段中重复

在多个阶段的DAG可视化中出现一组由过滤器和地图组成的任务。这是否意味着在所有阶段都会重新计算相同的转换？如果是这样，如何解决这个问题？

浏览 5提问于2017-08-18得票数 2

回答已采纳

7回答

使用哪种查询来获得更好的性能，是在SQL中联接还是使用Dataset API？

、、

在使用spark、*Spark sql join*和*spark dataframe join*从HBASE获取和操作数据时，哪个更快？

浏览 2提问于2016-06-01得票数 2

2回答

ColumnarToRow是如何在Spark中高效运行的

、、、

在我的理解中，列格式更适合于MapReduce任务。即使对于某些列的选择，columnar也能很好地工作，因为我们不必将其他列加载到内存中。但是在Spark3.0中，我看到在查询计划中应用了这个ColumnarToRow操作，根据我从可以理解的，查询计划将数据转换为行格式。 'a': [i

浏览 13提问于2020-11-12得票数 10

1回答

为什么"groupBy agg count alias“不创建新列？

、、

alias("count")) .limit(3)它在以下行失败：.orderBy(df("count").desc)，说明没有这样的列

浏览 2提问于2018-11-08得票数 0

2回答

PySpark将IntegerTypes转换为ByteType进行优化

、、、

我通过拼图文件将大量数据读入到数据帧中。我注意到大量的列都有1,0，-1作为值，因此可以从Int类型转换为Byte类型，以节省内存。我写了一个函数来做这件事，并返回一个新的dataframe，其中的值被转换为字节，但是当在UI中查看dataframe的内存时，我发现它只是保存为原始dataframe的转换，而不是新的</

浏览 3提问于2018-02-01得票数 5

3回答

取消持久化(py)spark中的所有数据帧

、、、、

我是一个spark应用程序，有几个点我想要持久化当前状态。这通常是在一个大的步骤之后，或者缓存一个我想要多次使用的状态之后。似乎当我第二次对我的数据帧调用cache时，一个新的副本被缓存到内存中。在我的应用程序中，这会导致在扩展时出现内存问题。尽管在我当前的测试中，给定的数据帧最大大约为100MB，但中间结果的

浏览 9提问于2016-04-28得票数 39

回答已采纳

1回答

通过在不同线程中执行多个查询来触发数据帧缓存

、

我想知道spark中的数据帧缓存是否是线程安全的。在我们的一个用例中，我从一个hive-table创建一个dataframe，然后通过不同的线程在同一个dataframe上运行多个SQL。由于我们的存储和计算是解耦的，而且由于某些原因读取非常慢，我在考虑将数据帧缓存到内存中，并将缓存的

浏览 17提问于2020-03-10得票数 0

2回答

使用udf在spark* dataframe中添加引用另一个dataframe的列*

、、

我有一个包含列的数据帧"Forecast“- Store, Item, FC_startdate, FC_enddate, FC_qty 另一个包含columns - Store, Item, Saledate, Sales_qty的数据帧"Actual“。我想创建一个带有参数的UDF - p_store, p_item, p_startdate, p_enddate，并在这些日期之间获得Sales_qty的总和，并将其作为新列(A

浏览 1提问于2020-01-02得票数 1

1回答

使用pyarrow的topandas()返回空的dataframe

、、、、

我有一个五百万行250列的spark数据帧。当我使用"spark.sql.execution.arrow.enabled"作为"true"对这个数据帧进行topandas()转换时，它返回一个只包含列的空数据帧。在禁用pyarrow的情况下，出现以下错误 Py4JJavaError: An error occurred while calli

浏览 0提问于2020-10-22得票数 0

1回答

在PySpark (本地)上编程与在Jupyter Notebook上使用Python编程

、、

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在

浏览 0提问于2016-07-27得票数 1

2回答

Spark:是否需要在每次转换和操作之后都持久化() DataFrame？

、

在Spark中，我们需要在每次转换和操作之后保持()相同的DataFrame吗？例如：df.persist.count // Cache #1 df = df.map(...) // the

浏览 0提问于2021-04-25得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云