将pyspark中的复杂数据读取到dataframe中

文章/答案/技术大牛

发布

1回答

、、

我试图创建一个spark数据帧，但是有一些问题，有人能帮我解决哪里出了问题吗？array_str2 ], schema) +---------------+---------------+---------------+ 但是我需要创建数据帧

浏览 11提问于2021-09-11得票数 1

1回答

在PySpark中，为什么数据帧聚合在Kerberized源表上比相同的查询内聚合工作得更好？

、

我使用Cloudera发行版Spark 2.1.0在多节点集群上操作，它的配置单元分区是Kerberized的。我的查询相当复杂(三个表，包含两个连续聚合的嵌套子查询)，在写入PySpark数据帧之前，我在SQL中运行聚合步骤时遇到了GSSException问题。对dataframe的操作需要30到45分钟，并尝试将dataframe缓存或写入到parquet调用完整的</

浏览 3提问于2018-08-23得票数 0

1回答

Zeppelin: Scala Dataframe* to python*

、、、

如果我有一个带有DataFrame的Scala段落，我可以在python中分享和使用它吗？(据我所知，pyspark使用)Scala段落：z.put("xtable", x )%pyspark g = g.add_legend()Traceback (most recent call last): File "/tmp/z

浏览 8提问于2016-03-01得票数 14

回答已采纳

1回答

调整Pyspark* dataframe中CSV文件数据的错误数据*

、、

我试图在Pyspark中将CSV文件读取到dataframe中，但我有一个包含混合数据的CSV文件。它的部分数据属于它的相邻列。有没有办法修改python中的dataframe以获得预期的输出dataframe？

浏览 22提问于2020-01-26得票数 0

回答已采纳

1回答

Python:扩展类方法并使用类的替换实例

、、、、

我想扩展pyspark.sql.DataFrame的读写功能，以满足我自己的项目需要。为此，我创建了以下代码 # do something super().write.format(forma

浏览 1提问于2020-06-17得票数 0

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。使用NGram类，我在dataframe中添加了另外两个列Unigram和Bigram，其中包含文本列中的单字和双字。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算T

浏览 1提问于2018-12-17得票数 0

1回答

如何使用pyspark将bz2文件读取到数据帧中？

、、、

我可以使用以下命令将json文件读入Pyspark中的dataframe中df = spark.read.json("path to json file") 但是，当我尝试将bz2(压缩的csv)读取到数据帧中时，它给我一个错误。

浏览 1提问于2018-06-05得票数 7

1回答

从Ignite 2.8 (as数据库)加载数据时，Spark dataframe编码错误

、、

我在Windows 10上使用Spark 2.4和Ignite 2.8 当我把pyspark dataframe放到点火表中时，它保存得很好。但是，当我将这些数据从Ignite读回Pyspark时，dataframe又回到了系统默认编码(CP1251)。我不明白如何用正确的编码重新获得正确的数据。以下是示例代码： import pandas as pd import pyspark

浏览 13提问于2020-04-09得票数 0

回答已采纳

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示<e

浏览 13提问于2019-12-16得票数 0

回答已采纳

1回答

使用Pyspark从s3存储桶中读取最后一个csv文件

、、、、

因此，我有一个s3存储桶(数据)，其中有一个名为(First)的文件夹，其中包含多个CSV文件，但我不知道该文件的名称，现在我想将该文件夹中的最新文件读取到pyspark dataframe中。

浏览 15提问于2021-09-16得票数 0

2回答

给定一个包含S3路径的列，我想读取它们并存储它的级联版本。火花缭乱

、

我有一个包含s3文件路径的列，我想读取所有这些路径，稍后在PySpark中连接它。 

浏览 15提问于2022-08-11得票数 -1

1回答

如何对PySpark* DataFrame的每一列中的数据进行混洗？*

、、、、

我是一个用PySpark编程的初学者。我在CSV文件中有以下数据，该文件正在被读取到Spark Dataframe中，并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .option("inferSchema", "true").option("hea

浏览 16提问于2020-05-11得票数 0

1回答

Pyspark:从blob存储加载一个zip文件

、、、

我正在使用Pyspark尝试从blob存储区读取zip文件。我想在加载文件后将其解压缩，然后将解压缩的CSV写回blob存储。我遵循这个指南，它解释了如何解压缩文件一次读：file_location = "path_to_my.zip"我希望这样可以以df的形式

浏览 3提问于2020-04-21得票数 1

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用

浏览 8提问于2022-10-14得票数 0

回答已采纳

1回答

` `pyspark‘与` `pyspark’包

、、、

pyspark mllib和pyspark ml包有什么区别？：我发现的一个不同之处是，pyspark ml实现了pyspark.ml.tuning.CrossValidator，而pyspark我的理解是，如果在Apache框架上实现算法是mllib，那么库应该使用，但似乎存在分裂？在没有转换类型的情

浏览 4提问于2017-04-05得票数 18

回答已采纳

2回答

Pyspark dataframe到pandas的转换会丢弃数据吗？

、

我有一个相当复杂的过程来创建pyspark dataframe，将其转换为pandas dataframe，并将结果输出到平面文件。我不确定错误是在哪一点引入的，所以我将描述整个过程。开始时，我有一个pyspark dataframe，其中包含ids集的成对相似性。EuclideanDistance']) result = (df.withColumn('row_num', row_nu

浏览 1提问于2018-05-02得票数 0

1回答

md5不能处理pyspark中的复杂数据类型

、、、

在pyspark dataframe中，我为几个列提供了多种复杂数据类型。28 requires (array<string> or string) type, however, '`col`' is of array<array<string>> type** :return: output DataFrame

浏览 0提问于2020-11-26得票数 0

1回答

从Pyspark* Dataframe解析JSON字符串*

、、、、

我有一个嵌套的JSON字典，我需要将其转换为spark dataframe。此JSON字典显示在数据框列中。我一直在尝试使用"from_json“和"get_json_object”来解析dataframe列中存在的字典，但一直无法读取数据。以下是我一直在尝试读取的源数据的最小片段： {"value": "\u0000\u0000\u0000\u00

浏览 36提问于2021-04-01得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

如何在pyspark中将数据帧的输出写入CSV文件

、

我正在研究使用pyspark的回归分类算法。我想将模型输出保存到CSV文件中。我用过但是它抛出一个错误，声明saveAstextFile属性不在列表中。请参阅以下代码并提出建议：from pyspark import SparkContext from pys

浏览 18提问于2017-07-05得票数 0

点击加载更多