pyspark dataframe将多个json文件数据合并到一个dataframe中

、、、、

我正在尝试在一个数据帧中合并多个json文件数据，然后再对该数据帧执行任何操作。假设我有两个文件file1.txt，file2.txt，它包含如下数据{"a":1 , "b":"abc", "c":"abc2", "d":"abc3"}

浏览 6提问于2017-03-02得票数 0

回答已采纳

2回答

将数据保存到HDFS的格式是什么？

、、、

创建DataFrame后，我可以将其保存为avro、csv或拼板格式。在dataframe或rdd中是否有其他格式可用于在Hadoop中保存数据？

浏览 2提问于2017-12-21得票数 1

1回答

将多个PySpark DataFrames与MergeSchema合并

、、

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用mergeSchema合并模式？谢谢。

浏览 2提问于2020-06-22得票数 0

5回答

如何有效地将多个json文件读入Dataframe或JavaRDD？

、、

我可以使用下面的代码来读取单个json文件，但是我需要读取多个json文件并将它们合并到一个Dataframe中。我该怎么做？DataFrame jsondf = sqlContext.read().json("/home/spark/articles/article.json"); 或者有一种方法可以将

浏览 5提问于2015-11-14得票数 16

回答已采纳

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data f

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

、、、

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.sque

浏览 8提问于2022-10-14得票数 0

回答已采纳

3回答

在pyspark中将数据帧保存到本地驱动器上的JSON文件

、、、

我有一个数据帧，我正尝试使用pyspark 1.4将其保存为JSON文件，但它似乎不起作用。当我给它提供目录的路径时，它会返回一个错误，声明它已经存在。我基于的假设是，它将在您提供的路径中保存一个json文件。df.write.json("C:\Users\username") 指定一个带有名称的目录不会产生任何文件，并会给出错误“crc : Mkdirs无法创

浏览 0提问于2015-06-26得票数 6

回答已采纳

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递

浏览 0提问于2021-03-05得票数 0

1回答

如何在Julia中将多个DataFrames文件加载到一个JSON中？

、、

using JSON3ls = ["j1.json",j2.json","j3.json"] 当我有多个json文件时，我该如何做呢？我可以在Julia中不使用任何循环的情况下将所有json<em

浏览 0提问于2021-09-16得票数 1

1回答

根据特定的列数据，将Pyspark数据分解为多个json文件？

、、、、

", "fruit": "Mango", "cost": "500"}Its类型：pyspark.sql.dataframe.DataFrame如何将此json

浏览 4提问于2022-01-19得票数 2

回答已采纳

2回答

如何在Pyspark中使用Scala类

、、、、

我已经搜索了一段时间了，如果有任何方法在Pyspark中使用一个Pyspark类，我还没有找到任何关于这个主题的文档或指南。假设我在Scala中创建了一个简单的类，它使用了一些apache-spark库，如下所示： def exe(): DataFrame = { import sqlContext.impli

浏览 3提问于2016-03-15得票数 29

回答已采纳

1回答

使用带块的熊猫读取大json数据集

、、

我想读一个6gb大小的json (我还有一个1.5GB的json)，我试着和熊猫一起阅读(就用pd.read_json)，很明显记忆消失了。然后，我试着用块状的平面图，就像： df = [] df_reader =pd.read_json(f, lines=True, chunksize=100

浏览 1提问于2018-11-21得票数 2

1回答

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

、、

我有一个按日期分区的S3存储桶列表。第一个存储桶标题为2019-12-1，第二个存储桶标题为2019-12-2，依此类推。这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark <em

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

将字典列(作为字符串)解析为多列

、

我使用的是Pyspark，我有一个dataframe，它的列如下所示： [{"id":111,"o_pos":3,"n_pos":3,"o_score":-3.0,"n_score":0.14572449,"i_pos":2},{"id":222,"o_pos":4,"n_pos":4,"o_score":-4.0,"n_score&

浏览 14提问于2022-05-25得票数 0

2回答

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

、、、

Dataframe是使用scala创建的。spark.createDataFrame( spark.sparkContext.parallelize(someData), StructType(someSchema) ) 我想把这个转换成Pandas DataframePySpark提供了.toPandas()来将火花数据转换成熊猫，但是scala(我可以找到)并没有对应的数据。

浏览 1提问于2020-04-05得票数 0

回答已采纳

1回答

熊猫DataFrames的SQLAlchemy模型存储

、、、

我正在构建一个烧瓶应用程序，允许用户上传CSV文件(包含不同的列)，预览上传的文件，生成摘要统计数据，执行复杂的转换/聚合(有时通过芹菜作业)，然后导出修改过的数据。上传的文件正在被读取到熊猫DataFrame中，这让我能够优雅地处理大部分复杂的数据工作。我希望这些DataFrames连同相关的元数据(上传的时间，用户上传文件的ID，等等)。若要持久化并可供多个用户传递

浏览 1提问于2014-05-06得票数 13

1回答

使用Pyspark从REST API获取数据到Spark Dataframe

、

我正在构建一个数据管道，它使用json格式的RESTApi数据并推送到Spark Dataframe。SQLContext.jsonRDD(rdd) from pyspark.sql import Spa

浏览 27提问于2020-06-24得票数 2

回答已采纳

1回答

使用Pyspark将文件从一个目录移动到HDFS中的另一个目录

、、、

我试图从一个目录中读取所有JSON文件，并使用下面的代码将它们存储在中。(效果很好) 但是，当我尝试用多

浏览 1提问于2021-01-18得票数 0

回答已采纳

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个

浏览 6提问于2020-07-09得票数 1

2回答

有没有办法在pyspark中逐个访问数组(Struct)中的多个JSON对象

、、、、

我对pyspark和json解析还是个新手，我被困在了某些特定的场景中。让我先解释一下我要做什么，我有一个json文件，其中有一个数据元素，这个数据元素是一个包含另外两个json对象的数组。给定的json文件如下所示 "id": "da20d14c.92ba6", "type": &

浏览 142提问于2019-06-05得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将数据保存到HDFS的格式是什么？

将多个PySpark DataFrames与MergeSchema合并

如何有效地将多个json文件读入Dataframe或JavaRDD？

使用来自另一个dataframe的JSON对象创建新的数据

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

在pyspark中将数据帧保存到本地驱动器上的JSON文件

将Dataframe激发到StringType

如何在Julia中将多个DataFrames文件加载到一个JSON中？

根据特定的列数据，将Pyspark数据分解为多个json文件？

如何在Pyspark中使用Scala类

使用带块的熊猫读取大json数据集

从多个S3存储桶导入pyspark dataframe，其中有一列指示条目来自哪个存储桶

将字典列(作为字符串)解析为多列

在熊猫(python)中，能不能将星星之火(scala)转换成数据(Python)

熊猫DataFrames的SQLAlchemy模型存储

使用Pyspark从REST API获取数据到Spark Dataframe

使用Pyspark将文件从一个目录移动到HDFS中的另一个目录

向类添加功能的最佳方法- PySpark

有没有办法在pyspark中逐个访问数组(Struct)中的多个JSON对象

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐