将spark数据帧中的列聚合为json

文章/答案/技术大牛

发布

2回答

、、、

我有以下spark dataframe，我希望将一列中的所有列聚合为一个JSON，如下所示:如果输入dataframe为：预期的结果将是： <code>A1</code

浏览 6提问于2020-07-30得票数 0

1回答

在df.toPandas().to_csv('mycsv.csv')之后，数据在重新读取时会被混淆

、、

我有一张名叫result_25的桌子。我使用此代码成功地将数据导出到磁盘上的csv。result_25.toPandas().to_csv('mycsv.csv')rr = spark.read.csv('mycsv.csv',inferSchema=True, header=True) 我查了数据，看上去很好。但是，当我用.describe() .describe().sh

浏览 3提问于2018-10-01得票数 2

回答已采纳

1回答

在spark中处理json文件

、、

在spark-scala中，我需要使用嵌套结构的json文件来创建数据帧我有一个具有复杂嵌套结构的json输入。每天都有可能一些键在任何记录上都不可用(键是可选的)，键的.some可能不会出现在day1上，可能会出现在day2中，但我希望得到一个通用的输出，其中所有列都期望inspite键缺失。我不能使用withcolumn函数并应用默认值，因为如果

浏览 1提问于2019-10-01得票数 0

1回答

spark json模式元数据可以映射到配置单元？

、、

在使用apache spark时，我们可以很容易地生成一个json文件来描述Dataframe结构。此数据帧结构如下所示： "type": "struct", { "type": "stringsap", "business_key"

浏览 1提问于2020-05-14得票数 0

1回答

以键为列将json字典转换为spark dataframe

、、

是否可以通过将键作为具有以下值的列来将字典转换为数据帧？created': '2020-10-29T00:00:00+00:00', 'published': 'YES',} 如果我将其转换为数据帧，如下所示： json_rdd=sc.parallelize([d

浏览 8提问于2020-11-19得票数 0

回答已采纳

1回答

Spark的toDS vs to DF

、

据我所知，可以使用rdd.toDS将RDD转换为数据集。但是，也存在rdd.toDF。两者之间真的有什么好处吗？我是否应该坚持使用.toDF，并且只在操作链的末尾转换为DataSet？或者更早使用toDS有好处吗？下面是一个小的具体示例 .read .json (...) .zipWithUniqueId .map[(Integer,String

浏览 5提问于2017-04-13得票数 6

2回答

Spark scala将数据框列复制到新的数据框

、

我已经创建了一个带有模式的空数据帧。我正在尝试将新数据帧中的列添加到for循环中的现有列中。._1))k.show()有人能帮我一下吗？

浏览 5提问于2017-10-03得票数 0

1回答

PySpark -保存配置单元表- org.apache.spark.SparkException:无法识别配置单元类型字符串

、、

我正在将spark数据帧保存到hive表中。spark dataframe是一个嵌套的json数据结构。我可以将数据帧另存为文件，但它在上面创建了一个配置单元表时失败了，上面写着org.apache.spark.SparkException: Cannot recognize hive type string我不能先创建一个hive表模式，然后再将其插入其中，因为

浏览 1提问于2018-08-11得票数 2

3回答

如何将数据集写入Kafka主题？

、、、

我使用的是Spark 2.1.0和Kafka 0.9.0。有没有人知道这样的事情是否可行？谢谢正如user8371915提到的，我试图遵循中所做的事情。我用的

浏览 3提问于2018-04-06得票数 6

1回答

使用部分模式的Spark read json

、、

我需要使用spark处理一个相当大的json文件。我不需要json中的所有字段，实际上我只想读取其中的一部分(而不是读取所有字段和项目)。我想知道我是否可以使用json连接器，并为它提供一个只包含我感兴趣加载的字段的部分读取模式。

浏览 0提问于2017-07-14得票数 0

1回答

Spark Java:通过从不同列获取值，将向量值添加为DataFrame中的新列

、、

假设我们有4列A，B，C，D的数据帧。现在我想要的是将B，C，D列值组合为向量，并将它们作为新列添加到现有的数据帧中。我希望直接在数据帧内完成此操作，而不是将其转换为RDD，然后将向量值添加到RDD，然后再将其转换回dataframe。因为这不是一个好的解决方案。因此，我希望一些Java解决方案直接在Dataf

浏览 0提问于2017-01-13得票数 1

1回答

Spark Join:分析异常引用不明确

、、、

您好，我正在尝试连接spark中的两个数据帧，并收到以下错误：could be: Adapazari#100064, Adapazari#100065.; 根据几个消息来源的说法，当您尝试将两个不同的数据帧连接在一起时，可能会

浏览 8提问于2017-02-14得票数 1

回答已采纳

1回答

使用pyspark - Databricks处理来自事件中心的事件

、、、

Spark notebook必须在文档进入Event Hub时读取文档，并与该集合的spark表进行模式匹配(将文档中的字段与spark表列进行匹配)。spark.readStream.format("eventhubs").option(**config).load(). 正如文档中所说，原始消息位于我要转换为字符串的数据帧的“body”列<

浏览 1提问于2019-01-12得票数 0

1回答

如何将一些pyspark dataframe的列转换成一个带有其列名的dict，并将它们组合成一个json列？

、

我有以下格式的数据，我想用有两列('tag‘和' data ')的pyspark来改变它的格式。'tag‘列值是唯一的，'data’列值是从原始列'date、stock、price‘获得的json字符串，其中'stock’和'price‘组合为'A’列值，'date

浏览 13提问于2019-07-19得票数 1

3回答

如何处理spark sql中缺少的列

、、

我们正在处理无模式的JSON数据，有时spark作业会失败，因为我们在spark SQL中引用的一些列在一天中的某些时间内不可用。在这些小时内，spark作业失败，因为所引用的列在数据帧中不可用。我尝试过UDF，但是我们缺少太多的列，所以不能真正地检查每一列

浏览 5提问于2018-08-10得票数 2

1回答

使用通配符读取物理分区的数据

、、、

如果我使用以下语法读取此数据帧： df = spark.read.json("s3://bucket/df)" 没有扩展名的文件将是我的数据帧的一部分，这是不可取的。因此，我只想考虑包含以下内容的文件.json扩展。因此，我决定读取此数据帧，过滤带有后缀的文件*.jso

浏览 50提问于2021-02-20得票数 1

回答已采纳

1回答

在spark* cassandra中使用数据帧创建密钥空间时出错*

、、、

我尝试将spark连接到cassandra，然后从flask对keyspace和table进行查询。问题是，当我运行web应用程序时，我得到一个错误，告诉我没有创建键空间。中，我运行以下命令： val flightRecommendations = finalPredictions.writeStream.foreachBatch { (batchDF: DataFrame我认为这也可能是连接的问题，因为我在docker中工作，我的设置是这样的：s

浏览 30提问于2020-11-29得票数 1

1回答

使用Spark将非规范化配置单元表加载到Elasticsearch中

、、、、

所以，我已经找到了很多相反的答案，但不是这个。现在这听起来很愚蠢，因为Elasticsearch只处理非正规化的数据，但这就是我们面临的问题。因此，所有attrs都存在于一个单独的表中。然而，这些表被非规范化，它们都被放入一个长表中。通常情况下，加载到Elasticsearch中并不是什么大问题，但是这个表很庞大，大约有1000+列。我们希望将这些attrs作为数组存储在Elasticsearch中

浏览 12提问于2017-07-24得票数 1

1回答

Scala spark将数据帧中的一组列聚合为JSON字符串

、

给定一个数据帧，| id| name| payable| strategy|| 1| Tom| 200| st-2|+-----------------------------+{ "payload":

浏览 7提问于2020-02-20得票数 0

回答已采纳

1回答

如何使用nltk (python)获取K均值集群的各个质心

、、

我使用nltk执行k均值聚类，因为我希望将距离度量更改为余弦距离。但是，如何获得所有集群的质心？= centroids[df_clustering['cluster'] - 1].tolist() df_clustering['centroid'] = centroids 我正在尝试对一个熊猫数据帧执行k均值聚类，并且希望每个数据点的聚类的质心坐标在数据<em

浏览 23提问于2019-12-31得票数 0

回答已采纳

点击加载更多