在pyspark的StructStreaming中；如何将DataFrame中的每一行(json格式的字符串)转换为多列_如何将DataFrame的每一行发送到步骤函数，获取响应，并将其存储在DataFrame的列中？_如何删除pyspark中列标题中的空格以及如何将字符串日期转换为日期时间格式 - 腾讯云开发者社区

python、pyspark

我的DataFrame结构如下所示 +--------------------++--------------------++--------------------+ 然后这里的字符串结构看起来像这样 { "client_args":{"00000065753&q

浏览 17提问于2020-04-21得票数 2

2回答

以每列为关键字将PySpark数据帧转换为JSON

apache-spark、pyspark、apache-spark-sql、databricks

我正在研究PySpark。我有一个数据框，我需要将其转储为JSON文件，但JSON文件应具有以下格式，例如- {"Column 1": [9202, 9202, 9202, ....], "Column 2": ["FEMALE因此，每列应该有一个键，相应的值应该包含该列中的所有值的列表我尝试将其转换为Panda

浏览 14提问于2019-12-18得票数 1

回答已采纳

1回答

将字符串列转换为pyspark dataframe中的字典

json、string、pyspark、pyspark-sql

我必须使用一种文件格式，其中每一行都是一个json对象。而且，实际的结构要大得多，嵌套也要多。这些文件是在s3中分发的。我以前只使用过地板或csv，所以我不知道如何读取这些文件。我目前正在编写一个进程来将该数据与其他几个表连接起来，而且由于数据很大，并且位于s3中，所以我在emr集群中使用pyspark.sql进行操作。我可以使用以下方法创建一个包含对象为字符串<

浏览 3提问于2020-03-02得票数 1

回答已采纳

1回答

将PySpark DataFrame中的每一行转换为s3中的文件

python、apache-spark、amazon-s3、pyspark、pyspark-sql

我正在使用PySpark，并且需要将DataFrame中的每一行转换为JSON文件(在s3中)，最好使用选定列的值来命名该文件。我不知道该怎么做。任何帮助都将不胜感激。

浏览 10提问于2019-08-05得票数 0

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

apache-spark、pyspark、apache-spark-mllib、pca、apache-spark-ml

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：<e

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

如何在PySpark中将df列[JSON_Format]转换为多个列？

python、apache-spark、pyspark、apache-kafka、spark-structured-streaming

我从Kafka那里得到了JSON格式的数据，并在PySpark中以DataFrame的形式读取了这些数据。在我从Kafka获得数据后，它显示为DataFrame格式： DataFrame[value: string] 但是，该值包含JSON / DICT格式。testing.writeStream.foreach(print_row).start() R

浏览 24提问于2020-01-13得票数 0

1回答

将Dataframe激发到StringType

json、apache-spark、pyspark、apache-kafka

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe</em

浏览 0提问于2021-03-05得票数 0

1回答

使用Spark按行和列展开JSON字符串

json、pyspark、apache-spark-sql

我刚开始使用Spark并使用JSON，我很难做一些相当简单的事情(我认为)。我试过用一些类似问题的解决方案，但不能完全正确。我现在有一个Spark，它有几个列表示变量。每一行都是变量值的唯一组合。然后，我有一个应用于每一行的UDF，该行接受每一列作为输入，进行一些分析，并将汇总表输出为每一行的JSON字符串，并

浏览 1提问于2020-04-14得票数 5

回答已采纳

3回答

pyspark将dataframe列从时间戳转换为"YYYY-MM-DD“格式的字符串

apache-spark、pyspark

在pyspark中，有没有办法将时间戳数据类型的dataframe列转换为格式为'YYYY-MM-DD‘格式的字符串？

浏览 3提问于2018-02-22得票数 14

回答已采纳

1回答

如何将除string以外的任何数据类型转换为pyspark dataframe中的字符串

python-3.x、apache-spark、pyspark、spark-dataframe、pyspark-sql

我正在尝试对两个数据格式中的每一行应用pyspark函数散列算法来识别差异。散列算法是基于字符串的，所以我尝试将任何数据类型转换为字符串。我在日期列转换中面临大多数问题，因为在转换为字符串之前，需要更改日期格式，以使基于哈希的matchin

浏览 1提问于2018-02-02得票数 0

回答已采纳

3回答

优化火花放电中的行访问和转换

python、amazon-web-services、apache-spark、amazon-s3、pyspark

我有一个大型数据集(5GB)，其格式是S3桶中的jason。我需要转换数据的模式，并使用ETL脚本将转换后的数据写回S3。#df is the pyspark

浏览 3提问于2020-05-30得票数 1

回答已采纳

1回答

将dataframe的每一行转换为字符串

apache-spark、pyspark、apache-spark-sql、pyspark-sql

我正试图使用pyspark中的hashlib.md5为dataframe生成哈希代码。它只接受一个字符串来生成哈希代码。我试过： str=df.sele

浏览 4提问于2017-12-21得票数 1

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

apache-spark、datetime、pyspark、apache-spark-sql

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝

浏览 16提问于2020-12-30得票数 2

1回答

如何从列中删除不包含数字的行，以及如何将带数字的字符串转换为整数？

python、pandas

我有一个有2列的DataFrame。一个是描述，另一个是数量。amounts列中的每一行都有数字，但它们被格式化为带有"“的字符串，其中一些不是数字。那么有两个问题，我如何删除非数字字符串？另外，如何将字符串转换为整数？, "Jay", "John", "Claud&q

浏览 13提问于2021-11-18得票数 0

1回答

将嵌套的JSON列转换为Pyspark列

arrays、json、dataframe、pyspark

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据： adf = spark

浏览 8提问于2022-06-07得票数 0

1回答

在Pyspark中的布尔列中填充空值

python、json、apache-spark、pyspark、null

我有一个有一些布尔列的dataframe，这些列有时看起来是空的，就像其他数据类型的其他列一样。df.toJson().zipWithIndex() 但是，当某列的行为null时，该列不会转换为键，这给我留下了不匹配<em

浏览 19提问于2022-02-02得票数 1

1回答

如何从PySpark中的向量列中提取浮点数？

python、apache-spark、pyspark、user-defined-functions、pyspark-dataframes

我的星火DataFrame有以下格式的数据：printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)：from pyspark.sql.types import FloatTypefirstelement=udf(lambda v:float(v[0]

浏览 0提问于2020-02-18得票数 1

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

hadoop、machine-learning、pyspark、cloudera

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一

浏览 4提问于2017-08-30得票数 0

2回答

使用来自另一个dataframe的JSON对象创建新的数据

python、json、pandas、dataframe、pyspark

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。data = [] global data f

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

将JSON对象数组转换为pyspark中的字符串

json、apache-spark、pyspark、apache-spark-sql

我有一个需求，需要从一个PySpark数据帧返回的列创建一个自定义的JSON。因此，我编写了一个UDF，如下所示，它将为每一行从UDF返回一个字符串格式的JSON。参数entities在JSON格式的数组中。def halResponse(entities, admantx, copilot_id): <

浏览 20提问于2020-12-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云