将单列(固定字段宽度) Dataframe转换为多列Dataframe (Databricks，pyspark )

文章/答案/技术大牛

发布

1回答

、、

我有一个从文本文件中摄取的单列数据帧。这种格式没有可靠的分隔符(例如，空格不起作用，因为一些字段中有空格)，但是，列的宽度是固定的，所以我知道每个字段的列名和宽度(所有字段都是字符串)。包含了所有列： ? 因此，我正在尝试弄清楚如何遍历dataframe以使用value列中的适当数据更新所有列。我将非常感谢任何想法，无论是基于我所做的工作，还是更简单的解决方

浏览 34提问于2021-08-12得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

用数据库中的pyspark将纳秒值转换为日期时间

、、、

我正在尝试重新创建我已经用Python使用Databricks完成的一些工作。我有一个数据，其中有一个名为“time”的列，以纳秒为单位。在Python中，我使用以下代码将字段转换为适当的日期时间值：此

浏览 5提问于2022-07-05得票数 0

回答已采纳

2回答

Databricks-将Python DataFrame转换为Scala DataFrame

、、、

我在python，df中有一个dataframe，我想传递它以便能够在% scala中使用。

浏览 0提问于2022-04-26得票数 0

回答已采纳

1回答

映射函数在DataFrame上的应用

、、

我刚刚开始使用databricks/pyspark。我正在使用python/spark 2.1。我已将数据上载到表中。该表是一个充满字符串的单列。我希望对列中的每个元素应用一个映射函数。我将表加载到数据帧中：我能看到的唯一方法是别人说的是将其转换为RDD以应用映射函数，然后返回到dataframe以显示数据。例如，将某些内容附加到列

浏览 1提问于2017-07-31得票数 18

回答已采纳

3回答

Pyspark:将PythonRDD转换为Dataframe

、

有人能引导我把PythonRDD转换成DataFrame吗。 if type(row) == unicode else row) 现在，我希望将PythonRDD转换为</e

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

在databricks* sql中选择一个以“@”开头的列*

、、、

我在databricks中导入数据，首先通过python扫描，然后将数据转换为dataframe，然后将dataframe转换为databricks中的临时视图。然后可以在sql建模中使用此视图。这个过程是不能改变的现在的挑战是:我的一个字段名叫做@timestamp，我可以看到databricks显示<em

浏览 3提问于2021-05-19得票数 1

回答已采纳

1回答

在pyspark中，Inferschema将列检测为字符串，而不是parquet中的双精度

、

问题-我正在使用azure databricks在pyspark中读取拼图文件。有一些列有很多空值并且有十进制值，这些列被读取为字符串而不是双精度。有没有办法推断出pyspark中正确的数据类型？代码- 要读取拼花面板文件- df_raw_data = sqlContext.read.parquet(data_filename[5:]) 它的输出是一个包含100多列的数据帧，其中大多数列都是doubleP.S -我有一个可以有动态列的拼图文件，因此为datafr

浏览 16提问于2020-06-23得票数 0

4回答

如何选择所有以公共标签开头的列

、、

我在Spark 1.6中有一个dataframe，只想从中选择一些列。列名如下：我知道我可以像这样选择特定的列：但是如何一次选择"colA“、"colB”和所有的colF-*列呢？

浏览 3提问于2016-02-11得票数 18

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

、、、

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据：我的pyspark dataframe</

浏览 8提问于2022-06-07得票数 0

2回答

Apache Spark中使用pyspark的Dataframe转置

、、、、

|+-------+-----+-----+-------+------+我将这两个解决方案绑定在一起，但它返回的是dataframe没有指定的使用方法： for x in df.columns:方法二

浏览 4提问于2017-09-28得票数 12

回答已采纳

3回答

删除列中不一致的空格

、、

我必须读取一个以不一致的空格作为列分隔符的文件。有什么建议可以让我用Python来读这篇文章吗？最终，我需要将这些数据放在pyspark数据帧中。

浏览 3提问于2020-03-14得票数 0

2回答

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

、、

在PySpark中，我使用md5函数散列一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1")dfha = df_hive.withColumn("ha

浏览 2提问于2021-04-26得票数 1

回答已采纳

1回答

pyspark中的to_json包含空值，但我需要空值作为空

、、、、

我正在使用pyspark中的to_json将dataframe中的结构列转换为json列，但是在json中忽略了少数结构字段中的空值，我不希望这些空值被忽略。

浏览 6提问于2020-10-14得票数 0

1回答

基于spark结构流的Xml解析

、、、

我正在尝试使用PySpark Structured Streaming on Databricks中的Kinesis source分析数据。我创建了一个Dataframe，如下所示。("streamName", "test-stream-1").load() 稍后，我将数据从base64编码转换为如下所示。df = kinDF.withColumn("xml_data", expr("CAST(data as string)&quo

浏览 36提问于2019-08-15得票数 1

2回答

PySpark dataframe到python不带嵌套字典列表

、、、

|-- confidence: string (nullable = true)我正在尝试将其转换为在火星雨中：转换为python dataframe：python

浏览 4提问于2022-03-10得票数 0

1回答

使一个函数成为.agg()在groupBy语句中的组件，将生成一个AssertionError

、、

否则，在Databricks集群上复制该问题，该集群将自动初始化星体上下文。from pyspark.sql import SparkSession dataframe {'id'

浏览 3提问于2020-07-01得票数 1

回答已采纳

3回答

Python将逗号分隔列表转换为pandas dataframe

、、

我正在努力将逗号分隔的列表转换为多列(7)数据帧。下面创建了一个单列的框架：我已经检查了Pandas内置的csv功能，但是我的csv数据保存在一个列表中。如何才能简单地将列表转换为7列数据框。

浏览 0提问于2015-08-26得票数 21

回答已采纳

2回答

使用来自另一个dataframe的JSON对象创建新的数据

、、、、

我有一个dataframe，它在一个列中存储一个JSON对象。我希望处理JSON对象来创建一个新的dataframe (列的数目和类型不同，每行将从JSON对象生成n个新行)。我在下面编写了这样的逻辑:在迭代原始数据集时，将字典(行)附加到列表中。for item in row.json_object['obj']: # create a dictionary to represent each row of a new dataframedf_fin

浏览 4提问于2022-10-19得票数 1

回答已采纳

1回答

为什么pandas Dataframe.to_csv的输出与Series.to_csv不同？

、、、、

我的问题是，当我尝试使用apply遍历我的Dataframe时，我得到了一个Series对象，to_csv方法给了我一个拆分成行的str，将None设置为""，没有任何,。但是，如果我使用for遍历数据帧，我的方法将获得一个Dataframe对象，并在一行中给出一个包含,的str，而不会将None设置为""。""0.43"" 0

浏览 28提问于2021-04-22得票数 3

回答已采纳

点击加载更多