PySpark 2-合并多行中的记录

、、

我有一个文本文件，其中包含以下记录：Name:ABC^Machine:XXXXXXX^AdditionalInfo2018.05.30 DEF 4 XXXXXXXsparkSession.read.csv("filename") 我将每一行作为单独的行，这使得很难将< BR >和< ER >之间的所有行放在一起。有什么简单的<

浏览 0提问于2018-08-07得票数 0

回答已采纳

1回答

根据update_time将数据帧内的多个spark行按ID合并为一行

我们需要使用Pyspark将基于ID的多行合并到单个记录中。如果该列有多个更新，那么我们必须选择对它进行了最后一次更新的那个。请注意，NULL表示没有对该实例中的列进行更新。因此，基本上我们必须创建一行，其中包含对记录所做的合并更新。因此，例如，如果这是数据帧...寻找类似的答案，但在Pyspark ..Merge rows in a spark scala Da

浏览 18提问于2021-10-14得票数 0

1回答

如何将.sql文件传递到spark.sql，并且.sql文件在谷歌存储中

、、、

我是Spark的新手，正在使用pySpark版本3.0.1，spark使用的Python版是3.6.x。我有合并SQL的SQL文件，并存储在google存储中。from pyspark.sql import SparkSession df.c

浏览 0提问于2021-03-29得票数 0

1回答

如何从PySpark向SQL添加新的和覆盖现有的？

、、、、

所以我在一个SQL数据库中有一个表，我想使用Synapse (PySpark)来，添加新记录，覆盖现有记录()。但是，在PySpark中，我可以使用覆盖模式(这将删除我没有在迭代中推送的旧记录)，也可以使用附加模式(不会覆盖现有记录)。选项A：先加载旧记录，然后在PySpark中合

浏览 4提问于2022-03-23得票数 0

1回答

在pyspark中合并多行中的文本

、

我使用以下代码创建了一个PySpark数据帧 {"category":"A","name":"A1"}, 我尝试了以下代码，但不起作用有没有人能帮我找出我做错了什么，以及实现这一点的最佳

浏览 0提问于2018-03-25得票数 7

回答已采纳

1回答

如何用电火花写多行json记录？

、、

我需要用多行记录格式编写一个json文件。下面是我想从这个对象pyspark.sql.dataframe.DataFrame生成的文件的一个例子。这将生成一个包含带有单个记录的json的文件。RecordNumber": 10, "Zipcode": 709, "ZipCodeType": "STANDARD", "City": "BDA SAN LU

浏览 7提问于2022-08-09得票数 0

回答已采纳

5回答

如何在一个字符串中读取整个文件

、、

我想读取pyspark.lf格式的json或xml文件我的文件被分成多行输入" employees": { "lastName":"Doe" { ]输入分布在多行中。如何使

浏览 2提问于2015-05-26得票数 10

2回答

从CSV文件的字符串列中删除新行

、、、、

我有一个包含多个字段的CSV文件。很少有字段(字符串)的数据跨越到多行。我想把这些多行合并成一行。asdsdsdsds", "John"3, "dfjfdkgjfgn", "Rahul" 前面在中也提出了同样的问题然而，该解决方案是通过功率壳

浏览 0提问于2018-02-19得票数 5

1回答

如何根据id将多行合并为一个单元格，然后进行计数？

、、、

如何使用PySpark将多行合并为基于id的单个单元格？我有一个包含ids和产品的数据框架。首先，我想将具有相同id的产品合并到一个列表中，然后我想计算每个唯一列表出现的次数。,mobile4,music输出：HOME-mobile,2cd-music-video,1 使用sql代码的示例BY SS.SEC_ID, SS.SE

浏览 7提问于2017-12-13得票数 0

回答已采纳

4回答

我正在尝试将这个tuto应用到我的ubuntu中，这就是我所做的： 1-安装spark 2.2....(pyspark)+ java(1.8) + anaconda (Python2.7) 2-编辑.bachrc (添加2行)： export PYSPARK_DRIVER_PYTHON=jupyterexport PYSPARK_DRIVER_PYTHON_OPTS="notebook" 3-lanch Pyspark：$sudo

浏览 120提问于2017-11-10得票数 3

回答已采纳

1回答

在Oracle中使用外部表加载多行列

使用字段的外部table.Some加载平面文件由于列中的多行值而丢失，我们如何加载所有记录，包括多行列？

浏览 9提问于2014-10-27得票数 2

1回答

Pyspark/NiFi :将多行行文件转换为单行文件

、、

我有一个csv文件，其中的记录是多行的，如下所示 1,2,3,4,5,6,7 1,2,3,4,5,6,7 我知道pyspark可以使用multiline :True选项读取这样的文件，但我想将此文件转换为单行，这是业务用例。要使用的技术可以是Pyspark或NiFi。提前感谢

浏览 17提问于2020-10-05得票数 0

1回答

多行在filebeat 6.7 windows版本中不起作用

我希望多行在一个日志合并成一个记录在ES中，这是我的配置部分的多行。-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2},[0-9]{3}'multiline.match: after 但它不能像预期的那样工作，它总是将每一行记录到ES中。

浏览 25提问于2019-12-10得票数 1

1回答

在Spark中合并多行

、、

我想知道在Pyspark中是否有什么简单的方法可以将多行合并为一行，我是Python和Spark的新手，大部分时间都在使用Spark.sql。count2 count3 2 1 1 2 我多次使用spark SQL连接它们，不知道有没有更简单的方法

浏览 0提问于2020-02-07得票数 2

1回答

合并pyspark* dataframe中的重复记录*

、、、、

我有一个有重复ids的pyspark数据帧。某些记录中存在缺失值，重复ids之间的"Time“字段存在差异。-----------+------------------------+-------------------------+---------------------------------+ 如何合并每个字段中的信息并将其合并为一条记录如果有不同的“时间”值，我怎么才能选择最近<

浏览 1提问于2020-08-10得票数 0

1回答

安装pyspark的最新配置是什么？

、、

我正在尝试安装pyspark。遵循这个主题，特别是来自OneCricketeer和zero323的建议。我做了以下工作：2-在我的.bashrc文件中设置：export PYSPARK_PYTHON=

浏览 1提问于2020-09-26得票数 0

1回答

如何将多个记录值合并为一条记录

、

红色块组件有多条记录，每条记录都有一个金额，所有记录金额的总和必须显示在一行中。record1: Amount:100record3: Amount:500 下面是所有记录的合并 record: Amount:800 有没有可能把很多行合并成一个整型的行

浏览 25提问于2021-01-08得票数 0

1回答

PySpark无法使用utf-8编码读取多行。

、、

虽然使用PySpark选项多行+ utf-8 (字符集)，但我们无法以正确的格式读取数据。挖掘后得到了，这是在类似的线路上，但对于databricks。这对很好，但不能在PySpark中阅读。是否有任何遗漏或需要以不同的方式实现？

浏览 3提问于2021-12-06得票数 1

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ david|23|London john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。

浏览 7提问于2021-02-02得票数 0

1回答

将sql中重复的记录行合并为一行

我在一个sql表中有重复的记录。在不同的字段中，行具有相同的id，但值不同。如何将这两行或多行合并成一行。请帮帮忙， 

浏览 1提问于2016-12-21得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

根据update_time将数据帧内的多个spark行按ID合并为一行

如何将.sql文件传递到spark.sql，并且.sql文件在谷歌存储中

如何从PySpark向SQL添加新的和覆盖现有的？

在pyspark中合并多行中的文本

如何用电火花写多行json记录？

如何在一个字符串中读取整个文件

从CSV文件的字符串列中删除新行

如何根据id将多行合并为一个单元格，然后进行计数？

env：‘jupyter’：没有这样的文件或目录

在Oracle中使用外部表加载多行列

Pyspark/NiFi :将多行行文件转换为单行文件

多行在filebeat 6.7 windows版本中不起作用

在Spark中合并多行

合并pyspark* dataframe中的重复记录*

安装pyspark的最新配置是什么？

如何将多个记录值合并为一条记录

PySpark无法使用utf-8编码读取多行。

将变量加载到数据帧中

将sql中重复的记录行合并为一行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐