PySpark:如何处理DataFrame的每一行_如何对PySpark DataFrame中指定列的每一行应用函数_如何处理pyspark dataframe列 - 腾讯云开发者社区

、、、

有没有办法利用map函数将pyspark dataframe的每一行存储到自定义的python类对象中？pyspark dataframe 例如，在上面的图片中，我有一个spark数据帧，我想将id、features、label的每一行都存储到一个节点对象中(具有3个属性node_id、node_features我想知道这在pyspark中是否可行。我试过像这样的

浏览 19提问于2020-07-14得票数 0

1回答

如何为每一行创建重复的值，然后插入一个新的数据帧？

、、、、

如何复制原始dataframe的每一行，然后添加dataframe 2，这样我的最终输出就是:我用python在pyspark dataframe中编写这段代码。

浏览 1提问于2021-02-19得票数 0

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class 'pyspark.sql.dataframe.DataFrame有一篇优秀的StackOverflow文章展示了如何在PySpark：中执

浏览 1提问于2016-10-06得票数 4

回答已采纳

1回答

PySpark:如何处理DataFrame的每一行

、、

我想处理DataFrame的每一行。在这里，列feat包含许多格式为idx:value的元素。我想保留我想要的idx。例如，我想保留idx=1或idx=5。

浏览 14提问于2020-08-20得票数 0

回答已采纳

1回答

将数据帧转换为字符串

、、、、

pandas as pd schema: pysark.sql.dataframe.DataFrame

浏览 5提问于2022-06-10得票数 0

1回答

在保留模式的同时导出熊猫数据

、、

我正在处理一个dataframe，它的每一行都由不同的python字典组成。我希望能够将这些数据存储到磁盘中并移动这些数据，但是将数据保存到.csv文件格式将使格式化信息消失。是否有任何格式可以在不放松模式的情况下导出dataframe？我可以用.parquet格式在pyspark中做类似的事情。熊猫中有类似的东西吗？

浏览 1提问于2017-08-16得票数 1

回答已采纳

1回答

如何通过增加时间戳列来创建数据帧？

、

我可以在dataframe列中插入timestamp。但是我希望timestamp列是唯一的值(或者在本质上增加，甚至是毫秒)。我现在所拥有的-from pyspark.sql.functions import lit df = spark.createDataFrame

浏览 3提问于2019-11-27得票数 0

回答已采纳

1回答

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

、、、

我的公司正转向使用Hadoop & learning进行机器学习。我知道python在库中是非常全面的，但是当我们切换到pyspark时，如果我们需要的东西还没有在pyspark中可用呢？而且，继续使用python可能更容易一些，因为我已经知道了python.So：你能把它们混合在一起，用python编写一部分代码，用pyspa

浏览 4提问于2017-08-30得票数 0

1回答

使用自定义函数的火花

、、

我是Spark的一个程序员，但是我需要在一个项目中用PySpark来做一些事情。我想知道如何在=>中使用自定义行PySpark行映射转换。例如:我有一个dataframe mydf：1 5 33 9 10 我想将这个dataframe转换为另一个dataframe，并在每一行上执行map操作。因此，我设计了一个map函数，它以一行作为输

浏览 6提问于2017-10-20得票数 0

回答已采纳

2回答

将火花数据的每一行写成一个单独的文件

、、

我有一个列的，其中每一行都是一个长字符串(实际上是一个xml文件)。我想遍历DataFrame并将每一行中的字符串保存为文本文件，它们可以简单地称为1.xml、2.xml等等。我似乎找不到任何关于如何做到这一点的信息或例子。我刚刚开始与斯派克和PySpark合作。也许可以在DataFrame上映射一个函数，但是函数必须将字符串写到文本文件中，我无法找到如何做到这一点。

浏览 1提问于2018-04-17得票数 3

回答已采纳

1回答

PySpark -在写入PostgrSQL DB后获取插入的行id

、、、、

我正在使用PySpark通过下面的JDBC命令向PostgreSQL数据库写入一个DataFrame。如何获取插入的行id？它被设置为具有自动增量的标识列。我使用的是下面的命令，而不是单独插入每一行的for循环。table="table1", mode=mode, properties=properties) 我知道我可以使用monotonicallyIncreasingId并在Spark中设置in，但我正在寻找D

浏览 2提问于2019-09-18得票数 2

2回答

Python Pyspark* -如果word (row的值)在停用词字典中，则文本分析/删除行*

、、、

希望有人能帮助我在Pyspark中做一个简单的情感分析。我有一个Pyspark dataframe，其中每一行都包含一个word。我还有一本常见stopwords的字典。我想删除stopwords字典中word (行的值)所在的行。

浏览 40提问于2021-11-12得票数 0

回答已采纳

1回答

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

、、

这些存储桶中的每一个都存储我正在读取到pyspark dataframe中的拼图文件。从每个存储桶生成的pyspark dataframe具有完全相同的模式。我想要做的是迭代这些存储桶，并将所有这些拼图文件存储到一个单独的pyspark dataframe中，该数据框有一个date列，表示dataframe中的每个条目实际来自哪个存储桶。因为单独

浏览 13提问于2019-12-16得票数 0

回答已采纳

2回答

火花聚结和收集，哪一个更快？

、、

我使用pyspark来处理50 15的数据，使用15 m4的AWS。for hour in range(24): hourly_df =

浏览 0提问于2016-09-15得票数 4

回答已采纳

2回答

在PySpark中分解

、、、

我想将包含单词列表的DataFrame转换为DataFrame，每个单词都在自己的行中。如何在DataFrame中的列上分解？下面是我尝试过的一个示例，您可以取消注释每一行代码，并获得以下注释中列出的错误。我在Python2.7和Spark 1.6.1中使用PySpark。from pyspark.sql.functions import split, expl

浏览 2提问于2016-07-06得票数 30

回答已采纳

2回答

星火read.json抛出java.io.IOException:换行符前的字节过多

、、、、

在读取一个大的6gb单行json文件时，我得到了以下错误：spark不使用新行读取json文件，因此整个6 gb的json文件位于一行上：配置：

浏览 12提问于2016-03-14得票数 4

回答已采纳

1回答

将PySpark* DataFrame中的每一行转换为s3中的文件*

、、、、

我正在使用PySpark，并且需要将DataFrame中的每一行转换为JSON文件(在s3中)，最好使用选定列的值来命名该文件。我不知道该怎么做。任何帮助都将不胜感激。

浏览 10提问于2019-08-05得票数 0

2回答

替换星火DataFrame中的列值

、、

请您帮助我替换dataframes spark中的列值： ["2", "xxx", "company 1"],company 44", "company 2"], ["5", &q

浏览 1提问于2022-03-01得票数 0

回答已采纳

2回答

在Spark / PySpark中使用文件名连接数据

、、、

我正在从PySpark中的许多PySpark文件中读取数据。S3键包含创建文件的日历日期，我希望在数据和该日期之间进行连接。是否有任何方法在文件和文件名中的数据行之间进行连接？

浏览 2提问于2015-10-16得票数 0

回答已采纳

1回答

从Pyspark中的数据帧列创建多行固定长度的行

我的输入是pyspark中的dataframe列，它只有一个列DETAIL_REC。ABC12345678ABC98765543ABC98762345 root对于每11个字符/字符串，它必须位于下一行的dataframe中，以便下游进程使用它。预期输出应在dataframe中为多行。

浏览 2提问于2022-03-04得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Pyspark使用自定义函数将每行存储到自定义对象中，例如节点对象

如何为每一行创建重复的值，然后插入一个新的数据帧？

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

PySpark:如何处理DataFrame的每一行

将数据帧转换为字符串

在保留模式的同时导出熊猫数据

如何通过增加时间戳列来创建数据帧？

我是否需要使用普通的python，除了pyspark，或者pyspark拥有我所需要的所有东西？

使用自定义函数的火花

将火花数据的每一行写成一个单独的文件

PySpark -在写入PostgrSQL DB后获取插入的行id

Python Pyspark* -如果word (row的值)在停用词字典中，则文本分析/删除行*

从多个S3存储桶导入pyspark* dataframe，其中有一列指示条目来自哪个存储桶*

火花聚结和收集，哪一个更快？

在PySpark中分解

星火read.json抛出java.io.IOException:换行符前的字节过多

将PySpark* DataFrame中的每一行转换为s3中的文件*

替换星火DataFrame中的列值

在Spark / PySpark中使用文件名连接数据

从Pyspark中的数据帧列创建多行固定长度的行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐