将pyspark中的dataframe编码为0和1

、、

我正在尝试找到pyspark数据框中具有多个条件的列的特定单词，并创建一个单独的列作为"label“。如果"body“列中的单词与列表(猫和狗)匹配，则将创建”0“和”1“标签。("label", ( when( col("body").like(('% + i + %

浏览 7提问于2021-08-13得票数 0

回答已采纳

1回答

从Ignite 2.8 (as数据库)加载数据时，Spark dataframe编码错误

、、

我在Windows 10上使用Spark 2.4和Ignite 2.8 当我把pyspark dataframe放到点火表中时，它保存得很好。但是，当我将这些数据从Ignite读回Pyspark时，dataframe又回到了系统默认编码(CP1251)。我不明白如何用正确的编码重新获得正确的数据。" ndf=

浏览 13提问于2020-04-09得票数 0

回答已采纳

1回答

基于PySpark数据的自定义聚合

、、、、

我有一个PySpark DataFrame，它有一个列作为一个热编码向量。我想在群后通过矢量加法来聚合不同的热编码向量。例如df[userid,action] Row1: ["1234","[1,0,0]] Row2: ["1234", [0 1 0]] 我希望输出为row：["1234", [

浏览 4提问于2016-12-07得票数 12

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面

浏览 0提问于2021-03-05得票数 0

1回答

如何在Scala中将DataFrame转换为DynamicFrame对象

、、

我正在尝试将一些pySpark代码转换为Scala，以提高性能。在AWS (它使用Apache )中，会自动为您生成一个脚本，它通常使用DynamicFrame对象加载、转换和写入数据。但是，DynamicFrame类并不具有与DataFrame类相同的所有功能，有时您必须将其转换回DataFrame对象，反之亦然，以执行某些操作。下面是我如何在DataFrame中将DynamicFrame对象转换为pySpark对

浏览 1提问于2018-05-17得票数 3

回答已采纳

1回答

星火DataFrame如何区分不同的VectorUDT对象？

、、、、

我正在尝试理解DataFrame列类型。当然，DataFrame不是一个物化的对象，它只是一组Spark的指令，将来要转换成代码。但我认为，这个类型列表代表了在执行操作时JVM中可能出现的对象类型。import pysparkimport pyspark.sql.functions as Fd&g

浏览 1提问于2016-07-31得票数 7

回答已采纳

1回答

Pyspark -> StringIndexer:用数字替换“无”值

、

我有几个“无”值的数据框架。通过StringIndexer，将字符串列转换为浮动列后，"None“值被替换为number。谢谢。(self.rawData, columnName) @staticmethod def TransformNominalToNumeric(dataFrameinputCol = inputColumn, outputCol =

浏览 1提问于2018-04-29得票数 0

2回答

在databricks SQL中选择describe表或显示列的结果

、、、

我需要运行一个查询，如果表中有一个特定的列，它将提供一个输出，如果没有，则给出一些其他值。我尝试了以下查询： THEN 1ELSE 0 *但这带来了一个错误。是否有方法在SELECT语句中访问SHOW COLUMNS或DESCRI

浏览 8提问于2022-04-08得票数 -1

2回答

pyspark.pandas和熊猫有什么区别？

、

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？import DenseVector sdf.withColumn("features", DenseVector(1)) 给出anaconda3/lib/python3

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

迭代两个数据，比较和更改熊猫或火星雨中的值。

、、

Dataframe 1：Pants Germany Red 0最初，我所有的文章都将标志'Buy‘设置为零。Red 我希望检查文章、国家/产地和颜色列是否匹配(所以请检查是否可以在dataframe 2中找到dataframe 1中<

浏览 3提问于2019-09-23得票数 0

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。df.show(5)但是

浏览 2提问于2020-09-23得票数 1

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况：def rename_sdf(df, mapper={}, **kwargs_mapper，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非常容易地创建一个__init__.

浏览 6提问于2020-07-09得票数 1

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所

浏览 16提问于2020-12-30得票数 2

2回答

从PySpark* DataFrame列中删除元素*

我知道PySpark DataFrames是不可变的，所以我想创建一个新列，该列是根据应用到PySpark DataFrame的现有列的转换生成的。我的数据太大了，无法使用collect()。该列是唯一int列表(在给定列表中不重复int)，例如：[1,2][2,3] 上面是一个玩具例子，因为我的实际DataFrame

浏览 9提问于2017-01-12得票数 1

回答已采纳

2回答

如何使用matplotlib绘制pyspark* sql结果*

、、、

我对pyspark是个新手。我想使用matplotlib绘制结果，但不确定使用哪个函数。我寻找了一种将sql结果转换为pandas然后使用plot的方法。

浏览 9提问于2017-07-10得票数 14

回答已采纳

2回答

PySpark上分类输入的随机森林回归

、、、

然而，对我来说，Pyspark上的ML似乎完全不同--特别是当涉及到处理分类变量、字符串索引和OneHotEncoding时(当只有数值变量时，我能够通过以下示例执行RF回归)。虽然有很多处理分类变量的示例，比如和，但我没有成功地使用它们中的任何一个，因为它们中的大多数都超出了我的理解(可能是因为我不熟悉Python ML)。我将感谢任何人谁可以帮助解决这个问题。从这里开始我的困惑

浏览 4提问于2017-09-23得票数 5

1回答

在PySpark数据帧中添加优先级列

、、

我有一个dataframe(input_dataframe) PySpark，如下所示：我想要一个function(update_col_check)，来更新这个数据文件的column(col_check)。函数应该检查该列的值是否为1，然后将col_check的值更新

浏览 0提问于2017-08-13得票数 0

2回答

如何删除星火表列中的空白

、、、、

我想从特定列(Purch_location)中的所有值中删除空格。我使用的是spark表，而不是dataframe或SQL表(但如果需要，我可以使用dataframe或SQL表)。0||02/11/2017| Groceries4|

浏览 6提问于2017-12-03得票数 2

1回答

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

、、、

我有一个pyspark dataframe A，它有3列：-69 40 trp我有另一个pyspark dataframe B，它具有相同的列，但捕获的值将不同：-68 43 trp我希望根据dataframe B中匹配的邮政编码为A的每个记录创建纬度经度对。因此，输出RDD

浏览 2提问于2017-11-16得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从Ignite 2.8 (as数据库)加载数据时，Spark dataframe编码错误

基于PySpark数据的自定义聚合

将Dataframe激发到StringType

如何在Scala中将DataFrame转换为DynamicFrame对象

星火DataFrame如何区分不同的VectorUDT对象？

Pyspark -> StringIndexer:用数字替换“无”值

在databricks SQL中选择describe表或显示列的结果

pyspark.pandas和熊猫有什么区别？

将向量列添加到吡咯DataFrame中

迭代两个数据，比较和更改熊猫或火星雨中的值。

在CSV文件中处理JSON对象并保存到PySpark DataFrame

向类添加功能的最佳方法- PySpark

如何将所有的日期格式转换为日期列的时间戳？

从PySpark* DataFrame列中删除元素*

如何使用matplotlib绘制pyspark* sql结果*

PySpark上分类输入的随机森林回归

在PySpark数据帧中添加优先级列

如何删除星火表列中的空白

基于2个spark数据帧中的匹配zip，创建用于距离计算的纬度和经度对

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐