减去Pandas或Pyspark Dataframe中的连续列

在Pandas或Pyspark中，要减去Dataframe中的连续列，可以使用以下方法：

对于Pandas Dataframe：
- 首先，使用iloc方法选择要减去的列。例如，假设我们要减去列A和列B，可以使用df.iloc[:, [0, 1]]来选择这两列。
- 然后，使用sub方法对选定的列进行减法操作。例如，df.iloc[:, [0, 1]].sub(df['C'], axis=0)将列A和列B减去列C。
- 最后，将减法结果赋值给一个新的列。例如，df['D'] = df.iloc[:, [0, 1]].sub(df['C'], axis=0)将减法结果存储在新的列D中。

示例代码：

import pandas as pd

创建一个示例Dataframe

df = pd.DataFrame({'A': 1, 2, 3, 'B': 4, 5, 6, 'C': 7, 8, 9})

减去连续列A和B

df'D' = df.iloc[:, 0, 1].sub(df'C', axis=0)

print(df)

输出结果：

  A  B  C  D

0 1 4 7 -6

1 2 5 8 -6

2 3 6 9 -6

对于Pyspark Dataframe：
- 首先，使用select方法选择要减去的列。例如，假设我们要减去列A和列B，可以使用df.select('A', 'B')来选择这两列。
- 然后，使用withColumn方法对选定的列进行减法操作。例如，df.withColumn('D', df['A'] - df['B'])将列A减去列B，并将结果存储在新的列D中。

示例代码：

from pyspark.sql import SparkSession

from pyspark.sql.functions import col

创建SparkSession

spark = SparkSession.builder.getOrCreate()

创建一个示例Dataframe

df = spark.createDataFrame((1, 4, 7), (2, 5, 8), (3, 6, 9), 'A', 'B', 'C')

减去连续列A和B

df = df.withColumn('D', col('A') - col('B'))

df.show()

输出结果：

+---+---+---+---+

| A| B| C| D|

+---+---+---+---+

| 1| 4| 7| -3|

| 2| 5| 8| -3|

| 3| 6| 9| -3|

+---+---+---+---+

以上是在Pandas和Pyspark中减去Dataframe中连续列的方法。这些方法适用于处理数据分析、数据清洗、特征工程等场景。对于Pandas Dataframe，可以使用Pandas库进行数据处理和分析；对于大规模数据集，可以使用Pyspark库进行分布式计算和处理。腾讯云提供了云原生数据库TDSQL、云数据库CDB、云数据仓库CDW等产品，可以满足不同规模和需求的数据存储和处理需求。

减去Pandas或Pyspark Dataframe中的连续列

python、pandas、pyspark、multiple-columns、subtraction

我想在pandas或pyspark数据帧中执行以下操作，但我仍然没有找到解决方案。我描述的操作可以在下图中看到。请记住，输出数据帧在第一列上不会有任何值，因为输入表中的第一列不能被前一列减去，因为它不存在。

浏览 1提问于2016-07-12得票数 4

回答已采纳

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

python、pandas、apache-spark、pyspark、apache-spark-sql

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

python、databricks

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

python、pandas、apache-spark、pyspark

我试图使用pyspark.pandas API在数据库上构造数据的共生矩阵。该代码在熊猫中运行良好，但在使用pyspark.pandas时出现了错误。coocc = psdf.T.dot(psdf)我得到了这个错误我查过医生了。pyspark.pandas.DataFrame.dot() 以串联作

浏览 8提问于2022-10-14得票数 0

回答已采纳

3回答

我可以将pandas数据帧转换为spark rdd吗？

pyspark

Pbm： a)读取一个本地文件到Panda dataframe中，比如PD_DF。b)操纵/海量PD_DF并添加列到dataframe中。c)需要使用spark将PD_DF写到HDFS。

浏览 0提问于2015-04-15得票数 4

1回答

如何对pyspark* dataframe列应用函数*

python-3.x、dataframe、pyspark

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (IN

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

python、pandas、apache-spark、pyspark、rdd

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。[2, 'b', {'c': 1, 'd':3}],内部列表中的第

浏览 1提问于2018-04-07得票数 1

1回答

如何在熊猫数据栏1栏中减去数字？

python、pandas、dataframe

目前，我正在使用Pandas，并创建了一个有两个列的dataframe：1350.00 03.500如何减去第一个值，然后减去前两个值的和，连续地(类似于excel)这样做：1350.00

浏览 0提问于2018-03-07得票数 1

回答已采纳

2回答

pyspark.pandas和熊猫有什么区别？

pandas、pyspark

开始在Databricks上使用PySpark，我看到我可以在pandas的同时导入pyspark.pandas。有什么不同吗？我想这不像koalas，对吧？

浏览 13提问于2022-09-20得票数 0

1回答

我可以给熊猫发送一个火花数据作为论据吗？

python、pandas、dataframe、apache-spark、pyspark

是否有可能发送一个火花数据作为一个论据给熊猫UDF和得到一个熊猫的数据作为回报。下面是我正在使用的示例代码集，并且在调用函数时出错：from pyspark.sql import SparkSessiondef count_udf(v: pd.DataFrame) -> pd.DataFrame: return v

浏览 4提问于2020-11-26得票数 1

回答已采纳

1回答

PySpark访问DataFrame列的foreachPartition()自定义函数

python、apache-spark、dataframe、iterator、pyspark

我有一个叫做“内部”的函数。我想要将这个函数应用到中。为此，我在我创建的dataframe上调用"foreachPartition(inside)“方法。"inside“函数需要dataframe值。dataframe如下所示：DataFrame[lon: double, lat: double, t: bigint]def inside(iteratortest=small_df.fo

浏览 1提问于2018-05-22得票数 0

回答已采纳

2回答

如何创建空的考拉df

python、spark-koalas

我正在尝试使用以下命令创建空的考拉DataFrame但是我得到了以下错误我也尝试了执行命令，但发现了类似的错误 df = ks.DataFrame(columns=['col1

浏览 3提问于2020-08-24得票数 0

2回答

熊猫数据转换为PySpark的问题？

python、python-2.7、pandas、pyspark、pyspark-sql

所以我试着把熊猫的数据转换成一个RDD，如下所示：spDF = sqlContext.createDataFrame(df['A'spDF.show()TypeError: Can not infer schema for type: <type 'unicode'> 我去是为了看看是否有类似于编码参数的东西是否知道如何将特定的熊猫数据栏转换为Pyspark</

浏览 4提问于2016-03-17得票数 1

回答已采纳

1回答

写入Oracle: TypeError:期望字符串或字节对象

python、pandas、oracle、sqlalchemy、cx-oracle

我试图将具有51列的65000+行推送到oracle，但最终收到了一个类型错误。是否有办法找出该错误来自哪一列，以便进行调试。另一个问题--在Oracle中，python dataframe中的Datatype "Object“能被读取为'Number‘Dtype吗？\io\sql.py", line 589, in to_sql File "C:\Progra

浏览 12提问于2022-01-07得票数 2

回答已采纳

1回答

PySpark数据显示错误的值

python、pandas、dataframe、pyspark、spark-dataframe

我刚刚从Pandas转到了PySpark dataframe，发现在PySpark dataframe中打印出相同的列会给出错误的值。下面是一个例子:使用Pandas：print(df_pandas["CRIMEID"].head(5)

浏览 1提问于2018-02-27得票数 0

回答已采纳

1回答

FInd数据帧中的第一个非零元素

python、dataframe、pyspark

我正在处理一个pyspark dataframe，并尝试查看是否有一种方法可以提取spark dataframe中第一个非零元素的索引。我自己添加了索引列，因为pyspark不支持它，而不是pandas。

浏览 29提问于2021-10-08得票数 0

1回答

用电火花将稠密向量转换成数据

python、pandas、apache-spark、dataframe

首先，我尝试了下面链接中的所有内容来修复我的错误，但是没有一个有效。我正试图将密集向量转换为dataframe (最好是星火)，并附带列名并遇到问题。我在中的列是使用创建的一个向量，现在我想将它转换回一个dataframe，因为我想在向量中的一些变量上创建图。转换为Pandas dataframe，之后我无法将值拆分为不同的列</em

浏览 0提问于2018-09-27得票数 3

回答已采纳

1回答

当索引是datetime时，如何从两个pandas* datetime序列DataFrames中减去彼此？*

python、pandas、datetime、dataframe、machine-learning

我尝试将两个DataFrames的索引都是DateTime值的两个pandas datetime序列DataFrames的值相减。有问题的两个DataFrames具有相同数量的列。我想要从第一个DataFrame中的列的值中减去第二个DataFrame中的列中</e

浏览 17提问于2018-08-05得票数 3

回答已采纳

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我

浏览 0提问于2016-07-27得票数 1

5回答

火花放电中柱的比较

python、apache-spark、pyspark

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释的那样，

浏览 7提问于2016-06-07得票数 29

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

减去Pandas或Pyspark Dataframe中的连续列

创建一个示例Dataframe

减去连续列A和B

创建SparkSession

创建一个示例Dataframe

减去连续列A和B

相关·内容

减去Pandas或Pyspark Dataframe中的连续列

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

Databricks:如何将行的值转换为数组类型

pyspark.pandas API:构造共生矩阵，.dot()不支持数据作为输入。

我可以将pandas数据帧转换为spark rdd吗？

如何对pyspark* dataframe列应用函数*

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

如何在熊猫数据栏1栏中减去数字？

pyspark.pandas和熊猫有什么区别？

我可以给熊猫发送一个火花数据作为论据吗？

PySpark访问DataFrame列的foreachPartition()自定义函数

如何创建空的考拉df

熊猫数据转换为PySpark的问题？

写入Oracle: TypeError:期望字符串或字节对象

PySpark数据显示错误的值

FInd数据帧中的第一个非零元素

用电火花将稠密向量转换成数据

当索引是datetime时，如何从两个pandas* datetime序列DataFrames中减去彼此？*

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

火花放电中柱的比较

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐