任何列中存在特定值时的子集dataframe [重复]_根据列中的重复值拆分DataFrame_当python中存在重复条目时，如何转置dataframe列？ - 腾讯云开发者社区

python、pandas、dataframe

我正在使用的Dataframe如下： Name NoOfTrans Avg_pass_time Cons.Error RunCounts Jan 0 Failed:abcd 4 Jan 4 Jan 4 Jan

浏览 5提问于2022-09-30得票数 1

回答已采纳

2回答

附加和处理重复

python-3.x、pandas

我有一个带有timeseries数据的df。现在，我想添加更多的数据，通过使用DataFrame.append()来实现。将附加的数据包含新列和重复值。因此，我通过在追加后删除重复的值来清理。有更好的办法吗？目前，它运行得很好，但我害怕在大型DataFrames上重复搜索。这是一个df:示例 2022 2023 2024 2025 2021-02-15 17.029 16.286 15.525 15.510 2021-02-12 17.160 16.300 15.633 15.574 2021-02-11 17.089 16

浏览 2提问于2021-02-16得票数 0

1回答

R:使用来自多列的数据创建因子

r、refactoring、grouping、multiple-columns

我想创建一个专栏，用来说明病人是否有抑郁症的共同诊断。问题是，诊断可以记录在以下四栏之一： ComorbidDiagnosis； OtherDiagnosis； DischargeDiagnosis； OtherDischargeDiagnosis。我一直在用 levels(dataframe$ynDepression)[levels(dataframe$ComorbidDiagnosis)=="Depression"]<-"Yes" 对于所有4列，但我不知道如何编码那些在任何列中没有诊断的人。我试过： levels(datafr

浏览 1提问于2014-12-05得票数 0

1回答

如何调试spark dropduplicate和join函数调用？

scala、apache-spark

有一些包含重复行的表。我正在尝试减少重复并保持使用最新的my_date (如果有多行具有相同的my_date，则无论使用哪一个) val dataFrame = readCsv() .dropDuplicates("my_id", "my_date") .withColumn("my_date_int", $"my_date".cast("bigint")) import org.apache.spark.sql.functions.{min, max, grouping} val aggregated

浏览 8提问于2019-11-05得票数 0

1回答

SQL的LIKE与R的grep()

sql、r、string、sql-like

我有一个尝试在R中重新创建的SQL过程，但是遇到了涉及SQL的LIKE函数的障碍。在SQL中，有一个表，其中有一个名为Keys的列。我想要保留任何行，这样"RR6GT|DS694100"就等于该行中的LIKE的值。当我尝试使用grep()在R中重新创建它时，所有保留在SQL中的观察值都存在，还有许多其他的观察值在SQL中是NOT LIKE。例如，在SQL中，保留具有以下Keys值的列： "____[26ABEGJKPRT]%" "____[2t]%" "_____|_S%" 当我将"_“和"%”替换为"?

浏览 1提问于2021-09-21得票数 0

3回答

Spark SQL DataFrame - distinct() vs dropDuplicates()

scala、apache-spark、pyspark、apache-spark-sql

在查看DataFrame应用程序接口时，我可以看到两种不同的方法执行相同的功能，用于从数据集中删除重复项。我可以理解dropDuplicates(colNames)将只考虑列的子集来删除重复项。这两种方法之间还有其他区别吗？

浏览 0提问于2016-02-27得票数 22

1回答

根据多列(但不是全部)删除两个重复项

r、dplyr、duplicates、distinct

我想在一个dataframe中删除两个(所有)重复行集，其中行由一些列(而不是所有列)重复。下面的内容与我想要的非常接近，但它需要复制整个行，而不仅仅是某些列(变量)。 df[!(duplicated(df) | duplicated(df, fromLast = TRUE)), ] 我将如何修改代码以指定列/变量，就像对不同的函数所做的那样？ df.unique <- distinct(df, var1, var2, var3)

浏览 1提问于2022-08-08得票数 0

1回答

Python数据修改函数不一致？

python、pandas、function

我有这4个函数，我用它来修改一个dataframe (而不是按照我的意图返回任何东西)。前3种功能工作得很好。dataframe会根据函数进行修改，但是第4 (drop_na)函数似乎不起作用。它应该删除指定列名上带有NA的所有行，但不起作用。当我运行函数时，不会抛出错误。任何想法，为什么会发生这种情况，以及如何解决这个问题(如果可能的话不返回)。谢谢! def composite_key(dframe, new_key, key1, key2): dframe[new_key] = dframe[key1]+"-"+dframe[key2].astype(str

浏览 3提问于2022-08-27得票数 0

3回答

检查一行列之间的重复项

python、pandas、numpy

我正在尝试遍历一个dataframe，以检查特定行的列中是否有任何重复项，然后结果应该返回整个行。我感兴趣的专栏从Prod_code_1上升到Prod_code_47。我的部分问题是如何格式化列名，同时比较该行的一列中的值是否与该行的相邻列匹配。如果特定行的列中有任何重复项，则结果应该返回整个行/True。我想要的列如下所示( dataframe有许多其他列，而不仅仅是下面所示的列)： Prod_code_1 | Prod_desc_1 | Prod_code_2 | Prod_desc_2 | DIS | DIS | DIS | DI

浏览 0提问于2019-03-13得票数 0

回答已采纳

1回答

将熊猫的数据插入sql db -键不适合列。

python、pandas、postgresql、sqlalchemy

我有一个大约10列的数据库。有时，我需要插入一行，其中只有3列是必需的，其余的列不在dic中。要插入的数据是一个名为row的字典：(此插入是为了避免重复) row = {'keyword':'abc','name':'bds'.....} df = pd.DataFrame([row]) # df looks good, I see columns and 1 row. engine = getEngine() connection = engine.connect() df.to_sql('temp_insert_d

浏览 10提问于2022-02-15得票数 0

回答已采纳

1回答

为什么使用.loc[]访问熊猫数据栏会产生重复行？

python、pandas、csv、dataframe、duplicates

为什么.loc[]在我的DataFrame中产生重复行？我正在尝试从m3中选择几个列，这是一个有47列的DataFrame，以创建一个名为output的新DataFrame。问题是:在使用.loc[]访问m3的列之后，输出比m3开始时有更多的重复。这些复制品是从哪里来的？我还没有在网上找到任何关于.loc[]复制行的信息。顺便说一下，输出DataFrame是在读取output = m3.loc[...]的行上声明的。 “守则”： print("ARE THERE DUPLICATES in m3? ") print(m3.duplicated().loc[lambda x:

浏览 0提问于2018-11-16得票数 3

回答已采纳

3回答

熊猫-跨dataframe比较每一行并列出重复值的数量。

python、pandas

我想向现有的dataframe中添加一个列，该列可以比较dataframe中的每一行，并列出重复值的数量。(我不想删除任何行，即使它们与另一行完全重复) 重复列应该显示如下所示： Name Name1 Name2 Name3 Name4 Duplicates Mark Doug Jim Tom Alex 5 Mark Doug Jim Tom Peter 4 Mark Jim Doug Tom Alex 5 Josh Jesse Jim Tom Alex 3 Adam Cam Max Matt James 0

浏览 14提问于2022-04-22得票数 1

回答已采纳

1回答

如何访问表中的某些数据？

python、pandas、matplotlib

假设我有一个人的数据表，其中的列是Name、Age和Height。然而，我只想在散点图上显示与名为“George”和“Tom”的人的关系，以及他们的年龄。下面是数据示例： import pandas as pd import matplotlib.pyplot as plt people = (['Tom', 18, 175], ['Steph', 24, 164], ['George', 23, 182], ['George', 29, 162], ['Tom', 17, 78], [&#

浏览 12提问于2019-09-28得票数 0

回答已采纳

3回答

如何使用来自另一个dataframe的新值更新？

python、pyspark

我有两个火花数据： Dataframe A： |col_1 | col_2 | ... | col_n | |val_1 | val_2 | ... | val_n | 和数据交换B： |col_1 | col_2 | ... | col_m | |val_1 | val_2 | ... | val_m | Dataframe可以包含来自dataframe A的重复行、更新行和新行。我想在spark中编写一个操作，其中我可以创建一个新的dataframe，其中包含来自dataframe A的行以及来自dataframe B的更新行和新行。首先，我创建了一个哈希列，其中只包含不可更新的列。这是

浏览 3提问于2018-05-11得票数 4

回答已采纳

1回答

AssertionError:尝试使用`np.nan`删除行时blk ref_locs中的空白

python、pandas

我有一只形状为12k * 150的熊猫DataFrame。其中一列是Lat。 import pandas as pd df = pd.DataFrame({ 'id': [0, 1, 2, 3], 'Lat': [83.21, np.nan, np.nan, 83.42], 'Lon' [-19.21, np.nan, np.nan, -20.56] }) 这不是一个可重复的例子，因为我的DataF

浏览 29提问于2022-09-23得票数 0

1回答

如何将权重应用于dataframe中的特定列，以聚合新的“得分”列？

r、dataframe、matrix

作为一个可重复的例子，假设您有以下R数据： set.seed(100) df <- data.frame(Name=letters[1:5], Apples=sample(1:10, 5), Oranges=sample(1:10, 5), Bananas=sample(1:10, 5), Dates=sample(1:10, 5)) 并且您希望将以下权重应用于dataframe： Weights <- c(Apples = "3", Oranges = "2", Bananas = "1") 若要生成新的汇总得分列，请执行以下操作。

浏览 1提问于2016-03-13得票数 1

回答已采纳

2回答

如何键入星火DataFrame列？使用火花放电

apache-spark、pyspark

我以以下方式创建了一个DataFrame： from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate() df = spark.read.csv("train.csv", header=True) 我的DataFrame的架构如下： root |-- PassengerId: string (nullable = true) |-- S

浏览 3提问于2018-10-18得票数 0

回答已采纳

2回答

通过传入字符串或其他对象，选择带有loc的Pandas DataFrame中的所有行

python、pandas、dataframe、slice

我正在编写一个函数，用于从熊猫DataFrame中选择行的子集。函数看起来是这样的， def get_predictions(df: pd.DataFrame, subset: str) -> pd.DataFrame: return df['properties', 'prediction'].loc[subset] 我希望这个函数能够处理我想要选择DataFrame中所有行的情况。一个解决方案是使子集参数默认为None，如果子集参数设置为None，则返回整个DataFrame。 def get_predictions(df: pd.DataF

浏览 0提问于2021-09-29得票数 0

回答已采纳

1回答

如果是在另一个df中，如何突出显示熊猫df中的一行？

python、pandas、dataframe

如果存在于另一列中，则尝试突出显示数据中某一列中的任何一行。我试过： apics_tonal_features.style.apply(lambda x: ["background: red" if v.isin(blasi_final_features['x']) else "" for v in x], axis = 1) 但是由于我在比较字符串，它给了我错误。 AttributeError: 'str' object has no attribute 'isin' 下面是我正在使用的数据帧的一些可重复代码 a

浏览 11提问于2022-04-21得票数 0

2回答

使用间隔调用特定列

r、dataframe、intervals

我有一个包含许多列的数据框架。我想创建一个只包含一些列的新数据框，所以我使用了subset，它工作得很好。 newDF<-subset(oldDF, col1==1) 更复杂的是--我希望使用一个间隔来标识该子集中的一列，比如X。例如，我希望新的dataFrame包含oldDF中Col2Name值大于零的所有行 X <- "colName2" newDF<-subset(oldDF, X>0) 问题是，当我使用X运行它时，我什么也得不到。当我使用特定的列名(而不是一个间隔)运行它时 newDF<-subset(oldDF, colName2>

浏览 0提问于2020-10-16得票数 0

1回答

在所有列上添加unique约束的代价是多少

mysql、sql

一般来说，我看到了两种简单的方法来确保表中没有重复的行。在表的所有列上添加唯一约束(在我的示例中为3)创建一个主键id，它是其他列的散列后者将有更多的工作要实现。与3列相比，它是否提供了int主键的性能改进？或者，当mysql检查唯一性时，内部是否已经在列上使用了某种散列？编辑:列的类型为int(11)、int(11)和datetime(6)

浏览 28提问于2018-06-04得票数 1

1回答

在pandas中将一个数据框中重复的所有列值添加到另一个数据框中

python、pandas、dataframe、concatenation

具有两个数据帧： df1 = pd.DataFrame({'a':[1,2,3],'b':[4,5,6]}) a b 0 1 4 1 2 5 2 3 6 df2 = pd.DataFrame({'c':[7],'d':[8]}) c d 0 7 8 目标是将所有df2列值添加到df1中，重复并创建以下结果。假设两个数据框不共享任何列名。 a b c d 0 1 4 7 8 1 2 5 7 8 2 3 6 7 8

浏览 33提问于2020-08-25得票数 2

回答已采纳

1回答

使用R过滤基于另一个数值向量的多个数值列

我有一个包含2个数字列的大型数据帧(具有重复的数字)。我需要使用另一个数字向量中的值过滤这两个列，并在这两个列中创建一个具有匹配条目的新数据帧。例如：Dataframe df有两列A和B： A . B 1 . 2 1 . 3 5 . 7 8 . 7 7 . 1 然后，我有一个向量ind=c(1,2,5,7) 所需的输出将是仅包含以下行的新数据帧： A . B 1 . 2 5 . 7 7 . 1 注意:只保留A和B的值都与向量值匹配的那些行。

浏览 0提问于2018-11-04得票数 0

1回答

如何重塑数据格式并将重复出现的列转换为数据行？

r、aggregate、reshape、transpose

我有一个具有循环列的dataframe (间隔为5)。这就是它的样子:我有5种类型的列，它们会随着时间的推移而重复。重复出现的列在其名称中有一个后缀，这也可以删除/重命名，以便它们都匹配。我想要做的是将这些重复出现的列转换为行，以便在最后只有5个列(Date、PX_LAST、PX_HIGH、PX_VOLUME、Name)。然后，我将能够按日期、名称等对数据进行分组，并做许多其他事情。我尝试了一些管道操作符%>%的操作，但目前它并没有真正起作用。因为我已经没有任何想法了，我想，也许你可以帮我。提前感谢！

浏览 0提问于2019-04-19得票数 1

回答已采纳

1回答

如何从R中相同的原始列中找到列的最大值和其他列的其他信息？

r、dataframe

我有一个有三列的数据框架，其中两列是character，第三列是numeric。如何在从行中获取所有其余信息时，找到数值列的最大值？到目前为止，我已经： apply(dataframe, 2, max)

浏览 0提问于2015-10-31得票数 2

回答已采纳

1回答

我试着在熊猫上看到重复的行，但我得到的回报不是重复的？

python、pandas、duplicates

当我运行代码时 print len(combined_dataframe[combined_dataframe.duplicated()]) print sum(combined_dataframe.duplicated()) 两者都告诉我，我有130,600个重复行，所以我想看到其中的一些重复行。所以我用了密码 print combined_dataframe[combined_dataframe.duplicated()].head() 它给我的回报是这样的数据集。 article_ID user_id date_clicked article_id send_time

浏览 13提问于2016-02-19得票数 1

回答已采纳

2回答

通过将两个稀疏列连接在Pandas Dataframe中创建新的密集列

python、pandas、while-loop

我有一个有三列的dataframe，“组织名称”、“类型”、“组织类型”。“类型”和“器官类型”是同一回事。我想要创建一个名为“Org”的新列，它接受'Type‘列中的字符串，如果'Type’列为空，则在'Type of Org‘列中取名称。 Example of current dataframe: Name of Organization Type Type of Org Tyco Retail Retail Mac Service

浏览 1提问于2017-02-02得票数 0

回答已采纳

1回答

Python:将使用熊猫的SQL结果读取到要在for循环中使用的列表中的问题

python、sql、excel、pandas

我是Python新手。我有两个SQL视图。 DBOP4和DBOP4_SELECTION DBOP4包含许多列和许多行。DBOP4的一列是SaBeNummerDebitoren。 DBOP4_SELECTION： SELECT SaBeNummerDebitoren AS SBNr, [Sachbearbeiter Debitoren] AS SBName FROM dbo.DBOP4 GROUP BY SaBeNummerDebitoren, [Sachbearbeiter Debitoren] 我尝试编写一个python脚本，该脚本输出DBOP4的结果，

浏览 4提问于2020-07-04得票数 1

3回答

使用管道和点的子集数据帧列

r、dataframe、pipe、subset、magrittr

我想学习如何正确地使用“。当用磁铁矿做衬垫的时候。给出一个数据myDataframe， myDataFrame <- data.frame(c(1,2,3,3,3,4,5), c(10,11,12,13,14,15,16)) # c.1..2..3..3..3..4..5. c.10..11..12..13..14..15..16. #1 1 10 #2 2 11 #3

浏览 0提问于2018-02-21得票数 1

回答已采纳

4回答

检查Pandas dataframe列中的重复值

python、pandas、dataframe、duplicates

中有一种方法可以检查dataframe列是否有重复的值，而不实际删除行？我有一个函数将删除重复的行，但是，我只希望在特定列中实际存在重复的情况下运行它。目前，我将列中唯一值的数量与行数进行比较:如果惟一值少于行数，则存在重复值并运行代码。 if len(df['Student'].unique()) < len(df.index): # Code to remove duplicates based on Date column runs 是否有一种更容易或更有效的方法来检查在特定的列中是否存在重复的值，使用熊猫？我正在处理的一些示例数据(只显示了两列)。如

浏览 5提问于2018-05-08得票数 76

回答已采纳

3回答

使用R更改所有列的数据R中的所有值，特定列除外

r、dataframe、subset

我希望更改除特定列之外的所有列的dataframe中的所有值。我该怎么做？问题1:我的下面的代码将在任何时候找到13的地方更改dataframe中的所有值。但我不想更改C列。 df <- data.frame(list(A=c(12,14,13), B=c(16,13,18)),c=c(13,20,21)) df[df == 13]<-NA print(df) 我也试过这样做： df <- data.frame(list(A=c(12,14,13), B=c(16,13,18)),c=c(13,20,21)) df[df[,1:ncol(df)-1] == 13]<-

浏览 1提问于2017-07-17得票数 2

回答已采纳

1回答

用系列/字典中定义的值替换部分df列

python、pandas、dataframe、series

我在DataFrame中有一个列，它经常有重复索引。有些索引有异常，需要根据我所做的另一个Series进行更改，而其余的索引则没有问题。Series指数是独一无二的。下面是几个变量来说明 df = pd.DataFrame(data={'hi':[1, 2, 3, 4, 5, 6, 7]}, index=[1, 1, 1, 2, 2, 3, 4]) Out[52]: hi 1 1 1 2 1 3 2 4 2 5 3 6 4 7 exceptions = pd.Series(data=[90, 95], index=[2, 4]) Out[

浏览 3提问于2021-11-02得票数 1

回答已采纳

1回答

Google索引和匹配问题

google-sheets

--我在谷歌页面中跟踪客户端，它有两个不同的选项卡，RawData和CleanedData。这两个选项卡都有11个不同的列，其中一个是“购买日期”列。 RawData选项卡跟踪注册了info会话的所有客户端，不管他们是否进行了购买，因此，每次客户端进行购买时，它都会填充另一行的购买日期。在cleaneddata选项卡中，我希望将RawData选项卡中的所有数据清除为每个客户端的一行，例如，如果客户端"X“在RawData选项卡中有5行数据，但其中只有一行有他的购买日期，那么我想将带有购买日期的该行拖到cleaneddata选项卡中。我遇到的问题是，购买日期没有复制到clean

浏览 1提问于2022-01-23得票数 0

1回答

R中多列数据的排序和子集？

r、dataframe、subset

我想按某个列和子集进行排序，这是一个多列的dataframe，但是所使用的命令无效。 print(df[order(df$x) & df$x < 5,]) 这并不是对结果进行排序。为了调试这一点，我生成了一个带有1列的测试数据，但是这种“简化”产生了意想不到的效果。 df <- data.frame(x = sample(1:50)) print(df[order(df$x) & df$x < 5,]) 这并不是对结果进行排序，所以我觉得我已经重现了这个问题，而是用了更简单的数据。将流程分解为第一次排序，然后重新设置使我发现排序在本例中不生成datafr

浏览 4提问于2017-03-08得票数 1

回答已采纳

1回答

如何检查大熊猫数据中是否有重复样本？

python、pandas、dataframe

我有一个大型的DataFrame，它有大量的列和行。每一行都是一个样本。例如： df = pd.DataFrame({'col1':[1,5,9,7,8,6],'col2':[1,5,9,7,9,6], 'col3':[1,5,6,7,8,6]}) 假设df是一个大的DataFrame，我想知道如何方便地检查这个熊猫DataFrame中是否有重复的样本，然后打印关于重复样本的行索引。谢谢更新:我想检查第1行(1,1,1)是否等于第2行(5,5,5)或row3 (7,7,7)，row4 (8,9,8)等等。重复检查按行执行。

浏览 2提问于2021-06-20得票数 0

回答已采纳

2回答

如何根据其他列中的一个条件和两个条件删除重复项？

python、pandas、dataframe、duplicates

我正在尝试根据Dataframe中的两列删除重复的"Box“行： import pandas as pd d = {'Box': ['A1', 'A1', 'A2', 'A3', 'A4', 'A5', 'A5'], 'Status': ['Prep', 'Ready', 'Prep', 'Prep', 'Ready', 'Prep', &

浏览 4提问于2019-06-03得票数 1

回答已采纳

1回答

Parallel For Loops:查找排序数组是否包含重复元素

c++、multithreading、concurrency、synchronization

它是一个巨大的数组，包含升序排列的元素。我们需要找出数组是否包含任何重复的元素。暴力方法很简单，当我们遍历循环时，如果对于任何给定的索引i，ai == ai+1，我们可以提前返回，表明该数组包含重复的元素。然而，在多核环境中，我们绝对可以通过并行运行多个for循环来提高性能，每个循环都在输入循环的一部分上工作。我们如何在那里实现同步？提前返回是如何工作的？

浏览 0提问于2019-05-10得票数 0

2回答

用滑雪板规范一组熊猫数据栏

python、pandas、scikit-learn、standardized

我有一张有四列的表格: CustomerID、Recency、Frequency。我需要标准化(规模)列最近，频率和收入，并保存列CustomerID。我使用了这个代码： from sklearn.preprocessing import normalize, StandardScaler df.set_index('CustomerID', inplace = True) standard_scaler = StandardScaler() df = standard_scaler.fit_transform(df) df = pd.DataFrame(data =

浏览 5提问于2021-06-01得票数 1

回答已采纳

1回答

Python_Pandas:在重复列中，选择最近日期的列，然后选择得分最高的列。

python、pandas

import pandas as pd import numpy as np #Create sample df with following columns; iP,date,score,appOwner,color df = pd.DataFrame( {"iP":['111.11.111.112', '111.11.111.113', '111.11.111.112', '111.11.111.112', '111.11.111.113', '111.

浏览 2提问于2017-03-28得票数 1

回答已采纳

2回答

尝试子集数据帧时键入错误

python、pandas

我正在尝试基于列的值来创建dataframe的子集。然而，当我运行我的代码时，我会得到以下错误 TypeError：“串联”对象是可变的，因此不能散列。我的代码在下面，谢谢！ #read data df = pd.read_csv('Workbook.csv') #turn certain columns into categories df['Class'] = df['Class'].astype('category') df['Pos'] = df['Pos'].astype(&#

浏览 1提问于2019-05-12得票数 0

1回答

将另一个数据帧中的多个标量乘以MultiIndex Pandas数据帧

python、pandas

如何将MultiIndex数据帧中的列与多个标量(来自另一个数据帧)相乘？对于普通的数据帧，它是fairly straightforward，但当它到达MultiIndex数据帧时，我会感到困惑。有什么建议吗？虚拟数据： import pandas as pd import numpy as np def mklbl(prefix, n): return ["%s%s" % (prefix, i) for i in range(n)] miindex = pd.MultiIndex.from_product([mklbl('C', 4), mk

浏览 8提问于2019-02-06得票数 1

回答已采纳

2回答

在可选列或缺少列时，在Python/Pandas中查询数据帧

python、pandas、dataframe

我正在用Python/Pandas开发一个脚本来比较两个数据格式的内容。这两个数据文件都包含固定列表中列的任何组合，例如： "Case Name", "MAC", "Machine Name", "OS", "Exec Time", "RSS" 某些列的组合被用作唯一的键，但其中一些列可能有时缺少。另外，两个数据文件都包含(和遗漏)相同的列(以避免额外的复杂性)。因此，如果我从另一个dataframe获得一个密钥，那么我想从一个dataframe中检索一个行(我确定该键匹配每个dataframe

浏览 3提问于2021-10-29得票数 1

回答已采纳

3回答

根据条件打印行

python、arrays、pandas、dataframe、numpy

我有以下代码： import pandas as pd df = {'sport' : ['football', 'hockey', 'baseball', 'basketball'], 'league': ['NFL', 'NHL', 'MLB', 'NBA'], 'number': [1,2,3,4]} df = pd.DataFrame(df) df if df['number'] >=

浏览 6提问于2022-07-12得票数 0

回答已采纳

2回答

基于另一个dataframe中值的dataframe子集

我在一个数据栏中有大约20,000个唯一标识符。我希望从第二个更大的dataframe (大约180,000行)中筛选数据，以便只留下具有匹配标识符的行。所以，dataframe 1看起来像这样 df1 <- c("identifierab1","identifier56gh","identifier4znvh2") dataframe 2有72列，但其中一列也有标识符。 df2$relevantcolumn <- c("identifierab1", "identifierab1",

浏览 3提问于2019-12-04得票数 0

回答已采纳

1回答

将列的向量化分配给列的子集

python、pandas

我有一个Pandas DataFrame，包含i、行和j列。我希望将这个DataFrame中的值替换为第二个DataFrame中的所有值，后者具有相同的i行，但有k列，其中k是j的子集。有效的办法是： for col in df2.columns: df1[col] = df2[col] 有没有一种更快、更无头绪的方法？

浏览 2提问于2019-01-24得票数 1

回答已采纳

2回答

Pandas DataFrame查询

python、pandas

我是Python新手，我正在尝试从DataFrame中获取行/列的子集： In [1]: from pandas import Series, DataFrame import pandas as pd import numpy as np In [2]: example=DataFrame(np.random.rand(6,5),columns=['a','b','c','d','e']) In [3]: example.a={2,4,6,8,10,12} In [4]: example Out[4]:

浏览 1提问于2016-04-12得票数 0

回答已采纳

3回答

如何在熊猫DataFrame中找到与正则表达式匹配的实际唯一值

python、regex、pandas、normalization

我有一个超过一百万行的熊猫DataFrame，我需要在试图将数据规范化的过程中找到所有唯一的值(对于给定的列)。给定列中的数据是string类型的--表示城市名称--我已经在规范数据方面取得了很大进展，我已经采取了某些步骤，例如小写列中的所有值，使用pandas.core.frame.DataFrame.replace()使用对数据似乎很明显的正则表达式。下面是我所拥有的(并且我想要实现的)的样本： In [1018]: sample Out[1018]: 0 0 warsaw ## -> warsaw 1 krakow ## -> kra

浏览 7提问于2016-04-08得票数 1

回答已采纳

1回答

如何有效地选择仅包含给定行子集的值变化的列？

scala、apache-spark、apache-spark-sql

对于上下文，我的最终目标是从一个非常大的数据帧中删除几乎重复的行。以下是一些虚拟数据： +---+--------+----------+---+-------+-------+---+-------+-------+ |key|unique_1| unique_2|...|col_125|col_126|...|col_414|col_415| +---+--------+----------+---+-------+-------+---+-------+-------+ | 1| 123|01-01-2000|...| 1| true|...| 100|

浏览 0提问于2018-08-07得票数 0

回答已采纳

1回答

在从原始数据帧的过滤视图/行的子集更新其值后，如何修改原始数据帧？

python-3.x、pandas、dataframe

我有一个pandas dataframe "df“，它包含： SPORT, NAME, TEST Tennis, A, TESTA Tennis, B, TESTB Basketball, C, TESTC Volleyball, D, TESTC 我只想将“TEST”栏更改为“CHANGED”的体育==“网球”栏。我尝试了以下几种方法： tennislist = df[df['SPORT'] == 'Tennis'] tennislist['TEST'] = 'CHANGED' 虽然tennislist似乎被更新为正

浏览 23提问于2020-09-07得票数 0

回答已采纳

2回答

pandas中的rank方法中的ValueError没有更多解释

python、pandas

我有一个像这样的熊猫数据帧： year week city avg_rank 0 2016 52 Paris 1 1 2016 52 Gif-sur-Yvette 2 2 2016 52 Paris 1 3 2017 1 Paris 4 4 2016 52 Paris 3 5 2016 52 Paris

浏览 4提问于2017-01-12得票数 3

回答已采纳