我有一个熊猫数据框
import pandas as pd
df = pd.DataFrame({"x" : [1.,1.,2.,3.,3.01,4.,5.],"y":[10.,11.,12.,12.95,13.0,11.,10.],
"name":["0ndx","1ndx","2ndx","3ndx","4ndx","5ndx","6ndx"]})
print(df.duplicated(subset=["x","y"]))
x y name
0 1.00 10.00 0ndx
1 1.00 11.00 1ndx
2 2.00 12.00 2ndx
3 3.00 12.95 3ndx
4 3.01 13.00 4ndx
5 4.00 11.00 5ndx
6 5.00 10.00 6ndx我想使用一个基于距离的公式来查找重复的行(在本例中是第3行和第4行),容差为0.1。如果某一行与另一行的距离在0.1范围内(或者,等效地,如果x和y都在公差内),则该行将被复制。正如一位评论者指出的那样,这可能导致超过0.1的价差聚集值,因为1.1接近1.18,接近1.22。这可能会影响您可以做的一些事情,但我仍然会将任何在另一行的容差内的行定义为重复的。
这是一个玩具问题,我有一个中等大小的问题,但预见到足够大的问题(250,000行),外部产品可能是昂贵的构建。
有没有办法做到这一点?
发布于 2019-11-27 01:20:38
您可以与pandas.shift https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.shift.html进行比较。
然后,如果您想要将每一行与前一行进行比较,并创建一列,使它们彼此在某个阈值内,假设为0.1,则如下所示:
eps = 0.1
df['duplicated'] = 0
df.sort_values(by=['x'],inplace=True)
df.loc[abs(df['x'] - df['x'].shift()) <= eps,'duplicated'] = 1则带有1的列将是在您的阈值内重复的列。
https://stackoverflow.com/questions/59056074
复制相似问题