在pandas列中使用许多不同的匹配项

文章/答案/技术大牛

发布

1回答

、

我有一个熊猫的DataFrame是这样的： col1 col22 x4 y6y8 z10 z 我需要的是为col2中的每个不同元素获取前2个col1实例。本例中的输出应为1,2,4,5,8,9 我不知道该怎么做，我在StackOverflo

浏览 15提问于2020-03-25得票数 0

回答已采纳

1回答

Excel匹配并复制到

在Excel的A列中，我有一个数据范围。在列D中，相同的数据与许多其他行一起存在。我要查找列A和列D之间的匹配项，如果存在匹配项，则将与列D中找到的匹配项相邻的列C中的

浏览 3提问于2017-07-19得票数 0

1回答

比较pandas中的数据帧

、、、、

我有两个独立的pandas数据帧(df1和df2)，它们有多个列，其中有一些公共列。33 5

浏览 6提问于2018-02-25得票数 0

回答已采纳

1回答

Python文本匹配-同义词

、、、、

我在Pandas中有两列:A和B，每一列都包含术语字符串。我的目标是在B列中找到与A列最相似的条目。我已经使用TF-IDF来做到这一点，但有时有一些同义词并不明显匹配，例如钱和货币。如何查找也包含同义词的匹配项？

浏览 5提问于2017-05-18得票数 2

2回答

用NA替换pandas数据框中所有出现的值的快速方法

、

我正在使用python脚本来清理和连接许多大型.csv文件。具体地说，我正在使用pandas read_csv函数读取文件，然后将它们作为dataframe对象进行处理，这非常有效。这是我第一次使用pandas，所以我仍然在习惯它包含的所有令人难以置信的有用功能。我正在读取的csv文件使用-99.9作为标记值来表示NA/NaN。由于这与我在其他地方表示丢失数据的方式<e

浏览 0提问于2013-07-05得票数 2

回答已采纳

3回答

熊猫模糊检测重复项

、、、、

如何在pandas中使用模糊匹配来检测重复行(高效)如何找到一个列与所有其他列的重复项，而不是转换row_i toString()的巨大for循环，然后将其与所有其他列进行比较？

浏览 10提问于2016-09-14得票数 4

回答已采纳

2回答

在Python中根据数据框创建正则表达式匹配列表，然后计算匹配数

、、、

我在试着我可以成功地使用正则表达式来查找匹配项，但是我无法获得显示的列表并对它们进行计数我尝试使用str.extract()列出所有匹配，并使用str.contai

浏览 8提问于2018-01-18得票数 1

7回答

在一条线上搜索和标记成对的图案

、、、

以下是放置在单独文件中的示例模式的简短列表，例如：LION,FOREST如果第2栏中的项目与第1栏中的项目在同一行之后和在同一行中出现，则会出现匹配。(matches)THETREEHAS

浏览 0提问于2012-03-12得票数 7

回答已采纳

1回答

如何真正过滤熊猫数据集而不离开各地的Nans

、、

假设我有一个巨大的DataFrame，它只包含少数几个与我执行的过滤匹配的单元格。如何才能在一个新的dataframe中只获得与其匹配的值(以及它们的索引和列)，而不使用整个其他的DataFrame，而后者变成了Nan。使用dropna删除Nans只会删除整个列或行，而filter用Nans替换非匹配项。这是我

浏览 2提问于2020-12-18得票数 1

回答已采纳

4回答

向量化或加速PANDAS列上的Fuzzywuzzy字符串匹配

、、、

我正在尝试在充满组织名称的PANDAS列中寻找潜在的匹配项。我目前正在使用iterrows()，但它在大约有70,000行的数据帧上非常慢。fuzzy_match'] = x[0]实际上，对于每一行，我将组织名称与所有组织名称列表进行比较，获取前两个匹配项</e

浏览 4提问于2018-10-04得票数 14

1回答

从URL创建名称

、

我正在DataFrame中创建一个NAME列，并根据另一列中包含的子字符串设置它的值。df = pd.DataFrame([['www.pandas.org','low'], ['www.python.org','high']], columns= df['URL

浏览 0提问于2020-06-25得票数 3

回答已采纳

2回答

如果两个文件具有相同的列值，则合并这些文件中的行

、、

目前，我正在亚马逊的网站上搜寻一些数据。我遇到的问题是，我不能真正从同一个页面获得一个产品的所有数据。我最终得到的是两个文件，它们具有相同的列标题，但列本身的数据不同。例如，在一个.csv文件中，产品包含信息的“代码”、“名称”、“url”、“大小”，而在另一个文件中，它包含“代码”、“价格”、“image1”、“image2”等等。如果file2中</

浏览 10提问于2019-02-01得票数 1

回答已采纳

2回答

在Python中使用循环根据字符串值修改新列中的行值

、

我想使用循环根据pandas中的字符串匹配重新编码不同列中的行值。我找到了一种方法，每次创建一个全新的列，但当我需要修改分析中不同点处的多个列中的select行时，这种方法就不起作用了。以下是我在示例数据帧中使用的解决方案： iris =

浏览 26提问于2020-07-08得票数 0

1回答

写入Oracle: TypeError:期望字符串或字节对象

、、、、

我试图将具有51列的65000+行推送到oracle，但最终收到了一个类型错误。是否有办法找出该错误来自哪一列，以便进行调试。另一个问题--在Oracle中，python dataframe中的Datatype "Object“能被读取为'Number‘Dtype吗？\io\sql.py", line 589, in to_sql File "C:\Progra

浏览 12提问于2022-01-07得票数 2

回答已采纳

1回答

在DataFrame中查找不同的最佳匹配

、

我不知道这是不是最好的标题，但这就是我得到的。我正在寻找的是为第一列中的所有值找到最佳匹配(基于最小距离)，而不会在第二列中有重复的匹配。4bar test 4foo testy 5 bar testy 5 我希望为第一列中的三个唯一值找到最佳<em

浏览 11提问于2020-04-16得票数 0

回答已采纳

1回答

什么算法可以用来模糊合并多个数据集？

、、、

问题描述假设我的数据是多个表，表A到Z。可能会有列，我百分之百地肯定在匹配。例如，表A和表B的列税ID是连接A到B的特定匹配项，仅A和B都不能与C匹配，但使用来自A和B的列</e

浏览 0提问于2019-01-02得票数 1

1回答

Pandas:在某些列的字符串中查找子字符串

、

我有一个2数据帧，在第一列，我应该在第二列中找到一些信息，我应该在第一个数据帧和列中找到什么，如果第一列中的字符串包含，我应该添加什么。Subcategorytwitter.com Social Network entertainmentdf1['Main Category']

浏览 13提问于2017-01-19得票数 0

1回答

使用Pandas有效地根据现有列的值向新列添加值

、、

我使用下面的脚本来创建一个新的Dataframe列，该列的值取决于REGEX与现有列中的值的匹配：data，使其适用于更复杂的场景。我希望避免使用许多行的df.loc，并且我想知道是否有一种方法可以使用例如字典来

浏览 0提问于2019-09-02得票数 0

回答已采纳

1回答

为熊猫DataFrame创建另一个索引，如SQL中的create索引

、、

我可以在熊猫DataFrame的现有列上创建另一个索引吗？就像CREATE INDEX在SQL中所做的一样。例如:我的DataFrame有两列id_a和id_b，这两列对每一行都是唯一的，我希望有时用id_a索引行，而有时用id_b索引行(所以我认为MultiIndex不会对我起作用)。

浏览 6提问于2021-05-20得票数 4

回答已采纳

1回答

尝试从另一个相关数据框有条件地向pandas数据框添加列

、、

我对使用pandas是一个全新的尝试，我已经尝试寻找这个(看起来很简单的)问题的解决方案。我尝试有条件地向来自另一个数据帧的一个数据帧的某些行添加一列。df_1中活动标志为'Y‘的所有行。可以使用Acme ID列将df_2中的项连接到df_1中的项。'Ot

浏览 13提问于2021-01-14得票数 0

点击加载更多