在整个数据帧中查找多个字符串[重复]_在整个数据帧中查找最小频率值_如何在整个pandas数据帧中查找重复的值(而不是行)？ - 腾讯云开发者社区

、、、

非常适合在数据帧内的指定列中查找重复的行。但是，我的数据集大于内存容量(甚至大于在合理的预算限制内扩展后所能容纳的容量)。这对于我必须执行的大多数分析都很好，因为我可以循环我的数据集(csv和dbf文件)，将每个文件单独加载到内存中，并按顺序执行所有操作。然而，对于重复分析，这显然不适合在整个数据集中查找重复项，而只能在单个文件中</e

浏览 5提问于2017-02-16得票数 0

2回答

R:删除跨行和列中的重复值

、

我发现了很多关于在列表中查找重复元素或在数据框架中找到重复行的页面。但是，我想在整个数据帧中搜索重复的元素。当我跑的时候它返回6个“FALSE”，因为整个行不是重复的，只有一个元素。如何检查整个数据帧中的任何重复值？我既想知道副本存在，也知道它

浏览 1提问于2015-07-07得票数 3

回答已采纳

2回答

在整个数据帧中查找多个字符串[重复]

、

这个问题在这里已经有答案了：检测每个数据帧行与向量值之间的至少一个匹配 (4个答案) 矩阵索引函数 (2个答案) 昨天关门了。我正在尝试使用which函数在我的数据帧中查找多个字符串。我试着将答案从在data.frame中查找字符串 数据帧示例如下： 1 a five 10 2 b

浏览 35提问于2019-06-13得票数 2

回答已采纳

1回答

有没有办法在R中的数据帧中只保留重复的行？

我有一个包含91个变量的数据帧。我试图只提取行中每个单个值都与另一个值重复的行。我可以使用unique函数或distinct函数来查看有233行是重复的。我想用这233条记录创建一个数据帧。我看到的关于类似问题的大多数答案都集中在通过某种ID变量查找重复值，但是我的数据中没有这样的变量。我希望将整个行作为一个整体来看待，而不仅仅是其中的一个变量。如何创建只包含那些

浏览 16提问于2021-10-25得票数 1

回答已采纳

2回答

将内存中的数据帧与数据库中非常大的持久化表连接在一起？

、、、、

我在内存中有一个数据帧，它具有特定的标识符，使用这些标识符，我只想从RDBMS(Sql服务器)中持久存储的一个非常大(500M行)的表中提取相关数据。做这件事最好的方法是什么？绝对不想把整个表都放到内存中。也不能循环通过。如果要查找的是单列关键字，我仍然可以考虑构建一个逗号分隔的字符串并对该列表执行IN子句，但我有多个字段作为标识符。我看到的唯一选择是将数据帧保存到数据库

浏览 0提问于2020-04-11得票数 0

2回答

如何在熊猫中传播数据？

、、

我正在处理pandas中的spread等效项，我的数据框架如下所示Nik 18 English 2018 BeginerKane 33 Russian 2017 Advanced并查找如下所示的输出2015pd.pivot(x1,values='year', columns=['

浏览 0提问于2020-12-24得票数 0

2回答

尽管数据大小未超过内存，但仍出现内存不足错误

、、

我正在尝试从一个MySQL表中加载一个dask数据帧，它占用了大约4 4gb的磁盘空间。我使用的是一台内存为8 8gb的机器，但当我执行drop复制并尝试获取数据帧的长度时，就遇到了内存不足错误。sql.column("id")).label("abs(id)"))print(len(df)) 我已经为数据帧</e

浏览 0提问于2021-07-13得票数 1

2回答

生成有符号apk重复字符串冲突时出错

C：\约会App\app\src\main\res\values-nb-rNO\strings.xml:错误:找到项字符串/标签位置_提示符不止一次我也试着把no改为:nb-不，但还是一样的.

浏览 3提问于2016-04-05得票数 0

3回答

Vim中的正则表达式以匹配组捕获

、

我想找到包含的单词，相同的字符串重复两次。(例如wookokss(ok/ok)，ccsssscc(ss/ss))。我认为这个表达式是\(\w*\)\0。另一种尝试是查找由组成的单词，相同的字符串重复两次。我的答案是\<\(\w*\)\0\>。(单词开始+分组(单词)+组捕获+单词结尾) 但它们不管用。有人能帮我吗？

浏览 8提问于2015-11-14得票数 7

回答已采纳

2回答

从dataframe中选择几列具有相同值而另一列具有不同值的行

、、

我有一个包含四个特征列和一个标签列的pandas数据帧。数据集有一些问题。有些行具有相同的特征值，但标记方式不同。我知道如何查找多个列的重复项 df[df.duplicated(keep=False)] 但是，如何找到标签冲突的重复特征？例如，在数据帧中，如下所示 a b c label1 1 1 2 x 2 1

浏览 92提问于2020-04-10得票数 2

回答已采纳

1回答

跨多列搜索子字符串

、

我正在尝试使用PySpark在spark数据帧的所有列中查找一个子字符串。我目前知道如何使用filter通过一列搜索子字符串，并且包含： df.filter(df.col_name.contains('substring')) 如何扩展这条语句或利用另一条语句在多个列中搜索子字符串匹配

浏览 21提问于2019-10-17得票数 0

回答已采纳

2回答

Pandas -查找哪个id在另一列中有多个相应值

我有一个数据帧df，我需要找出是否有一些player_id在这个季节改变了它的team值： player_id team2 Manchester1 Liverpool1 Liverpool 2 Tottenham 要查找重复的对，我只需： duplicate= df[df.duplicated(['player_id', 'team

浏览 22提问于2020-12-08得票数 1

回答已采纳

3回答

熊猫:无法从两栏中检测到重复

、、

我正在尝试从两列中删除重复项。如下所示，阿拉巴马州和阿拉斯加州。但是，当我在下面查询时，它不会检测到重复的项。当我使用drop_duplicates()时也是如此。结果是相同的，没有空格，无法检测重复。

浏览 7提问于2017-01-09得票数 1

回答已采纳

1回答

我有两个数据帧 reference <- structure(list(GenomicPosition = c("rs63750445", "rs63750847", "rs1259157720,16", "Coding exon 4", "Coding Exon 16")), row.names = 19:21, class = "data.frame") 我想知道是否有任何简单的解决方案来查找一个数据

浏览 13提问于2020-07-09得票数 0

回答已采纳

2回答

Server:在一列中查找重复子字符串

、

我在Server中有一个客户端表。我试图在email_address列中查找重复项，但是我只需要考虑列数据的一部分，所以需要一个子字符串。实际上，我需要在记录中找到重复的域名。我使用了以下查询来查找精确的重复项(在整个字段上)，但是如何修改它以考虑子字符串呢？

浏览 1提问于2014-09-09得票数 0

回答已采纳

3回答

Pandas - pd.merge，添加检查以确保列不存在？

、、

我有两个数据帧，一个是我使用的主要数据帧，另一个是我想要从中获取信息的辅助数据帧。df2 (附加信息)包含报告器名称及其位置。我希望将location列作为新列添加到df1中。我的问题是，我经常运行一个更新脚本(检查新行和旧行的更新)，重复运行这行代码会为每次执行添加多个列。检查列是否存在的麻烦在于，可能已经向df中添加了一个我确实想知

浏览 52提问于2018-06-05得票数 2

回答已采纳

2回答

R在一列中查找重复项，并在第二列中折叠

、、

我有一个数据框，它有两列相互接触的字符串。在一个列(名为probes)中，我有重复的案例(即，具有相同字符串的多个案例)。对于探测器中的每个案例，我希望找到包含相同字符串的所有案例，然后将第二列(名为genes)中所有相应案例的值合并为一个案例。cg00061679")genecomb<-paste(genename[1:length(genename)], co

浏览 0提问于2012-08-21得票数 2

1回答

如何编写字符串的自定义聚合函数？

、、、、

我有一个由数百万条记录组成的数据帧，我正在尝试使整个数据帧由一列“napciente”分组，这就完成了。但是有63列我需要根据特定的匹配聚合为字符串，例如，如果Series包含"SI“和任何其他字符串，我希望将该"SI”作为聚合结果返回。data.groupby('

浏览 0提问于2017-04-15得票数 1

1回答

使用SQLAlchemy替换数据库中的子字符串

、、

我希望在数据库中(在多个表/列中)查找和替换任何子字符串的实例。for col in df.columns: df[col] = df[col].replace('old_

浏览 4提问于2022-01-04得票数 1

2回答

在Python中删除dataframe每列中的字符和单词重复项

、、

, word3, word3, word3"} ..... 987 {"word768, word768"} 我的目标是删除A列每一行中的花括号和引号(替换重复和删除字符)。当我使用print(df)时，它会给出我的原始数据帧，没有任何更改对于副本，我尝试了： df.drop_duplicates(['A']) 然而，这只是删除了整个行的重复项(它以自己的

浏览 48提问于2020-11-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用pandas在大于内存的数据集中获取重复行

R:删除跨行和列中的重复值

在整个数据帧中查找多个字符串[重复]

有没有办法在R中的数据帧中只保留重复的行？

将内存中的数据帧与数据库中非常大的持久化表连接在一起？

如何在熊猫中传播数据？

尽管数据大小未超过内存，但仍出现内存不足错误

生成有符号apk重复字符串冲突时出错

Vim中的正则表达式以匹配组捕获

从dataframe中选择几列具有相同值而另一列具有不同值的行

跨多列搜索子字符串

Pandas -查找哪个id在另一列中有多个相应值

熊猫:无法从两栏中检测到重复

如何在R中两个不同数据帧的每个单元中搜索多个模式

Server:在一列中查找重复子字符串

Pandas - pd.merge，添加检查以确保列不存在？

R在一列中查找重复项，并在第二列中折叠

如何编写字符串的自定义聚合函数？

使用SQLAlchemy替换数据库中的子字符串

在Python中删除dataframe每列中的字符和单词重复项

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐