腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
python
跨
数据
框
比较
和
查找
重复
的
值
(
而
不是
整个
列
python
、
numpy
、
duplicates
、
multiple-columns
、
pairwise
我有一个很大
的
时间表
数据
帧,我需要计算运行
的
实验数量。挑战在于,for
的
用法在行中
重复
(这是可以
的
),但在某些
列
中
重复
,但
不是
所有
列
中。我想删除第二个条目(如果
重复
的话),但我不能删除
整个
第二
列
,因为它也将包含一些新
值
。如何以并排
的
方式
比较
两个
列
的
单个条目,并在存在
重
浏览 19
提问于2020-09-16
得票数 0
2
回答
使用
pandas在大于内存
的
数据
集中获取
重复
行
python
、
pandas
、
duplicates
、
large-data
非常适合在
数据
帧内
的
指定
列
中
查找
重复
的
行。 但是,我
的
数据
集大于内存容量(甚至大于在合理
的
预算限制内扩展后所能容纳
的
容量)。这对于我必须执行
的
大多数分析都很好,因为我可以循环我
的
数据
集(csv
和
dbf文件),将每个文件单独加载到内存中,并按顺序执行所有操作。然而,对于
重复
分析,这显然不适合在
整个
数据</
浏览 5
提问于2017-02-16
得票数 0
1
回答
Spark dataframe中
列
之间
的
余弦相似度
scala
、
apache-spark
、
nlp
、
cosine-similarity
我有像这样
的
数据
... +-----------+--------------------++-----------+-----| +-----------+--------------------+ 我正在尝试
查找
Scala中
的
searchterm
列
和
title
列
之间
的
余弦相似性。我可以毫无问题地标记每一
列
,但我在网上发现
的
大多数相似性实现都是
浏览 42
提问于2019-02-28
得票数 1
1
回答
从数百万/数十亿条记录中删除MongoDB 4中
的
重复
项
python
、
mongodb
我目前正在建立一个
数据
库,其中将有数百万甚至数十亿条记录。问题是我
使用
的
文件通常有30 if大,如果你把它们组合在一起,就会有
重复
的
记录。我只有64 to
的
内存,而且不可能通过将行加载到内存中来删除
重复
的
内存。我尝试过唯一索引,但插入过一段时间后会变得非常慢。有没有办法有效地去除
重复
的
内容?
浏览 13
提问于2020-11-11
得票数 0
回答已采纳
1
回答
SQL查询以
查找
跨
列
的
重复
数据
sql
、
find
、
db2
、
duplicates
、
row
我正在尝试查询一个DB2表,以
查找
跨
列
的
重复
项。更确切地说,我正在寻找有
重复
列但不一定跨越同一
列
名
的
行。Row1Column2 = -4column4 = 3Column1 = 3Column4 = -4 查询会将其计算为
重复
,或者将结果集作为
重复<
浏览 3
提问于2016-06-03
得票数 1
回答已采纳
4
回答
如何在gnumeric或Libreoffice中找到
重复
行
libreoffice
、
gnumeric
我有数字
和
libreoffice。如何找到
重复
行?如果我可以
使用
libreoffice,它会更好,但是任何事情都对我有好处。 我有这两个软件
的
最新稳定版本。
浏览 0
提问于2014-07-26
得票数 44
回答已采纳
1
回答
使用
散
列
检测
重复
的
文本片段
hash
、
spam
、
text-analysis
我正在尝试检测类似的文本片段,以阻止垃圾邮件发送者发布相同
的
垃圾邮件片段,但做了一些小小
的
修改。但是,一旦垃圾邮件发送者添加了一个随机
值
,系统就会失败。 有
浏览 2
提问于2015-10-18
得票数 0
2
回答
在ms访问报告中计数2
列
中具有相同
数据
的
行
vba
、
ms-access
、
ms-access-reports
在ms access报告中
查找
跨
列
、家族
和
名称具有
重复
数据
的
行时,我遇到了问题。因此,如果在第一行
列
族=a
和
name = b中,以及在另一行族=a
和
name = b中,那么无论其他
列
是什么,我们都有一个
重复
行。我希望它从报表中计数,
而
不是
从表或查询中计数。这是因为报表将根据其他表单中
的
组合
框
和
浏览 0
提问于2019-02-19
得票数 0
回答已采纳
2
回答
Excel 2007 -防止在单元格中输入相同
的
数据
,如上面所示。
excel
、
vba
我有一个excel表,它允许用户以一种设置格式输入,即C列表示产品编号,
而
列
H用于故障类别。 我想知道是否有可能阻止用户在C2
和
H2中输入相同
的
值
,它们是否已经存在于C1
和
H1中。请注意,这在
数据
验证中是不可能
的
,因为这会在
列
中
查找
唯一
的
值
--只要在下一行
的
两
列
C& H中都不存在
重复
值
,我就不会对<em
浏览 0
提问于2017-01-25
得票数 0
回答已采纳
2
回答
如何
比较
A/B
列
,并从A
列
返回与B不匹配
的
值
excel
、
excel-formula
我在尝试
比较
A
列
和
B
列
的
值
时遇到了一个问题。最终
的
结果是,A
列
中
的
任何
值
在B
列
中都没有匹配项,但却出现在C
列
中。我
使用
的
公式很简单,只是=IF(A2=B2,"Y","N") 我
的
问题是,我不确定如何
比较
整个
A
列
和
<em
浏览 2
提问于2018-08-16
得票数 1
回答已采纳
3
回答
使用
dplyr变异
值
的
唯一
值
的
累积
和
r
、
cumsum
、
dplyr
= c(1,2,3,4,5,6,7,8)
数据
是在dplyr管道中进行group_by(id)操作输出
的
。每个id最多关联一个
值
,两个不同
的
id可以有相同
的
值
。我需要通过添加新
的
列
来
查找
跨
ids
的
累积
和
:cum_col = c(10,10,30,30,40,70,110,160) mutate中
的
cumsum将
查找
整个
<em
浏览 0
提问于2017-11-13
得票数 2
2
回答
如果缓存模式为部分缓存或没有缓存,则在等号日期时间上
查找
不匹配
的
SSIS
sql-server
、
caching
、
ssis
、
lookup
我们有一个
查找
来匹配来自临时表
的
输入记录,并在进入目标表之前过滤掉
重复
。临时表
和
目标表具有完全相同
的
定义。匹配将3
列
与文本、数字
和
日期时间类型进行
比较
。它在完全缓存模式下正确工作,但当
数据
增长到实际
的
大容量时,内存就会耗尽。
查找
尝试将
整个
目标表加载到内存中,并触发无休止
的
交换。为了提高性能,尝试将其更改为部分缓存
而
不是
缓存,而这
浏览 0
提问于2018-11-19
得票数 1
回答已采纳
1
回答
比较
数据
帧中
的
两个
列
值
python
、
pandas
、
compare
、
multiple-columns
我有一个像下面这样
的
csv
数据
框
,我想
比较
两
列
的
值
并生成第三
列
,如果
值
相同将返回True,
而
不是
相同
的
返回False,如何与pandas
python
进行
比较
?
浏览 1
提问于2016-11-08
得票数 3
3
回答
Excel:在多
列
中
查找
重复
行
excel
我有一个有15
列
的
电子表格。每
列
包含不同数量
的
数据
。因此,一
列
可能有100行,下一
列
可能有50行,第三
列
可能是完全不同
的
数字。总而言之,我有大约2000个条目分布在所有的
列
中。现在,有些
数据
是
重复
的
。我想要
比较
哪些
数据
在所有
列
中都是
重复
的
,但前提是它在每一
列
浏览 1
提问于2015-08-21
得票数 0
5
回答
散
列
信息
的
目的是什么?
hash
在被教导如何在课堂上创建哈希表后,我不知道什么时候对
数据
进行哈希处理会有用。在我看来,哈希所做
的
一切就是将信息存储在一个数组中
的
半随机位置。我想知道
数据
在存储后是如何变得有用
的
。我
的
问题是:散
列
信息有益
的
例子有哪些?如何以任何有组织
的
方式检索
数据
?它似乎被放置在难以检索
的
任意位置。
浏览 8
提问于2009-02-03
得票数 18
回答已采纳
1
回答
如何根据2
列
中
的
值
以及R中另一
列
的
分组来
查找
重复
项?
r
我有一个有3
列
的
数据
集: ID、
值
a
和
值
b。我想根据ID
列
中
的
值
对
数据
集进行分组,然后标识不同分组之间
的
值
a
和
b
列
中有相同
数据
的
重复
项。我知道我可以
使用
dplyr包
和
data %>% group_by ( ID )根据ID
列
对
浏览 0
提问于2019-07-02
得票数 0
回答已采纳
1
回答
为什么
使用
散
列
而
不是
测试真正
的
相等性?
python
、
dictionary
、
hash
我最近一直在研究
Python
的
字典(我相信它们在其他语言中被称为关联数组),并且被它
的
键
的
几个限制搞糊涂了。我理解为什么会这样,但我仍然对
使用
哈希表<e
浏览 1
提问于2013-11-28
得票数 0
3
回答
如何在规模上进行
数据
去
重复
?
database
、
algorithms
我需要开发,或至少概念化一个模块,以进行有效
的
数据
去
重复
。比如说我们已经有上百万
的
数据
记录了。插入另外100 mn记录,确保在结果
数据
集中没有
重复
记录,这是模块需要做
的
,在顶层。现在,这可能意味着在决定记录是否
重复
的
字段(S)上进行
比较
。但是当我们谈论数百万条记录
的
时候,这种方法,连续地采取,实在太天真了。 你认为可行
的
方法是什么?哈希?利用分而治之
的</
浏览 0
提问于2011-09-12
得票数 7
回答已采纳
1
回答
如果第三个单元格匹配,则将
值
从
数据
框
的
一个单元格复制到另一个
数据
框
的
最快方法
python
、
pandas
我有一个包含750到3000行
数据
的
主
数据
帧。 我有一个每日订单
数据
框
,有3000到5000行
的
数据
。 如果在主
数据
框
中找到每日订单
数据
框
的
产品代码,我就会得到项目成本。我目前是通过2for循环来做这件事
的
。但我将不得不做更多这样
的
比较
和
数据
更新(要
比较
的
其他字段,要复制<e
浏览 21
提问于2020-01-02
得票数 1
2
回答
SQL Server中
使用
UNION
的
错误
sql
、
sql-server
通过执行以下脚本,我试图了解UNION在Server中是如何工作
的
:from Production.ProductModelUNIONfrom Production.ProductModel得到以下错误:
数据
类型xml不能用作UNION、INTERSECT (除运算符之外)
的
操作数,因为它是不可
比较
的
。似乎很
浏览 0
提问于2018-08-24
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
从瞎忙到高效,这18个Excel技巧谁看谁受益!
Excel–将离职人员从多列中同时删除,怎样最快?
Python模块-Pandas(四)文件读写与数据处理
办公室技巧【绝对好用!】
《算法图解》读书笔记 Chapter 5
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券