腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
从
大
数据
集中
去除
模糊
重复
项
、
、
、
、
我的目标是以一种聪明的方式从这些
数据
中删除
重复
项
。记录来自不同的来源,
重复
的记录可以包含不同的信息。08|Dallas|我想按first_name和last_name对记录进行分组,然后进行一些比较,以考虑记录是否
重复
如果很少有记录有相同的first_name和last_name,我想检查birthday,如果它等于-它是
重复
的。如果一条或一条记录填充了birthday,则另一条记录-不是,它是<em
浏览 37
提问于2021-02-13
得票数 1
回答已采纳
1
回答
删除R中书目
数据
集中
的所有
重复
实例
、
、
、
第一个
数据
集A已被清理,因此我将相关的结果A(r)和无关的结果A(i)作为两个不同的
数据
集(.bib文件)。第二个
数据
集B完全包含我的第一个
数据
集A。目标:--我正在寻找一种方法,
从
我的第二个
数据
集B中删除不相关的结果A(i),这是我已经在第一个
数据
集中
识别的。方法:如果我要合并
数据
集B & A(i),我可以通过使用删除
重复
函数来跟踪B中不相关的结果A(i),因为A(i)在B中会发生两次,但是这只会删除A(i
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
1
回答
轻视文档- OCR
、
、
、
、
我已经使用中值滤波
去除
了一些较小的斑点。现在我需要从左边移除
大
的黑色区域。我只是不知道该怎么做。
浏览 2
提问于2015-11-11
得票数 1
1
回答
R中
模糊
重复
项
的
去除
、
、
、
、
在R中,我有一个类似于这样的
数据
集:4 123 Fake - Rd Boston 56789 Boarding Direct 25 查看这些
数据
但是,如果您试图直接删除
重复
项
,标准函数(例如"disti
浏览 4
提问于2022-11-08
得票数 2
1
回答
BIRT DataSet删除
重复
项
、
、
我知道如何使用抑制
重复
项
或通过可见性
从
表中删除
重复
项
。有没有方法可以
从
数据
集中
删除
重复
项
?
浏览 1
提问于2013-02-20
得票数 0
1
回答
去除
重复
对随机森林回归的影响
、
我有一个包含数百万个样本的
数据
集,它们有5个特性和1个目标,我正在使用它作为回归模型。有了非常
大
的样本计数,一些模型(比如随机森林)变得非常
大
(腌制时有几个GB )。这些
数据
通常有
重复
的或接近
重复
的--这些是真实的观测--但测量值只是巧合地相同(这是仪器输入范围和精度有限的结果)。 (理论上)或
去除
重复
对模型准确性的影响是什么?
浏览 0
提问于2021-03-13
得票数 0
回答已采纳
1
回答
Spark1.6.2: DropDuplicates给出了意想不到的结果
、
、
我正在使用dropDuplicates方法删除
数据
文件中A和B列的
重复
条目。而我将结果
数据
保存为空A和B列上的主键的sql表。有时,新的dataframe在A和B列上有
重复
的值。"B"))因此,当插入到表中时,我将得到java.sql.BatchUpdateException:
重复
条目异常不删除预期将删除A和B列中所有
重复
项
的<em
浏览 5
提问于2016-11-18
得票数 2
2
回答
Excel行计数不起作用
、
、
我有一个VBA宏,它正在处理一个非常
大
的
数据
集。在我的
数据
集中
,我有大约44000行。我想在宏内对此进行计数,并尝试使用显示为的顶级方法。 我将变量sncountmax设为等于上面链接中的一个方法。我尝试使用宏删除
重复
项
,但这不起作用,但在Excel中删除
重复
项
起到了作用。
浏览 4
提问于2016-03-10
得票数 0
1
回答
从
对数值到指数值,机器学习算法预测的巨大失真
、
、
、
、
为此,我使用日志值Y进行
数据
缩放。当我得到预测的Y‘和实际的Y值时,我必须将Y&Y’的对数值转换为指数值。 但是,exp7上的值有如此巨大的失真(=i 1098).它使许多MSE(错误).
浏览 1
提问于2017-10-19
得票数 1
回答已采纳
1
回答
R中同时按几列比较两个
数据
帧
我有两个
数据
帧:Syllable DurationZeks 0.34Syllable Duration PitchBis 0.18 78Bs 0.19 34我需要得到这样一个新的
数据
框架:
浏览 0
提问于2018-06-05
得票数 1
回答已采纳
2
回答
从
大型
数据
集中
删除
重复
项
我有一个超过800000行的
数据
集,每个偶数行都是它前面的奇数行的副本。我想去掉复印件。请找人帮忙好吗?
浏览 1
提问于2014-06-30
得票数 0
1
回答
在python中使用pandas过滤掉
重复
项
列表中的NaN
、
、
、
、
其中几行是关于相同的房地产,所以它充满了不完全相同的
重复
项
。我使用python中的pandas对
数据
集进行了分组,在DESCRIPTION列上创建了
重复
项
的列表。但是,如列表末尾所示,它也在NaN上分组。如何过滤掉它们?2019-04-22T20:58:51.706 NaN 2019-08-13T17:48:23.92 NaN 我之所以这样做,是因为我希望只保留一行包含所有CRAWL_SOURCE的行,并删除包含
重复
浏览 14
提问于2019-09-16
得票数 0
1
回答
如何在Scrapy项目中使用PyMongo MongoDB插入新记录时删除
重复
项
、
、
、
、
在我的Scrapy项目中,我使用PyMongo将抓取的
数据
存储在MongoDB中。在以逐页的方式抓取网页时有
重复
的记录,我只想删除那些在插入到
数据
库中时具有相同名称的
重复
记录。请指导我如何
去除
"process_item"方法中的
重复
项
。我发现在互联网上很少有
从
数据
库中删除
重复
项
的查询,但我想要一个Python解决方案。
浏览 13
提问于2018-08-21
得票数 1
1
回答
边缘检测灰度图像
、
、
、
边缘检测总是失败,因为中间的边缘太
模糊
了。我使用opencv和python运行此进程。有没有其他方法来提取这个边缘,或者我必须尝试用更好的相机? 谢谢你的帮助。
浏览 0
提问于2020-06-21
得票数 0
2
回答
哈希集如何删除
重复
条目?
、
、
Integer typeId; } 我使用hibernate作为Type对象
从
数据
库中获取
数据
因此,如果我将所有类型的object插入到一个哈希
集中
,它不应该删除
重复
项
,但它正在删除
重复
项
。我的问题是,它如何能够识别
重复
项
?
浏览 0
提问于2015-09-23
得票数 0
3
回答
Google Refine:合并相似但不同列上的两个
数据
集?
我有两个
数据
集,它们的公共列名只是略有不同。
数据
集A:Hartlepool UA,306
数据
集B:Hartlepool,366我以为Google Refine / Open Refine的设计初衷是用
模糊
的方式来协调这种混乱的
数据
,但是。有没有什么工具可以让我在不写代码的情况下,以一种
模糊
的方式进行匹配呢?如果需要,我可以很容易地编
浏览 0
提问于2013-03-24
得票数 1
回答已采纳
3
回答
Spark SQL DataFrame - distinct() vs dropDuplicates()
、
、
、
在查看DataFrame应用程序接口时,我可以看到两种不同的方法执行相同的功能,用于
从
数据
集中
删除
重复
项
。 我可以理解dropDuplicates(colNames)将只考虑列的子集来删除
重复
项
。
浏览 0
提问于2016-02-27
得票数 22
1
回答
项目运营商Oracle
、
、
我正在读一本关于
数据
库设计的书,他们要求显示项目操作的结果,其中列出了Customer表中的CustCity和CustState。我的Customer表在这些行中有一些
重复
项
,其中四个来自华盛顿州,两个来自CO,但两个条目也完全相同,来自华盛顿州西雅图。 我的问题是项目运营者到底是如何工作的?这本书有一个代码片段,它说如果需要的话,它会删除
重复
的行,但是如果它的工作方式类似于下面的语句,那么它就不会删除任何
重复
的行。
浏览 0
提问于2012-09-06
得票数 1
回答已采纳
1
回答
不带
重复
行的SUM和GROUP BY
、
SELECT SUM(man+woman) AS over65, a.city, FROM a LEFT JOIN GROUP BY codtable a28001 rome 28002 milan cod2 age man woman 28001 66 250 280 28001
浏览 0
提问于2017-12-29
得票数 0
3
回答
从
已经有
重复
项
的
数据
集中
删除
重复
项
、
我有以下
数据
集,我需要做的是能够只提取具有不同ItemCode的LotNo RecCnt Store DelNo DelDate TruckNo ItemCode LotNo
浏览 11
提问于2022-02-16
得票数 -1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券