腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
函数
从
大型
数据
集中
删除
重复
的
列
。
尝试在连接hdfs表后
删除
pyspark df中
的
重复
列名称? 您好,我正在尝试连接多个具有200+最终
列
数
的
数据
集。由于要求和大量
的
列
,我不能在连接时选择特定
的
列
。有没有办法在连接后
删除
重复
的
列
。我知道有一种方法可以通过spark df
的
.join方法来做到这一点,但是我加入
的
基表不是spark df,并且我
浏览 20
提问于2018-12-20
得票数 1
1
回答
在SAS中保留/
删除
变量
我想从一个
大型
SAS
数据
集中
删除
列
/变量,称之为“
数据
”。我将所有想要
删除
的
列名都存储在另一个SAS
数据
集中
-让我们称它为'var',它只有一
列
和标题
列
。如何使用drop
函数
从
我
的
原始
数据
集'data‘中
删除
'var’中包含
的
浏览 5
提问于2011-10-02
得票数 4
回答已采纳
2
回答
从
大型
数据
集中
删除
重复
项
我有一个超过800000行
的
数据
集,每个偶数行都是它前面的奇数行
的
副本。我想去掉复印件。请找人帮忙好吗?
浏览 1
提问于2014-06-30
得票数 0
1
回答
如何根据
重复
日期和ID去除
数据
框行
、
、
需要
删除
的
重复
项总是出现在该对中
的
第一个,所以我在考虑以某种方式使用该信息来
删除
它们。我简化了下面的
数据
,以减少问题(注意:我正在寻找一个
函数
,可以在
大型
数据
集中
删除
多个
重复
项,而不必手动识别它们):到目前为止,我一直在尝试完成以下代码: test <- ea2[!duplicated(ea2[,c("PatientID", "Ses
浏览 1
提问于2019-07-06
得票数 0
1
回答
Pandas
的
关联方法是如何处理非数字
列
的
?
、
、
我正在使用Pandas
的
.corr()方法来确定可以
从
大型
数据
集中
删除
哪些
列
。其中一些
列
具有非数字类型。 潘达斯是如何处理这些
列
的
?
浏览 0
提问于2022-11-21
得票数 0
回答已采纳
1
回答
使用Pandas
删除
列
中
的
不匹配
数据
。
、
如何
删除
数据
集中
与两
列
的
字典值不匹配
的
数据
行。例如,以我
的
数据
集
的
片段为例。我希望
删除
数据
与字典不匹配
的
行,如第6行,并将此
函数
应用于
大型
数据
集。
浏览 15
提问于2021-12-19
得票数 0
1
回答
我想在R中使用一个简单
的
命令来绘制
数据
的
NAs。
我有一个大约有111
列
和37,000行
的
数据
。我
删除
了完全有0和NAs
的
列
,现在我有57
列
。现在
的
挑战是,我仍然在
数据
集中
的
许多
列
中分发NAs,我想尝试使用一个图来显示分布式NAs。在浏览github时,我看到了以下使用Amelia包
的
命令。这对于为较小
的
数据
集生成一个绘图似乎很有用,但是当我在我
的
大型
浏览 0
提问于2018-06-29
得票数 0
回答已采纳
3
回答
Python Pandas
删除
列
资源耗尽-已终止
、
我正在尝试使用Pandas
从
大型
数据
集中
删除
列
,如下所示...data.drop(data.columns[[0, 1, 2]], axis=1, inplace=True)
数据
集
的
读取工作正常,但是当丢弃发生时,它会给出一个'killed‘错误,我认为这是由于缺乏资源。有没有其他更有效
的
删除
列
浏览 0
提问于2020-06-08
得票数 1
4
回答
如何使用python
从
大型
数据
集中
删除
重复
值
我想从
大型
数据
集中
删除
重复
的
值。
浏览 0
提问于2019-09-12
得票数 1
回答已采纳
1
回答
删除
R中书目
数据
集中
的
所有
重复
实例
、
、
、
目标:--我正在寻找一种方法,
从
我
的
第二个
数据
集B中
删除
不相关
的
结果A(i),这是我已经在第一个
数据
集中
识别的。方法:如果我要合并
数据
集B & A(i),我可以通过使用
删除
重复
函数
来跟踪B中不相关
的
结果A(i),因为A(i)在B中会发生两次,但是这只会
删除
A(i)
的
重复
项,而不是A(i)
的
所有实例。<e
浏览 3
提问于2019-12-04
得票数 0
回答已采纳
1
回答
函数
删除
包含“禁止”值
的
所有观察值-R。
、
、
、
我有一个
大型
数据
集,如下所示:我想从我
的
数据
集中
删除
包含向量NullNK中
的
一个PID
的
所有观察(行)。我尝试过为它编写一个
函数
,但是我得到了一个错误(我以前从未编写过
函数
): SR_DynUeber_einfam
浏览 1
提问于2017-07-15
得票数 1
2
回答
合并
重复
列名
我有一个
数据
框架,其中一些
列
具有相同
的
数据
,但有不同
的
列名。我想
删除
重复
的
列
,但是合并列名。例如,test1和test4
列
是
重复
的
: 1 1 1 0 1 5 5 5 5
浏览 2
提问于2017-03-27
得票数 0
回答已采纳
3
回答
如何在pandas
数据
框中找到
重复
项?
、
、
我
的
任务是突出显示熊猫
数据
框中
的
所有电子邮件副本。有没有一个
函数
可以做到这一点,或者有一种方法可以
删除
所有的非
重复
项,这样我就可以
从
数据
集中
的
所有
重复
项中得到一个很好
的
列表?该表由六
列
组成:a@a.com, Bill, Schneider, 123, 321,
浏览 0
提问于2021-01-22
得票数 1
2
回答
从
大型
数据
集中
删除
重复
项(>100 from行)
、
、
、
我知道这个话题在这里出现过很多次,但是没有一个建议
的
解决方案对我
的
数据
集有效,因为我
的
笔记本电脑由于内存问题或存储空间而停止计算。我
的
表看起来如下所示,并有108 Mio行:SmartCard |3674 | NEC |7373 |73733674|
浏览 1
提问于2013-08-24
得票数 5
回答已采纳
3
回答
在C++中
从
字符串数组中
删除
重复
项
、
、
我有一个用C编写
的
字符串数组,每个字符串
的
长度大约是3000个字符。我想对它们进行散
列
,以获得更快
的
搜索结果,并且更喜欢完美的散
列
。问题是,完美的哈希需要
数据
集中
唯一
的
字符串来创建哈希
函数
,因为我
的
数据
集不可避免地存在
重复
。 所以现在,我需要一种非常快速
的
方法来
从
C中
的
字符串数组中
删除
重复
项。
浏览 0
提问于2016-02-16
得票数 1
1
回答
绘制一个非常大
的
火花柱
的
直方图
相关问题:如何绘制此列
的
直方图?
浏览 1
提问于2018-12-17
得票数 0
2
回答
如何在R data.frame中
的
所有行和
列
中查找单个值
的
重复
项
、
我有一个
大型
数据
集,其中包含一个标题和
列
中
的
一系列值。我希望在整个
数据
集中
检测这些值
的
存在和
重复
数量。我尝试在r中使用复制
函数
,但这似乎只适用于作为一个整体
的
行或作为一个整体
的
列
。使用不会得到任何副本,虽然我知道第一行有两个副本。因此,我想知道如何检测
列
/行内部和之间
的
重复
项。 干杯
浏览 4
提问于2019-12-16
得票数 0
回答已采纳
2
回答
在Python Pandas中保存
重复
计算
、
在Pandas中,我可以使用.apply将
函数
应用到两
列
。3, 2, 5], 'C':[2, 2, 2, 8]})df.apply(formula, axis=1) 但是,请注意,前两行
的
结果是相同
的
,因为所有输入都是相同
的
。在具有复杂操作
的
大型
数据
集中
。这些
重复
的
计算可能会减慢我
的
程序。有
浏览 0
提问于2017-12-08
得票数 2
3
回答
Spark SQL DataFrame - distinct() vs dropDuplicates()
、
、
、
在查看DataFrame应用程序接口时,我可以看到两种不同
的
方法执行相同
的
功能,用于
从
数据
集中
删除
重复
项。 我可以理解dropDuplicates(colNames)将只考虑
列
的
子集来
删除
重复
项。
浏览 0
提问于2016-02-27
得票数 22
2
回答
从
大型
数据
集中
移除
重复
行
、
、
、
假设我有一个非常大
的
数据
集,无法放入内存中,
数据
集中
有数百万条记录,我想
删除
重复
的
行(实际上是从
重复
行中保留一行)。1.使用bloom filter,我不确定它是如何实现
的
,但我猜它
的
副作用是有误报,在这种情况下,我们如何确定它是否真的是
重复
的
?2.使用散
列
值,在这种情
浏览 4
提问于2013-07-27
得票数 3
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券