首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在scikit聚类算法中忽略NaN值

在scikit聚类算法中忽略NaN值
EN

Stack Overflow用户
提问于 2021-07-06 11:17:18
回答 1查看 70关注 0票数 0

我已经使用了一种凝聚算法来集群一个分解的数据帧(这是有效的)。在此数据帧中,NaN值显示为-1,但我不希望将它们作为算法的输入数据。我想我必须设置某种界限,指定只应考虑=>0值,但我不确定如何做到这一点。下面我展示了我的算法代码和dataframe z输出的一部分。

代码语言:javascript
运行
AI代码解释
复制
z=df.apply(lambda x: pd.factorize(x)[0])
cluster = AgglomerativeClustering(n_clusters=None,distance_threshold=(10), affinity='euclidean', linkage='ward')
cluster.fit_predict(z)

数据帧z的一部分:

代码语言:javascript
运行
AI代码解释
复制
0       0       0       0       0  ...        0       -1       -1          -1
1       0       0       0       0  ...       -1       -1       -1          -1
2       0       0       0       0  ...        1       -1       -1          -1
3       0       0       0       0  ...       -1       -1       -1          -1
4       0       0       0       0  ...        0       -1       -1          -1
5       0       0       0       0  ...        0       -1       -1          -1
6       0       0       0       0  ...        0       -1       -1          -1
7       0       0       0       0  ...        0       -1       -1          -1
8       0       0       0       0  ...        0       -1       -1          -1
9       0       0       0       0  ...       -1       -1       -1          -1
10      0       1       1       1  ...        0       -1       -1          -1
11      0       1       1       1  ...       -1       -1       -1          -1
12      0       2       1       2  ...        0       -1       -1          -1
13      0       2       1       2  ...       -1       -1       -1          -1
14      0       3       1       3  ...        0       -1       -1          -1
15      0       3       1       3  ...       -1       -1       -1          -1
16      1       4       1       4  ...        0       -1       -1          -1
17      1       4       1       4  ...        1       -1       -1          -1
EN

回答 1

Stack Overflow用户

发布于 2021-07-06 12:02:15

在创建z之前,需要先调用DataFrame.dropna()。你可以在pandas docs上阅读更多。

代码语言:javascript
运行
AI代码解释
复制
df.dropna(inplace=True)
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68269591

复制
相关文章
聚类-层次聚类(谱系聚类)算法
层次聚类(Hierarchical Clustreing)又称谱系聚类,通过在不同层次上对数据集进行划分,形成树形的聚类结构。很好体现类的层次关系,且不用预先制定聚类数,对大样本也有较好效果。
唔仄lo咚锵
2022/11/30
5.1K0
聚类-层次聚类(谱系聚类)算法
R聚类算法-层次聚类算法
本文介绍了层次聚类算法的基本概念、原理、方法和应用。层次聚类算法是一种基于树形结构的聚类方法,包括距离矩阵计算、数据转换、聚类树构建和剪枝等步骤。该算法可以自动处理大规模数据集,但计算量较大,且结果不稳定。在实际应用中,需要根据数据特点和需求选择合适的聚类算法。
Erin
2018/01/09
1.6K0
Spark中的聚类算法
官方文档:https://spark.apache.org/docs/2.2.0/ml-clustering.html
HoLoong
2020/09/28
2.1K0
机器学习(7)——聚类算法聚类算法
聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监督学习中,目标属性是不存在的,也就是所说的不存在“y”值,我们是根据内部存在的数据特征,划分不同的类别,使得类别内的数据比较相似。 我们对数据进行聚类的思想不同可以设计不同的聚类算法,本章主要谈论三种聚类思想以及该聚类思想下的三种聚类算法。666 本章主要涉及到的知识点有: “距离” K-Means算法 几种优化K-Means算法 密度聚类 算法思想:“物以类聚,人以群分” 本节首先通过聚类算法
DC童生
2018/04/27
3.7K0
机器学习(7)——聚类算法聚类算法
聚类算法 ---- 大数据聚类算法综述
随着数据量的迅速增加如何对大规模数据进行有效的聚类成为挑战性的研究课题,面向大数据的聚类算法对传统金融行业的股票投资分析、 互联网金融行业中的客户细分等金融应用领域具有重要价值, 本文对已有的大数据聚类算法,以及普通聚类算法做一个简单介绍
流川疯
2021/12/06
1.5K0
聚类算法 ---- 大数据聚类算法综述
聚类算法之层次聚类
层次聚类(Hierarchical Clustering)是聚类算法的一种,通过计算不同类别的相似度类创建一个有层次的嵌套的树。
Ewdager
2020/07/14
2.9K0
聚类算法之层次聚类
聚类算法之DBSCAN聚类
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一种基于密度的聚类算法,基于密度的聚类寻找被低密度区域分离的高密度区域。常用于异常值或者离群点检测。
Ewdager
2020/07/14
3.4K0
聚类算法之DBSCAN聚类
【算法】聚类算法
小编邀请您,先思考: 1 有哪些算法可以聚类?各自有什么特点? 2 聚类算法的效果如何评价? 1 定义 聚类是数据挖掘中的概念,就是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。 2 聚类过程 数据准备:包括特征标准化和降维; 特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中; 特征提取:通过对所选择的特征进行转换形成新的突出特征;
陆勤_数据人网
2018/03/27
1.7K0
【算法】聚类算法
聚类算法在电脑监控软件中的原理分析
在电脑监控软件中,聚类算法可以应用于多个方面,包括异常检测、威胁情报分析和用户行为分析等。聚类算法的原理是将一组数据对象划分为不同的组别,使得组内的对象相似度高,而组间的相似度较低。
用户10805772
2023/10/26
2670
用scikit-learn学习DBSCAN聚类
    在DBSCAN密度聚类算法中,我们对DBSCAN聚类算法的原理做了总结,本文就对如何用scikit-learn来学习DBSCAN聚类做一个总结,重点讲述参数的意义和需要调参的参数。
刘建平Pinard
2018/08/14
2.3K0
用scikit-learn学习DBSCAN聚类
聚类算法
p=2时就说平时计算的几何距离,当p趋向于正无穷的时候,其实求的就不是x,y的距离了,而是求x y中最长的一个了。因为如果x大于y,在指数增长下x回远大于y,所以y会被忽略的。这也是比较常用的了。
西红柿炒鸡蛋
2018/09/11
2K0
聚类算法
用scikit-learn学习谱聚类
    在谱聚类(spectral clustering)原理总结中,我们对谱聚类的原理做了总结。这里我们就对scikit-learn中谱聚类的使用做一个总结。
刘建平Pinard
2018/08/14
2.3K0
用scikit-learn学习BIRCH聚类
    在BIRCH聚类算法原理中,我们对BIRCH聚类算法的原理做了总结,本文就对scikit-learn中BIRCH算法的使用做一个总结。
刘建平Pinard
2018/08/14
1.4K0
用scikit-learn学习BIRCH聚类
TensorFlow中的Nan值的陷阱
之前在TensorFlow中实现不同的神经网络,作为新手,发现经常会出现计算的loss中,出现Nan值的情况,总的来说,TensorFlow中出现Nan值的情况有两种,一种是在loss中计算后得到了Nan值,另一种是在更新网络权重等等数据的时候出现了Nan值,本文接下来,首先解决计算loss中得到Nan值的问题,随后介绍更新网络时,出现Nan值的情况。 01 Loss计算中出现Nan值 在搜索以后,找到StackOverflow上找到大致的一个解决办法(原文地址:这里),大致的解决办法就是,在出现Nan值的
用户1332428
2018/03/09
3.3K0
聚类算法总结
(本文转自网上,具体出处忘了是哪里的,好像是上海一位女士在网上的博文,此处转载,用以备查,请原作者见谅) 聚类算法总结: --------------------------------------------------------- 聚类算法的种类: 基于划分聚类算法(partition clustering)
AIHGF
2019/02/18
1.5K0
opencv聚类算法
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
sofu456
2019/10/22
9840
opencv聚类算法
机器学习-层次聚类(谱系聚类)算法
层次聚类(Hierarchical Clustreing)又称谱系聚类,通过在不同层次上对数据集进行划分,形成树形的聚类结构。很好体现类的层次关系,且不用预先制定聚类数,对大样本也有较好效果。
唔仄lo咚锵
2023/05/23
1.9K0
机器学习-层次聚类(谱系聚类)算法
聚类算法比较
算法:聚类算法比较是包括MiniBatchKMeans、AP聚类、MeanShift、谱聚类、Ward聚类、层次聚类、DBSCAN聚类、Birch聚类和高斯混合模型聚类算法的参数被优化到最佳聚类的结果比较。
裴来凡
2022/05/29
5860
聚类算法比较
聚类算法简述
K-MEANS 算法 K-MEANS 评估聚类结果与选择K MapReduce GMM 算法 初始化 过拟合 K-MEANS比较 LDA LDA和clustering的区别 数学基础 四种分布 共轭分
用户1147754
2018/01/03
2.1K0
聚类算法简述
Kmeans聚类算法
在确定K的时候,可以测试10个不同的聚类中心,然后绘制K与误差平方和的曲线图,找到曲线的拐点,即是合适的K值。
故事尾音
2019/12/18
9510
Kmeans聚类算法

相似问题

在Dataset上运行不同的Scikit学习聚类算法

26

scikit学习:K均值和MiniBatchKMeans聚类算法的比较

21

在Scikit的DBSCAN聚类算法中有哪些有噪声的样本?

11

KMeans聚类后的聚类点(scikit学习)

20

Scikit Learn中的KMeans聚类

12
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文