如果我有一组点,有不同的y位置(A,B,C),每个点都有相同的x坐标。是否有可能将这一组3点聚在一起而不是单独进行?
我希望在给定的样本中看到这3点集合的出现,看看哪一组(A,B,C)最常见。
我已经看到大多数聚类算法都可以对给定的位置(x,y)进行聚类,但是对于给定的x坐标,不能对几个点进行聚类。
例如,如果我有以下内容
X A B C
1 0.7 0.1 0.2
2 0.3
我有来自不同物种的基因
Gene A , Gene B, Gene C, ... Gene Z
有些基因彼此相似。
A & G are 96% similar
C & H are 92% similar
G & B are 89% similar
G & T are 85% similar
.
.
.
K & F are 52% similar
我想把这些基因分成几类
物种A、B、T、G是同一种C、H、N、R、L、P。。。K似乎与任何物种不相似(它本身是未知的或物种本身)F似乎与任何物种(它本身是未知的或物种本身)不相似。
我知道我可以用K均值对这些基因
我正在学习机器学习,从科学工具包-学习和阅读它的文档。
基于欧氏距离的聚类聚类,并以不同的方法(如高斯分布、均值偏移等)对它们进行滤波。
但是,没有一种基于变异率的聚类算法对样本进行聚类。
EX: below every items has there sold numbers of everyday.
Item,D1,D2
A,1,5
B,10,50
C,4,70
The variation ratio below:
A:500%
B:500%
C:1750%
所以A和B是同一个群,C不是。
是否有任何聚类算法可以根据变化率(或数量)对时间序列数据集进行聚类?
我正在做聚类工作,我有90个特征,有13500个数据点,去除了相关变量,其中皮尔逊相关性超过90%,我的特征空间减少到70个。而且,几乎所有我最初的90个特性都有大量的零值(超过70%-80%的数据点)。我在算法实现方面所做的是:
Ran K-通过根据轮廓指数选择聚类数来表示原始数据的70个特征(均为数字)。
Ran K-通过根据剪影索引选择簇数将维度降到2。
我所观察到的和我相应的问题是:
K-表示pca减少的数据提供了更好的聚类。有什么办法可以让我用这个集群来解释吗?就像从pca分配聚类标签一样,将数据减少到原始数据
原始数据上的K-均值和pca上的K-均值是如何不同的?我知道pca会将数
我建立了一个GMM模型,并使用它来进行预测。
bead = df['Ce140Di']
dna = df['DNA_1']
X = np.column_stack((dna, bead)) # create a 2D array from the two lists
#plt.scatter(X[:,0], X[:,1], s=0.5, c='black')
#plt.show()
gmm = GaussianMixture(n_components=4, covariance_type='tied')
gmm.fit(X)