我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因？

python、numpy、machine-learning、matplotlib、scipy

我如何在Python中进行分层聚类(在本例中是针对基因表达数据)，以显示基因表达值矩阵和树状图？我的意思是像下面这样的例子：在项目符号6(图1)之后显示，其中树状图绘制在基因表达矩阵的左侧，其中行已重新排序以反映聚类。如何在Python中使用numpy/scipy或其他工具执行此操作？另外，用欧几里德距离作为度量，用大约11,000个基因的矩阵来做这件事，在计算上可行吗？编辑:很多人建议使用聚类包，但我仍然不确定如何绘制上面在Python中链接的图像。例如，我如何使用Matplotlib将树状图覆盖在热图矩阵旁边？谢谢。

浏览 0提问于2010-06-05得票数 3

1回答

无权图的聚类算法

graph、cluster-analysis

我有无权无向图作为我的网络，基本上是蛋白质的网络，我想把这个图聚在一起，把这个图分成不相交的簇。任何1种聚类算法，我可以应用在无权无向图的生物网络上。

浏览 1提问于2015-07-29得票数 2

回答已采纳

2回答

BioPython中给定基因名称的基因的相似性

python、similarity、biopython

在给定基因名称的情况下，我如何找到两个基因的相似性？所谓相似性，我想我指的是序列的相似性。我是这个领域的新手，我的教授给了我这项工作。我不知道有多少相似之处。希望这可以用Biopython来完成？非常感谢。作为响应更新：谢谢。但我试过了。我的主要问题是，当我从数据库中检索基因序列时，一些结果是基因序列，另一些结果是蛋白质序列。我认为，如果我们想要比较它们，我需要确保它们都是基因序列，或者它们都是蛋白质序列，对吗？下面是我使用的代码： handle = Entrez.efetch(db="nucleotide", id=t ,rettype="gb"

浏览 2提问于2013-12-19得票数 0

1回答

相互作用蛋白质数据库

protein-database

我正在做一个蛋白质相互作用网络集群项目。为了测试结果，我从DIP数据库中下载了数据集。它对每个蛋白质都有DIP-id，我想将该簇(DIP-id作为蛋白质名称)与黄金数据集CYC2008进行比较，后者在复杂定义中具有公共名称/开放源码名称作为蛋白质名称。有人能帮我把DIP-id转换成基因名吗？例如，DIP-839N到Taf1p。

浏览 4提问于2015-02-01得票数 1

4回答

生物信息学数据库结果是否定的？

database、resources、dataset、bioinformatics

像BioGRID这样的生物信息学数据库从各种出版物和实验中收集了不同物种中蛋白质和基因的大量相互作用结果，但这种整理来自于测试偏差，因为并非所有组合都进行了测试，有些组合进行了多次测试。难道他们不应该也收集所有的负面结果吗？是否有这样的资源，系统地收集来自高吞吐量和低吞吐量实验的正负交互？

浏览 0提问于2011-03-29得票数 2

2回答

利用D3实现可视化

visualization、javascript

我对D3编程(这方面的任何编程)都是新手。我有JSON格式和csv格式的蛋白质-蛋白质相互作用数据。我想利用这些数据进行网络可视化。数据属性:蛋白质名称、蛋白质组、蛋白质类型、蛋白质来源节点、蛋白质目标节点有人能为这样的数据建议良好的网络可视化吗？它是如何处理蜂巢情节的？

浏览 0提问于2014-11-15得票数 2

1回答

graph、cluster-analysis、bioinformatics、similarity

我们的目标是在ppi网络数据集中找到类似的基因，该数据集以加权边缘列表的形式存在。在我们使用图聚类算法之后，我们如何衡量这些聚类的相似性？我们的数据集的一个样例行： Gene1 Gene2 Weight 10021 23416 0.1365 10040 57679 0.1244 提前谢谢。

浏览 19提问于2020-12-21得票数 0

1回答

如果我想展示蛋白质-蛋白质相互作用的力量，网络模型合适吗？

cytoscape

我正在做一个实验，测量网络中蛋白质对之间的相互作用。我也有一个积极和消极的对照，以显示“最少”和“最多”的相互作用量，蛋白质可能有可能。我想做一个网络模型，但是我不确定如何用数值数据来显示交互的强度。例如，如果阳性对照有"50“和负控制"5”(我使用Miller单位)，那么如何使用颜色梯度来显示我正在研究的蛋白质-蛋白质相互作用的强度。这个链接“在网络上可视化表达式数据”会是一个合适的协议吗？提前感谢您的帮助。

浏览 4提问于2022-07-11得票数 0

1回答

你能从R中的pheatmap中提取数据矩阵吗？

r、pheatmap

我根据基因微阵列数据创建了一个热图，然后使用pheatmap对数据进行聚类并输出热图。有没有办法将热图的聚类数据以矩阵形式输出到excel文件中？

浏览 2提问于2015-09-25得票数 0

1回答

R中具有不同范围/尺度的连续异质变量的系统聚类

r、cluster-analysis、bioinformatics、correlation、hierarchical-clustering

我想使用R来使用描述相同样本的两组变量来执行分层聚类。一组是微阵列基因表达数据(针对特定基因)，这些数据已经标准化并进行了批量效应校正。另一组也有一些描述相同样本的定量临床参数。然而，这些临床变量还没有被归一化或进行任何类型的转换(即原始连续值)。例如，其中一个变量的值范围从2到35，而另一个变量的值范围从0.1到0.9，依此类推。因此，我的最终目标是实现分层聚类并同时使用这两个组(合并到矩阵/数据帧中)，以检查这些临床变量中的哪些与特定基因聚类，等等： 1)在与基因合并并执行聚类之前，临床变量组中的初始转换是必要的吗？例如: log2转换，这也是对我的部分基因表达数据做的!！ 2)或者，

浏览 13提问于2017-01-28得票数 2

1回答

细胞角扩散算法

plugins、network-programming、cytoscape、protein-database

有人能告诉我在赛托普角中工具扩散使用了什么扩散算法吗？另外，我在赛多角发现了一个插件基因，它也能做同样的事情吗？我希望通过提供来自这个网络的蛋白质子集来获得我网络中蛋白质的热评分，作为阳性的基因集。谢谢

浏览 8提问于2022-04-20得票数 0

1回答

计算子图在图中的出现次数

perl、scripting、graph、awk、pattern-matching

我有一个描述基因相互作用的三维数据集，可以用图表表示。数据集示例如下： a + b b + c c - f b - d a + c f + g g + h f + h '+‘表示左边的基因正向调节右边的基因。在这个数据中，我想计算一个子图，其中一个基因(比如x)正向调节另一个基因(比如y)，y反过来又正向调节另一个基因(比如z)。此外，z还受到x的正调节。在上图中有两种这样的情况。我想执行这个搜索，最好使用awk，但是任何脚本语言都可以。我很抱歉我的问题太具体了，并提前感谢你的帮助。

浏览 3提问于2010-11-12得票数 2

回答已采纳

1回答

在excel文件中具有相同名称的目标节点和源节点是如何分离的？

cytoscape.js、cytoscape

我在做一个蛋白质-蛋白质相互作用网络在某些情况下，源和目标蛋白具有相同的名称(虽然它们实际上不是相同的，但它们的名称相同) 当将其加载到Cytoscape时，只有一个节点显示该名称。从技术上讲，我需要用这个名字显示的两个节点，因为它们是不同的蛋白质。请帮帮忙。

浏览 10提问于2022-07-14得票数 0

2回答

聚类均匀度分析及RapidMiner中簇距离性能算子的应用

cluster-analysis、k-means、rapidminer

我已经在数据集上实现了k-均值聚类。我尝试通过查看快速采煤机中的平行图和偏差图来分析聚类的k。为了分析各种性能模型的clusters.Out的同质性，将算子“集群距离性能”算子用于k-均值聚类结果。是否有其他经营者可以提供这方面的分析？我所拥有的数据集有具有大值的数字向量(以数百和千为单位)，还有一个具有极小值的数据集(十进制的第5位至第8位)。我不知道如何解释操作符“集群距离性能”的结果，如下所示质心表结果而性能向量算子的结果是有人能帮我吗？虽然我读到越小，Davies的值越小，更好的是聚类。

浏览 4提问于2016-07-27得票数 0

2回答

从蛋白质序列数据库中检索DNA序列？

bioinformatics、fasta、genome、protein-database

我在FASTA中有1000个蛋白质序列和它们的登录号。我想回到整个基因组猎枪数据库，检索所有编码蛋白质的DNA序列，这些序列与我的初始序列列表中的蛋白质相同。我尝试运行一个tBlastn，每个序列有<10个结果，每个查询有1个结果，e值小于1e-100或e值为0，但是我没有得到任何结果。我想让整个过程自动化。这是否可以通过从命令行运行blast和一个批处理脚本来完成？

浏览 6提问于2014-12-06得票数 0

1回答

蛋白质相互作用网络聚类算法的研究结果

bioinformatics、protein-database

我正在做一个涉及蛋白质相互作用网络聚类的项目，在相互作用的蛋白质图上做了几个聚类算法，我有点困惑，现在我要如何去看看所创建的集群是否有用。为了将其纳入上下文，蛋白质相互作用网络代表了蛋白质与参与相同生物过程或共同履行特定功能的相互作用蛋白质群之间的成对连接。这是很重要的，因为许多蛋白质和相互作用是没有标记的，因此，如果某个特定的标记蛋白在一个簇中，就可以推断它们的功能。与典型的有监督机器学习任务不同的是，标记数据集可以显示正确分组的数目，因此没有迹象表明蛋白质的良好聚类及其相互作用，假设一个聚类中所有的蛋白质都在一个集群中，就像所有的蛋白质都在一个集群中一样好(尽管在这个集群中没有信息意义

浏览 1提问于2015-12-10得票数 0

3回答

聚类与非聚类问题？

machine-learning、unsupervised-learning

我刚开始学习安德鲁·吴的机器学习，他解释了鸡尾酒会问题和基因聚类问题的例子，以解释在无监督学习中聚类问题和非聚类问题之间的区别。然而，我仍然不明白两者之间的区别。谁能帮我澄清一下。

浏览 0提问于2019-05-11得票数 4

回答已采纳

1回答

使用R bioconductor package STRINGdb操纵字符串db

r、database、package、interaction、bioconductor

我想从string-db.org中提取一个大型网络，因为web界面不支持超过2000个蛋白质。我需要大约100.000到200.000个蛋白质。所以我使用R bioconductor package STRINGdb来探索数据库。由于我是R的新手，即使有了文档，我也不知道如何做到这一点，也不知道要使用的函数。我尝试过PS:我对癌症网络感兴趣，(蛋白质-蛋白质相互作用数据集)我已经尝试过了： source("https://bioconductor.org/biocLite.R") biocLite("STRINGdb") library(STRINGdb) st

浏览 4提问于2017-05-24得票数 2

1回答

Cox比例风险模型中的交互作用:对比度和两个分类因素之间的问题

r、categorical-data、survival-analysis、interaction、cox-regression

我需要帮助才能理解R中的coxph()函数是如何工作的，从而了解如何正确解释输出。我尝试在一个包含两个因素的“生存分析”数据集上运行cox比例风险模型:性别和基因型。性别因素有两个分类变量："m“代表男性，"f”代表女性。基因型因子有三个分类变量："Ctrl"，"nKO"，"CRE_Ctrl“。我想看看是否有交互，因此我做了： library(survival) Survival = Surv(time = D$Age, event = D$outcome) #D is my dataframe, Age is time of dea

浏览 826提问于2020-04-29得票数 0

1回答

如何对这些数据点进行聚类/分组(使用K均值或Hirarachal聚类)

k-means、feature-extraction、hierarchical-data-format

我有来自不同物种的基因 Gene A , Gene B, Gene C, ... Gene Z 有些基因彼此相似。 A & G are 96% similar C & H are 92% similar G & B are 89% similar G & T are 85% similar . . . K & F are 52% similar 我想把这些基因分成几类物种A、B、T、G是同一种C、H、N、R、L、P。。。K似乎与任何物种不相似(它本身是未知的或物种本身)F似乎与任何物种(它本身是未知的或物种本身)不相似。我知道我可以用K均值对这些基因

浏览 0提问于2021-12-02得票数 0

1回答

试图理解蜂巢图的D3代码

javascript、d3.js、data-visualization

下面是一个蜂巢图的D3代码链接。关于这一点，我有两个问题：索引'y‘在数组’节点‘的对象中表示什么？ var节点= {x: 0，y：.1}，{x: 0，y：.9}，{x: 1，y：.2}，{x: 1，y：.3}，{x: 2，y：.1}，{x: 2，y：.8}；如何将数据(json文件)绑定到元素以获得更复杂的Hive图？我还能做吗？我的数据是一个蛋白质-蛋白质相互作用数据集与源蛋白节点，目标蛋白节点，蛋白质类型，蛋白质名称和蛋白质组。我想用蜂巢图来做一个网络可视化。帮帮忙吧。我对编程很陌生。

浏览 2提问于2014-11-15得票数 1

回答已采纳

1回答

循环，直到通过更改输入数据来满足条件。

r、loops、while-loop

我有一个Rna-seq数据集(rows=samples，columns=genes)，它具有聚类功能.这些基因被分类为n个簇，其中属于0簇的基因是非聚类基因。这些聚类又回到聚类中，我们又得到了n个标记数的簇，其中0又是非聚类基因。这一过程一直进行到没有进一步的基因被分类为第0组。我需要循环进入这个过程，以便在每次迭代时返回最终的聚类结果以及属于群集0的基因的合并。我知道这可以用时间或重复来完成。我试过使用重复，但没有工作，问题是，我没有真正清楚如何正确设置这一点。 #define my dataset dat<-my_dataset repeat{ #run the cluster

浏览 4提问于2020-05-06得票数 0

2回答

在聚类中预测

r、cluster-analysis

在R语言中，有没有像我们在分类中那样的聚类预测功能？除了比较两个集群之外，我们可以从R得到的聚类图结果中得出什么结论？

浏览 2提问于2011-11-13得票数 2

1回答

如何将KEGG过度表示法测试的热图的X轴转换为显示基因符号而不是基因entrez？

r、heatmap、ontology

我刚开始编码R(和一般的编程)，最近我把它作为我工作的一项要求。我的实验室正在使用一个叫做"clusterProfiler“的R包来分析在我们的组织样本中发现的几种蛋白质。使用下面的代码，我成功地在一个名为“geneList”的样本数据集上运行了一个基因本体过度表示测试，并创建了一个选择基因参与的生物过程的热图。这一程序的代码如下： devtools::install_github( c("guangchuangyu/enrichplot", "guangchuangyu/DOSE", "guangchuangyu/clust

浏览 3提问于2018-06-12得票数 1

1回答

包含K簇和RowName注释的热图

r、heatmap

我有一个数据框架，看起来像这样，有一个基因名称，一个基因家族和Log2Fold的变化。我可以将折叠变化放在热图中，但希望只用基因家族注释行(在热图的右侧)，同时在整个热图上进行K均值聚类(生成5个聚类)。这在ComplexHeatmap中是可能的吗？我已经附加了我的数据帧： tf.logs Name 0dpi 1dpi 7di 14dpi 22dpi Gene1 MYB 1 2 3 4 5 Gene2 WRKY 4 3 6 5 11 Gene3 ERF 3 4 5 66 2 Gene4 bZIP 3 4 5 6 6 Gene5 EFR 4 4 4 4 4 我的热图代码如下：

浏览 22提问于2020-09-25得票数 1

2回答

同时聚类癌症基因表达数据？

cluster-analysis

我正在研究基因表达数据聚类技术，我已经从网络上下载了35个数据集，我们有35个数据集，每个数据集代表一种癌症。每个数据集都有自己的功能。其中一些数据集在多个特征中共享，其中一些从特征的角度来看并不共享任何内容。我的问题是，我们如何最终集群这些数据，而它们中的许多并不具有相同的特征？我认为我们可以同时对所有35个数据集进行聚类操作。我的想法正确吗？任何帮助都是非常感谢的。

浏览 1提问于2018-07-27得票数 0

1回答

如何利用无向图中的已知信息进行预测

graph、machine-learning、bioinformatics

蛋白质-蛋白质相互作用网络是已知的。它是一个无向图。网络的每一行都是这样的(蛋白质2-蛋白质6)，它代表蛋白质2和蛋白质6之间的相互作用。 networks: Protein 2 - Protein 6 Protein 4 - Protein 5 Protein 6 - Protein 5 Protein 5 - Protein 7 ... 在这个网络中，一些蛋白质的功能是已知的，功能相似的蛋白质往往是相关的。 The function of some proteins: Protein 2,Func_002 Protein 2,Func_007 Protein 2,Func_008 Prot

浏览 2提问于2016-01-08得票数 1

1回答

如何在R中绘制X轴上的多个列？

r、multiple-columns

我从一组在某种生物物质中最常发现的100个基因开始，这个列表被称为"top100“。使用MERGE，我设法从每个样本的数据集中获得了这100个蛋白质中的每一个的计数。我想绘制每个样本中每个单独蛋白质的计数图。所以基本上我想要一个图，它显示了，例如，蛋白质: PKM和每个样本(在这个例子中是N=2)的计数，然后我想对单个图中的所有100个蛋白质重复这个过程。 row.names Gene.Symbol Normalised.count.(B) Normalised.count.(A) 1 1

浏览 0提问于2015-11-24得票数 0

1回答

利用matlab对数据进行聚类

matlab、cluster-analysis、hierarchy、dendrogram

我在试着把我的数据聚在一起。这是我的数据的例子： genes param1 param2 ... gene1 0.224 -0.113 ... gene2 -0.149 -0.934 ... 我有一千个基因和一百个参数。我想根据基因和参数对数据进行聚类，并使用聚类图进行聚类。因为有很多基因，所以很难用图片来理解任何东西。现在我想要我的数据中的15到20个最大的基因簇的文本信息。我的意思是15-20个基因列表，它们属于不同的集群。我该怎么做？谢谢这是我从我的数据中得到的集群图的例子：这里有垂直和水平的树状图。因为有很多行，在垂直树状图上不可能看到任何东西(我只

浏览 2提问于2014-04-15得票数 2

回答已采纳

2回答

使用两个矩阵进行聚类

cluster-analysis

我有两个矩阵，包含来自40个样本和50000个基因的信息。Matrix Expr包含每个基因和样本的基因表达；Matrix Methyl包含每个样本的这些基因的甲基化状态。是否有可能同时基于表达和甲基化信息对基因和/或样本进行聚类？我知道如何在R即hclust(dist(M))中执行基本的层次聚类，但它只在一个矩阵上。有什么想法/建议吗？

浏览 3提问于2016-05-27得票数 0

2回答

如何在seaborn clustermap中将Y ticklabels标记为group/category？

python、matplotlib、plot、graph、seaborn

我想为患者的基因存在/缺失数据制作一个聚类图/热图，其中基因将被分类(例如趋化性、内毒素等)并进行适当的标记。我在seaborn文档中没有找到任何这样的选项。我知道如何生成热图，但我不知道如何将ytick标记为类别。以下是我想要实现的目标的示例(与我的工作无关)：在这里，yticklabel一月、二月和三月被赋予组标签冬季，其他yticklabel也被类似地标记。

浏览 14提问于2019-11-14得票数 12

回答已采纳

1回答

如何利用entrez.efetch获得特定的蛋白质序列？

xml、sequence、bioinformatics、biopython、ncbi

我试图通过一个基因id (GI)号从NCBI中获取蛋白质序列，使用Biopython的Entrez.fetch()函数。 proteina = Entrez.efetch(db="protein", id= gi, rettype="gb", retmode="xml"). 然后，我使用以下方法读取数据： proteinaXML = Entrez.read(proteina). 我可以打印结果，但是我不知道如何单独获得蛋白序列。一旦结果显示出来，我就可以手动到达蛋白质。或者我使用以下方法检查XML树： proteinaXML[0]["G

浏览 2提问于2013-11-14得票数 2

回答已采纳

4回答

Networkx统计推断

python、graph、social-networking、networkx

我有一个有向加权图，我成功地使用networkx创建了它。我试图在这个网络上做出一些统计推断，但我遇到了麻烦。下面是它们： (i)网络的平均程度。(我唯一能找到的是average_degree_connectivity，它返回一个字典，而不是一个带整个网络平均程度的浮点数) (ii)该网络的平均加权程度。(与上文相同) (iii)网络的平均聚类系数。(我知道我必须使用nx.average_clustering(g)，但是如何考虑它是加权有向图这一事实？我一直收到错误: NetworkXError：(“聚类算法未定义”，“用于有向图”)。谢谢!

浏览 6提问于2015-03-15得票数 11

回答已采纳

3回答

python中的谱聚类图

python、scikit-learn、cluster-analysis、graph-theory、spectral

我想使用谱聚类在python中对图进行聚类。谱聚类是一种更通用的聚类技术，它不仅适用于图形，也适用于图像或任何类型的数据，但它被认为是一种特殊的图聚类技术。遗憾的是，我在python网上找不到谱聚类图的例子。 Scikit学习有两种光谱聚类方法：和，它们似乎不是别名。这两种方法都提到，它们可以用于图表，但没有提供具体的说明。。我有，但他们工作过度，还没有达到目的。是一个很好的网络来记录这一点。它包括了。我很想在这方面有个方向。如果有人能帮我解决这个问题，我可以将文档添加到scikit学习中。备注：。

浏览 9提问于2017-09-16得票数 33

回答已采纳

4回答

在持久存储中存储图表的最佳方法是什么

database、graph、storage、persistent、neo4j

我想知道在持久存储中存储图的最好方法是什么，以供以后分析、搜索、聚类等。我认为neo4j是一个选择，我很好奇是否还有其他可用的图形数据库。有没有人对大型社交网络如何存储基于图的数据(或其他需要存储类似图的模型的网站，例如RDF)有任何见解？那么像Cassandra或MySQL这样的选项呢？

浏览 0提问于2010-06-04得票数 29

2回答

聚类算法

artificial-intelligence

我有一组n个元素(1,000 <= n <= 100,000)，我可以计算每对之间的相似性等级，即从0(非常相似)到1(非常不同)之间的一个值。我想根据这些要素的相似程度对它们进行聚类。我想把它们表示成一个图，元素是顶点，加权边是它们之间的相似性。我读过关于MCL算法的文章，但我认为这不是最好的方法，因为我的图已经完成了。另一方面，由于有很多元素，也许计算每对之间的相似性并不是最佳实践(我想要一个快速算法)。我也读过一些关于领导者聚类算法的文章，但是，我也不确定这是否是最好的方法，因为据我所知，它很容易因为它的贪婪而失败(我想要一些更健壮的方法)。编辑:我忘记提到，我知道一个

浏览 0提问于2015-03-19得票数 5

2回答

在R中可视化-一种k-表示聚类发育基因表达数据集

r、ggplot2、k-means

我可以看到很多关于这个话题的帖子，但是没有一个能解决这个问题。如果我错过了一个相关的答案，很抱歉。我有一个大型的蛋白质表达数据集，像这样的样本，如: rep1_0hr，rep1_16hr，rep1_24hr，rep1_48hr，rep1_72hr…… 以及行中的2000+蛋白。换句话说，每个样本都是一个不同的开发时间点。如果感兴趣，则原始数据集是R中的mulvey2015包中的“pRolocdata”，我将其转换为RStudio中的SummarizedExperiment对象。我首先对数据(一个assay()的SummarizedExperiment数据集)进行k-均值聚类，以获得12个集

浏览 3提问于2022-02-25得票数 1

回答已采纳

2回答

分裂和配对两列的值

r、split、row、bioinformatics

我有这样一个数据框架： Entry name Gene names A1BG_HUMAN A1BG M0R009_HUMAN A1BG F8W9F8_HUMAN A1CF Q5T0W7_HUMAN A1CF A1CF_HUMAN A1CF ACF ASP H0YFH1_HUMAN A2M A2MG_HUMAN A2M CPAMD5 FWP007 在第一列，我有蛋白质名称，在第二列，我有相关的基因。在一些蛋白质前面，可以看到多个基因名称，它们基本上是该细胞中第一个基因的别名(由一个空间分隔)。我想把这组数据转换成每一个蛋白质名称都与不同的

浏览 4提问于2016-07-19得票数 2

回答已采纳

2回答

使用python聚类/查找类似的热图

python、image-processing、machine-learning、computer-vision、k-means

我有以下热图的示例图像(我现在有数百个这样的images...for，以后会增长)：用我的人眼，我会说heatmap1，3和4是相似的，或者3和4是最相似的，我不确定。我希望能够根据模式和强度将最相似的热图图划分成不同的组。例如，中的每个heatmap包含24行和5列(行表示时间，列表示功能)。每列中的每一种颜色代表一个介于0到1之间的数字。与其他热图相比，第1列中用于heatmap 3和4的模式和强度更相似。但是，我不想看每一列，而是要比较每个热图的总体模式和强度。我以为我要用kmeans集群，但是找不到任何能帮助我实现我想要的东西的信息。据我

浏览 10提问于2017-05-11得票数 0

1回答

如何通过不同而不是相似来聚类？使用欧氏逆距离可以吗？

python、pandas、dataframe、seaborn、hierarchical-clustering

我试图根据不同的而不是它们的相似程度来对一组产品进行集群。也就是说，如果Product1是在第一周销售，而不是在第二周销售，我想将它与第一周不销售但在第二周销售的产品配对。作为最终产品，我想展示一个海运聚类图来说明产品之间的反比关系。我尝试使用欧氏距离的逆作为我的聚类度量，而不是欧几里德距离。来完成这个任务。示例代码如下： import numpy as np import seaborn as sns import pandas as pd np.random.seed(0) a = np.random.randint(2,size=(5,10)) 样本数据，五个产品10个“周”的数

浏览 2提问于2019-05-02得票数 1

1回答

实验健身成绩聚类表

scikit-learn、clustering、pca

我需要找到模式实验数据。这些柱是“实验”，是生长实验的化学处理。行是单个基因名称，值是一个健康缺陷评分，它反映了基因对生长的贡献。我想通过某种类型的PCA或聚类，找到反映在所有实验中的模式。我一直在尝试使用滑雪板，但没有成功地应用模型。数据看上去如下： gene SGTC_1 SGTC_2 SGTC_3 YAL002W 3.56420220283773 1.80774301690328 0.431491057210906 YAL004W -0.885645399324204

浏览 0提问于2018-03-05得票数 0

回答已采纳

1回答

创建一个没有生物信息学工具箱的网络？

matlab、graph、plot、graph-theory、graph-visualization

我有一个由三行组成的矩阵:基因1，基因2，距离。我想创建一个网络，其中每个基因都是一个节点，连接线根据两个基因之间的距离进行缩放。我如何在不使用生物信息学或神经网络工具箱的情况下做到这一点？谢谢!

浏览 1提问于2014-07-15得票数 1

2回答

按字符串相似度对搜索结果进行分组的最有效方法

algorithm、search、e-commerce、grouping、fuzzy-search

我正在开发一个sql server2008DB和asp.net mvc电子商务应用程序。我有不同的用户向DB提供他们的产品，我想比较具有相似名称的产品的价格。我知道字符串匹配是特定于领域的，但我仍然需要最好的通用解决方案。对搜索结果进行分组的最有效方法是什么？我应该使用Levenshtien距离算法递归地比较每条记录吗？我应该在数据库中完成，还是在代码中完成？有没有办法为这项任务实时实现SSIS模糊分组？有没有一种使用Sql server2008免费文本搜索的有效方法？编辑1:网络图分析怎么样？如果我将使用Levenshtien距离算法定义一个矩阵，我可以使用聚类算法(例如: claus

浏览 0提问于2012-03-29得票数 5

回答已采纳

1回答

如何在照片中绘制图案？

r、graph、igraph、ppi

在蛋白质-蛋白质相互作用网络中，我使用igraph来获取母题，它有一个矢量输出，但我需要图解或绘制母题的图形。 R代码： motifs(graph_object, size = 3) 产出： NA 5 3 怎样才能得到R和in中的主题图？这里有四个主题吗？注意:这个问题不同于

浏览 2提问于2016-06-28得票数 1

回答已采纳

3回答

用R进行聚类，基于欧氏距离和完全连锁度量，向量过多？

r、hierarchical-clustering、dendrogram

我试图弄清楚如何将计数矩阵读入R中，然后根据欧几里德距离和完全连锁度量进行聚类。原始矩阵有56,000行(基因)和7列(处理)。我想看看治疗之间是否存在聚类关系。然而，每次我尝试这样做时，我首先会得到一个错误声明，Error: cannot allocate vector of size 544.4 Gb，因为我试图复制别人发布的作品，我想知道我的初始数据输入是否出错了。第二，如果我试着用56,000个基因中的20个基因进行聚类，我就可以做一个聚类树图，但这些分支不是实验样本。我试图复制的论文用显示聚类样本的树状图进行了这样的聚类。下面是我试图运行的代码： exprs <- as.m

浏览 2提问于2015-07-15得票数 1

回答已采纳

1回答

聚类多网络

clustering、graphs、social-network-analysis

我在寻找网络中的社区检测方法。例如，如果我有一个由100人组成的网络(每个节点都是一个人)，那么如何集群节点呢？将这些人分组的最佳方法是什么？我知道这个问题很开放，但我只是在寻找一个正确的方向。

浏览 0提问于2017-04-06得票数 0

回答已采纳

1回答

来自R中微阵列表达数据的基因亚集热图

r、heatmap、subset

在背景减去和归一化之后，我有一个类"Elist“类型的文件-表示如下。 $E A B C D E F ILMN_1 9.678162 9.635665 9.420577 9.778417 9.521473 9.820778 ILMN_2 11.458221 11.152161 11.158666 11.410278 11.416522 11.377062 ILMN_3 9.385075 9.08

浏览 2提问于2015-01-13得票数 0

2回答

在进行分层聚类之前，什么时候需要对中心和缩放进行调整？

clustering

我正在进行一个聚类项目，我们已经收集了100多个病人样本的蛋白质数据。对此数据进行规范化和日志转换。我们的目标是根据样本的相似性对它们进行聚类，我使用层次聚类，并尝试使用距离度量和聚类算法的组合。(我们还没有就距离法或聚类算法作出决定)我的问题与中心和缩放有关，是否绝对有必要对数据进行缩放和中心化?即使在所有数据都来自同一个平台和测量单位相同的情况下也是如此。感谢你对这件事的投入。谢谢

浏览 0提问于2017-08-17得票数 5

回答已采纳

1回答

如何在R中的特定行后添加str

我有一份果蝇的蛋白质列表和它的家蚕的正蛋白，它们在一个2031*2的数据框架中，现在我又有了另一个列表，这是上面提到的一些蛋白质和它的基因名称，我如何在第一个数据框架中添加另一列，然后根据第二个列表将该蛋白质的基因名称放在它之后。例如 List1: 1 a 2 b 3 c List2: A a C c After opration 1 a A 2 b 3 c C

浏览 2提问于2021-12-07得票数 0

6回答

如何比较两个树状图( R)之间的“相似性”？

r、tree、statistics、dendrogram、dendextend

我有两个树状图，我希望互相比较，以找出它们有多“相似”。但我不知道有什么方法这样做(更别提用代码来实现它了，比如说，在R中)。有什么线索吗？更新 (2014-09-13)：自从提出这个问题以来，我编写了一个名为的R包，用于树状图的可视化、操作和比较。这个包在上，附带了一个。它包括cor_cophenetic、cor_bakers_gamma和Bk / Bk_plot等功能。以及一个用于视觉比较两棵树的tanglegram函数。

浏览 3提问于2010-02-07得票数 24

回答已采纳