我正在使用python中的sklearn对基因表达数据执行主成分分析(PCA)。我的数据作为pandas dataframe加载,为此我可以调用df.head(),df看起来很好。我正在使用sklearn生成一个加载矩阵,但是该矩阵只显示一个通用索引,并且不接受索引的列名。我有1722个基因,所以通过计算获得每个基因的加载分数是很重要的。下面是我的PCA代码:
i
我正在处理大型矩阵,比如。我重新构造了联机文件,使其与页面上提到的维度(138000乘27000)相匹配,因为原始文件包含更大的索引(138000×131000),但包含大量空列。简单地抛出这些空列并重新编制索引就可以得到所需的维度。无论如何,将稀疏csv文件强制转换为密集格式的代码片段如下所示:from scipy import sparse
# note that the file is然而,当我使用ht
我正在阅读“Python for Data Analysis”这本书,但在“Example: 2012联邦选举委员会数据库”部分将数据读取到DataFrame时遇到了问题。问题是其中一列数据总是被设置为索引列,即使index_col参数设置为None也是如此。
下面是指向数据的链接:。下面是加载代码(为了节省检查时间,我设置了n
我在堆栈溢出上发布了我的问题,但是有人建议我在这里尝试一下。我现在正在做的事:)
好的,首先是我的数据。我有一个字双克频率矩阵(1100 x 100658,dtype=int),其中前5列包含有关文档的信息。因此,每一行都是一个文档,每一列都是一个单词-bi(关于-the,on-the,and -the,.)。我想要可视化数据,但在做之前,我想减少维数。所以我想我是用滑雪的PCA来做的。首先,我将列标签设置为