如何在生成PCA加载矩阵时将pandas数据框列设置为索引

文章/答案/技术大牛

发布

1回答

python、pandas、scikit-learn、pca、genetics

我正在使用python中的sklearn对基因表达数据执行主成分分析(PCA)。我的数据作为pandas dataframe加载，为此我可以调用df.head()，df看起来很好。我正在使用sklearn生成一个加载矩阵，但是该矩阵只显示一个通用索引，并且不接受索引的列名。我有1722个基因，所以通过计算获得每个基因的加载分数是很重要的。下面是我的PCA代码： i

浏览 5提问于2019-08-09得票数 1

1回答

我正在处理大型矩阵，比如。我重新构造了联机文件，使其与页面上提到的维度(138000乘27000)相匹配，因为原始文件包含更大的索引(138000×131000)，但包含大量空列。简单地抛出这些空列并重新编制索引就可以得到所需的维度。无论如何，将稀疏csv文件强制转换为密集格式的代码片段如下所示：from scipy import sparse # note that the file is然而，当我使用ht

浏览 0提问于2018-08-08得票数 2

回答已采纳

2回答

矩阵上的Python太大，无法装入内存

python、pandas、machine-learning、scikit-learn、pca

我有一个csv，它是100,000行x27,000列，我正试图对它进行PCA，以生成一个100,000行X- 300列矩阵。csv的大小为9GB。as npX = pd.DataFrame.from_csv(dataset)X_final = sklearn_pca.f

浏览 2提问于2015-08-24得票数 9

回答已采纳

1回答

如何在通过pandas_ml调用时向xgboost添加权重向量

scikit-learn、xgboost、sklearn-pandas

在xgboost中，您可以向数据矩阵(xgboost.DMatrix的第四个参数)添加一个权重矩阵：在调用xgboost bia pandas_ml时，如何传递此权重矩阵？显然，在pandas_ml中，xgboost是作为ModelFrame上的一个方法调用的，因此我假设必须更改ModelFrame以标识权重列。类似于如何设置目标数据

浏览 0提问于2018-04-05得票数 1

回答已采纳

2回答

使用read_csv将列名转换为整数

python、csv、pandas、matrix

我构造了一个包含列和索引的整数值的矩阵。该矩阵实际上是每个月的层次结构。我的问题是，当我将数据写入csv，然后加载为pandas dataframe时，数据的索引和选择不再像以前那样工作。在向文件写入和读取数据之前选择数据：在单词中选择，月份一月，并给我(

浏览 3提问于2016-05-16得票数 0

1回答

sklearn在电影数据集中的应用

python、scikit-learn、pca

我有718*8913矩阵，行表示用户，列表示电影，这里是我的python代码：movies = pd.read_csv('movies.csv') ratings = pd.read_csv，所以我希望PCA在新维中返回718*8913矩阵，但pca结果大小为718* 718，pca.explained_variance_ratio_大小为718，其所有成员的和为1，但

浏览 1提问于2016-11-28得票数 2

回答已采纳

3回答

pandas read_csv index_col=None不使用每行末尾的分隔符

python、pandas

我正在阅读“Python for Data Analysis”这本书，但在“Example: 2012联邦选举委员会数据库”部分将数据读取到DataFrame时遇到了问题。问题是其中一列数据总是被设置为索引列，即使index_col参数设置为None也是如此。下面是指向数据的链接：。下面是加载代码(为了节省检查时间，我设置了n

浏览 2提问于2012-10-19得票数 63

回答已采纳

1回答

如何对包含多个组的数据集对每个组进行PCA？

r、pca、princomp

我有来自四个群体，四个处理和三个重复个体的数据集。每个个体只存在于一个种群中，治疗和复制组合。我从每个人身上做了四次测量。我想对每个群体、基底和复制组合的这些测量进行PCA。我知道如何对所有个人进行PCA，并且我可以将数据集分割成多个数据集，用于每个种群、基底和复制，然后在每个新的数据集上执行PCA。我如何在完整的数据集上进行独立的PC1，PC2.结果对每种组合的种群、底物和复制效

浏览 2提问于2014-10-10得票数 5

回答已采纳

3回答

Pandas data cast to numpy dtype of object.用np.asarray( data )检查输入数据。

python、mysql、pandas、time-series、arima

我正在尝试创建一个ARIMA模型，用来自我服务器的一些数据来预测时间序列，我保留了标题上的错误，但我不知道我需要哪种类型的对象。

浏览 5提问于2017-10-03得票数 2

1回答

斯克洛和PCA。为什么max n_row == max n_components？

python、scikit-learn、pandas、pca

我在堆栈溢出上发布了我的问题，但是有人建议我在这里尝试一下。我现在正在做的事:) 好的，首先是我的数据。我有一个字双克频率矩阵(1100 x 100658，dtype=int)，其中前5列包含有关文档的信息。因此，每一行都是一个文档，每一列都是一个单词-bi(关于-the，on-the，and -the，.)。我想要可视化数据，但在做之前，我想减少维数。所以我想我是用滑雪的PCA来做的。首先，我将列标签设置为

浏览 0提问于2016-04-14得票数 1

回答已采纳

1回答

在pandas库中转换要用于PCA的Image数组

python、pandas、opencv、pca、mat

我正在尝试对一幅图像执行PCA，然后输出一个图像，其中的像素根据它们在PCA中所处的聚类进行着色。我在做无监督PCA。我试图加载b，g，r波段作为我的列，索引是一个像素，给出一个表，其中包含图像中所有像素的行(每个像素都有一列表示色带)。当填充数据时，我的图像中最终有300万个以上的像素，我让它填充，但对于每个像素来说，这需要大约5秒的时间，所以无法判断我的操作是否正确。有没有更好的方法？另外，如果人们知道如

浏览 2提问于2018-08-17得票数 0

回答已采纳

3回答

韦卡的PCA跑得太久了

java、algorithm、machine-learning、weka

我试图使用Weka进行特征选择，使用PCA算法。AttributeSelection selector = new AttributeSelection();如果期望长时间运行，则为：如何调整

浏览 8提问于2012-07-14得票数 10

回答已采纳

1回答

SSRS以水平布局显示数据

reporting-services、ssrs-2008、reportingservices-2005、ssrs-tablix、ssrs-grouping

我是SSRS的新手，需要开发SSRS报告以水平布局内联显示数据，如下所示是pix和data，请指导您的帮助：ID Type ID 1 Drawings True

浏览 2提问于2013-07-19得票数 1

回答已采纳

1回答

理解机器学习中的主成分分析

python、machine-learning、pca

我正在使用部分虹膜数据集，以获得一个更好的理解PCA。_)print(pca.noise_variance_)print(pca.components_)pca_)print(pca.noise_variance_)print(pca.components

浏览 0提问于2017-01-26得票数 2

回答已采纳

1回答

Y=pd.DataFrame(列表，column=“东西”)-需要解释

python、python-3.x、pandas、dataframe、numpy

因此，我有一个代码如下：df_merge = pd.merge(Yb, file, on='something', how='left')

浏览 2提问于2021-10-18得票数 0

回答已采纳

2回答

在Python中将邻接矩阵存储为图形对象

python、networkx

我有带有邻接方阵的网络数据，但没有包含关键字(没有包含人员的标识符)。如何使用networkx package将我的邻接矩阵(csv文件)存储为图形对象？

浏览 136提问于2020-12-05得票数 0

0回答

如何使panda跨多个列框值，它的列

python-3.x、pandas、dataframe

我在Pandas中加载了以下数据帧。col2 col3 12a a b d 22b d a b 33c c a bpandaDf['value'] = 1 column = ['col1', 'col2',

浏览 4提问于2018-07-13得票数 2

1回答

TypeError:无法将序列乘以'numpy.float64‘类型的非整型-按值乘以列

python、python-3.x

我在我的数据框中通过将现有列乘以一个值来创建新列时遇到了问题-我看过类似的问题，但无法理解如何修复下面的代码： list = [] for col in df.columns[1:19]1,2]),2*(evec[2,2]/evec[1,2])]) df['w1_PCA

浏览 27提问于2020-01-12得票数 0

回答已采纳

2回答

除了索引和列都是字符串外，文件上有许多int列的read_csv d类型推断。

python、pandas、csv、types、type-inference

我需要为我正在构建的推荐程序加载一个大的.csv文件(大约有1000万条记录)。我的输入文件看起来如下(k列接近400列)： P1 P2 ...Pandas 错误地猜测我的数据中的所有数字都是浮动。我希望强制数据为“int”类型，以便在加载过程中节省内存。我知道我可以尝试使用字典手动指定列的数据类型，但是由于我正在构建推荐程序，所以不知道之前文件的列和索引，

浏览 2提问于2017-05-03得票数 5

2回答

从prcomp矩阵绘制数据子集，而不重新运行prcomp。

r、plot、subset、seurat、prcomp

我用prcomp生成了一个PCA表，它包含10000+基因和1700+细胞，由7个时点组成。在一个文件中绘制所有这些文件，很难看到。我想要分别绘制每个时点，使用相同的PCA结果表(即没有重新运行prcomp)。谢谢迪恩给我发帖子的建议。想出一种方法来描述我的数据集，而不是实际加载它在这里，我相信需要一个星期。简而言之，它是一个大型的单细胞数据集矩阵，人们通常可以在诸如Seurat ()这样的包上看到它。编辑:我在这里发布了一个<em

浏览 1提问于2018-09-03得票数 1

点击加载更多