使用sklearn计算机类时，数组的索引过多

可能会导致内存消耗过大，影响计算性能。为了解决这个问题，可以考虑以下几个方面：

数据预处理：在使用sklearn计算机类之前，可以对数据进行预处理，包括特征选择、特征缩放、数据清洗等。这样可以减少特征的数量，降低计算复杂度。
特征选择：通过选择最相关的特征，可以减少特征的数量，提高计算效率。可以使用sklearn中的特征选择方法，如方差选择、相关系数选择、递归特征消除等。
数据分割：将大规模的数据集分割成小批量进行处理，可以减少内存消耗。sklearn提供了train_test_split方法，可以将数据集划分为训练集和测试集。
使用稀疏矩阵：如果数据集中有大量的零元素，可以使用稀疏矩阵来表示数据，减少内存消耗。sklearn提供了稀疏矩阵的处理方法，如csr_matrix、csc_matrix等。
使用适当的算法：不同的算法对于数据集的规模和特征数量有不同的适应性。可以根据具体情况选择适合的算法，避免数组索引过多的问题。

总之，为了解决使用sklearn计算机类时数组索引过多的问题，可以从数据预处理、特征选择、数据分割、使用稀疏矩阵和选择适当的算法等方面进行优化。这样可以提高计算性能，减少内存消耗。

使用sklearn计算机类时，数组的索引过多

、、、、

我正在机器学习中的数据集上练习，虽然我使用了imputer类，但它给了我一个too many indices for array错误。x=i_export.iloc[:, [0,1,3,4]].valuesfrom sklearn.model_selectionx_test,y_train,y_test=train_test_split(x,y,test_size=0.2,random_state=0)

浏览 25提问于2019-09-24得票数 1

2回答

scikit-learn svmlight格式加载器中的弃用警告

、

我在我写的IPython笔记本中收到了一个新的弃用警告，这是我以前从未见过的。我看到的是以下内容：/Users/cpd/.virtualenvs/py27-ipython+pandas/lib/python2.7/site-packages/sklearnmultilabel, zero

浏览 1提问于2013-11-20得票数 14

回答已采纳

2回答

获取稀疏bash数组的第一个或第n个元素的索引。

、、

有没有一种bash方法来获取稀疏bash数组的第n元素的索引？使用剪切索引数组的索引似乎过多，特别是在引用第一个或最后一个索引时。

浏览 4提问于2019-12-18得票数 0

回答已采纳

1回答

学习StratifiedKFold代码解释

、、

在浏览下面的博客时，我看到了以下代码片段eval_size = 0.10X_valid, y_valid = X[valid_indices], y[valid_indices] 我无法理解它是如何工作的。

浏览 0提问于2016-08-01得票数 3

1回答

运行成对距离函数后如何维护或恢复数据索引？

、、、、

我正在使用sklearn的成对距离函数，它在计算一个巨大的矩阵时拯救了我的生命，但是我遇到的问题是我失去了我的指数。具体来说，我最初有一个17000 x 300的巨大数据，我根据某些类条件将其分解为4种不同的数据格式。四个单独的数据数组保留原始索引，但在对其中一个数据执行成对的距离函数后，它给我返回一个具有正确值的</e

浏览 3提问于2016-10-04得票数 1

回答已采纳

1回答

将sklearn管道和交叉验证与二进制列结合起来

、、

我想在一个文本列、五个二进制变量和一个数值目标变量的数据集上运行一个回归模型。我包括了一个CountVectorizer来向量化文本列，并尝试使用make_column_transformer将其合并到一个sklearn Pipeline中。数据没有任何缺失的值-但是，当运行下面的脚本时，我会收到以下警告：from sklearn.ensemble import RandomForestRegre

浏览 3提问于2021-12-25得票数 1

回答已采纳

1回答

当在sklearn管道中有多种特征选择方法时，如何获得所选特征的名称？

、、、

我想在sklearn管道中使用以下几种特性选择方法：from sklearn.feature_selectionGradientBoostingClassifier(random_state=0))]) y_pred = model.predict(X_test) 我希望获得所选功能的名称或列索引因此，当我在第二个特征选择步骤中<e

浏览 10提问于2022-07-25得票数 3

回答已采纳

1回答

使用gridsearchCV优化更改熊猫df的超参数

、、

我想使用gridsearchCV来调优用户定义的评估器对熊猫数据执行的超参数。例如，计算中值，选择包含传递或不传递一列给估计量等等。下面，我用一个列选择器举例说明，但其思想是能够以更复杂的方式调整参数。我一直收到一些我还无法破译的神秘信息。例如，'list' object has no attribute 'flags'from sklearn

浏览 0提问于2018-04-06得票数 0

回答已采纳

1回答

如何通过改变pandas数据框中的参数来绘制ROC曲线

、、、

我试图通过改变pandas数据框中的一个单元格中的变量，在一个图上绘制多条ROC曲线。因此，在特定行中，如果合计高于某个阈值，则它将被归类为发票。我想要在不同的总阈值上绘制不同的曲线。import osfrom sklearn import datasets, metrics, model_selection, svm from sklearn.metricsimport precision_recall_fscore_support

浏览 2提问于2020-02-26得票数 0

1回答

在管道的帮助下，使用SelectKBest或卡方或方差分析删除冗余特征？

、、、、

在对TfidfVectorizer输出应用SelectKBest之后，我们在文档术语矩阵中获得了如此多的重复特征。我想删除那些重复的特征。我尝试了一些方法来删除这些冗余功能，但是我需要手动执行很多步骤，如下所示：from sklearn.feature_extraction.text importTfidfVectorizer text = ["How is

浏览 8提问于2021-03-26得票数 0

2回答

具有非整数索引的Python Numpy 2d数组

、、

背景:我正在尝试构建亲和力矩阵，以加入到sklearn光谱聚类中。在这个问题中，我遇到了numpy数组索引是基于0的整数的问题，对于我的应用程序，我使用某种特定于应用程序的ID (基于字符串的，随机示例"abc123")。我想要创建一个2d的numpy数组，用我所有的数据点建立索引。例如，给定两点points = ["abc123&q

浏览 6提问于2017-09-12得票数 3

回答已采纳

3回答

我很困惑，为什么我必须单独导入函数，如果导入整个库就不能导入这些函数吗

、、

import sklearn models = []models.appendnames.append(name) print(msg) 在运行此代码时，我得到错误名称'LogisticRegression‘未定义，并且每个函数

浏览 16提问于2020-06-27得票数 0

回答已采纳

1回答

sklearn的计算器减少了列？

、、、

我想知道是否有人可以帮助解释我在sklearn的interativeImputer上看到的一个奇怪的行为。shape: ", tempDF.shape) 我假设形状保持不变，但结果是： dateframe shape (1978, 100) imputer shape: (1978, 91) 在将numpy数组sklearn返回转换回pandas df时，我发现了这个错误。tempDF = pd.DataFrame(tempDF, index=datafr

浏览 7提问于2020-07-14得票数 1

回答已采纳

2回答

带有包含ColumnTransformer的管道的RFECV

、、、、

的管道来选择最相关的特征，代码如下： from sklearn.feature_selection import RFECV from sklearn.preprocessing import StandardScaler我使用索引，因为RFECV将训练数据集(一个熊猫数据帧)转换为一个数字数组，当然不允许使用列名。不幸的是，索引也不是可行的方法，因为RFECV减少了特征的数量，并

浏览 49提问于2021-07-12得票数 1

回答已采纳

2回答

如何在OneHotEncoder和LabelEncoder中做inverse_transform？

、、

代码： from sklearn.preprocessing import LabelEncoder, OneHotEncoder from sklearn.compose import ColumnTransformer

浏览 76提问于2020-05-02得票数 1

回答已采纳

1回答

使用数字、分类和文本管道创建ColumnTransformer

、

我试图创建一个处理数字、分类和文本变量的管道。在运行分类器之前，我希望将数据输出到一个新的数据格式中。请注意，2499是我的培训数据的大小。如果我删除管道中的text_preprocessing部分，我的代码就能工作。有什么办法能让这件事起作用吗？谢谢!

浏览 0提问于2020-06-15得票数 2

回答已采纳

2回答

学习:在基于l1的特征选择之后获得特征名。

、、

演示了当使用scikit-learn的专用特性选择例程执行特征选择时，可以按以下方式检索所选功能的名称：例如，在上面的代码中，featureSelector可能是sklearn.feature_selection.SelectKBest或sklearn.feature_selection.SelectPercentile的

浏览 1提问于2014-07-29得票数 5

回答已采纳

1回答

关于python中make_circles函数的返回值，我有一些疑问。

但是为什么X[y == 0,0]是对的呢？怎么编制索引的？ X中的每一行只有两个参数。为什么你可以用y来确定每个样本是0还是1的类？

浏览 2提问于2019-11-25得票数 1

回答已采纳

2回答

scikit错误的混合类型

、

我正在尝试训练计算机，它给出了一个在3个类之间做出决定的浮点数组。我将类分类为0、0.5和1，还尝试了0、1.0和2.0。我仍然得到以下错误： File "/Library/Python/2.7/site-packages/sklearn/utils/multiclass.py", line 85, in unique_labels

浏览 0提问于2013-10-01得票数 3

回答已采纳

3回答

使用JFrame的字符串数组错误

、、、

我在创造一个简单的轮盘赌翻拍。我在用JFrame。关于我的代码的一切都很好，除了一件事。我在代码中标记了它，它是ButtonAction方法。很抱歉，我可能发布了大量的代码，但这个方法可能是您应该寻找的唯一方法。我只是张贴下面的其余代码，以获得额外的信息。无论如何，在该方法下，我创建了一个字符串数组来命名每个按钮。一开始我是这样做的： String name = "B

浏览 3提问于2015-05-10得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用sklearn计算机类时，数组的索引过多

相关·内容

使用sklearn计算机类时，数组的索引过多

scikit-learn svmlight格式加载器中的弃用警告

获取稀疏bash数组的第一个或第n个元素的索引。

学习StratifiedKFold代码解释

运行成对距离函数后如何维护或恢复数据索引？

将sklearn管道和交叉验证与二进制列结合起来

当在sklearn管道中有多种特征选择方法时，如何获得所选特征的名称？

使用gridsearchCV优化更改熊猫df的超参数

如何通过改变pandas数据框中的参数来绘制ROC曲线

在管道的帮助下，使用SelectKBest或卡方或方差分析删除冗余特征？

具有非整数索引的Python Numpy 2d数组

我很困惑，为什么我必须单独导入函数，如果导入整个库就不能导入这些函数吗

sklearn的计算器减少了列？

带有包含ColumnTransformer的管道的RFECV

如何在OneHotEncoder和LabelEncoder中做inverse_transform？

使用数字、分类和文本管道创建ColumnTransformer

学习:在基于l1的特征选择之后获得特征名。

关于python中make_circles函数的返回值，我有一些疑问。

scikit错误的混合类型

使用JFrame的字符串数组错误

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐