sklearn中的模型如何处理python中的大型数据集？_Python中包含数组的大型数据集_如何解决在python中处理大型数据集时的内存分配问题？ - 腾讯云开发者社区

scikit-learn、sklearn-pandas

现在我有10 8GB的数据集来训练sklearn中的模型，但我的计算机只有8 8GB的内存，所以除了增量分类器之外，我还有其他的方法。

浏览 21提问于2019-06-10得票数 1

1回答

使用sklearn.linear_model.Ridge描述训练数据的最佳方法线性病态问题？

python、machine-learning、scikit-learn、linear-regression、inverse

问题陈述:我正在处理一个线性方程组，它对应于一个不适定的逆问题。我可以在Python中手工应用Tikhonov正则化或岭回归，并获得对我的问题足够精确的测试数据的解决方案。我想尝试使用sklearn.linear_model.Ridge来解决这个问题，因为我想在这个包的线性模型部分()中尝试其他机器学习方法。我想知道在这种情况下使用sklearn是否使用了错误<e

浏览 2提问于2021-03-28得票数 1

回答已采纳

1回答

如何在自然语言处理中找到答案类型和questionType

nlp

是否有任何开放的api，它将为我提供以下答案类型 “我们应该去哪里喝咖啡？”这里的答案类型是位置。

浏览 0提问于2016-05-11得票数 0

3回答

与熊猫和雪橇一起学习机器的大量功能。

machine-learning、scikit-learn、pandas

我对数据科学比较陌生，我正在处理一个大型数据集。它有很多行和大约270个特征后，删除了大量的nan值和编码的分类特征。当我使用sklearn进行逻辑回归时，我的计算机就会耗尽内存并崩溃。我如何处理这样的大型数据集？

浏览 0提问于2021-09-20得票数 1

1回答

Py-table vs Blaze vs S-Frame

python-3.x、pandas、hdf5、pytables、blaze

我正在使用python对一个巨大的数据集(大约2000万条记录和10列)进行探索性数据分析。我将分割、聚合数据并创建一些可视化，我也可以使用该数据集创建一些决策树线性回归模型。由于数据集很大，我需要使用数据帧来存储核心外的数据。因为我对Python比较陌生，并且使用大型数据集

浏览 11提问于2017-07-21得票数 0

1回答

Python中拟合sklearn.KNN的内存错误

python、machine-learning、scikit-learn、knn

我在Ubuntu，Python和sklearn中安装了一个32 GB DDR4内存的模型。 knn = KNeighborsClassifier(n_neighbors = 14) import

浏览 1提问于2018-11-02得票数 0

2回答

在Keras中fit()和fit_generator()有什么区别？

deep-learning、keras

在Keras中，fit()和fit_generator()有什么区别？我什么时候应该使用fit()和fit_generator()？

浏览 0提问于2018-07-13得票数 29

回答已采纳

2回答

支持向量机问题-名称“model_SVC”未定义

machine-learning、scikit-learn、data-science、svm、svc

我对这个代码有一个问题： model_SVC = SVC() model_SVC.fit(X_scaled_df_train, y_train

浏览 11提问于2022-08-22得票数 2

2回答

查找套索模型中使用的特征

python、machine-learning、scikit-learn

我使用的是sklearn的糖尿病数据集。from sklearn.datasets import load_diabetes diabetesX_test, y_train, y_test = train_test_split(diabetes['data'], diabetes['target'], random_st

浏览 17提问于2021-11-08得票数 0

回答已采纳

1回答

分层列车-测试拆分一个Tensorflow数据集

python、tensorflow、keras、train-test-split、imbalanced-data

我目前正在处理一个相当大的图像数据集，我使用python中的ImageDataGenerator从tensorflow.keras加载它。由于我的数据分类非常不平衡，我想做一个分层的列车测试分割，以可能达到更高的精度。我知道如何使用ImageDataGenerator进行简单的随机列车测试分割，但我找不到与sklearn中<em

浏览 2提问于2022-03-07得票数 3

2回答

交叉验证、scikit-learn、并行较慢

python、pydev、scikit-learn

我正在学习如何使用scikit-learn。在测试时，如果使用以下命令打开并行计算得到的结果要比我用我在64位的Windows7机器上使用PyDev，Anacondas3.3。从任务管理器来看，性能影响似乎是由许多Python实例被启动和停止造成的。为什么他们不开始，而是一直开始呢？

浏览 9提问于2013-10-18得票数 2

2回答

具有最小协方差的混合高斯模型(GMM) python拟合加权数据

python、opencv、scikit-learn、cluster-analysis、expectation-maximization

我想使用python将高斯混合模型拟合到一组加权数据点。我尝试了sklearn.mixture.GMM()，它工作得很好，只是它对所有数据点的权重都是一样的。有没有人知道在这种方法中给数据点分配权重的方法？我多次尝试使用数据点来“增加它们的权重”，但这对于大型数据集似乎无效。我也考虑过自己实现EM算法，但这似乎比上面的GMM方

浏览 4提问于2016-04-05得票数 2

1回答

DBSCAN处理大数据崩溃和内存错误

python、scikit-learn、out-of-memory、cluster-analysis、dbscan

我正在对一个包含400K数据点的数据集执行DBSCAN。) File "/usr/local/Python/2.7.13/lib/python2.7/site-packages/sklearn/neighbors/base.py", line 621,我该如何解决这个问题呢？DBSCAN处理海量数据</e

浏览 1提问于2017-05-23得票数 0

1回答

如何在python中捕获特定警告而不引发错误

python、scikit-learn、convergence

我正在运行不同的数据集，以确定每个数据集的最佳建模算法。我循环遍历每个数据集以检查各种算法，并根据测试分数选择最佳模型。我知道对于特定的模型，我的一些数据集不会收敛(即: LogisticRegression)，并收到收敛警告(即：“lbfgs未能收敛(status=1):")。我不想忽视这个警告。我的目标是返回收敛<

浏览 17提问于2021-03-04得票数 0

回答已采纳

1回答

scikit学习中分类器拟合前进行特征缩放的必要性

python、scikit-learn、classification

我曾经相信scikit-learn的分类器(以及)会在训练前自动标准化我的数据。为了测试我的假设，我决定手动缩放X的特性如下：scaler = StandardScaler()我发现在X上训练模型并不等同于在X_std上训练模型

浏览 2提问于2016-05-26得票数 4

2回答

不平衡类的逻辑回归学习

python、scikit-learn、classification

我正在用python中sklearn的逻辑回归解决一个分类问题。我的问题是一般的/一般的。我有一个包含两个类/结果(正/负或1/0)的数据集，但该集非常不平衡。有~5%的阳性和~95%的阴性。我知道有许多方法可以处理这样的不平衡问题，但还没有找到一个很好的解释来说明如何

浏览 1提问于2013-02-14得票数 21

3回答

PySpark中的特征选择

python、machine-learning、pyspark、feature-selection、google-cloud-dataproc

我正在研究一个形状1,456,354 X 53的机器学习模型。我想为我的数据集做特性选择。我知道如何使用以下代码在python中进行特性选择。from sklearn.feature_selection import RFECV,RFE rfe = RFE(logreg, steprfe.support_)result = f

浏览 0提问于2018-11-28得票数 8

回答已采纳

1回答

我应该使用火车数据集上的MinMaxScaler来转换测试数据集，还是使用单独的MinMaxScaler来拟合和转换测试数据集？

machine-learning、dataset、normalization、predict、data-processing

另外，我有两个python脚本，如下所示：from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler(然而，在tr

浏览 4提问于2020-07-01得票数 0

回答已采纳

1回答

scikit-学习支持向量机与大量样本/小批量可能？

scikit-learn、svm

据报道，我读到：有没有一种方法可以在SVM中内置或使用类似minibatches的东西？

浏览 1提问于2016-11-22得票数 6

1回答

我正在使用sklearn的DictVectorizer来构造一个大型的稀疏特征矩阵，该矩阵被输入到ElasticNet模型中。当预测器(特征矩阵中的列)居中和缩放时，弹性网络(和类似的线性模型)工作得最好。的目的是构建一个在回归器之前使用StandardScaler的Pipeline，但是这并不适用于稀疏特性，如中所述。我想在normalize=True中使用ElasticNet标记，它似乎支持稀疏

浏览 2提问于2015-03-23得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云