文章/答案/技术大牛

发布

社区首页 >问答首页 >SKlearn SGD部分拟合

问SKlearn SGD部分拟合
EN

Stack Overflow用户

提问于 2017-02-09 21:33:59

回答 2查看 10K关注 0票数 12

我在这里做错了什么？我有一个大型数据集，我想在使用Scikit-learn的SGDClassifier时执行部分匹配

我做以下几件事

from sklearn.linear_model import SGDClassifier
import pandas as pd

chunksize = 5
clf2 = SGDClassifier(loss='log', penalty="l2")

for train_df in pd.read_csv("train.csv", chunksize=chunksize, iterator=True):
    X = train_df[features_columns]
    Y = train_df["clicked"]
    clf2.partial_fit(X, Y)

我搞错了

追溯(最近一次调用)：文件"/predict.py"，第48行，sys.exit(0 if main() /predict.py)文件"/predict.py"，第44行，主预测()文件"/predict.py"，第38行，预测clf2.partial_fit(X，Y)文件第512行，partial_fit coef_init=None，文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/linear_model/stochastic_gradient.py"，第349行，在_partial_fit _check_partial_fit_first_call(自定义，类)文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/utils/multiclass.py"，第297行中，在_check_partial_fit_first_call引发ValueError(“类必须在第一次调用时传递”ValueError:类必须在第一次调用partial_fit时传递。

python

scikit-learn

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-05-01 22:53:10

请注意，分类器在开始时不知道类的数量，因此在第一次传递时，需要使用np.unique(目标)告诉类的数量，其中的目标是类列。因为您正在以块读取数据，所以需要确保第一个块具有类标签的所有可能值，因此它可以工作！因此，您的代码将是：

for train_df in pd.read_csv("train.csv", chunksize=chunksize, iterator=True):
   X = train_df[features_columns]
   Y = train_df["clicked"]
   clf2.partial_fit(X, Y, classes=np.unique(Y))

票数 16

Stack Overflow用户

发布于 2017-05-11 18:24:07

fit

clf2.partial_fit(X, Y, classes=np.unique(Y))

假设您没有足够的类记录，因此分类器需要需要分类的类总数的值。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/42147302

复制

相似问题

问SKlearn SGD部分拟合
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SKlearn SGD部分拟合EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问SKlearn SGD部分拟合
EN