首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >SKlearn SGD部分拟合

SKlearn SGD部分拟合
EN

Stack Overflow用户
提问于 2017-02-09 21:33:59
回答 2查看 10K关注 0票数 12

我在这里做错了什么?我有一个大型数据集,我想在使用Scikit-learn的SGDClassifier时执行部分匹配

我做以下几件事

代码语言:javascript
复制
from sklearn.linear_model import SGDClassifier
import pandas as pd

chunksize = 5
clf2 = SGDClassifier(loss='log', penalty="l2")

for train_df in pd.read_csv("train.csv", chunksize=chunksize, iterator=True):
    X = train_df[features_columns]
    Y = train_df["clicked"]
    clf2.partial_fit(X, Y)

我搞错了

追溯(最近一次调用):文件"/predict.py",第48行,sys.exit(0 if main() /predict.py)文件"/predict.py",第44行,主预测()文件"/predict.py",第38行,预测clf2.partial_fit(X,Y)文件第512行,partial_fit coef_init=None,文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/linear_model/stochastic_gradient.py",第349行,在_partial_fit _check_partial_fit_first_call(自定义,类)文件"/Users/anaconda/lib/python3.5/site-packages/sklearn/utils/multiclass.py",第297行中,在_check_partial_fit_first_call引发ValueError(“类必须在第一次调用时传递”ValueError:类必须在第一次调用partial_fit时传递。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-05-01 22:53:10

请注意,分类器在开始时不知道类的数量,因此在第一次传递时,需要使用np.unique(目标)告诉类的数量,其中的目标是类列。因为您正在以块读取数据,所以需要确保第一个块具有类标签的所有可能值,因此它可以工作!因此,您的代码将是:

代码语言:javascript
复制
for train_df in pd.read_csv("train.csv", chunksize=chunksize, iterator=True):
   X = train_df[features_columns]
   Y = train_df["clicked"]
   clf2.partial_fit(X, Y, classes=np.unique(Y))
票数 16
EN

Stack Overflow用户

发布于 2017-05-11 18:24:07

fit

代码语言:javascript
复制
clf2.partial_fit(X, Y, classes=np.unique(Y))

假设您没有足够的类记录,因此分类器需要需要分类的类总数的值。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/42147302

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档