首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >SGD分类器对象中有什么?

SGD分类器对象中有什么?
EN

Data Science用户
提问于 2017-09-04 14:26:10
回答 1查看 468关注 0票数 1

我对文本数据进行了一些文本分类。当我试图保存SGD分类器对象时,我惊讶地发现它超过了4GB(尽管我的输入是大约60万行,700 my )。那个物体里有什么东西让它这么大?有什么想法吗?

EN

回答 1

Data Science用户

发布于 2017-09-05 21:34:50

我将回答,假设您想要进行文本分类,您的特征是使用一些TFIDF特征提取技术创建的。下次,请指定您的功能的尺寸,而不仅仅是它们的存储空间。

根据文档(http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.SGDClassifier.html),对象具有一个coef_属性,该属性存储模型的所有权重。因为对于文本来说,特征向量大约是词汇表的大小,所以它可能相当大,特别是如果您不使用词干进行文本预处理,或者不删除停止词或不相关的单词。

文档还指出,coef_的大小是类的数量*特性的数量。因此,取决于您有多少特性和类,它可能很快就会变大。

这可以部分解释为什么物体这么大。其他因素可能是Python经常在您训练对象之后将预测存储在对象中,这样您就可以快速访问它们,因此您需要在对象中再添加60万个数字。而对于这个对象,它似乎也存储了信心分数,也就是另外60万。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/22816

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档