我正在尝试机器学习,并且一直在使用基于python的Scikit库。
我希望解决一个“分类”问题,在这个问题中,一段文本(比如1k-2k个单词)被归入一个或多个类别。为此,我已经学习scikit有一段时间了。
由于我的数据在200-300万范围内,因此我使用SGDClassfier和HashingVectorizer,并使用partial_fit学习技术,编码如下:
import pandas as pd
from sklearn.linear_model import SGDClassifier
from sklearn.feature_extraction.text import Has