我正在尝试构建一个回归模型,其中一个特性包含文本数据。我在考虑使用scikit-learn的sklearn.feature_extraction.text.TfidfVectorizer。然而,问题是实际字符串包含的单词非常少。平均1.8。这是一个样本:1 car stereo3 refrigeratorTfidfVectorizer或者,这种稀疏的结果矩阵不会对
如何使用-学习在没有遇到内存问题的情况下训练大型csv数据(~75 on )上的模型?我使用IPython笔记本作为编程环境,使用pandas+sklearn软件包分析kaggle数字识别器教程中的数据。为了暂时绕过这个问题,我必须重新启动内核,然后read_csv函数成功地加载文件,但是当我再次运行相同的单元时,同样的错误会发生。当read_csv函数成功加载文件时,在对dataframe进行更改之后,我可以将这些特性和标签传递给KNeighborsClassifier的</e