我正在尝试训练一个前馈神经网络,用于二进制分类。我的数据集是6.2M,维度是1.5M。我正在使用PyBrain。我甚至不能加载一个数据点。我去叫MemoryError。
我的代码片段是:feature_vector = numpy.zeros((FV_length),dtype=numpy.int)for index in nonzero_index_list:
经过一段时间,我发现这可以通过两种方式来实现,
我遵循的总结,这是产生良好的结果与预先训练的模型问题:我到目前为止看过的大多数抽取总结器(PyTeaser、PyTextRank和Gensim)都不是基于监督学习,而是基于朴素贝叶斯分类器、tf-以色列国防军、POS标记、基于关键字频率、位置等的句子排序清除文本并应用停止词筛选器
使用词汇量为20000的托卡器from keras.preprocessing.text i