我试图使用nltk和python运行一个分类器,朴素贝叶斯,超过160万推特。
请有人告诉我,如果这是一个愚蠢的事情,因为这个过程已经花费了大约12个小时,目前正在使用3.2GB的内存。
这仅仅是一个等待游戏,受你的处理能力有多好的影响,还是有更有效的方法做事情?
发布于 2014-02-12 09:06:04
您的数据集非常大,因此您应该期望很长的运行时间和内存消耗。如果没有更多的信息,很难判断这是否合理。
然而,您可以尝试使用一些分类器从scikit-学习而不是nltk基本分类器,有许多有效的选项-K-最近的邻居,线性回归等几个例子,以及朴素贝叶斯分类器的替代实现。我最好能成功地把文本和那些分类。
这里是与基于nltk的数据集一起使用它们的包装器的链接。希望这有帮助..。
https://stackoverflow.com/questions/21722956
复制相似问题