文章/答案/技术大牛

发布

社区首页 >问答首页 >分类时间

问分类时间
EN

Stack Overflow用户

提问于 2014-02-12 08:56:26

回答 1查看 36关注 0票数 0

我试图使用nltk和python运行一个分类器，朴素贝叶斯，超过160万推特。

请有人告诉我，如果这是一个愚蠢的事情，因为这个过程已经花费了大约12个小时，目前正在使用3.2GB的内存。

这仅仅是一个等待游戏，受你的处理能力有多好的影响，还是有更有效的方法做事情？

python

memory-management

classification

nltk

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-02-12 09:06:04

您的数据集非常大，因此您应该期望很长的运行时间和内存消耗。如果没有更多的信息，很难判断这是否合理。

然而，您可以尝试使用一些分类器从scikit-学习而不是nltk基本分类器，有许多有效的选项-K-最近的邻居，线性回归等几个例子，以及朴素贝叶斯分类器的替代实现。我最好能成功地把文本和那些分类。

这里是与基于nltk的数据集一起使用它们的包装器的链接。希望这有帮助..。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/21722956

复制

相似问题

问分类时间
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类时间EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分类时间
EN