首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何在python中实现大数据集的朴素贝叶斯分类器

如何在python中实现大数据集的朴素贝叶斯分类器
EN

Stack Overflow用户
提问于 2014-11-06 12:32:10
回答 1查看 1.1K关注 0票数 0

我有2-3 GB的大型数据集。我使用(nltk)朴素贝叶斯分类器,将数据用作训练数据。当我为小数据集运行代码时,它运行得很好,但当我为大型数据集运行时,它运行了很长时间(超过8小时),然后崩溃,没有太多错误。我相信是因为内存问题。

此外,在对数据进行分类后,我希望将分类器转储到一个文件中,以便稍后可以将其用于测试数据。这个过程也需要太多时间,然后崩溃,因为它首先将所有内容加载到内存中。

有没有办法解决这个问题?

另一个问题是,有没有办法将整个操作并行化,即使用Hadoop/MapReduce等框架来并行化这个大型数据集的分类?

EN

回答 1

Stack Overflow用户

发布于 2014-11-06 12:57:04

我希望你必须动态地增加内存来克服这个问题。我希望这个链接能帮助你Python Memory Management

Parallelism in Python

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/26771762

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档