首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当有数百万行在dataframe中时,使用的最佳平台

当有数百万行在dataframe中时,使用的最佳平台
EN

Data Science用户
提问于 2021-10-11 13:51:03
回答 4查看 1.8K关注 0票数 5

我的表有大约20个功能和数百万的观察(行)。

我需要在这个表上创建模型,但是,由于它是巨大的,像随机森林或XGB这样的训练模型需要花费很长时间。我主要是使用python在木星实验室服务器上使用scikit-learn和XGBoost包,而且在数据非常大的时候,我也在努力解决这个问题。同样重要的是,我有windows (而不是Linux)。

,我的问题是给比我更有经验的人:你用什么方法处理巨大的数据文件?当数据如此大时,是否有更好的包或平台可供使用?

EN

回答 4

Data Science用户

回答已采纳

发布于 2021-10-12 10:57:55

在一台笔记本电脑上,对20个功能的一百万次观察应该是很容易管理的,如果速度有点慢的话。云计算对于非常大的数据集是惊人的昂贵,除非和直到您有了良好的并行化,才能提供很少或根本没有好处。我建议保留这个选项作为你最后的选择。

对于最初的数据探索和实验,我建议您对数据进行采样。花几分钟在谷歌上搜索“数据采样”之后,你会节省很多时间和精力。只有当您从样本中获得合理的结果时,才应该考虑将您的方法应用于较大的数据集。

另外,对于降维也要有一些认真的思考,像PCA这样的方法在这里是非常有用的。如果您还没有这样做,那么对您的特性进行相关分析可能会帮助您消除那些不太有用的特性。

票数 4
EN

Data Science用户

发布于 2021-10-11 14:38:25

在这里你可以做两件事:

1.)使用像Dask这样的库来加速您的数据预处理。这是链接

2.)使用像Azure、AWS或GCP这样的云计算服务。我不知道另外两个问题,但我曾经研究过Azure,它为实现数据科学解决方案提供了许多选择。你可以选择像Auto,Azure Designer,Python等.

所以这取决于你。如果您的限制是您的计算设置,那么使用Dask将没有多大帮助,您应该使用云服务。但如果不是这样,那就去找达斯克吧。

票数 4
EN

Data Science用户

发布于 2021-10-11 23:19:46

在单台(多cpu)机器上并行化您的分析,例如pandarallel或类似的,如果问题不适合于一台机器,则使用scala/spark/hadoop并行处理。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/103031

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档