Datawhale专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Datawhale专栏

专栏成员

516

文章

779340

阅读量

78

订阅数

一行代码将Pandas加速4倍

python 文件存储大数据

虽然 panda 是 Python 中用于数据处理的库，但它并不是真正为了速度而构建的。了解一下新的库 Modin，Modin 是为了分布式 panda 的计算来加速你的数据准备而开发的。

2019-12-09

2.6K0

Pandas常见的性能优化方法

css 文件存储 https html

Pandas是数据科学和数据竞赛中常见的库，我们使用Pandas可以进行快速读取数据、分析数据、构造特征。但Pandas在使用上有一些技巧和需要注意的地方，如果你没有合适的使用，那么Pandas可能运行速度非常慢。本文将整理一些Pandas使用技巧，主要是用来节约内存和提高代码速度。

2019-09-17

1.3K0

Kaggle竞赛神器—Facets：快速评估数据集质量，把控数据分析核心环节

文件存储机器学习 python 神经网络深度学习

在机器学习任务中，数据集的质量优劣对数据分析的结果影响非常大，所谓Garbage in, garbage out，数据决定模型的上限，因此数据质量成为数据分析流程不可或缺的一个环节。即使是像Kaggle那样主办方已经把数据集准备好的场景，也需要评估train set和test set的分布是否一致，存不存在偏斜等。如果两者不一致，可能会导致离线cv分数非常高，可是在leaderborad却下跌了很多，以至于大量花在模型调参上的功夫其实都白费了。

2019-08-20

7590

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态