前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐一个python库:Vaex

推荐一个python库:Vaex

作者头像
mixlab
发布2019-12-17 12:14:54
1.5K0
发布2019-12-17 12:14:54
举报
这阵子,我没太多关注各种热点,什么华为、罗永浩,我都没有去了解。

我在忙什么呢?最近我在研究各种工具产品的智能化趋势,数据的充沛、算法的成熟,以往我们pc互联网创造的工具都有被改造一遍的可能。

我最看重几个机制,比如数据存储与应用分离、模块化、流程自动化、个人/开发者生产内容、平台与插件生态等等。

这些机制理解起来非常简单,但是可以诞生非常强大的复杂系统/生态。

简单的才是最有效的解决方案。

我喜欢关注各种代码的核心运行机制,欣赏开发者所具备的创造力跟想象力。推荐今天看到一个不错的python库。用于日常的数据挖掘工作非常不错。

Vaex是一个开源的DataFrame库。

先感受下速度,如果在笔记本电脑上运行:

Pandas将按每秒数百万字符串的顺序进行;

Spark将以每秒1000万个字符串的顺序执行;

Vaex每秒可以处理大约1亿个字符串;

Vaex可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。它可以在一个n维网格上每秒计算超过10亿(10^9)个对象的平均值、和、计数、标准差等统计信息。

可视化使用直方图、使用直方图、密度图和3D立体渲染进行可视化。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。

GitHub:

https://github.com/vaexio/vaex

有兴趣建议尝试下哈~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 无界社区mixlab 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档