前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >原创译文 | 最新顶尖数据分析师必用的15大Python库(上)

原创译文 | 最新顶尖数据分析师必用的15大Python库(上)

作者头像
灯塔大数据
发布2018-04-04 17:40:31
1.6K0
发布2018-04-04 17:40:31
举报
文章被收录于专栏:灯塔大数据

近几年来,Python在数据科学界受到大量关注,我们在这里为数据科学界的科学家和工程师列举出了最顶尖的Python库。(文末更多往期译文推荐

因为这里提到的所有的库都是开源的,所以我们还备注了每个库的贡献资料数量、贡献者人数以及其他指数,可对每个Python库的受欢迎程度加以辅助说明。

1. NumPy

(资料数量:15980; 贡献者:522)

在最开始接触Python的时候,我们不可避免的都需要寻求Python的SciPy Stack的帮助,SciPy Stack是一款专为Python中科学计算而设计的软件集。所以我们在讲Python库的时候就不得不提到它了。但是SciPy Stack所含内容非常广泛,其中包括了十几个库,而我们需要做的是找到其中最重要的软件包。

NumPy(代表Numerical Python)是构建科学计算栈(scientific computation stack)的最基础的软件包。它的功能丰富,可以满足Python中n数组和矩阵的操作需求。 该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. SciPy

(资料数量:17213; 贡献者:489)

SciPy是一个工程和科学软件库。 您还需要了解SciPy Stack和SciPy Library之间的区别。SciPy包含线性代数,优化,集成和统计多个模块。SciPy Library的主要功能是建立在NumPy的基础上,因此它的数组大量使用NumPy。它通过其特定的子模块提供有效的数值例程(numerical routines),如数字积分,优化等等。SciPy的所有子模块中功能都有详细的记录 – 这是它的另一大优势。

3. Pandas

(资料数量:15089; 贡献者:762)

Pandas是一个Python软件包,可以处理“标记”(labeled)和“关联”(relational)数据,简单直观。Pandas是数据整理的完美工具。 使用者可以通过它快速简便地完成数据操作,聚合和可视化。

Pandas库有两种主要数据结构:

“系列”(Series)——单维结构

“数据帧”(Data Frames)——二维结构

例如,如果你通过Series在Data Frame中附加一行数据,你就能从这两种数据结构中获得一个的新的“数据帧”

使用Pandas你可以完成以下操作:

轻松删除或添加“数据帧”

bjects将数据结构转化成“数据帧对象”

处理缺失数据,用NaNs表示

强大的分组功能

4.Matplotlib

(资料数量:21754; 贡献者:588)

MatPlotlib是SciPy Stack另一个核心软件包和Python库,可以轻松生成简单而强大的可视化功能。 这个顶尖软件包使得Python(有一些NumPy,SciPy和Pandas的帮助)可以与MatLab或Mathematica等科学工具的一较高下。

然而,这个库还是相对比较低级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用那些高级工具要付出更多的努力,但总体来说还是值得一试的。

你可以使用它实现各种可视化:

线路图

散点图;

条形图和直方图;

饼状图;

茎叶图

等值线图

向量场图

频谱图

还可以使用Matplotlib创建标签,网格,图例和许多其他格式化字符。基本来说,一切都是可进行自定义的。

这个库由很多平台支持,并使用不同的图形用户界面(GUI)套件来描绘所得的可视化。 很多IDE(如IPython)都支持Matplotlib的功能。

5. Seaborn

(资料数量:1699; 贡献者:71)

Seaborn主要关注统计模型的可视化,如热图,这些可视化图形在总结数据的同时描绘数据的总体分布。 Seaborn是基于Matplotlib的,并高度依赖于它。

6. Bokeh

(资料数量:15724; 贡献者:223)

Bokeh是另一个强大的可视化库,可以实现交互式可视化。与其他的库相比,它的特别之处在于它是独立于Matplotlib的。Bokeh的主要关注点是交互性,所以它可以通过现代浏览器以数据驱动文档(d3.js)的方式进行演示。

7. Plotly

(资料数量:2486; 贡献者:33)

它是一个基于网络的工具箱,可用于构建可视化,用编程语言(其中包括Python)处理应用程序界面(API)。 在“plotly”网站上有一些强大的“开箱即用”的图形。在使用Plotly之前,您需要设置您的API密钥。 这些图形将在服务器端上进行处理,然后发布到互联网上,当然也可以选择不发布。

翻译:灯塔大数据

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-07-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 灯塔大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档