专栏首页灯塔大数据原创译文 | 最新顶尖数据分析师必用的15大Python库(上)

原创译文 | 最新顶尖数据分析师必用的15大Python库(上)

近几年来,Python在数据科学界受到大量关注,我们在这里为数据科学界的科学家和工程师列举出了最顶尖的Python库。(文末更多往期译文推荐

因为这里提到的所有的库都是开源的,所以我们还备注了每个库的贡献资料数量、贡献者人数以及其他指数,可对每个Python库的受欢迎程度加以辅助说明。

1. NumPy

(资料数量:15980; 贡献者:522)

在最开始接触Python的时候,我们不可避免的都需要寻求Python的SciPy Stack的帮助,SciPy Stack是一款专为Python中科学计算而设计的软件集。所以我们在讲Python库的时候就不得不提到它了。但是SciPy Stack所含内容非常广泛,其中包括了十几个库,而我们需要做的是找到其中最重要的软件包。

NumPy(代表Numerical Python)是构建科学计算栈(scientific computation stack)的最基础的软件包。它的功能丰富,可以满足Python中n数组和矩阵的操作需求。 该库提供了NumPy数组类型的数学运算向量化,可以改善性能,从而加快执行速度。

2. SciPy

(资料数量:17213; 贡献者:489)

SciPy是一个工程和科学软件库。 您还需要了解SciPy Stack和SciPy Library之间的区别。SciPy包含线性代数,优化,集成和统计多个模块。SciPy Library的主要功能是建立在NumPy的基础上,因此它的数组大量使用NumPy。它通过其特定的子模块提供有效的数值例程(numerical routines),如数字积分,优化等等。SciPy的所有子模块中功能都有详细的记录 – 这是它的另一大优势。

3. Pandas

(资料数量:15089; 贡献者:762)

Pandas是一个Python软件包,可以处理“标记”(labeled)和“关联”(relational)数据,简单直观。Pandas是数据整理的完美工具。 使用者可以通过它快速简便地完成数据操作,聚合和可视化。

Pandas库有两种主要数据结构:

“系列”(Series)——单维结构

“数据帧”(Data Frames)——二维结构

例如,如果你通过Series在Data Frame中附加一行数据,你就能从这两种数据结构中获得一个的新的“数据帧”

使用Pandas你可以完成以下操作:

轻松删除或添加“数据帧”

bjects将数据结构转化成“数据帧对象”

处理缺失数据,用NaNs表示

强大的分组功能

4.Matplotlib

(资料数量:21754; 贡献者:588)

MatPlotlib是SciPy Stack另一个核心软件包和Python库,可以轻松生成简单而强大的可视化功能。 这个顶尖软件包使得Python(有一些NumPy,SciPy和Pandas的帮助)可以与MatLab或Mathematica等科学工具的一较高下。

然而,这个库还是相对比较低级的,这意味着你需要编写更多的代码才能达到高级的可视化效果,而且通常会比使用那些高级工具要付出更多的努力,但总体来说还是值得一试的。

你可以使用它实现各种可视化:

线路图

散点图;

条形图和直方图;

饼状图;

茎叶图

等值线图

向量场图

频谱图

还可以使用Matplotlib创建标签,网格,图例和许多其他格式化字符。基本来说,一切都是可进行自定义的。

这个库由很多平台支持,并使用不同的图形用户界面(GUI)套件来描绘所得的可视化。 很多IDE(如IPython)都支持Matplotlib的功能。

5. Seaborn

(资料数量:1699; 贡献者:71)

Seaborn主要关注统计模型的可视化,如热图,这些可视化图形在总结数据的同时描绘数据的总体分布。 Seaborn是基于Matplotlib的,并高度依赖于它。

6. Bokeh

(资料数量:15724; 贡献者:223)

Bokeh是另一个强大的可视化库,可以实现交互式可视化。与其他的库相比,它的特别之处在于它是独立于Matplotlib的。Bokeh的主要关注点是交互性,所以它可以通过现代浏览器以数据驱动文档(d3.js)的方式进行演示。

7. Plotly

(资料数量:2486; 贡献者:33)

它是一个基于网络的工具箱,可用于构建可视化,用编程语言(其中包括Python)处理应用程序界面(API)。 在“plotly”网站上有一些强大的“开箱即用”的图形。在使用Plotly之前,您需要设置您的API密钥。 这些图形将在服务器端上进行处理,然后发布到互联网上,当然也可以选择不发布。

翻译:灯塔大数据

本文分享自微信公众号 - 灯塔大数据(DTbigdata),作者:Deeplearner H

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 塔秘 | Python 2.7即将停止支持,请收下这份3.x迁移指南

    前言 目前,Python 科学栈中的所有主要项目都同时支持 Python 3.x 和 Python 2.7,不过,这种情况很快即将结束。 去年 11 月,Num...

    灯塔大数据
  • 技术 | 人生苦短,请用Python——10大Python库汇总

    前言 对于码农来说,主要关注2017年新推出了哪些开源库,还有就是新近有什么流行的既能解决问题又好用的利器。下面就来为2017年做个总结。 1、Pipenv 第...

    灯塔大数据
  • 原创译文 | 中国学校应用人工智能为学生批作文,与老师打分相差无几

    据“南华早报”报道,中国的一些学校正在使用人工智能为学生作业评分。中国国内有四分之一的院校(大约六万所)正在悄然测试这种机器学习动力系统,可以自动为学生的作业打...

    灯塔大数据
  • 探索性研究用户对受损图像的动态视敏度和质量感知(CS HC)

    在这篇论文中,我们评估了头部运动对用户视力的影响,以及他们对受损图像的质量感知。一个人可以感知到的视觉信息的数量有物理上的限制,而我们的身体,也就是我们的大脑,...

    用户6853689
  • 探索性研究用户对受损图像的动态视敏度和质量感知(Human-Computer Interaction)

    在这篇论文中,我们评估了头部运动对用户视力的影响,以及他们对受损图像的质量感知。一个人可以感知到的视觉信息的数量有物理上的限制,而我们的身体,也就是我们的大脑,...

    用户6869393
  • Python为什么文件运行和在命令行运行同样语句但结果却不同?

    这篇是之前知乎上的一个提问,感觉非常有趣而且内容丰富,所以把我自己的回答搬运到公众号来。 另外关于昨天的推送,是因为我之前把文章投到了Python中文社区的公众...

    不二小段
  • 豆瓣电影数据分析和可视化

    张宏伦
  • Dynamic Nginx Router... in Go!

    We needed a specialized load balancer at Nitro. After some study, Mihai Todor an...

    李海彬
  • 自动驾驶共享多模态轨迹预测(CS AI)

    本文提出了一种用于预测在高度交互环境中交通未来轨迹的预测框架。基于自动驾驶车辆均配备有各类传感器(例如:LiDAR扫描器,RGB摄像扥)的现实条件下,本研究旨在...

    用户6868260
  • 百度Deep Image论文被质疑过度使用ImageNet评价服务器【英】

    用户1737318

扫码关注云+社区

领取腾讯云代金券

玩转腾讯云 有奖征文活动