Python数据科学发行版Anaconda简明指南

Anaconda Python提供有管理GUI、一系列以科学为导向的工作环境和工具,简化了使用Python进行数据处理的过程。

毫无疑问,Python是现代数据科学的重要组成部分,Python方便而强大,它以方便和编程的方式连接了数据科学家和开发人员,他们拥有一整套工具和功能。

尽管如此,这些工具有时还是需要少量或大量的组合。因为Python是一种通用编程语言,它的打包和交付能力,并不专门针对数据科学家。但是,许多人以一种预先打包的方式将Python交付给了用户,不需要特殊的程序包,一个普通Python用户就可以从中受益。

Continuum Analytics的Anaconda发行版是对Python的重新包装,目标是使用Python进行数据科学的开发人员。它提供了管理GUI、一系列以科学为导向的工作环境和工具,以简化使用Python进行数据处理的过程。它还可以作为标准Python发行版的通用替代品,但前提是要知道它与Python的原生版本有何不同。

Anaconda包含什么

CPython是Python的参考版本,它包括一些使生命周期更容易的东西,标准库、IDLE迷你版mini-IDE和Tkinter用户界面库。但是,你可能需要的所有数据科学功能都是一个附加组件,甚至是最基本的工具。相比之下,试图包括一个更好的选择,使数据科学工具开箱即用。

以下是在Anaconda中默认包含的内容:

Python解释器

Anaconda默认包含Python解释器的最新版本,这不是来自Python软件基础的原生CPython构建,它是由Anaconda公司专门为Anaconda发行版创建的自定义构建。据Anaconda CTO Peter Wang介绍,解释器在一些平台上有“更安全的编译器标志,更好的性能优化”。

也就是说,Anaconda的Python解释器应该与CPython兼容。为它编写的C扩展应该是这样的。例如,在Microsoft Windows中,解释器是用Microsoft Visual C/ c++版编译的,与CPython本身的原生版本相同。

Anaconda 导航器

Anaconda增加了与Python一起工作的经验,最值得注意的是一个GUI,即Anaconda 导航器。它不是一个IDE,也不想成为IDE,因为大多数Python意识的IDE都可以注册并使用Anaconda Python运行时本身。相反,导航器是一种组织系统,用于在Anaconda中更大的部分。

使用导航器,可以添加和启动高级应用程序,如R Studio或Jupyterlab;管理虚拟环境和包;建立“项目”,以一种新的方法来管理Anaconda的版本5;并执行各种管理功能。

虽然导航器提供了GUI的便利性,但它并没有取代Anaconda中的任何命令行功能,也没有在Python中替换。例如,尽管可以通过GUI管理包,也可以使用命令行来执行。

相比之下,CPython没有正式的GUI。它确实有IDLE,一个适合快速一次性任务的微型IDE。但是任何用于管理Python本身的东西都必须来自第三方。为此,一些IDE为CPython的组件提供了GUI接口。例如,Microsoft Visual Studio对Python的Pip包管理系统有一个GUI,类似于UI Anaconda为它自己的Conda包管理器提供的GUI。

Anaconda的导航器通过用户可配置的UI提供了Anaconda Python发行版的所有主要元素。

Conda

Python附带了Pip包管理器,用于安装和管理第三方Python包。尽管Python的开发人员多年来扩展了Pip的能力,但它仍然是有限的。它只管理Python本身的包,而不是系统的其余部分。

Anaconda的开发人员对这个限制进行了努力,但最终还是决定开发他们自己的解决方案:Conda,一个包管理解决方案,它不仅处理Python包,而且还处理Python生态系统之外的依赖关系。

这里有一个Conda帮助的例子:如果你有多个依赖于编译器的Conda包,比如GCC或LLVM, Conda可以解决所有这些包的外部依赖关系。它可以为需要它的所有Conda包安装特定版本的GCC的单个实例。Pip要么假设你已经在系统上安装了GCC,要么将GCC的副本打包到使用它的每个包中,这是一种非常低效且麻烦的解决方案。

因此,Conda不能与Pip互换,它甚至不使用相同的包格式,为Pip创建的包必须为Conda重新创建。但是,在Python生态系统中使用的几乎每一个重要的包都可以通过Conda获得。

Python数据科学工具通常有大量的依赖项,很难安装和管理。Anaconda的包管理系统Conda,在它的GUI版本中显示,管理Python包和它们在Python的生态系统之外的任何依赖项。

Anaconda如何使数据工作更容易?

大量的Anaconda的改进围绕着Python的日常使用,这对大多数Python用户都是有益的。但最重要的好处是针对数据科学用户经常发现自己与他们的Python环境有冲突。

Conda环境

Python包,即使是与Conda一起管理的,也不能总是相互友好。有时,你需要针对特定项目的不同版本的东西。Python的虚拟环境特性,即venv,是为了弥补这个问题而开发的,但是Conda将这个想法更进一步。

Conda环境在功能上类似于venv类型的虚拟环境。如果想要使用特定版本的包或Python解释器的特定版本,可以将它们放到Conda环境中,并单独使用它们。

Venv环境可以被移动,但是它们不一定有关于它们如何被创建的详细信息。如果你需要为正在做的工作提供一个可复制的环境,那么这可能是一个问题。Conda环境试图解决这个问题,因为它们是可复制的。

如果你希望其他人使用末的Conda环境,你可以向他们提供环境定义文件的副本,该文件描述了如何在另一个系统上重新创建环境。在跨平台的方式中,这是有限制的,所以在不同的平台上(比如MacOS和Linux)的包工作之间的任何差异都需要手工解决。

三个Conda环境,每个环境都有各自的包和Python运行时。env-35环境使用Python 3.5而不是最近的版本,no-cffi环境省略了cffi包(如右侧的包列表所示)。每个Conda环境都需要分别更新它的包集。

Anaconda项目

数据科学和软件开发的一个常见问题是,重新生成用于特定工作的确切环境。甚至Conda环境也只能为这个问题提供部分解决方案,因为CPython venv类型的环境不能够并且不能复制环境变量之类的东西。

进入Anaconda项,它让你可以拿一个目录,里面装满了与你正在做的事情有关的东西——“web应用程序、脚本、Jupyter笔记本、数据文件,不管它是什么”,就像Anaconda所说的那样,把它变成一个可复制的资源。这个目录,一旦它由Anaconda项目管理,可以以一致的方式运行,不管它运行在哪里,只要有一个Anaconda的副本就可以了。

Anaconda项目目前最大的问题是它不是一个生产版本,所以它还不稳定。在此之前,它不应该用于在不能保证每个人都运行相同版本的环境中共享工作。同时,Conda环境可以提供相同功能的可靠子集。

应用Anaconda

另一种方法是,Anaconda为使用Python进行分析和科学工作提供了便利,这就是它如何捆绑和使可访问的几个常见项目能够交互地处理数据。

其中最常见的两个项目是Jupyter Notebook和JupyterLab,它们为编写Python代码、导入数据、运行实验和可视化结果提供了实时环境。Anaconda负责运行笔记本和JupyterLab实例的所有设置和管理,因此与它们一起工作只需单击导航器主菜单中的每个应用程序旁边的启动按钮即可。你也可以通过点击应用程序的gear图标来安装之前版本的应用程序,假设它们是可用的。

其他绑定应用程序包括:

Qtconsole:使用Qt接口库的Jupyter的GUI。如果你想通过一个本地的界面来工作,而不是通过网络浏览器,那么它是很有用的。

Spyder:科学计算的Python开发环境,一个用Python编写的迷你ide,主要面向开发人员编写与IPython/Jupyter笔记本相关的应用程序。它还可以用作Python应用程序的库,这些应用程序需要一个类似于ide的接口。

Rstudio:用于处理R语言的工具,用于许多数据分析领域。Python在R的用户中越来越受欢迎,但是仍然有很多场景,R仍然是选择的语言,Rstudio提供了使用这两种语言一起工作的方法。

Anaconda捆绑了许多辅助应用程序,如Jupyter Notebook,一个用于Python的浏览器内交互式工作环境。Jupyter的所有管理细节都由Anaconda自动处理。

Miniconda,轻量级的Anaconda

如果你想使用Anaconda,但是不要同时安装所有的东西,可以使用Miniconda的增量方法。

Miniconda只安装需要从Anaconda开始的绝对最小值:Python解释器(由Anaconda打包)、Conda包管理器和一些其他基本位。您可以在命令行中使用Conda添加更多的组件或创建环境,就像您对完整版本的Anaconda所做的那样。

如果你不是一个数据科学的用户,但是你想要利用Anaconda的设计和包装,Miniconda是一个使用Python的好方法。包通常更容易处理Conda,如果您需要它,您可以访问更广泛的Anaconda软件生态系统。

有几件事值得记住:

首先,Anaconda Navigator GUI不是默认安装的,但是您可以在Conda (Conda安装Anaconda - Navigator)之后添加它。

第二,Miniconda默认设置为Miniconda目录,而不是Anaconda。这可能会让一些人对使用Miniconda安装的路径做出假设。

第三,在某些方面,最重要的是,Conda只能通过Conda自己的存储库来安装包。它不用于安装通过默认的Python包存储库PyPI提供的包。您可以使用标准的Python包管理工具Pip,从miniconda内部的PyPI上安装Python包,但是这些包不能由Conda管理,只有Pip。如果你绝对希望Conda管理一切。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180205G15MYV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券