专栏首页浊酒清味神器Jupyter Notebook如何适应数据科学的发展方向

神器Jupyter Notebook如何适应数据科学的发展方向

01

介绍

原文:文末阅读原文

作者:Lj Miranda

编译:HuangweiAI

这是关于Jupyter Notebook生态系统的三篇博文的第一篇。这篇文章将讨论数据科学的前景,以及推动我们的工具发展的力量。

下面将回顾我在数据科学中经常使用的工具——Jupyter Notebook,以及我在是如何使用它们的。我把这篇文章分为三部分:

  • 第一部分:数据科学(本文)。我想看看在过去的几年里,数据科学的实践是如何变化的。然后,我将强调三种主要力量,它们改变了我今天使用Notebook的方式。
  • 第二部分:2020年我如何使用Jupyter Notebook。考虑到这些变化,Jupyter Notebook生态系统中出现了新的工具。我想分享我喜欢(不喜欢)它们的地方,以及我如何在日常生活中使用它们。
  • 第三部分:Jupyter Notebook的未来(即将到来)。在这里,我将分享我对Jupyter Notebook的愿望清单,仍然可以填补的潜在空白,以及为什么Jupyter Notebook仍然很棒!

02

现在的数据科学

数据科学领域正在迅速变化。我们现在已经进入了这样一个时代:“21世纪最性感的工作”和“数据是新石油”之类的说法已经过时,取而代之的是更现实的业务问题和基于技术的挑战。我认为这种变化是双重的:我们现在需要支持(1)生产分析和实验的需求,以及(2)快速采用云技术。

第一,生产的需要。在软件工程的生命周期中,创建数据产品或者部署实验工件,这些年来都在增长。随着机器学习工程师和数据科学软件开发人员的崛起,越来越多的工程类工作被采用,这就是明证。此外,分析不再局限于出版物或图表,因为现在对复制实验和部署人工制品的需求越来越大。

接下来,数据的指数增长需要采用云技术。我们不能仅仅使用我们自己的笔记本电脑来加载Pandas的1TB数据集!Docker和Kubernetes等工具的流行使我们能够以前所未有的水平扩展数据处理工作负载。采用云意味着我们在管理工作负载时要考虑可伸缩性、资源供应和基础设施。然而,之前的Jupyter Notebook生态系统,尽管它是数据科学家工具箱中的一个重要部分,并不意味着有相应的变化:

正如我所说的,我们所知道的Jupyter Notebook并不意味着这些变化。它们是用来探索的,不是用来生产的。它们应该在一台机器上运行,而不是在集群中。然而,在过去的五年中,Jupyter Notebook的生态系统已经发展壮大:我们现在有了JupyterLab、一些插件、用于其他语言的新内核,以及可供我们使用的第三方工具。当然,我们仍然可以通过在终端中输入jupyter Notebook来运行笔记本,但是现在已经远远不止这些了!

这就引出了一个问题:是什么力量促使了这些变化?,我们如何利用这个更大的笔记本生态系统来应对当今数据科学的变化?

03

三个方向的变化

Jupyter Notebook的生态系统正在成长,我认为这是由三种力量驱动的:

  • 在云上做实验:大数据需要大量的计算和存储,而一般的消费级机器并不总是能够做到这一点。
  • 支持开发人员工作流程:越来越多的数据科学团队开始采用软件工程的最佳实践——版本控制、gitfow、拉请求等等。
  • 从分析到生产的快速转变:在受控环境下测试假设是不够的。为分析而编写的软件应该可以很容易地为生产重用。

朝着云优先的环境发展意味着我们可以在比我们更强大的机器上执行基于notebook的任务。例如,托管的notebook实例使我们能够从远程服务器运行Jupyter notebook,而无需操作和设置。另一方面,朝着更加生产工作流程的方向发展,为我们提供了一组工具,将基于记事本的任务赋予软件工程实践。在这篇文章的下一部分,我们将看到更多这样的工具。

最后,请注意,工具的发展并不依赖于单个实体或组织。正如我们将在后面看到的,填补这些空白可能来自于那些提供第三方插件的个人或者那些提供管理服务的组织。

04

总结

在本系列的第一部分中,我们研究了数据科学领域增长的两个驱动因素:(1)云计算的采用,以及(2)生产需求的增长。我们发现Jupyter notebook只占了这个生态系统的一小部分,也就是它通常用于探索(而不是生产),并且只运行在我们的本地机器上(不是在云中)。

然后,使用相同的框架,我们确定了三种变化的力量,使Jupyter笔记本生态系统得以发展:在云上增加实验,支持开发人员工作流,以及更快地从分析转向生产。这些力量可能带来了新工具、插件和类似记事本的产品的开发,以满足这些差距。

本文分享自微信公众号 - Python与机器学习之路(gh_39aead19f756),作者:Huangwei AI

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-03-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Jupyter Notebook 使用手册

    什么是“笔记本(notebook)”?记事本将代码及其输出集成到一个文档中,该文档结合了可视化、叙述性文本、数学方程和其他富媒体。这种直观的工作流程促进了迭代和...

    HuangWeiAI
  • JupyterLab: 神器Jupyter Notebook的进化版,结合传统编辑器优势,体验更完美

    近年来,Jupyter Notebook作为一种以交互和良好的布局方式显示代码和结果的工具受到了广泛的关注。它当然有助于降低编程的门槛,并有助于教学,因为输入和...

    HuangWeiAI
  • 神器与神器:微软宣布VsCode支持Jupyter Notebook

    大家都知道Jupyter Notebook是一款编写Python的神器,然而编辑Jupyter Notebook离不开网页,很多本地的编辑器都不支持编译Note...

    HuangWeiAI
  • Python教程:安装Jupyter Notebook

    简而言之,Jupyter Notebook是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示.如在编程过程中需要编...

    mojocn
  • 是时候联盟Jupyter与PyCharm了,Jupytext就是你需要的

    Jupyter Notebook 是一款免费、开源的交互式 web 工具。研究人员可以利用该工具将软件代码、计算输出、解释文本和多媒体资源组合在一个文档中。笔记...

    机器之心
  • Jupyter与PyCharm不可兼得?Jupytext就是你需要的!

    Jupyter Notebook 是一款免费、开源的交互式 web 工具。研究人员可以利用该工具将软件代码、计算输出、解释文本和多媒体资源组合在一个文档中。笔记...

    小小詹同学
  • Jupyter Notebook的三大短板,都被这个新工具补齐了

    在机器学习和数据科学领域,Jupyter已经家喻户晓。它把笔记、代码、图表、注释融合在一个交互式的笔记本里,还能添加各种扩展功能。可谓机器学习入门进阶研究之神器...

    量子位
  • 数据挖掘知识脉络与资源整理(十一)–数据质量分析

    ? ? 数据质量分析 1、 简介 传统意义上,数据分析分两类:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confi...

    小莹莹
  • 你应该知道的那些Jupyter Notebook奇技淫巧

    Jupyter Notebook是一个在线编辑器,可以在网页上编辑程序,在编辑的过程中,每次编辑一行代码就可以运行一行代码,运行的结果也可以显示在代码的下方,方...

    1480
  • 你应该知道的那些Jupyter Notebook奇技

    Jupyter Notebook是一个在线编辑器,可以在网页上编辑程序,在编辑的过程中,每次编辑一行代码就可以运行一行代码,运行的结果也可以显示在代码的下方,方...

    石晓文

扫码关注云+社区

领取腾讯云代金券