数据科学家应该掌握的5个工具

即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5个数据科学工具。

dedup

dedup是一个Python库,使用机器学习快速的对结构化数据进行重复数据删除和实体解析。

数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。无论你是去对多个数据源进行汇总,还是简单的数据收集,开始你都需要对重复数据的删除做一个有意义的分析。

如你所想,有取之不尽的方法可以用来合并数据和用之不竭的规则来定义你数据的等价意义。有相同地址的两家餐馆是属于一个公司么?名和姓都相同的两条记录就是同一个人么?

你很幸运,dedup可以让你转危为安!基于创新的计算机科学研究,dedup使用机器学习(更确切地说,应该是主动学习)去学习,通过合并人类的反馈对两个可能的模棱两可的记录进行研究,并寻找究竟是什么构成了两者的“相似”。更方便的是,它有一个图形用户界面(GUI),任何人都可以使用它。

贡献者Jonathan Dinu,Galvanize的Academic Excellence的副总裁。

Theano

Theano是一个Python库,你可以有效地定义、优化以及评估包含多维数组的数学表达式。

Theano的特点:

  • 和Numpy紧密结合——在Theano编译的函数中使用numpy.ndaaray。
  • GPU的透明使用——在执行密集型数据计算时,相比于CPU,速度提升了140倍。(使用float32进行测试)
  • 速度和稳定性优化——对log(1+x)得到正确的答案,即使x真的很小。
  • C语言代码动态生成——加速评估表达式。
  • 广泛的单元测试和自我验证——发现和诊断不同种类的错误。

贡献者Mike Tamir,Galvanize首席科学官。

StarCluster

StarCluster已经开始在Amazon的EC2云服务器中设计虚拟机创建、配置和管理集群的自动和简化程序。StarCluster允许所有人在面向分布式和并行计算的应用和系统的云服务器中轻松的创建一个集群计算环境。这允许你在无限制的数据上做交互程序。

贡献者Alessandro Gagliardi,Galvanize数据科学指导者。

graph-tool

在python网络和图形分析库与日俱增的情况下,图形工具给了不少希望。尽管像NetworkX和Gephi这样的工具在不断成长的工具中仍然还有它们的一席之地,但是对于那些想要做大图像高级分析的人来说——无论是社会网络、道路网络、还是生物网络——这两者往往会显得力不从心。

NetworkX一直是用于网络分析的最流行的Python工具,因为它有着丰富的API并且使用的门槛很低,但是一旦你开始处理更大的图形,纯python实现的弊端才真正开始凸显。而Gephi是一个极好的交互式可视化和开发新图像的图形化工具,但是有一个麻烦的脚本接口,使得它很难使用编程方式去控制。

图形工具尝试从它前辈中吸取经验教训并给数据科学家最好的结果。它使用C++实现(可并行执行)并用Python来武装,绑定了一个易于使用的API,同时获得了超快的速度,而且不影响使用性。为了弄懂一个网络,它的功能不仅包括绘制和可视化图像,还要和动画图像进项交流并给图像赋予生命。

贡献者Jonathan Dinu, Galvanize的Academic Excellence的副总裁。

Plotly

Plotly是一个面向R,Python,MATLAB,JavaScript和Excel的交互式图形库。Plotly也是一个用于分析和分享数据和图像的平台。

Plotly是如何与众不同的呢?与Google Docs和GitHub一样,你可以协调和控制你的数据;可以将文件设置成公有的、私有的、秘密文件或是分享的。如果你使用plotly的免费公共云,脱机Plotly,或是现场部署,下面的选项很多都是可以获得的。

在你的工作流中可以使用Plotly,这里有三种可用方式:

为数据科学家整合其它工具。Plotly的R,Python和MATLAB的API可以让你做交互、更新仪表面板和图像。Plotly整合了IPython Notebooks,NetworkX,Shiny,ggplot2,matplotlib,pandas,reporting tools和数据库。例如,下面的图是使用ggplot2制作的,然后嵌入到这个博客中。将鼠标悬停后看看数据变化,然后单击拖动放大。

创建交互式地图。Plotly的图形库建立在D3.js之上。对于地理数据,Plotly支持分级统计图、散点图、气泡图、分块图和线图。你可以制作类似下面这样的地图,像R和Python一样把它们嵌入到博客,应用程序和仪表板。

2014 全球 GDP(来源:CIA世界概况)

建立全方位的可视化。你可以为使用Plotly满足任意的可视化需求:地图、2D、3D以及流图。点击并移动你的鼠标来旋转这个图,悬停并观察数据变化,或切换放大。

参数图

贡献者:Matt Sundquist,Plotly的CCO,兼联合创始人。

还想寻求更多的工具么?去阅读“数据科学家应该掌握的七个Python工具”这篇文章。

译者/刘帝伟 审校/赵屹华、朱正贵、李子健 责编/周建丁

译者简介:刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。

原文发布于微信公众号 - CSDN技术头条(CSDN_Tech)

原文发表时间:2015-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏较真的前端

影响团队交付速度的那些问题

2507
来自专栏ThoughtWorks

基于GitHub的敏捷学习方法之道与术|洞见

持续行动,持续反思,持续进步。—— via. 敏捷学习宣言 前言 对时间的敬畏 需要好多年才能懂得,最好不是去震惊世界,而是要像易卜生所说的,生活在世界上...

3633
来自专栏腾讯大讲堂的专栏

微信一年扫出多少个二维码?

图像作为一种特殊的语言形式,它克服了音声语言的转瞬即逝性,把信息长久保存下来,传播不再单纯依赖人类记忆力。 二维码通过图形记录着一组二进制数据,成为设备之间交...

36910
来自专栏杨熹的专栏

2017 我想要骑着光轮2000去追金色飞贼

2017 我想要骑着 光轮2000 去 追金色飞贼 一转眼就到了年底,大家都在忙着做盘点,做总结,做计划。 我也来回顾一下,先来复习一下超级个体的成长工具...

3556
来自专栏架构师之旅

系统设计黄金法则:简单之美

最近多次看到系统设计与实现的文章与讨论,再加上以前读过的其他资料以及自己的一些实践教训,让我觉得应该把这些资料汇总整理一下。如果要从讨论不同系统的众多资料中总结...

2216
来自专栏大数据文摘

大比拼:用24种可视化工具完成同一项任务的心得体会

亲爱的读者,你是否也有在特定场景使用的非常便捷的软件,欢迎评论区留言给我们,和大家分享这些使工作得心应手、效率百倍的瞬间!

3246
来自专栏人工智能头条

数据科学家应该掌握的5个工具

1863
来自专栏Data Analysis & Viz

简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

最近写得两篇关于简书的数据可视化文章:《简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化》反响都还不错,因而将继续针对简书进行数据分析和...

893
来自专栏web前端教室

刚进公司,接手了一个烂项目,要不要继续?

如题,刚进公司,说是做新项目,刚开始有一些眉目。结果领导不知从哪接了个活儿过来,代码各种烂,重复代码一堆,一个大函数1000多行。说是临时抽你过来顶上去做,做一...

3048
来自专栏SDNLAB

ONOS加入了Linux基金会就是开源吗?

一些致力于实现开源的开发人员一直对开放网络操作系统(ONOS)在开源程度上持怀疑态度,这使得ONOS近期的行动(ONOS加入Linux基金会)特别排斥他们。 ?...

3507

扫码关注云+社区

领取腾讯云代金券