前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据科学家应该掌握的5个工具

数据科学家应该掌握的5个工具

作者头像
小莹莹
发布2018-04-20 17:59:02
9420
发布2018-04-20 17:59:02
举报
即使是知识渊博的数据科学家也能提升他们的技术水平。当谈及到分析你编纂的数据时,有大量的工具可以帮助你更好的理解数据。我们与我们的数据科学指导者探讨了很久,最后总结出了一个包括5个数据科学工具的列表,同时这也是你在当今的社会形势下应该掌握的5个数据科学工具。

dedup

dedup是一个Python库,使用机器学习快速的对结构化数据进行重复数据删除和实体解析。

数据科学家发现他们经常需要使用SELECT DISTINCT * FROM my_messy_dataset;不幸的是,现实世界中的数据集往往更加复杂。无论你是去对多个数据源进行汇总,还是简单的数据收集,开始你都需要对重复数据的删除做一个有意义的分析。

如你所想,有取之不尽的方法可以用来合并数据和用之不竭的规则来定义你数据的等价意义。有相同地址的两家餐馆是属于一个公司么?名和姓都相同的两条记录就是同一个人么?

你很幸运,dedup可以让你转危为安!基于创新的计算机科学研究,dedup使用机器学习(更确切地说,应该是主动学习)去学习,通过合并人类的反馈对两个可能的模棱两可的记录进行研究,并寻找究竟是什么构成了两者的“相似”。更方便的是,它有一个图形用户界面(GUI),任何人都可以使用它。

贡献者Jonathan Dinu,Galvanize的Academic Excellence的副总裁。

Theano

Theano是一个Python库,你可以有效地定义、优化以及评估包含多维数组的数学表达式。

Theano的特点:

  • 和Numpy紧密结合——在Theano编译的函数中使用numpy.ndaaray。
  • GPU的透明使用——在执行密集型数据计算时,相比于CPU,速度提升了140倍。(使用float32进行测试)
  • 速度和稳定性优化——对log(1+x)得到正确的答案,即使x真的很小。
  • C语言代码动态生成——加速评估表达式。
  • 广泛的单元测试和自我验证——发现和诊断不同种类的错误。

贡献者Mike Tamir,Galvanize首席科学官。

StarCluster

StarCluster已经开始在Amazon的EC2云服务器中设计虚拟机创建、配置和管理集群的自动和简化程序。StarCluster允许所有人在面向分布式和并行计算的应用和系统的云服务器中轻松的创建一个集群计算环境。这允许你在无限制的数据上做交互程序。

贡献者Alessandro Gagliardi,Galvanize数据科学指导者。

graph-tool

在python网络和图形分析库与日俱增的情况下,图形工具给了不少希望。尽管像NetworkX和Gephi这样的工具在不断成长的工具中仍然还有它们的一席之地,但是对于那些想要做大图像高级分析的人来说——无论是社会网络、道路网络、还是生物网络——这两者往往会显得力不从心。

NetworkX一直是用于网络分析的最流行的Python工具,因为它有着丰富的API并且使用的门槛很低,但是一旦你开始处理更大的图形,纯python实现的弊端才真正开始凸显。而Gephi是一个极好的交互式可视化和开发新图像的图形化工具,但是有一个麻烦的脚本接口,使得它很难使用编程方式去控制。

图形工具尝试从它前辈中吸取经验教训并给数据科学家最好的结果。它使用C++实现(可并行执行)并用Python来武装,绑定了一个易于使用的API,同时获得了超快的速度,而且不影响使用性。为了弄懂一个网络,它的功能不仅包括绘制和可视化图像,还要和动画图像进项交流并给图像赋予生命。

贡献者Jonathan Dinu, Galvanize的Academic Excellence的副总裁。

Plotly

Plotly是一个面向R,Python,MATLAB,JavaScript和Excel的交互式图形库。Plotly也是一个用于分析和分享数据和图像的平台。

Plotly是如何与众不同的呢?与Google Docs和GitHub一样,你可以协调和控制你的数据;可以将文件设置成公有的、私有的、秘密文件或是分享的。如果你使用plotly的免费公共云,脱机Plotly,或是现场部署,下面的选项很多都是可以获得的。

在你的工作流中可以使用Plotly,这里有三种可用方式:

为数据科学家整合其它工具。Plotly的R,Python和MATLAB的API可以让你做交互、更新仪表面板和图像。Plotly整合了IPython Notebooks,NetworkX,Shiny,ggplot2,matplotlib,pandas,reporting tools和数据库。例如,下面的图是使用ggplot2制作的,然后嵌入到这个博客中。将鼠标悬停后看看数据变化,然后单击拖动放大。

创建交互式地图。Plotly的图形库建立在D3.js之上。对于地理数据,Plotly支持分级统计图、散点图、气泡图、分块图和线图。你可以制作类似下面这样的地图,像R和Python一样把它们嵌入到博客,应用程序和仪表板。

2014 全球 GDP(来源:CIA世界概况)

建立全方位的可视化。你可以为使用Plotly满足任意的可视化需求:地图、2D、3D以及流图。点击并移动你的鼠标来旋转这个图,悬停并观察数据变化,或切换放大。

参数图

来源:CSDN

贡献者:Matt Sundquist,Plotly的CCO,兼联合创始人。

译者/刘帝伟 审校/赵屹华、朱正贵、李子健 责编/周建丁

译者简介:刘帝伟,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。

1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章 6、回复“答案”查看hadoop面试题题目及答案 7、回复“爱情”查看大数据与爱情的故事 8、回复“笑话”查看大数据系列笑话 9、回复“大数据1、大数据2、大数据3、大数据4”查看大数据历史机遇连载 PPV课大数据ID: ppvke123 (长按可复制)大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-10-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 PPV课数据科学社区 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档