本文转载自数盟社区,公众号ID:DataScientistUnion,原文网址:http://www.analyticsvidhya.com/blog/2016/05/19-data-science-tools-for-people-dont-understand-coding/
简介
编程是数据科学的重要组成部分。在所有方面中,一般认为一个理解编程逻辑、循环、功能的大脑更有可能成为一个成功的数据科学家。那么,一个从来没有在学校或学院里学过编程项目的人呢?
难道注定他们在数据科学中的职业生涯是不成功的?
我敢肯定有无数个想要进入数据科学领域的人,编码却不是非常好。事实上,在我参加第一份工作之前,也曾经是像你们一样的非编程联盟的成员。所以,我十分理解一个你从来没有了解过的东西现在时时刻刻困扰你,这种感觉是多么的可怕。
好消息是,我发现了一个解决办法。而且,我已经找到了可以点燃你的食欲的19种不需要做编码的方式来学习数据科学。这些工具通常避免出现编程,并提供易于操作理解的GUI(图形用户界面),从而使懂很少算法知识的人,也可以轻松的使用它们来构建预测模型。
许多公司(特别是初创公司)近日纷纷推出GUI数据科学驱动工具。我已经涵盖了大部分在当今行业中可用的工具。另外,我增加了一些视频,以增强你的学习体验。
注:提供的所有信息均来自公开来源信息资料。我们只是提出一些事实,而不是意见。我们绝不会意图推动或宣传任何产品及服务。(本文视频均为YouTube链接,请使用访问外国网站方法观看。)
工具列表
1.RapidMiner
https://youtu.be/ma14K56fNAM
RapidMiner(RM)在2006年最初是以一个名为Rapid-I的开放源代码的单机版软件开始的。几年过后,他们已经给它取了RapidMiner这个名字,也取得了3500万美元的融资。该工具对旧版本(V6以下)开源,但最新版本已经推出了14天的试用期,并获得了许可证。
RM覆盖了预测建模的整个生命周期,包括从开始的建模数据准备,到最后的验证和部署。该GUI是基于一个框图的方式,非常类似于Matlab Simulink。其中还有一个预定义块作为即插即用设备模式。你只需将它们以正确的方式连接在一起,各种算法就不需要任何代码可以自动运行。在此之上,它们允许定制R和Python脚本集成到系统中。
目前提供的产品包括以下内容:
2.DataRobot
https://youtu.be/wZCNKDX1q4o
DataRobot(DR)是由包括JeremyAchin, Thoman DeGodoy 和Owen Zhang在内的Kagglers建立的一个高度自动化的机器学习平台。该平台声称已经不再需要数据科学家。可以从他们网站上的一句话显而易见的看出这一点——“数据科学需要数学和统计资质,需要编程技巧和商业知识。有了DataRobot,您只需要带来商业知识和数据,我们的尖端自动化会负责余下的所有事情。”
DR宣称其具有以下优势:
3. BigML
https://youtu.be/JVM8qIn3xPQ
BigML是另一个融资较强的平台。它提供了一个很好的GUI,需要用户通过以下6个步骤来进行:
这些过程将在不同的命令中明显递进。该BigML平台对结果提供很好的可视化,并有解决分类、回归、聚类、异常检测和结社发现问题的算法。你可以感觉到他们的接口是如何使用YouTube频道进行工作的。
4.Google Cloud Prediction API
https://youtu.be/u39rCNFWDEA
谷歌云PredictionAPI为Android应用程序构建的机器学习模型提供了RESTful APIs。该平台是专门应用于Android操作系统移动应用程序的。使用案例包括:
虽然API可以在任何系统中使用,但也构建了有更好的性能和安全性的特别的谷歌API用户库。它们支持各种编程语言,例如Python、Go、Java、JavaScript、NodeJS、Obj-C、PHP和Ruby。
5.Paxata
https://youtu.be/bxxsCLmXmms
Paxata是少数专注于数据清理和准备,而不是机器学习或统计建模的机构之一。这是一个类似MS Excel的应用程序,易于使用,具有视觉引导功能,可以更加便捷的汇集数据,发现和修混乱或丢失的数据,以及共享和再利用跨团队的数据项目。就像人们所说的,Paxata消除编码或脚本,以克服处理数据过程中的技术壁垒。
Paxata平台遵循以下过程:
随着新一轮25万美元的融资,Praxata已经涉足进金融服务、消费品和网络域领域。如果你的工作需要大量的进行数据清洗,它可能对你来说是个好工具。
6. Trifacta
Trifacta是另一个集中于数据准备领域的工具。它有2个产品系列:
Trifacta提供了一个进行数据清洗非常直观的图形用户界面。它需要输入数据,然后提供一个基于列的统计摘要。此外,对于每列它会自动推荐一些可以通过单次点击来进行选择的转换。在数据上执行不同的转换时可以使用一些预先定义的函数,这些可以很轻松地在界面实现调用。
Trifacta平台进行数据准备的步骤如下:
随着新一轮75万美元的融资,Trifacta目前已经应用于金融、生命科学和电信业领域中。
7.Narrative Science
Narrative Science具有一种独特的意义,它可以利用数据自动生成报告。它就像一个用数据讲故事的工具,采用先进的自然语言处理来创建报告。在某种程度上类似于一个咨询报告式的东西。
这个平台的特点包括:
随着新一轮3,000万美元的融资,Narrative Science目前已经应用于金融、保险、政府和电子商务领域。它的客户包括美国世纪投资、PayScale、MasterCard、福布斯、Deloitte等。
已经讨论了这一领域的一些初创公司,接下来让我们讨论一些试图在数据科学的某些方面实现自动化的学术活动。它们都有成为成功企业的潜力。
8.MLBase
MLBase是加州大学伯克利分校由AMP实验室开发的一个开源项目。其核心思想是为把机器学习应用到大规模问题解决中提供一个简单的解决方案。
它有3个产品:
这项工作仍在积极发展,我们应该在不久的将来会看到它的发展。
9.WEKA
WEKA是一个用Java编写的数据挖掘软件,发展于新西兰怀卡托大学的机器学习组。它是一个基于GUI的工具,它对于数据科学的初学者是很不错的,另外它最好的地方是它是开放的源集。您可以使用由怀卡托大学提供的MOOC了解它。您也可以在这篇文章中了解关于它的更多信息。
虽然WEKA目前多在学术界中使用,但它可能是将来某些大事件
的垫脚石。
10.Automatic Statistician
Automatic Statistician本身并不是一个产品,但它是一个创建数据探索和分析工具的研究机构。它可以兼容各种数据,并使用自然语言处理,然后生成一个详细的报告。它是由曾经在剑桥和麻省理工学院工作,还获得了750,000美元的谷歌重点研究奖的研究人员开发。虽然它仍在开发中,也极少能够获得关于这个项目的信息,但它看起来是由谷歌支持的。你可以在这里找到一些信息。
更多工具
我们已经讨论了上述选定的10个例子,但还有很多像这样的工具。我将在这里简要地例举他们中的一些,如果这些不足以满足你的兴趣,你可以进一步进行探索:
结语
在这篇文章中,我们已经讨论了朝着自动化解决各个方面的数据科学问题的各种举措。其中有些是在新生的研究阶段,有些进行了开源,而另外一些已经以百万计的资金应用在了行业中。所有这些构成了对数据科学家工作的潜在“威胁”,而这种威胁预计在不久的将来会继续增长。这些工具最适合于厌恶编程和编码的人。