交互式分析技术

机器学习和数据挖掘是个非常难的领域,所以在这个领域有数据科学家这么一个职位。“数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。

传统典型的应用(如推荐系统)的一个数据流过程,需要经历使用hadoop做ETL,用impala/drill等做数据探索,使用tableau做报表,使用R语言或者mahout做高级分析,最后形成一个数据产品,如下图所示:

这个过程非常复杂,对技能要求非常高,需要懂一系列复杂的系统和工具。Databricks创新的将这些统一到了一起。通过一个统一的平台,将整个ETL、探索、高级分析、报表、数据产品都统一到平台上。

做到这一点核心用到一个notebooks这种工具。Notebooks是提供一个交互式的工作区,数据科学家可以使用R,python,Scala,SQL等各种语言直接在工作区输入,结果直接图形化的展现在下面,如下面一个例子:移动设备的地理分布。

Notebook有ipthon(http://ipython.org/),zeppline(http://zeppelin-project.org/)等,都非常有特点。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

移动网络运营商:利用SIM的力量克服物联网挑战

物联网(IoT)的扩张对于物联网的垂直行业和移动网络运营商(MNO)来说是一个巨大的发展机遇,但是机遇与挑战并存。在最近的一次针对正在路上行驶的吉普车的黑客攻击...

2908
来自专栏VRPinea

借助于VR教育平台,“妈妈再也不用担心我的学习了!”

3235
来自专栏lx的专栏

构建管理型物联网平台的6个复杂性

物联网产业正处于快速扩张的时代,业内专家预测连接设备的数量将从80亿(2017年)增长到20亿(2020年)。随着越来越多的公司希望进入物联网领域,他们在构建和...

3086
来自专栏专知

【业界】Facebook的基础AI算法是如何驱动社交网络的发展?

【导读】Facebook的基础AI算法是如何驱动社交网络的发展。我们来一览这篇文章。 Instagram工程师曾在2016年接到一个艰巨的任务。当时由于担心人们...

2716
来自专栏腾讯研究院的专栏

运营商们如何把握“移动互联网入口”的优势?

一、互联网入口三大发展特征   为了争夺互联网用户的第一界面,整个互联网都在经历着集合化-专业化-集中化三个特征的转换:   集合化:即对各类网站、信...

3294
来自专栏SDNLAB

网络虚拟化是多云控制的关键

现在很多IT企业在云计算时代逐渐失去对正在开发和部署在公有云中的应用程序的控制,形成这种现象的原因是每个公有云对网络来说都是一个孤岛。 ? 网络虚拟化(NV)o...

3358
来自专栏机器之心

受够了碎片信息和大众搜索?来试试机器之心新上线的「AI商用垂直搜索」

过去,机器之心一直重点提供高质量的技术内容,我们认为在一项技术刚刚兴起的时候,首先应该严肃客观的帮助大家去理解技术本身、学习技术进展。我们有幸以自己的方式成为了...

2647
来自专栏人工智能快报

吴恩达谈当前人工智能的能力与不足

全球顶尖人工智能专家、百度首席科学家吴恩达在《哈佛商业评论》撰文讨论了当前人工智能的能力与不足。吴恩达谈到: 许多企业高管问我人工智能够做些什么,他们想要知道人...

3347
来自专栏企鹅号快讯

Python火爆的背后的应用领域是数据挖掘、大数据和人工智能的应用吗?

在数据分析和交互、探索性核算以及数据可视化等方面,Python 将不可避免地接近于其他开源和商业的领域特定编程言语/工具,如R、MATLAB、SAS、Stata...

1819
来自专栏SDNLAB

Network AI:AT&T的开源架构将从2018年起推动其软件定义网络

1805

扫描关注云+社区