交互式分析技术

机器学习和数据挖掘是个非常难的领域,所以在这个领域有数据科学家这么一个职位。“数据科学家”在2009年由Natahn Yau首次提出,其概念是采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师。数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。

传统典型的应用(如推荐系统)的一个数据流过程,需要经历使用hadoop做ETL,用impala/drill等做数据探索,使用tableau做报表,使用R语言或者mahout做高级分析,最后形成一个数据产品,如下图所示:

这个过程非常复杂,对技能要求非常高,需要懂一系列复杂的系统和工具。Databricks创新的将这些统一到了一起。通过一个统一的平台,将整个ETL、探索、高级分析、报表、数据产品都统一到平台上。

做到这一点核心用到一个notebooks这种工具。Notebooks是提供一个交互式的工作区,数据科学家可以使用R,python,Scala,SQL等各种语言直接在工作区输入,结果直接图形化的展现在下面,如下面一个例子:移动设备的地理分布。

Notebook有ipthon(http://ipython.org/),zeppline(http://zeppelin-project.org/)等,都非常有特点。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2016-08-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Albert陈凯

2018-08-15 实战回顾:苏宁金融营销系统的重构之路

https://mp.weixin.qq.com/s/xy6RdpAQfuC-bLrOy4_5Bw

931
来自专栏SDNLAB

DevOps:新的业务浪潮

DevOps是一种基于将敏捷和精益哲学应用于运营工作的新业务,过去,运营和研发工程师在不同的领域工作,DevOps完全改变了这一状况,两者在整个生命服务周期中紧...

3275
来自专栏云计算D1net

企业对云计算影响其业务的一些认识

根据调查,云采用率将在2018年继续上升。而CIO仍然被管理基础设施的巨大成本,同时还要处理高可用性、安全性和性能所困扰,云计算服务将变得更加难以忽视。随着经济...

2544
来自专栏云计算D1net

正确选择私有PaaS经验之谈

基础架构即服务(IaaS)产品通常更易于满足企业的计算需求,因为只提供了虚拟机,也可能增加了一些数据库特性。不幸的是,IaaS用户发现自身在部署和集成其云应...

3356
来自专栏腾讯云技术沙龙

腾讯技术专家喊你一起探索移动开发!

而高拓展的应用一直是移动行业的热点,为此,在开发过程中能轻松将最常用的移动功能集成,并使用到应用程序中,能大大提高开发者们的单兵作战能力。

67618
来自专栏Rainbond开源「容器云平台」

案例|某大型金融数据公司利用Rainbond实现应用交付的提质增效

某大型金融数据公司(以下简称“公司”)核心为银行、保险、消费金融、信贷、互金等行业客户提供全套数据服务和解决方案,帮助此类对数据安全要求极高的客户将数据决策转化...

33210
来自专栏云计算D1net

混合云迁移:长期多云战略的第一阶段

如今,每个采用云计算的企业平均有六个云,当遇到混合环境中的应用托管时,就会面临一些特殊的挑战和一些误解。 ? 在某个地方,仍然有使用拨号电话和通讯录的业务。这可...

3055
来自专栏微信小开发

微连小程序提高用户转化率

1、关于小程序上线近一年发布能力 第一:更加便捷地帮助商家获取小程序。低成本即可开发属于商家自己的小程序。 第二:提供更强大的微信小程序的能力,近一年发布了近千...

1969
来自专栏人称T客

2017年DevOps发展情况报告,现实当真如理想一般丰满?

T客汇官网:tikehui.com 撰文 张珅健 DevOps目标在于加快软件发布和部署流程速度,加强自动化,降低系统出错频率,并且能更快地消除宕机和错误的影响...

3233
来自专栏SDNLAB

DevOps如何塑造网络的未来

自从2009年它的到来,DevOps理念已经成为一场战役迫切地需要技术团队彻底地重新思考传统的开发人员(那些写代码的)和运维团队(那些管理代码运行的操作系统)如...

2563

扫码关注云+社区