专栏首页大数据技术学习大数据研究报告:Spark最受欢迎,机器学习库MLib采用率持续上涨
原创

大数据研究报告:Spark最受欢迎,机器学习库MLib采用率持续上涨

使用大数据分析;Spark,MapReduce和Yarn是当今最流行的三种大数据框架;机器学习继续获得更多的行业支

持和投资计划,Spark Machine Learning Library(MLib)的采用率预计在未来12个月内将增长60%。

大数据

Crowds®系列研究中的一部分。这个系列报告将大数据分析定义为最终用户能够访问、分析和管理Hadoop生态体系

中数据的一套系统,连续第三年考察与分析了大数据分析最终用户的使用趋势与使用意图。

大数据学习群:716581014

1. 使用大数据的公司比例首次超过50%

大数据分析增长趋势

目前,正在使用大数据的公司比例从2015年的17%迅速增长至53%,首次超过了50%。另外有36%的受访者表示未来

会使用大数据分析,仅仅有11%的受访者表示暂时没有使用记录(这是近三年来历史最低)。电信与金融服务公司大

数据分析服务最活跃的早期应用者,也是增速最快的行业,接下来的是科技与医疗行业,而教育行业的大数据应用者

占比最低。但是,大部分的教育公司正在评估是否使用大数据分析。

大数据分析在各个行业的使用状况

2. 数据仓库优化被认为是大数据分析最主要的使用场景

大数据分析使用场景

数据仓库优化被认为是大数据分析最主要的使用场景,70%的受访者认为数据仓库优化是重要或非常重要。客户/社交

分析与预测是排在第二位的使用场景,预测与维护排在第三位。很有趣的是,在物联网(IoT)领域,大数据分析似乎

并不是那么重要。在行业中大数据分析使用场景差别很大,在金融服务和电信行业中,数据仓库优化是主要使用场

景,欺诈检测应用比例也较高,而科技公司则主要使用大数据分析进行医疗保健和客户/社交分析。

各行业主要使用场景

3. Spark是最受欢迎的的数据框架,SparkSQL是最受欢迎的大数据访问方式

大数据框架

Spark成为最受欢迎的大数据框架,超过70%的受访者认为Spark重要或非常重要,排在二三位的是MapReduce和

Yarn。在大数据访问方式上Spark SQL、Hive、HDFS和Amazon S3最受欢迎。73%的受访者认为Spark SQL对他们

的分析策略至关重要, 而超过30%的受访者认为Hive和HDFS也很重要。 作为五大数据访问方式之一的亚马逊S3也具

有较高认可程度。

大数据访问方式

4. MLib将主导整个机器学习

机器学习继续获得更多的行业支持和投资计划,Spark 机器学习库(Spark Machine Learning Library,MLib)当前

意46%使用率排在首位。在接下来的12个月里,这一数字有望增长60%到72%。未来两年将主导整个机器学习。

机器学习框架使用分布

大数据学习可以加群:716581014

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据开发工程师学习路线分享

    大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高...

    用户2292346
  • 如何从零开始规划大数据学习之路!

    针对第一个问题,就是ETL技术-数据的抽取,清洗,加载。传统数据抽取、清洗、加载是无法做到的。例如一个1TB的数据,需要抽取一些客户的基本信息。上万的文件,多种...

    用户2292346
  • 大数据时代,从零学习数据思维

    其实直到3个月前,我还不知道数据分析是什么。不知道的原因是一直以来我从事的都是医学相关专业。我就是在看了一场演讲之后,毅然决定从新选择一条职业道路。

    用户2292346
  • 科普知识:什么是大数据分析

    ​很多人想知道究竟是什么大数据分析。然而网络中对大数据分析的定义却让人看了以后更加糊涂,例如下面是百度百科的解释:

    猴子聊数据分析
  • Anaconda使用入门

    开始接触数据挖掘和机器学习的东西,选定在Python上做。有一本书《利用Python进行数据分析》,书中用的最主要的包就是numpy和pandas,找这两个包的...

    钱塘小甲子
  • 详解FIX协议的原理、消息格式及配置开发

    FIX协议是由国际FIX协会组织提供的一个开放式协议,目的是推动国际贸易电子化的进程,在各类参与者之间,包括投资经理、经纪人,买方、卖方建立起实时的电子化通讯协...

    宜信技术学院
  • java文件夹复制到指定目录

    DencyCheng
  • Follow这些步骤,临床数据也能妙笔生花!

    对于临床医生而言,我们能接触到的更多的其实是临床数据。目前关于数据分析有一个专门的术语叫做“数据科学”。今天就给大家介绍一个数据分析流程的网站,利用这个网站来简...

    百味科研芝士
  • 如何才能成为人力资源数据分析专家

    人力资源的数据分析是一个系统化的学习过程,除了需要掌握基础数据分析知识外,还需要掌握EXCEL的技能和人力资源的专业能力,为了帮助大家更好的学习数据分析,我...

    王佩军
  • 大数据开发工程师学习路线分享

    大数据是对海量数据存储、计算、统计、分析等一系列处理手段,处理的数据量是TB级,甚至是PB或EB级的数据,是传统数据处理手段无法完成的,大数据涉及分布式计算、高...

    用户2292346

扫码关注云+社区

领取腾讯云代金券