2017年大数据年终盘点:开源工具、MySQL和Python是最大赢家!

2001年,Gartner给出了大数据的概念,即大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。这其中点出了大数据关键的3V特征,即海量、速度和多样性,也很明确的为我们指出了大数据在哪些方面存在挑战。但是,16年过去了,现在大数据发展仍然没有达到边界,还是一个充满想象力的领域。

因为数据的存在,让很多新的行业焕发出了无限的价值,社交媒体网站可能就是一个典型的例子。对于企业来说,目前的主要问题就是如何使用收集来的数据创造价值。为此,Dzone社区调查了734个和大数据相关的技术人员,下面我们就来看看有哪些有趣的结论。

开源仍然是大趋势

开源是整个IT技术的大趋势,在大数据领域也不例外。据Dzone的相关调查,71% 的受访者都在使用开源工具进行数据科学的相关工作,只有16%的人在使用商业工具。开源工具在个人开发项目和企业应用程序中得到了快速应用。

2016年曝光度最高的开源工具Spark,今年的采用率从去年的31%增长到了45%。而今年曝光率最高的开源工具,TensorFlow绝对算得上一号,自谷歌一年半之前发布以来TensorFlow的采用率已经达到17%。

开源工具的出现让大数据的应用推进的更快,如果不能快速适应上手新的开源工具,那么关于数据科学的相关工具就无法开展。

Apache Hadoop仍然是领头羊

前几天,有的专家在预测数据库未来发展趋势时,提出了一个观点那就是“Hadoop将死”,但是通过具体的数据,我们发现Apache Hadoop现在仍然有实力强劲。65%的数据工程师都正在使用或者曾经使用过Apache Hadoop。47%的技术人员使用Yarn进行集群管理。62%使用Apache ZooKeeper,55%使用Hive来做数据仓储。

得益于MapReduce处理和存储数据的能力,自2011年发布以来,Apache Hadoop就一直呈现着高速发展的趋势,现在广受欢迎的众多先进工具都是建立在Hadoop之上。对于开发者和数据科学家来说,Hadoop是一盏明灯,有助于他们在未来职业中的晋升。

当然,为了克服MapReduce的局限性,Apache Spark应运而生,同时还衍生出一些其他的新技术,例如 Spark SQL、GraphX、 MLib和 Spark Stream等等。

数据库的发展

关于数据库的发展,今年并没有大格局的变化。据Dzone的调查,MySQL被60%的受访者应用于生产和非生产的环境中。MongoDB被47%的受访者应用于生产环境中,48%应用于非生产环境中,PostgreSQL被41%的受访者应用于生产环境中和40%应用于非生产环境中。

而商业数据库可能是由于许可证的问题,似乎并不如开源数据库那么受欢迎。而其他一些数据库,例如SQLite这样轻量级的数据库也会占据一定的份额。但是NoSQL数据库的发展则越来越稳健,有56%的数据科学从业人员选择使用NoSQL。

编程语言、工具、库和框架

数据科学其实很大程度上都依赖开源的编程语言、工具、库和框架。就编程语言来说,Python和R都是数据科学的热门语言。相比较于R语言来说,Python可能更受欢迎一些,其在受访者中获得了63%的支持,而R语言则获得了61%的支持。

而对于框架来说,Spark Stream在流数据计算框架中颇受欢迎,在数据采集过程中Kafka得到了54%的支持。剩余其它的一些框架则没有得到超过25%的支持率,不过,这其中还有一匹黑马,那就是GraphX,其在迭代图处理类别中获得了24%的支持率。

本文来自企鹅号 - IT168文库媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

Apache Spark 不过时的六大理由

在极短的时间内,Apache Spark 迅速成长为大数据分析的技术核心。这就使得保守派担心在这个技术更新如此之快的年代它是否会同样快的被淘汰呢。我反而却坚信,...

20270
来自专栏about云

从“非诚勿扰”看淘宝算法效果测试

大家应该都了解最近被讨论的热火朝天甚至有些过气的相亲节目“非诚勿扰”。这个节目让我们看到人性的差别,增加了我们茶余饭后的话题,也让我们了解到现在找对象是多么困难...

39480
来自专栏人工智能头条

每周值得关注的AI头条:谷歌回归是AI人才争夺的开始

大家好我是智能禅师。智了能的禅师,观了音的AI。惯例是先放一首歌,道友们伴着歌声开启新一周的修行吧。

13230
来自专栏大数据文摘

程序员界年度人口普查:6成以上开发者日工作超9小时,且从不运动

14350
来自专栏木东居士的专栏

漫谈数据开发工程师的技术广度

今天和朋友在聊天,聊到怎样在面试和与人沟通的过程中体现自己的技术广度,感觉挺有意思,整理分享一下。

31480
来自专栏花叔的专栏

看到一个运动类小程序,有感而发

话说,花叔所在的团队里有个小伙子叫小苏,这家伙在小程序出现前,就一直在研究小程序,“王者荣耀赛事小程序”的最初预研demo就是这家伙做的,这家伙对小程序的API...

529110
来自专栏灯塔大数据

荐读|掌握10到30种技术,只为创建一个大数据解决方案

如今,大数据应用程序比常规应用程序复杂10倍,开发人员通常需要了解大量的技术,以使大数据能够正常工作。 大数据的应用仍然太难了。尽管有很多的炒作的成分,但大多...

34770
来自专栏PPV课数据科学社区

关于数据挖掘就业方面的问题?

1.数据挖掘主要是做算法还是做应用?分别都要求什么? 这个问题太笼统,基本上算法和应用是两个人来做的,可能是数据挖掘职位。做算法的比较少,也比较高级,其实所谓...

37760
来自专栏LiveEdu在线科技教育平台

如何不用写一行代码就能学习软件开发

  在Xcode或其它开发环境中,学习编程是一件让人费尽心血的事情,你需要花很多时间在里面。不过,这里还有一个要素你有可能忽视了。 无论你正在学习的是哪一种类型...

292130
来自专栏灯塔大数据

荐读|大数据架构面临技术集成的巨大障碍

企业可以利用Hadoop以及所有与它相关的技术设计大数据环境,以满足其特定的需求。但把所有的技术集成在一起并不是一件容易的事。 ? IT团队寻求构建大数据架构...

33950

扫码关注云+社区

领取腾讯云代金券