【资讯】信息图:数据科学家受挫数据多样性,吐槽Hadoop

 经过无数权威媒体的反复轰炸,我们大致已经相信,数据科学家是21世纪最神秘最性感最多金的职业,他们是大数据时代数据炸弹的拆弹专家,企业数字化经营的发动机,他们的身价堪比NFL四分卫,而且,他们比昆仑山上的雪豹数量还少。

  显然,数据科学家个个都是十八般数据分析武艺样样精通的绝世高手,但他们近来也有烦心事。不久前,开源数据库SciDB开发商Paradigm4进行的一项针对111名北美数据科学家的调查显示,71%的数据科学家认为数据来源的多样性(IT经理网记者此前曾与百度创始七剑客之一,酷我音乐CEO雷鸣讨论机器学习和大数据分析的最大挑战,他也认为是数据维度),而不是数据总量构成其职业最大威胁和挑战。

  值得注意的是,只有48%的受访数据科学家表示他们在工作中曾使用过Hadoop或者Spark,高达76%的数据科学家抱怨Hadoop太慢,编程速度过慢,以及其他一些局限性。

  虽然Hadoop口碑不佳,但是有接近半数的数据科学家表示很难将数据存入传统关系数据库表中。Nexedi的首席执行官Jean-Paul Smets在接受采访时也曾指出,大数据的真正难题其实并不是所谓的“大”,业界目前缺乏是通过使用高效的分布式运算法则来处理数据的软件,Hadoop 过于依赖Java,而Java已经被Oracle牢牢控制。中国兴起的去IOE运动,实际上为Hadoop之外的大数据软件方案提供了良机。

企业大数据进入复杂分析阶段

  根据报告,有59%的数据科学家表示其所在企业已经开始采用更加复杂的分析技术,例如集群、机器学习、种量分析(Principal components analysis)、图论分析等高级分析技术分析数据,而不是局限于传统的BI报告。

  还有15%的数据科学家表示计划在明年启用复杂分析技术,另有16%的数据科学家表示将在未来两年内采用复杂分析技术。

Hadoop被过度吹捧

  Paradigm4的报告指出,Hadoop被过度吹捧成无所不能的,革命性的大数据解决方案,实际上Hadoop并不适用于需要进行复杂分析的大数据应用场景。

  Hadoop的核心技术方法数据并行(data parallel),被Paradigm4称作“闹心的并行”。报告指出,复杂分析人物往往需要经常访问、处理和分享全体数据,并在数据处理中交叉沟通中间结果,而这恰恰是Hadoop MapReduce的软肋。

  22%的受调查数据科学家表示Hadoop和Spark压根不适合他们的分析任务,此外还有35%的数据科学家在尝试Hadoop或Spark后停止使用这两项技术。

总结:

  在快数据和机器学习为主要趋势的大数据潮流中,Hadoop作为开源系统,企业用户自主安装后,其性能优化有相当技术门槛。其实 Hadoop系统也并非数据科学家反映得那样不堪用,Hadoop系统其实也可以快起来,例如老牌超算厂商Cray的Hadoop解决方案进行了软硬件调优,并且提供后继的技术支持,测试性能要高出很多倍,很好地解决了Hadoop性能差的问题。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-08-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

动物面部识别技术哪个强?奶牛鸡猪狗绵羊……

注意,就在你读这篇文章的时候,全世界上就有超过13亿头奶牛正在吃草并侵蚀环境。而且,牛身上的疾病会在牛群中迅速传播。

1083
来自专栏VRPinea

让15元的纸盒VR媲美HTC VIVE,NOLO开启国内预售

34310
来自专栏新智元

用AI技术防止幼儿园虐待儿童,中国研究员研发视频流分析模型

来源:南华早报 编译:弗格森 【新智元导读】 中国的一个研究小组正准备推出一个人工智能系统,旨在实时捕捉幼儿园中的虐待儿童行为。研究人员说,他们的人工智能算法可...

35714
来自专栏AI科技大本营的专栏

周志华等专家抗议见效,韩国KAIST称不会参与致命AI武器研发

作者 | 阿司匹林 近日,包括 Toby Walsh、周志华、Yoshua Bengio、Geoffrey Hinton 等在内的 50 多位人工智能领域的专家...

2776
来自专栏罗超频道

谷歌和百度真的如此不同?答案可能让你失望了

如果你留心观察会发现两个很有意思的现象:每当百度遇到舆论危机,谷歌就会被拿来做对比;每当谷歌有最新动态,百度就会被拿来做对比。对比的结论均是,谷歌伟大光明正确,...

4106
来自专栏新智元

高仙完成A轮千万级美元融资,自主移动导航系统独角兽浮现

1030
来自专栏SDNLAB

大河云联:国内首家入了MEF法眼的SD-WAN初创公司

11月初,VMware收购SD-WAN初创公司VeloCloud的新闻怒刷了朋友圈,也再一次将SD-WAN推向了业界关注的热点。本周,国内SD-WAN初创公司大...

33712
来自专栏量子位

扎克伯格5小时听证鏖战:五大焦点,四处尴尬,一次耿直CEO笑翻全场

即将年满34岁的Facebook创始人扎克伯格,孤独地坐在美国国会听证会现场,面对44名参议员和一个接一个的尖锐提问。

853
来自专栏Java学习网

如何在大学里成为IT技术大牛

如何在大学里成为IT技术大牛 1、主流价值观 价值观是个挺玄乎的词,三年前大一的时候,我对这个词毫无概念,但是现在慢慢理解了。所谓价值感,就是一个人对各种...

2389
来自专栏ATYUN订阅号

动物面部识别大集合:现有可识别的动物种类及识别目的

面部识别技术存在着一些严重而持久的问题。这项技术作为一个整体在很大程度上受到了不准确和系统偏差的影响。无论谁使用这项技术,出于什么目的,这些算法都使用了从一个因...

2830

扫码关注云+社区

领取腾讯云代金券