专栏首页PPV课数据科学社区大数据的未来在云端

大数据的未来在云端

数据正在呈几何级数增长,来自社交媒体(微信、微博)以及传感器设备的非结构化数据受到了越来越多的关注,而与传统企业交易系统的结构化数据一起,它们将有可能带来新一轮的产业变革。机器学习,自然语言处理,舆情分析等词汇几乎每天都会出现在媒体的报道当中,然而真正讲它们大规模投入应用的企业却少之又少。 如今,企业CIO们几乎人人都在讨论大数据,许多人认为大数据就是搭一个Hadoop集群,把所有的数据全部存进去,再通过各种各样的API调用进行分析。然而答案并不是这么简单,大数据与IT方方面面都有联系,从基础设施到中间层再到前端的应用。Hadoop不是万能的,它只是大数据的一部分,想要真正驾驭大数据,我们需要考虑更多的事情。

我们的数据究竟有哪些问题?

事实上,我们要解决的大数据最基本的问题是存储和报表。我们该如何存储快速增长的数据,关键是在业务人员需要用到这些数据的时候,可以快速地访问。即席查询生成报表,对业务进行预测,充分利用大数据流中隐藏的价值。 你的数据都有哪些类型组成?关系型数据、非结构化数据还是音频视频?你如何存储不同类型的数据,然后让企业内部的人员可以访问这些数据?答案其实在云端,云存储技术基本上可以应对大数据的存储需求,你可以存储任何类型的数据然后轻松地进行扩展。高端的SAN存储技术在大数据时代已经落伍,而且高昂的成本是企业所无法承受的。SAN存储适合的是关键业务数据,每一条记录对企业都是至关重要的。大数据正好相反,比如销售订单,这些数据是绝对不能丢失一条的,而一条微博或者日志文件怎没有这么高的要求。包括华为、亚马逊等云存储服务可以使用廉价的设备为企业提供大数据存储解决方案,实现可靠、可扩展并且性价比更高的存储。 当然,电视的出现并未让广播电台灭亡,在大数据时代也是如此。SAN依旧有它的价值,但并不是所有数据都要存在上面。我们需要云存储是因为不同类型的数据都有着特殊的存储需求。比如读密集型的数据一般需要关系型数据库;日志文件只使用HDFS存储就可以;需要大量写操作的数据则需要NoSQL数据库;而存在大量读写操作的系统就需要强大的大数据架构来作为支撑。你的系统也许需要低延迟、高一致性、高度可靠或者需要控制存储的成本,每一种需求都意味着不同的存储解决方案。低延迟可能意味着要上SDD或内存设备,高一致性意味着要建立交易系统,高可靠意味着要使用数据库复制功能。所以,大数据已经告别了“放之四海皆准”的关系型数据库时代,Oracle+小型机+高端存储(或者说IOE)的组合已经不能处理所有的数据难题。

那么企业到底需要什么?答案是以服务的方式提供的灵活可扩展的云存储解决方案,能够满足上述不同的存储需求。比如亚马逊的RDS,DynamoDB,华为的对象云存储等。当然,并不是所有的云存储都可以满足需求,企业需要更高的灵活性,同时出于延迟以及法规遵从等原因,这就要求能够从不同的系统中将数据快速方便地进行迁移,从内部系统到公有云,或者从一个云提供商迁移到另一个云提供商。

商业智能与ETL的未来发展 除了存储方案之外,我们还应该关注前端应用。传统的ETL也将经历变革。业务人员肯定不希望为了导入一点额外的数据就让IT部门更改schema,这样的工作量和成本太高了。理想的状态是有一个简单的工具,让业务人员就能够做即席查询,比如Tableau就能够解决这样的问题。然而,随着数据量的不断增长,TB甚至PB级别的数据需要进行处理,那么软件的成本就要考虑在内,这时候你该怎么办? ETL和BI工具的未来将运行在Web端,任何的业务人员都能够用它来生成报表。动态的HTML5用户界面可以通过拖拽就完成数据的查询与报表生成,如果你还需要对业务用户进行培训才能够使用这些工具,那么就真的OUT了。 新一代的BI工具能够应对实时、图形化、大对象以及非结构化数据的处理,同时能够将这些数据存储在云端。每种数据可以托管在不同的云服务上,但都可以通过一个API进行访问。企业无需再关心什么样的数据用什么样的存储,云服务提供商就可以搞定。 最后,有一点很重要。越来越多的企业开始意识到,数据分析已经成为了一种“战略武器”。下一代的商业巨头,也许就会从那些知道如何收集数据并把它们转化有价值洞察力的企业中诞生。千里之行始于足下,在构建大数据分析模型或者投入机器学习,招聘数据科学家之前,企业需要先解决好如何存储大数据,而答案就在云端。

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-05-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 2017年机器学习发展十大趋势预测,悲观还是现实?

    来源:今日头条 概要:按照惯例,我们首先回顾机器学习技术在实际应用层面的发展历程 “分析时代”目前仍处于起步阶段,它为我们带来众多值得期待且为之兴奋的构想与承诺...

    小莹莹
  • Python & R编码常见的机器学习算法

    在拿破仑•希尔的名著《思考与致富》中讲述了达比的故事:达比经过几年的时间快要挖掘到了金矿,却在离它三英尺的地方离开了! 现在,我不知道这个故事是否真实。但是,我...

    小莹莹
  • 大数据项目:心态比技术更重要

    大数据概念最早被人们所熟知之时,似乎人们都认为这一产业仅仅是面向大型企业用户的。大数据相关技术日新月异,然而其复杂程度与实施成本同样也会两人感到...

    小莹莹
  • npm 更新package.json中依赖包版本

    用户1177380
  • 现代C++之SFINAE应用(小工具编写)

    是不是有点像Python的print一样简单,但这背后实现也就仅仅不到100行的代码,本节来实现这种功能。

    公众号guangcity
  • 微服务下的契约测试(CDC)解读

    有近两周没有在公众号中发表文章了,看过我之前公众号的读者都知道,公众号中近期在连载《RobotFramework接口自动化系列课程》,原本计划...

    测试开发技术
  • 深度 | 拓扑数据分析TDA,有望打破人工智能黑箱的神奇算法

    机器之心
  • Python脚本命令行执行隐藏密码等敏感信息

    Linux命令行登录系统,MySQL时,输入的密码看不到的,怎么在执行Python脚本时,密码等敏感信息也不让它出现呢?

    酒馆丁老师
  • 2019年数据泄露调查报告

    报告是基于各种来源的数据进行分析,例如公开披露的安全事件,Verizon(VTRAC)和合作单位等提供的案例。

    FB客服
  • 联发科号称自家5G芯片业界领先,是不是事实?

    联发科本身也是一家老牌的企业,在无线通讯,数字电视,光存储以及蓝光等产品都有涉猎。在2G时代的联发科通过发布MTK整体手机解决方案,直接奠定了联发科在手机行业的...

    程序员互动联盟

扫码关注云+社区

领取腾讯云代金券