大数据科学新发展展望:不得不知的四大趋势

从2012年开始,几乎人人(至少是互联网界)言必称大数据,似乎不和大数据沾点边都不好意思和别人聊天。从2016年开始,大数据系统逐步开始在企业中进入部署阶段,大数据的炒作逐渐散去,随之而来的是应用的蓬勃发展期,一些代表成熟技术的标志性IPO在国内外资本市场也不断出现。转眼间,大数据几年前经历的泡沫正在无可争议地转移到人工智能身上。可以说,在过去的一年,AI所经历的共同意识“大爆炸”与当年的大数据相比,有过之而无不及。最近风口又转移到区块链上了,某种程度上也成为业内人士焦虑的一种诱因了。

但无论技术热点如何变换,我们能看到的是,随着行业沉下心来进行实质的落地,大数据生态也越来越细分。今天就我和大家来谈谈大数据领域的一些新变化、新趋势。

一、数据治理与安全 Data Governance& Security

就发展趋势而言,这个可以放在第一位来讲讲。

多年来,数据已经在企业中不断快速积累。物联网(IoT) 更是不断加速数据的生成。

对于许多企业来说,大数据的解决方案就是利用类似于开源的Apache Hadoop等技术作为基础支持,创建数据湖(Data Lake),即创建整个企业的数据管理平台,用于以本机格式存储企业的所有数据。数据湖将通过提供一个单一的数据存储库来消除信息孤岛,整个组织都可以使用该存储库来进行业务分析、数据挖掘等各种应用。当有了数据湖之后,大家会倾向于认为这东西将会成为一个全方位和万能的大数据集,例如点击流数据、物联网数据、日志数据等都会被要求进入这个湖中,而这些数据很难处理的问题却会被忽略。

但是,除非你知道数据湖里具体有什么,并且能够访问到合适的数据进行分析,否则数据湖再大也没有意义。因此,最后大家都会意识到许多数据湖是表现不佳的资源,人们不知道其中存储着什么内容,如何进行访问,或者如何从这些数据中获取洞察力。

但是,方便地找到想要的东西、同时管理好权限并不容易。除了数据湖以外,治理的另一个主题是以安全的、可审计的方式为任何人提供对可靠数据的便捷访问。

所以,站在管理并使用好公司数据资产的角度而言,数据治理犹如公司的顶层制度和宣言一样需要被重视,并且用相应的策略、流程等来进行落实。最终目的是通过实现数据治理,来提升数据管理、确保数据质量、形成开放共享的新局面等。此外,数据治理也是决策、职能以及操作流程有机组合的系统,并且人们对这些数据资产承担责任。

二、致力于协作的数据工作台发展

在大多数大型企业里,大数据的采用是从少数独立项目开始的,个推也是如此:譬如这里做一点Hadoop集群,那里用一用分析工具,跑一个简单业务模型,以及意识到需要设立一些新的职位(数据科学家、首席数据官)等等。

现在,业务场景越来越丰富,异质性也越来越突出,各种各样的工具在整个企业范围内得到了使用。在公司的组织范围内,集中化的“数据科学部门”正在逐渐让位于更加去中心化的组织,原因在于集中化的部门越来越走向瓶颈,也更容易造成资源的流失。

这个由数据科学家、数据工程师以及数据分析师组成的群体,正日益嵌入到不同的业务部门里。因此,对于平台来说需求已经很明显了,那就是要让一切都能协作到一起来,因为大数据的成功正是建立在设立一条由技术、人以及流程组成的装配线基础之上的。

因此,一些全新的协作平台类型(譬如 Jupyter等)正在加快出现,引领着所谓的DataOps(与DevOps对应)领域的发展。

三、数据科学自动化

数据科学家(Data Scientist)依然是市场上炙手可热的争夺对象。但是我们在周围却很少见到这类人,哪怕是财富前1000强的公司也为无法招到更多“数据科学家”而感到困扰。而在一些组织里,数据科学部门正在从使能者演变为瓶颈。

与此同时,AI的大众化以及自服务工具的蔓延使得数据科学技能有限的数据工程师,甚至是数据分析师在执行一些基本操作时变得更加容易了,而这些操作直到最近仍然是数据科学家的领地。在自动化工具的帮助下,企业大量的大数据工作,尤其是那些简单枯燥的工作,将由数据工程师和数据分析师进行处理,而不必麻烦有着深厚技术技能的数据科学家。当然,即便如此,数据科学家目前还不需要太过“恐惧”。

在可预见的未来里,自服务工具和自动化模型将会“增强”数据科学家而不是消灭他们,会解放他们,让他们把焦点放在需要判断、创造力、社会化技能或者需要垂直行业知识的任务上,那样才能更加体现科学家的名号。

四、大数据管理员的崛起

大数据管理员(BDA)也对标于数据库管理员(DBA),虽然两个英文字母只是变换了一下顺序,但是其内涵相差甚远。一个非常明显的趋势是,企业将对一个新岗位角色产生需求,即大数据管理员。DBA大家已经非常熟悉,但它与大数据时代下的数据管理员,有非常大的差别。

数据管理员处于数据使用者和数据工程师之间。为了取得成功,数据管理员在进行大数据系统的维护工作之外,还必须了解数据的含义以及掌握应用于数据中的一些技术。

数据管理员需要清楚整个组织内需要执行的数据分析类型,哪些数据集非常适用于这项工作,以及如何将数据从原始状态转换为数据使用者执行这项工作所需的形态和形式。数据管理员应使用像自助服务数据平台这样的系统来加快数据使用者访问基本数据集的端到端流程,而无需制作无数的数据副本。

结语

以上四个方面是数据科学在实践发展中提出的新需求,谁能在这些方面得到好的成绩,谁便会在这个大数据时代取得领先的位置。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

Akraino Edge Stack进入执行阶段

旧金山 - 2018年8月20日 - Akraino Edge Stack是一个Linux基金会项目,它创建了一个开源软件堆栈,以支持边缘计算系统和应用程序优化...

2183
来自专栏撸码那些事

透过用户思维谈程序员的进阶之路

最近读了一本关于产品的好书《用户思维+ 好产品让用户为自己尖叫》,虽然是一本产品相关的书,但是全书都在围绕如何让你的用户变得更优秀展开讨论。作者的观点很明确也很...

1333
来自专栏云计算D1net

解析2015年企业十大战略技术趋势:云计算成主角

Gartner提出2015年对企业组织而言最重要的十大战略性技术趋势。根据Gartner定义,战略性技术趋势即在未来三年内可能对企业组织带来重大影响的技术。构成...

3456
来自专栏人称T客

SalesForce白皮书:SaaS 初创公司成功的 7 个秘密

T客汇官网:tikehui.com 编译|徐婧欣 ? SalesForce的这篇白皮书分析了SaaS创业公司的挑战,并为各种业务领域提供了相关指导。一些来自于...

2625
来自专栏人称T客

原生云可期?报告显示将近五分之一的应用将“原生”于云端

撰文 | 飞逸 用户正在逐渐接受原生云模式,但是一些问题尤其是涉及到网络安全和信息保护还是实现跨越的障碍。 原生云软件的出现 到目前为止,实施云策略的目的是将...

35510
来自专栏灯塔大数据

大数据分析然并卵?那是因为你没做到这些

有人认为大数据只是一个空洞的商业术语,大有概念炒作的嫌疑。事实上,大数据只是对于不同的人有不同的含义。众所周知,大数据已经不简简单单是数据大的事实了,而最重要的...

2786
来自专栏云计算D1net

边缘计算和物联网的发展将会齐头并进

如今,新兴技术的发展齐头并进这并不常见,但人们偶尔会发现一些相互依赖的技术共同发展。例如操作系统和CPU之间的关系是完全相互依赖的,因为它们都需要对方的支持。另...

3345
来自专栏智能算法

技术人,为什么需要构建知识图谱?

作者简介:安晓辉,10多年开发经验,曾任软件开发工程师、项目经理、研发经理、技术总监等岗位,著有《Qt Quick核心编程》、《Qt on Android核心编...

49114
来自专栏华章科技

大数据分析然并卵?那是因为你没做到这些

看到这篇文章,感觉对数据分析一些点总结蛮好的,分享给大家。数据分析要产生真正的价值,或者说要让业务方,管理层感觉到真正的价值,其实需要非常多的东西:

431
来自专栏IT大咖说

微信小程序会是web前端人才的春天吗?

摘要 微信小程序于2017年1月9日凌晨正式上线,它是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,也体现了“用完即走”的理念。微信小程序的...

3775

扫码关注云+社区