大数据“星图”绘制未半

今天,全球范围内的数据量呈现出井喷式的增长,大数据技术在很多企业的业务场景中都有非常普遍的应用,也因此涌现出了很多的开源技术和工具。如此繁荣的业态容易给人造成一种整个大数据行业已经完全成熟的错觉,其实不然,墨冶老师认为从数据量和数据类型上看,大数据还处于上半场。这片星空的星图有待进一步完善。

“目前仅IOT的数据量全社会就有1.1万亿T,但大量的半结构和非结构化数据还未采集,随着传感器价格越来越便宜,物联网的普及,5G的全面商用,数据应当会暴增。”

除了数据井喷现象仍将持续进行且愈演愈烈外,墨冶老师认为,实时计算框架、数据仓库等技术也将不断进化,未来几年我们可能会看到以下三个重大变化:

1、半结构化\非结构的数据湖会逐步成熟。在Google Trends上,Data Lake热度已经超过Data Warehouse。支撑数据湖的几个开源框架的社区也比较活跃,如Apache Atlas已经发布1.0.0版。佛罗斯特研究公司甚至认为数据湖最终会进化成Data Fabric,未来各种数据源会更加自动化、智能化、安全的采集到一个平台,在统一平台里提供可信的、360°视角的客户和商业数据。

2、流和批处理技术统一开发模式。Spark和Flink等实时计算框架,不仅上层的功能相互借鉴,从最近来看,架构设计上也相互参考,比如micro batch模式的Spark,规模提升后性能会存在一定问题,所以当前Spark也在开发类似Flink的Continuous Processing Mode。

3、ETL会更方便。目前仅仅用SQL和UDF仍存在不少限制,如缺少关键的继承、不支持递归等,随着一些云厂商推出可视化数据清洗工具,以及处理语音、图像、视频的数据湖逐步完善,以后ETL更加可视化,很多甚至可以通过拖拽完成。

在这样一个技术发展背景下,开源社区的力量是不容忽视的。墨冶老师认为,好的开源项目最好有一家对应的商业化公司,开发相应解决方案,完善外围功能,帮助开源项目实现商业化,这样对项目本身的发展会更加良性。同时,墨冶老师特别提到了上层功能标准化的重要性,特别是对于很多新技术,行业标准化会减少很多不必要的麻烦与成本。

从编程语言的发展史来看,工具和平台最终都会朝着降低大家理解世界的成本的方向发展,数据和智能应用的开发会越来越方便,门槛会越来越低,解放出更多的人从商业和业务角度思考问题。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180911A0SDUJ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券