首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

论“细腰”的重要性

去年夏天,"A4"腰一夜爆红,各路妹子纷纷亮出她们的 A4 腰。可想而知,"细腰"对于妹纸来说,是多么至关重要。

大概在各个领域都有这样一种所谓的"细腰"审美。今天我们就做一个审美迁移,聊聊数据领域的"细腰"。

在做数据工程和数据科学类的产品时,这样的细腰设计解决了大多数计算逻辑清晰的产品底层技术实施。下面从2个方面来说明下SQL在成为数据工程与数据科学领域"细腰"的重要性。

1

SQL--数据技术栈中的"细腰"

在计算机网路中,有个关于“细腰”的概念,说的是从底层硬件到顶层软件的技术栈中,中间存在各种各样异构的底层网路硬件与顶层软件。

需要一种可以承上启下,以不变应万变的东西来屏蔽掉复杂的网络请求,提供一套统一的协议来确保网络之间可以相互连接与通信。

在如下协议栈中,IP层起到了通用语言的作用,上层协议“一切基于IP”,下层协议“IP兼顾一切”。

从 2013 年国内的大数据元年开始,大数据相关领域爆发式增长,围绕 Hadoop 生态圈的产品越来越多,如分布式存储层(HDFS)、分布式数据库(HBase, Mongodb, Cassandra等)、计算层中的MapReduce、Spark、Flink、消息总线(如 Kafka)、数据应用(如报表)、交互式分析即席查询、数据挖掘、可视化工具等等。

在这样一个各层级有多种技术选型的复杂技术栈中,SQL 已经成为一种公共语言,相当于数据行业的默认的标准协议,各个层次各个组件都尽力实现一套近乎支持标准 SQL 语义的 sql layer 层作为对外交互方式。在数据技术栈中,SQL 起到了通用语言的作用,上层“一切基于 SQL”,下层" SQL 兼顾一切"。

在数据产品的设计中,无论是数据工程还是数据科学,无论 UI 做的多灵活自然,你都不可避免的向 SQL 靠近。

2

y = SQL(x)--逻辑描述

此处的 SQL 和数据库无关,视为逻辑描述。

我们知道在进行描述客观世界的时候,需要抽象为数学函数作为描述语言。也就是说我们会尽可能把我们研究的领域抽象为一个函数表达 y = f(x)。

首先我们来说一下数据是什么?数据是客观世界的抽象描述,是客观世界的快照。对于一个企业来说,数据就是业务流转的快照。数据之上的计算,自然是对业务进行分析。那如何对数据进行计算就显得十分重要。

在做数据产品的时候,往往有这样的信息描述与已知条件:x 是数据,y 是数据,f 是函数,是计算表达。对计算大体可以分为两类:

f 已知,可以理解为人、产品、运营、分析师等知道如何清晰的表达业务计算规则,在这样边界清晰的情况下,f 可以由抽象具体化为 sql。如果 sql 搞不定那就 sql + udf + udaf,在此我们统称 sql。此时 sql 等价于逻辑规则。

f 未知,即数据已知而函数关系未知,这个时候又分为 f 参数未知或 f 形式未知两种情况。此处,暂且不做考虑。这类情况产品可以对应 google autoML。

面对第一类情况,用户对产品设计,对底层技术实践,我们只需要考虑如何设计一个关于 sql 的 engine,对外提供 sql 语义的逻辑表达,底层做适配不同的组件,可以是支持 sql 的,也可以不支持;可以是计算引擎、存储或者其他任何资源等。这个 engine 既可以解决批处理问题、流式计算问题,也可以作为 etl、olap、bi,交互式分析的 engine。sql 既提供算子,也可以表达关系,如数据间的 DAG 的关系。

想明白这个抽象之后,整个产品的技术体系的沟通和设计都会变得很简单。其实在数据技术栈中,任何一个领域,如存储、计算、消息总线、交互式查询、应用等,都会发现这样的表达:y = sql(x)。

数据平台其实是个很大的概念,按照毕马威的说法,企业的数据平台等价于信息平台。涉及数据的整合(数据清洗加工等)、数据治理(数据标准等)、数据应用(数据报表、交互式分析、数据挖掘、机器学习等)、数据工程,还包括数据科学。

我们在构建一个数据平台的时候,应该借鉴前人的经验,少走弯路,需要一套指导手册起到这样的"细腰"的作用,比如关于数据工程与数据科学的大作《数据即未来》, 一定程度上提供了道、术、器可被我们借鉴。

你的领域中,"细腰"是什么呢?

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710A0H3LZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券