SQL还是那个SQL么?

前言

今天MLSQL群里有个小伙伴问到,能把Spark, Flink 这些框架运行在黑莓上么? 我回答道:可以作为一个内置SQL计算引擎嵌入(不是数据库),其他可能没啥用了。

不过这又引起了我的另外两个思考,第一个是,Spark真的能(或者有必要)跑在移动设备上么?第二个问题是,在传统Web/App开发领域,SQL只是数据库的一个操作语言(DSL),但是在大数据里,SQL已经远远超越了数据库操作语言的范畴,而是数据处理的标准语言,而在MLSQL中,SQL被发挥到极致,是一切数据处理的核心语言,无论爬虫,数据处理,流式,ML(AI)都是用SQL做交互的。 那么为什么在大数据领域SQL会有这种变革呢而在Web/App开发领域没有这种事情发生呢?

Spark真的能(或者有必要)跑在移动设备上么

首先,Spark经过改造完全可以跑在移动设备上的,其次是这也是有必要的。之前跟挖财的小伙伴交流,他们用改造过的Spark引擎可以把一些小数据量的复杂SQL计算缩小到几毫秒,那么如果将该引擎移植到Ios/Android/BlackBerry, 根据我前面提到的第二个思考,我们不再把SQL当做一个数据库操作语言,而是数据处理语言,我在移动设备上完全可以把数据处理全部换到spark引擎上,而且可以实现处理逻辑的热升级(手机端连接服务器,更新SQL脚本)就能更新数据处理逻辑。会不会功耗过高?几毫秒的CPU(GPU/AI芯片)而已。

对 Web/App小伙伴思维模式的冲击

我们知道以前在做Web的时候,分库分表的痛点是查询的时候很难受。而早期Spark无法被Web/App的小伙伴使用,因为他做不到毫秒级的计算延迟。但是有针对性的对Spark做优化(不再针对大数据,而是针对Web/App),得益于Spark的多数据源支持,以及高效的SQL计算引擎,分表分库查询不在是噩梦,我们可以轻易实现。事实上,tidb已经是这么做的了。这是以第一点。

第二点是,很多业务处理环节,是不是都能通过SQL来处理呢?不能说大部分,但是应该相当一部分是可以不用写代码了,而是通过SQL来完成的,那这也意味着,我们可以热更新的好处。所有数据处理无非如下三种模式:

image.png

而在MLSQL里,我们甚至对API也用SQL做了抽象:

image.png

最后的实现效果如下:

image.png

我们会用sql对传递进来的data的每条内容中的feature字段进行处理,得到的结果也会是一张表。

结论

  1. SQL可以在Web/App 领域进一步发扬光大,就像他在大数据里一样。
  2. Spark 团队可以考虑将Spark移植到Web/App领域。
  3. 期待挖财团队的新开源项目。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据和云计算技术

开源大数据平台资源隔离现状及演进思考

下面文字是来自天源迪科大数据专家一篇纯干货的实战思考。这种经验总结非常值得一看,真正的经验来自不停踩坑之后的灵光一现,然后茅塞顿开。 强烈推荐!!!也希望更多的...

55370
来自专栏大数据文摘

数据科学工具包(万余字介绍几百种工具,经典收藏版!)

293110
来自专栏猿天地

项目中如何设计通用的评论模块

转载:猿天地 链接:http://cxytiandi.com/blog/detail/2289 猿天地在做完博客功能后,就有小伙伴提出了文章下不能评论啊,怎...

48170
来自专栏华章科技

经典收藏丨数据科学家&大数据技术人员工具包

本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见工具等几百种,几十个大...

15020
来自专栏PPV课数据科学社区

干货 | 全球100款大数据工具汇总(收藏备用)

导读:你熟悉多少工具?今天我们将常用的100款工具推荐给您,若您有更多更好的工具欢迎留言! ? 1、 Talend Open Studio 是第一家针对的数据集...

399130
来自专栏大数据和云计算技术

kafka stream简要分析

kafka历史背景 Kafka是2010年Kafka是Linkedin于2010年12月份开源的消息系统,我接触的不算早,大概14年的时候,可以看看我们14年写...

41860
来自专栏杨建荣的学习笔记

推荐一款MySQL优化工具

之前韩锋老师写过一篇关于查看MySQL执行计划的文章,里面解释了一个脚本,是他早先定制的一个还不错的功能。 如何用一款小工具大大加速MySQL SQL语句...

49590
来自专栏Java帮帮-微信公众号-技术文章全总结

干货 | 全球100款大数据工具汇总(收藏备用)

是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,...

33030
来自专栏顶级程序员

全球100款大数据工具汇总

来源:网络 ? 1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载...

45960
来自专栏钱塘大数据

大数据技术人员必备工具包,为工作提质增效

本文作者:秦陇纪 ? 本文简介:数据科学家的常用工具与基本思路,数据分析师和数据科学家使用的工具综合概述,包括开源的技术平台相关工具、挖掘分析处理工具、其它常见...

43850

扫码关注云+社区

领取腾讯云代金券