前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Spark 高难度对话 SQL Server

Spark 高难度对话 SQL Server

作者头像
Lenis
发布2019-12-25 11:54:44
4650
发布2019-12-25 11:54:44
举报
文章被收录于专栏:有关SQL有关SQL

在我们欢天喜地迎接超级长假的时候,地球的另半面拉斯维加斯正在进行着一场超级火爆的 GIIS (Global Information Industry Summit)峰会。看名头,这是一场信息领域的全球峰会,峰会的少不了 DB-Engines 公布的前 300 名 SQL 以及 NoSQL ,耳熟能详的有 Oracle, SQL Server, MySQL, PostgreSQL, DB2, Redis 等等。而近来大红大紫的 big data 领军人物,Hadoop, Spark, Hive, Flink 等也是悉数到场。

自费参加峰会的 L, 也是兴致勃勃,一改往日长假必远游的定律,来到拉斯维加斯。

奇怪的现场布置也是让 L 匪夷所思,巴洛克式的拉斯维加斯参会厅,足以容纳 20000 多家站台,今天却一切为二。

挂着红布的半边,是 Oracle, SQL Server 等商业巨头的阵营,各位负责人正装凛然,狗牌挂的一个比一个大,鼻子敲得一个高过一个。从他们飞扬的涂抹中,已然数据库的天下从来都是老子说了算。L 想靠近仔细看看各家的杀手锏,却被黑鬼保安拦了下来,一个大摆开的指着 Summit Introduction (入门须知)牌子,L 拿下他那因为长期熬夜写 SQL 而高度近视达 1200 度 的镜片,俨然还能看清须知上红色标红的参会价格 $1100. 虽然对 SQL 几乎痴迷,但这几近半个月薪水的价格,还是让他垂下了高扬的头。

举兴而来,败兴而归。

L 转了身,无奈的走向了另一边。这一边,满盘皆绿,绿色的欢迎布,绿色的小旗子,全是 NoSQL 大佬。仔细瞅了瞅,门口的指示牌,标了 Free 四个字母!“这便宜赚大了”,L 一个箭步冲了进去。

Cloudera, Hortonworks 两位占据了大门两侧。瞧那几位绿色妹子,肤白腿直,烟熏妆一个比一个妖娆,L 不禁想起来去年泰国之旅,尤其在芭东过的那一夜,永世难忘。

不知不觉 L 遛过了只有在书中才见过的 Hive, Spark, Flink,Kylin, Redis, 还有正在研究的 Elastic, MongoDB , 和一堆尚未听说过的 Splunk, HAHA, Vertica, RocksDB.

虽然见不到熟知的 SQL Server 和 Oracle 大佬,但 big data 界的大佬都是见了个遍,也算没白花这个机票钱。L 逛得也累了,出来场子透透气,看到旁边的 Starbucks,顿时来了劲,早想尝一口美国正宗的星爸爸了,可不能错过。

刚嘬了两口的 L 再次来到绿色阵营门口,正好碰上 Spark 和 SQL Server 也出来透气,两人夹着烟,正你一句我一句的攀谈起来。

SQL Server: 小 S, 听说你最近动作很大啊。

Spark : 大 S, 哪有的事嘛。不过吃口饭而已。

说完,两人都失口大笑,L 看他们,觉得比兄弟还亲。

SQL Server: 兄弟, 我们的很多老顾客说,你们很快。你说说,你们到底快在哪里了嘛?

Spark: 快是男人的必备技能,好吧。

SQL Server: 说正经的呢!

Spark: 你看看你们,都老了呢。不中用了吧。

SQL Server: 去,走了,聊不下去了。

Spark: 别嘛。 来支笔,我给你画一下。

L 看着 Spark 在白墙上,慢慢画出了这幅草图:

image

SQL Server: 这也不能说明什么问题吧

Spark: 你仔细看。 你家的分布式,顶多 8 台机,连着 Master 一起算,顶多9 台。那么这 9 台能否同一时间处理同一个数据集呢? 肯定是不行的,对吧。因为这些 机器之间的数据总是存在一定的延时窗口,同步的机器只能有 3 台,假定是 s1 状态,而另外几台机器都是存着 s0 的状态。 而我们家的集群就不一样了,要几台有几台,分分钟上线 1000 台也是小事。如果将 10T同一状态 s1 的数据均分到这些集群的机器上,并且都存在内存中做计算,你想快,这还是事儿嘛?

SQL Server: 难怪我们的部分客户都开始动摇了

Spark: 再想一想,你们那 sql server 一核心 $15000, 人家 10 核心就被成本整死了,搭上 windows server 一核心 $6000, 贸易战啦,大家的钱都不好赚啊

SQL Server: 那你们的数据源来自哪里呢?把这些数据源均分到每台机器也不好算啊

Spark: 数据源都来自你们的库里啊。我们有 JDBC, 均分那是细节问题,配置一下分区就可以了。老兄 , 我再给你画一张图,保你明白。

image

有图有代码,整个流程都明白了吧。就是这么简单,将你们的数据先定义好,分成多个线程来抽。只是怕线程开多了,把你们给堵死,哈哈。

SQL Server : 看上去好像很简单的样子嘛。来给我讲讲细节呗,比如你们是用什么接口语言来抓我们库里的数据啊,你们的 Master 是怎么调度那么多的 Job 呢?

Spark: 看家本领都 show 给你了,也不给我买杯星爸爸,不讲 。

SQL Server: 淘气!

Spark 头也不回,走掉了。。。留下 SQL Server 还在看着那两幅图,突然他想到了什么,掐掉烟赶紧跑回去了。

L 来到白墙前,打开 Mac, 在有道云笔记本上,开始写道:

在我们欢天喜地迎接超级长假的时候,地球的另半面拉斯维加斯正在进行着一场超级火爆的 GIIS (Global Information Industry Summit)峰会。。。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-10-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有关SQL 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云数据库 SQL Server
腾讯云数据库 SQL Server (TencentDB for SQL Server)是业界最常用的商用数据库之一,对基于 Windows 架构的应用程序具有完美的支持。TencentDB for SQL Server 拥有微软正版授权,可持续为用户提供最新的功能,避免未授权使用软件的风险。具有即开即用、稳定可靠、安全运行、弹性扩缩等特点。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档