前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >系统日报-20220421(Databricks 缘何成功?)

系统日报-20220421(Databricks 缘何成功?)

作者头像
木鸟杂记
发布2022-05-18 14:11:14
4800
发布2022-05-18 14:11:14
举报
文章被收录于专栏:木鸟杂记木鸟杂记

《系统日报》持续关注分布式系统、AI System,数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。 如果你有好文章推荐,或者有其他任何想法,欢迎在 Articles Weekly Repo[1]提 issue。

Spark 背后的公司 Databricks 的前世今生

来源:https://guiguzaozhidao.fireside.fm/s6e06

摘要:早高峰的地铁上在朋友圈看到播客“What's Next | 科技早知道[2]” 客座主播 Howie 对 Databricks 华人联合创始人辛湜(Reynold Xin[3])的采访,到公司了仍然没有听完,但收获良多,感兴趣的同学可以听一下。

Spark 作为一个成功的开源项目,在很多公司都早有落地;但是其背后的商业公司 Databricks,在近些年才被越来越多的提起。尤其是其友商“Snowflake” 以天价估值上市后,Databricks 作为对标更加炙手可热。为什么一个做开源基础软件的商业公司能够如此成功?他们做对了什么,又对中国当下类似定位的公司有什么启发?主播人虽然普通话口音有点奇怪,但是问的问题都非常有深度和引导性,让本次播客呈现了一场高质量的对话探讨。

下面凭记忆摘录一些:

Databricks 成立契机?

UC Berkeley 实验室同学参加 Netflix Challenge,为了实现多机处理数据造了一个数据处理框架。虽然由于晚交了 20min 没有拿到 100w 大奖,但是却孵化出了 Spark。辛湜是 2010 年到的 Berkeley 开始参与这个项目。

Databricks 如此成功是因为做对了什么?

从开始就坚持三个原则:All in Cloud、不做数据仓库、不做定制化和 Support。

All in Cloud 和不做定制化和 Support:使得基础软件能够规模化,最大化公司人员的单位产出。感觉有点像用 ToC 的方式去做 ToB 的产品,但也唯有如此,才能发挥软件架构价值,撑起想象力。

不做数据仓库:有其他一些大厂、云厂商本身也有平台优势,避开太卷的赛道。

为什么在公司诞生之初就能 ALL in Cloud?

是因为投资人吗?并不,大部分还是因为创始团队的 Berkeley 背景,有很强的 foresee 视野,对云时代的到来很坚定,还在 09 年发表过专门论文:Above the Clouds: A Berkeley View of Cloud Computing[4],有上万篇引用,并且火到出圈。

在发展过程中对上述信条有没有过怀疑?

有过,还算比较幸运,因为都知道云是未来,但不知道这个未来是多久后来。比如 Cloudera 在 08-09 年成立时,从名字就可以看出想开启云时代,但生不逢时,后来还是改变了策略。

也有过很多其他道路的诱惑,比如有个 1000w 美元的大单子,只要求提供 support 。而刚开始时,Databricks 产品的营收甚至不如做 Spark 峰会的卖票钱。

刚开始,新入职的员工和融资时,All in Cloud 都会受到挑战,但是到 2018~2019 年左右就开始形成了共识,没人挑战了。

相对云厂商自身产品有什么优势?

云厂商有很多业务分散精力,小公司能够更专注,对 Spark 技术积累更多、所面临的场景理解更深。

Databricks 有没有业务暴增的转折点?

没有严格意义上的大客户的转折点,但有和 Azure 的合作值得一说。

15 年的时候 Amazon host Spark 已经有几个亿的营收了。Databricks 在 17 年和 Azure 的合作,做了叫做 Azure Databricks 的一款产品,大卖,成为了 Azure 的标杆服务。Azure 与 Databricks 互相成就,共同做大。

为什么决定做湖仓一体?

计算自然延伸到存储,开始做数据湖(面向数据科学家、深度学习场景)。为了消除用户组织内部的数据壁垒,自然想能不能打通数据湖和数据仓库(面向 BI )?于是提出湖仓一体(Lakehouse)。

此外,辛湜还分享了通过“引荐”的招人制度,以及创业公司中一些问题。播客是个好媒介,可以利用碎片时间,一边听一边思考。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木鸟杂记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Spark 背后的公司 Databricks 的前世今生
    • Databricks 成立契机?
      • Databricks 如此成功是因为做对了什么?
        • 为什么在公司诞生之初就能 ALL in Cloud?
          • 在发展过程中对上述信条有没有过怀疑?
            • 相对云厂商自身产品有什么优势?
              • Databricks 有没有业务暴增的转折点?
                • 为什么决定做湖仓一体?
                相关产品与服务
                腾讯云 BI
                腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档