编者按: 每年仲夏之际,全球两大数据平台巨头 Snowflake、Databricks 均会召开各自的年度大会,成为数据圈的“超级碗”。随着竞争的加剧,Snowflake、Databricks 把 2023 年度重磅市场大会放在相同日期(6.26-6.29),充满着火药味。大会召开在即,云器科技作为专注数据领域的创业公司,策划一系列文章,从主题演讲、重点发布、客户案例等方面对比和解读这两个年度大会。本文是第一篇,对两个大会做前瞻对比,并预测最值得听的场。
是时候将数据分析迁移到云端了。我们比较了 Databricks 和 Snowflake,以评估基于数据湖和基于数据仓库的解决方案之间的差异。 在这篇文章中,我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。我们通过比较多种云环境中可用的两种流行技术来做到这一点:Databricks 和 Snowflake。 正如我们在上一篇文章中了解到的,数据分析平台可以分为多个阶段。上面,我们可以看到一张图片,大致了解了管道中 Snowflake 和 Databricks 的角色。在这里,我们可以将工具分
编译 | 核子可乐、Tina Databricks 与 Snowflake 之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。 短短半个月,大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。 11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。 在博客中,Databricks 声称这是一
最近一段时间,有拿了Databricks或者Snowflake的offer,或者两者皆有的人,加我微信,然后问我问题的人数已经很多很多了。 我被重复的问同样的问题两位数次,也答的不厌其烦。所以我就写篇文章在这里。以后有拿了这两家公司的offer,然后想加我微信问问题的,先看这里。 第一个问题:Databricks/Snowflake的估值是不是偏高/偏低? 这个问题我没办法回答。估值是一个很个人的问题。有人觉得高,有人觉得低。 客观说几句,Snowflake是上市公司,有好几个季度的财报,所以判断起来,信息
作为 DeNexus 安全服务提供商,需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案,满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。
新粉请关注我的公众号 Delta Lake 2.0 正式发布了。网易的大数据产品也没闲着,这就搞了点事情:从Delta 2.0开始聊聊我们需要怎样的数据湖。 这篇文章的内容很多,大家有需要的可以自己读读,肯定有收获。我就不展开一一分析了。 今天的重点是看看这篇文章网易是如何打脸Databricks的。 这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快,Iceberg Hudi都是渣渣。 这个测试是第三方
新粉请关注我的公众号 在最近费城召开的SIGMOD2022上,Databricks当仁不让成为了赢家,一共拿到了两项大奖: 1.Spark拿到了SIGMOD System Award 2.Photon拿到了Best Industry Paper Award SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多,但是大部分人还是觉得ICDE差一点。 2020年以前我每年会尽量争取去其中一个会议,以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了,很
新粉请关注我的公众号 在一年一度的Snowflake Summit上,Snowflake宣布它们发布最新的UniStore,正式进军HTAP市场。 UniStore是Snowflake的一个新的存储引擎,不是Column Store 是个Row Store,它保证了Snowflake对一个row的访问会很快,并支持事务处理。 在UniStore上创建一种新的类型的表叫做HybridTable。这种表可以支持事务处理,用户可以在上面执行OLTP的操作。同时这种表也支持OLAP的操作。因此,这就成了HTAP,同
我们知道,对于应用程序的访问而言,身份归因是比较容易的,通常由单点登录(SSO)即可解决;那对于数据的访问,身份归因为何就如此困难呢?
2021年有两条主线,一个是生态系统和商业模式的成熟,比如早在2020年就上市的云数据仓库公司 Snowflake 公司站稳了在资本市场的脚跟、Databricks、Dataiku、Datarobot 等公司估值更高了并且募集了大量的资金,甚至正在追求 IPO;另一方面则是新一代的数据和机器学习创业公司正在崛起,无论是几年前还是几个月前成立的公司都在过去一年左右经历了突飞猛进的增长。
一年一度的 Databricks Data+AI 峰会于上周在旧金山 Moscone 会议中心热闹开展。作为全美乃至全球最大的科技会议之一,Data+AI 峰会自然吸引了大量数据与人工智能领域工作者的目光。而以往年不同的是,今年的峰会在举办之前便火药味十足。在今年早些时候,Databricks 与 Snowflake 这两家最大的云数据平台厂商便先后宣布将在同一时间,也就是六月最后一周,举行各自的年度会议。这意味着,广大科技工作者们只能在这两家公司的活动中做出二选一的艰难抉择。而在峰会期间,Databricks 更是大规模投放广告,直接叫板 Snowflake,高调宣称自家的数据湖仓相比于 Snowflake 拥有 9 倍性价比提升。
作者 | Matt Bornstein, Jennifer Li, Martin Casado 译者 | Sambodhi 策划 | Tina 自从我们在 2020 年底发布了一套参考架构以来,数据基础设施行业的增长势头有增无减。在过去的一年里,几乎所有的关键行业指标都创下了历史新高,新的产品类别出现的速度超过了大多数数据团队可以合理跟踪的速度。甚至连基准战争和广告牌之争也卷土重来。 为了帮助数据团队紧跟行业内发生的变化,我们在这篇文章中发布了一套最新的数据基础设施。它们展示了当前分析和运营系统的
最近大数据领域最值得关注的,不是技术上有什么突飞猛进的进展,而是人才的流动问题。 以前是大数据发源地的各大互联网企业,包括三驾马车提出者的谷歌,都面临了新一波的大数据人才逃离。 根据我朋友圈和LinkedIn的数据,在这次的大数据人才逃离中,谷歌尤其的惨淡。 谷歌下面的几个大数据团队,比如著名的BigQuery,还有F1,都大量流失大数据人才。 这些人去的地方也非常有意思,小部分去创业了,大部分去了两家当红的大数据公司:Snowflake和Databricks。 有关这两家公司我之前写过很多分析文章了,尤
之前我写了文章简单的讲了一下最近非常热闹的由Databricks发起的和Snowflake的撕逼文章们:
最近体验了一下dbt这个产品,该产品在2022年2月份以42亿美元的估值筹集了2.22亿美元的D轮融资,Snowflake Inc.、Databricks Inc.、Alphabet Inc. 的GV基金和Salesforce.com Inc.的风险投资部门都参与了这一轮融资。想研究一下该产品的用户体验,使用,以及操作流程,有哪些功能。
新粉请关注我的公众号 昨天写了一篇文章Apache Kyuubi:一个有趣的大数据开源项目,介绍了网易开源的Apache Kyuubi,是如何把Spark变成为一个数仓的。 有一些人联系我,有问我是不是不知道有个产品叫Databricks SQL的,也有问我Databricks SQL和这个比起来怎么样。 有这么多问题,我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。 首先,大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专
Azure Synapse Analytics 是一项针对大型公司的无限信息分析服务,它被呈现为 Azure SQL 数据仓库 (SQL DW) 的演变,将业务数据存储和宏或大数据分析结合在一起。 在处理、管理和提供数据以满足即时商业智能和数据预测需求时,Synapse 为所有工作负载提供单一服务。后者通过与 Power BI 和 Azure 机器学习的集成而成为可能,因为 Synapse 能够使用 ONNX 格式集成数学机器学习模型。它提供了处理和查询大量信息的自由度.作为微软在西班牙为数不多的 Pow
2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。
从数据库到数据仓库,最后到数据湖[1],随着数据量和数据源的增加,数据格局正在迅速变化。数据湖市场预计增长近 30%[2],将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看,数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0,该趋势可能会增长,该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能,使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析,将会推动该领域创新。
十年前,Hadoop 是解决大规模数据分析的“白热化”方法,如今却被企业加速抛弃。曾经顶级的 Hadoop 供应商都在为生存而战,Cloudera 于本月完成了私有化过程,黯然退市。MapR 被 HPE 收购,成为 HPE Ezmeral 平台的一部分,该平台尚未在调查中显示所占据的市场份额。
TiDB Cloud 是为开源分布式数据库 TiDB 打造的全托管 DBaaS (Database-as-a-Service) 服务。
2021年,我们看到围绕现代数据栈的兴起出现了相当大的加速效应。我们现在有一个海啸般的通讯、影响者、投资者、专门的网站、会议和活动来宣扬它。围绕现代数据栈的概念(尽管仍处于早期阶段)与云中数据工具的爆炸性增长紧密相连。云计算带来了一种新的基础设施模式,它将帮助我们快速地、程序化地、按需地建立这些数据栈,使用像Kubernetes这样的云原生技术、像Terraform这样的基础设施即代码以及DevOps的云计算最佳实践。因此,基础设施成为构建和实施现代数据栈的一个关键因素。 当我们已经进入2022年,我们可以
数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦~三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布、公司大事件、行业新闻等。 本期内容概览: 金融业国产数据库中标量大幅增长,openGauss生态中云和恩墨份额领先; TikTok的美国用户数据或将由甲骨文存储,字节跳动无权访问; Databricks CEO表示华尔街动荡不会影响IPO计划,Databricks或将于今年上市; 阿里云开源PolarDB总体架构和企业级特性首次公开; 中国信通院
如果无法进行测量,那就无法进行管理。正如软件工程师需要全面了解应用程序和基础架构的性能情况一样,数据工程师需要全面了解数据系统的性能情况。换句话说,数据工程师需要数据可观测性。
就在本周一,大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资,对公司的估值为280亿美元。作为同类公司,之前Snowflake的IPO就引发资本的热捧,此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注?正如之前我的一篇《当红炸子鸡Snowflake》中谈到,“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。
SAML是Salesforce提供的类XML语言,可以用于从企业入口网站或身份提供商单点登录到Salesforce。通过SAML,不同的服务之间可以进行用户信息的转移,例如从 Salesforce 到 Microsoft 365。
深度学习诞生 10 年,LLM (大语言模型技术)终于带来 AI 平民化。ChatGPT 爆火后,AIGC 浪潮席卷全球。AI 作画、AI 写歌、AI 生成视频…… 全球大厂纷纷推出 AIGC 应用,让 AI 变得“触手可及”。从技术角度看,基于海量数据构建的大模型能够进行相对独立的推理和判断,让企业看到了 AI 与 Data 的技术融合已经成为当下重要的发展趋势之一。
作者 | Einat Orr 译者 | 平川 策划 | Tina 虽然该领域的公司数量在不断增加,但可以看到,其中有几个类别的产品出现了整合迹象。MLOps 趋向于端到端,Notebook 正在进入编排领域,而编排正在转向数据谱系和可观察性。与此同时,我们看到,开放式表格式进入了元存储功能。而在治理层,安全和权限管理工具进入目录领域,反之亦然。 本文最初发布于 lakeFS 官方博客。 自我们分享“2021 年数据工程现状”已经过了一年。从去年 5 月我们发布那篇文章以来,数据领域并没有多少变
你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求?数据湖包括哪些组件和功能?
数据库行业正走向分水岭。 过去几年,全球数据库行业发展迅猛。2020年,Gartner首次把数据库领域的魔力象限重新定义为Cloud DBMS,把云数据库作为唯一的评价方向;2021年,Gartner魔力象限又发生了两个关键的变化: 1、Snowflake和Databricks两个云端数据仓库进入领导者象限; 2、放开了魔力象限的收入门槛限制,SingleStore、Exasol、MariaDB、Couchbase等数据库新势力首次进入榜单。 某种程度上,这种变化的背后,暗示着全球数据库已经进入发展的黄金时
作者 | Sanket Gupta 译者 | 王强 策划 | 刘燕 本文最初发布于 Medium 网站,经原作者授权由 InfoQ 中文站翻译并分享。 当你的数据集变得越来越大,迁移到 Spark 可以提高速度并节约时间。 多数数据科学工作流程都是从 Pandas 开始的。 Pandas 是一个很棒的库,你可以用它做各种变换,可以处理各种类型的数据,例如 CSV 或 JSON 等。我喜欢 Pandas — 我还为它做了一个名为“为什么 Pandas 是新时代的 Excel”的播客。 我仍然认为 Pandas
编译 | 核子可乐、Tina 全球首个完全开源的大语言模型,性能堪比 GPT3.5! 大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。现在我们进入了生成式人工智能时代,那么会不会有新的“人工智能和大数据”结合方式? 最近,大数据公司 Databricks 就在生成式人工智能领域采取了行动。两周前,该公司发布了一个名为 Dolly 的开源大型语言模型,旨在应对市场对于生成式 AI 及相关应用的旺盛需求,我们可以称之为 Dolly 1.0
来源:https://guiguzaozhidao.fireside.fm/s6e06
新粉请关注我的公众号 我收到了一封邮件,具体内容截图如下: 简单说,就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布,也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。 首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变,它都会生成Change Data Feed。你要是订阅了这个东西,比如说把它放进一个Kafka集群里面,理论上就可以准实施复制出一份数据来。 这个东西有点像什么呢
SNP Glue是SNP的集成技术,适用于任何云平台。它最初是围绕SAP和Hadoop构建的,现在已经发展为一个集成平台,虽然它仍然非常专注SAP,但可以将几乎任何数据源与任何数据目标集成。
本文最初发表于 OtterTune 网站,经原作者 Andy Pavlo 授权,InfoQ 中文站翻译并分享。
数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦~三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布、公司大事件、行业新闻等。 本期内容概览: MariaDB将借壳上市,估值已达6.72亿美元; SphereEx-Console 可视化数据管控平台正式发布; Elastic 8.0 正式发布; 数仓“香馍馍” Snowflake 受青睐,DataOps.live 获1030万美元融资; 前融云 CTO 杨攀加入涛思数据,任战略合作 & 开发者生态副
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或缺的基础设施。然而,在这个时刻,我们不禁要问:当前的大数据架构是否已经趋于完美?2023 年,伴随着人工智能的跃变式爆发,数据平台将如何演进,以适应未来的数据使用场景?
新粉请关注我的公众号 今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢?简单来说,这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine,比如ClickHouse的能力。 要具体来说呢,就是在Spark查询Plan生成的时候,Gluten把一些Spark的查询计划拦截下来,让下面的native 引擎比如ClickHouse去执行。 当然,由于native引擎的问题,有些东西干不了,Gluten对干不了的operator重
IdentityServer4是ASP.NET Core的一个包含OpenID和OAuth 2.0协议的框架。OpenID和OAuth 的区别请看 https://www.zhihu.com/question/19628327 它使你的应用程序具有如下特点: 作为服务的身份验证 集中控制你的所有应用( (web, native, mobile, services))的登录逻辑和工作流。 单点登录/登出 在多种类型的应用程序上单点登录/登出 API访问控制 为各种类型的客户机发放API访问令牌,例
Databricks是大数据领域的元老公司,我印象中在14/15年那段时间是和Cloudera、Hortonworks齐名的,而18年那两家已经走下坡路合并了,但Databricks反而这几年越来越好,和Snowflake成为双子星。我司也用Spark(或者说它是批计算的业界标准),并且基于它们提出的Lakehouse湖仓一体架构。很有幸能听到它的华人联合创始人辛湜的分享。
笔者在 2021 年底,曾应科技媒体 InfoQ 的邀请,总结了 2021 年的数据平台架构(详见:解读数据架构的 2021:大数据 1.0 体系基本建成,但头上仍有几朵乌云),提出了的 2021 年的 5 个热点、4 个趋势和 3 个挑战。在过去的两年,数据架构领域发生了很多重大变化(很多是拐点级变化),例如大模型技术突破、向量检索成为热点、半 / 非结构化类 Dark Data 开始被关注等等。作为数据平台从业者,笔者经常被问到“下一代数据平台发展趋势?”或者“AI 平台和数据平台是否应该一体”等问题。
作者 | Tyler Charboneau 译者 | Sambodhi 策划 | 闫园园 在当今的软件工程领域,微服务架构占主导地位。虽然这种基础设施方法有很多优点,但它已经形成了一个非常复杂的管理网络。IBM 确认了这一点,共享该应用程序包含“数十个、数百甚至数千个不同的、可独立部署和可更新的服务”。除保持服务可靠性外,管理员还必须有效地管理数百个甚至数千个用户的权限。 这就是说,在用户访问特定服务之前,后端必须对其进行身份验证和授权。关键是,用户实际上是以自己的身份登录的,并且在此之后拥有执行特定操作所
商业和消费者正在产生TB乃至PB级数据,大量公司也加大了研发,致力于收集、存储、管理、分析数据。美国IT网站CRN评出了2014年大数据领域格外瞩目的十家新兴大数据创业公司,不妨一看。 近年来,很少有
作为全球最具权威的IT研究与顾问咨询公司,Gartner报告非常值得从业者研究学习。从中我们可以了解到更多行业、产品、技术发展趋势。近日,数据库领域的重磅报告《Magic Quadrant for Cloud Database Management Systems》悄然出炉。作为数据库领域的重要组成部分,云数据库近些年来发展迅速。2020年,Gartner将魔力象限从Operational Database更名为Cloud Database。从2020年的数据来看,云数据库已占据整体数据库市场份额的40%,且贡献了增长市场的9成以上份额。据Gartner预测,到2022年云数据库营收数据将占据数据库整体市场的半数以上。可以说,云数据库代表着数据库行业的未来。本文将尝试从多角度加以分析,窥视云数据库2021发展变化。文中仅代表个人观点,如有偏颇,欢迎指正。
snowflake 成为年度数据库 根据 DB-engine 统计的流行度,2021 年 snowflake 成为年度数据库。年度数据库的标准很简单,就是新增流行度最多的数据库,DB-Engine 对 2021 年度数据库解读是: Snowflake is the database management system that gained more popularity in our DB-Engines 1Ranking within the last year than any of the oth
Eureka(Netflix),Consul,Nacos,Etcd,Zookeeper
数据 3 分钟 由 ACDU (中国 DBA 联盟) 与墨天轮联合出品的全新视频节目上线啦~三分钟带你来了解数据行业动态,节目内容主要包含数据行业最新的产品发布、公司大事件、行业新闻等。 本期内容概览: GitHub开放全世界最大安全咨询数据库; 国内首款金融数据库性能测试工具DataBench-T正式开源; 甲骨文史上最大收购——283亿美元收购Cerner; 时序数据库Timescale完成1.1亿元C轮融资; 国内超融合时序数据库MatrixDB 4.4正式发布。 往期回顾: 20220218期:M
整理|燕珊 被曝裁员、欠薪、停缴社保后,开课吧创始人发表内部信回应;腾讯 QQ 回应大规模账号被盗:A 股或迎“国产数据库第一股”;受影响范围已得到控制,正收集黑产团伙犯罪证据;Meta 今年工程师招聘指标缩减超 3000 人;三星宣布量产 3 纳米制程芯片;索尼中国董事长高桥洋退休,御供俊元接任;特斯拉自动驾驶部门裁员约 200 人;Meta 今年工程师招聘指标缩减超 3000 人;三星宣布量产 3 纳米制程芯片;索尼中国董事长高桥洋退休,御供俊元接任;Databricks 宣布将 Delta Lak
这个对接也就是自己的spring Session体系的系统作为一个cas client主体,然后再去对接CAS
领取专属 10元无门槛券
手把手带您无忧上云