我们用过很多数据仓库。当我们的客户问我们,对于他们成长中的公司来说,最好的数据仓库是什么时,我们会根据他们的具体需求来考虑答案。通常,他们需要几乎实时的数据,价格低廉,不需要维护数据仓库基础设施。在这种情况下,我们建议他们使用现代的数据仓库,如Redshift, BigQuery,或Snowflake。
最近随着Snowflake上市后市值的暴增(目前700亿美金左右),整个市场对原生云数仓都关注起来。近日,一家第三方叫GigaOM的公司对主流的几个云数仓进行了性能的对比,包括Actian Avalanche、Amazon Redshift、Microsoft Azure Synapse、Google BigQuery、Snowflake,基本涵盖了目前市场上主流的云数仓服务。
作者 | Steef-Jan Wiggers 译者 | 明知山 策划 | 丁晓昀 最近,谷歌宣布 Bigtable 联邦查询普遍可用,用户通过 BigQuery 可以更快地查询 Bigtable 中的数据。此外,查询无需移动或复制所有谷歌云区域中的数据,增加了联邦查询并发性限制,从而缩小了运营数据和分析数据之间长期存在的差距。 BigQuery 是谷歌云的无服务器、多云数据仓库,通过将不同来源的数据汇集在一起来简化数据分析。Cloud Bigtable 是谷歌云的全托管 NoSQL 数据库,主要用
作者 | Romit Mehta、Vaishali Walia 和 Bala Natarajan
顶级云计算数据仓库展示了近年来云计算数据仓库市场发展的特性,因为很多企业更多地采用云计算,并减少了自己的物理数据中心足迹。
以数据洞察力为导向的企业 每年增长 30% 以上。数据有助于公司排除决策错误。团队可以利用数据结果来决定构建哪些产品、增加哪些特性以及追求哪些增长。
作为全球最具权威的IT研究与顾问咨询公司,Gartner报告非常值得从业者研究学习。从中我们可以了解到更多行业、产品、技术发展趋势。近日,数据库领域的重磅报告《Magic Quadrant for Cloud Database Management Systems》悄然出炉。作为数据库领域的重要组成部分,云数据库近些年来发展迅速。2020年,Gartner将魔力象限从Operational Database更名为Cloud Database。从2020年的数据来看,云数据库已占据整体数据库市场份额的40%,且贡献了增长市场的9成以上份额。据Gartner预测,到2022年云数据库营收数据将占据数据库整体市场的半数以上。可以说,云数据库代表着数据库行业的未来。本文将尝试从多角度加以分析,窥视云数据库2021发展变化。文中仅代表个人观点,如有偏颇,欢迎指正。
在过去的几年里,数据工程领域的重要性突飞猛进,为加速创新和进步打开了大门——从今天开始,越来越多的人开始思考数据资源以及如何更好地利用它们。这一进步反过来又导致了数据技术的“第三次浪潮”。“第一次浪潮”包括 ETL、OLAP 和关系数据仓库,它们是商业智能 (BI) 生态系统的基石,无法应对大数据的4V[1]的指数增长。由于面向 BI 的栈的潜力有限,我们随后见证了“第二次浪潮”:由于 Hadoop 生态系统(允许公司横向扩展其数据平台)和 Apache Spark(为大规模高效的内存数据处理打开了大门)。
来源 :ToBeSaaS 作者:戴珂 ---- 几天前,圈里有朋友请我分析一下SaaS界的新贵Snowflake。 文章写完好几天了也没发布,因为看到铺天盖地关于Snowflake的文章。大都谈论它迅速造富的事儿;连八杆子都打不着SaaS的巴老,也投资了Snowflake,并立刻获得翻倍的回报。 总之,SaaS又火了一把。 在整个SaaS界都沉浸在Snowflake致富神话中,我写这些跟钱没啥关系的文章,估计也没什么人有心思读下去。 所以我就摘出四个方面的内容分享一下,至于其它内容读者可以自行去
原文地址:https://dzone.com/articles/criteria-for-selecting-a-data-warehouse-platform
在本节中,我们将介绍 Google Cloud Platform(GCP)上的无服务器计算基础。 我们还将概述 GCP 上可用的 AI 组件,并向您介绍 GCP 上的各种计算和处理选项。
【新智元导读】谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。 Lak Lakshmanan 是谷歌云服务团队的大数据与机器学习专业服务成员,他在谷歌云平台写了下文,以帮助用户使用谷歌云预测商业需求。 所有商业业务都会设法预测客户需求。如果你开饭馆,你需要预测明天要做多少桌饭、顾客会点哪些菜,这样你才能知道需要购买那些食材、厨房需要多少人手。如果你卖衬衫,你要提前预测,你应该从
新粉请关注我的公众号 根据OceanBase官方公众号的消息,OceanBase Cloud于2022年8月10日正式全球开服。 OceanBase Cloud是个什么东西呢,引用一下官方公众号的一张图片给大家看看: 根据这图,OceanBase Cloud首先是个数据库的SaaS服务,这可以类比一下比如Snowflake也是个SaaS服务,数据仓库的SaaS。 当然OceanBase不是数仓,它更多的是个带有HTAP功能的数据库,OLTP才是它的根本。它是一个数据库的SaaS服务。从这个角度来说,蚂蚁
去年12月,中国大部分地区早已入冬,而在2000多公里外的新加坡,还停留在温暖的26度,气候宜人。
本文由 Cloudberry Database 社区编译自 MotherDuck 官网博文《PERF IS NOT ENOUGH》,原作者为 Jordan Tigani( MontherDuck 联合创始人兼 CEO),译文较原文稍有调整。
提取,转换和加载(ETL)工具使组织能够跨不同的数据系统使其数据可访问,有意义且可用。通常,公司在了解尝试编码和构建内部解决方案的成本和复杂性时,首先意识到对ETL工具的需求。
冷链物流的复杂性、成本和风险使其成为物联网的理想使用案例。以下是我们如何构建一个完整的物联网解决方案,以应对这些挑战。
搭建一套数据治理体系耗时耗力,但或许我们没有必要从头开始搞自己的数据血缘项目。本文分享如何用开源、现代的 DataOps、ETL、Dashboard、元数据、数据血缘管理系统构建大数据治理基础设施。
注:本文专用于2019年3月29日前的谷歌云专业数据工程师认证考试。此后我也做了一些更新,放在了Extras的部分。
“为工作使用正确的工具!” 这句话一开始听起来很简单,但在实际方面实施起来却非常复杂。 早期的初创公司发现很难选择生态系统中可用的各种工具,因为它们的数据将如何演变是非常不可预测的。 需要现代数据堆栈 在过去 10 年中,软件行业在以下方面有所增长: 计算能力:AWS、Google Cloud 等公共云提供商以标准市场成本提供巨大的计算能力。 数据源:物联网生态系统、智能设备的兴起导致每天产生的数据量呈指数级增长。2020 年,地球上的每个人每秒产生约 1.7MB 的数据。 业务利益相关者的数据素养:
编译 | 核子可乐、Tina Databricks 与 Snowflake 之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。 短短半个月,大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。 11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。 在博客中,Databricks 声称这是一
MySQL推出了新功能—— MySQL Autopilot。MySQL Autopilot 使用先进的机器学习技术来自动化 HeatWave,使其更易于使用并进一步提高性能和可扩展性。目前还没有其他云供应商提供如此先进的自动化功能。MySQL HeatWave 客户可以免费使用 Autopilot。关于HeatWave,请阅读MySQL Database Service with Analytics Engine。
本文和封面来源:https://motherduck.com/,爱可生开源社区翻译。
作为近期火爆的话题之一,snowflake的上市无疑吸引了很多人的眼球。那在其高涨的市值背后,又有着什么样的原因?它会一直火爆下去吗?云计算、大数据,这些似乎已经有些落伍的概念,为何又重新吸引了人们的眼球?本文综合了多篇资料,尝试从更多角度加以解读。
作者|PAUL GILLIN 翻译|核子可乐 编辑|燕珊 “这不是全有或全无的零和博弈,而是谷歌云与其他云服务商之间的和谐共存。” 商界有句名言:“市场上的亚军反而更有动力,催动人们加倍进取。”但市场上的老四该怎么鼓励自己? 这就是谷歌面临的现实问题。他们在公有云市场上起步较晚、早期做出的承诺太过理想化,同时还承受着两大怪物级竞争对手的重重压力。十年以来,谷歌的市场份额一直维持在 10% 以内,难以突破。 IDC 公司估计,谷歌 2020 年在全球公有云市场上的份额为 4.6%,仅次于亚马逊云
最近最重要的例子是Snowflake和Databricks,它们颠覆了数据库的概念,开创了现代数据堆栈时代。
拥有一个能够回答商业用户简单的语言问题的自主人工智能智能体的承诺是一个有吸引力的提议,但迄今为止仍难以实现。许多人尝试过让 ChatGPT 进行写入,但成效有限。失败的主要原因是大语言模型对其要求查询的特定数据集缺乏了解。
出品 | OSC开源社区(ID:oschina2013) DB-Engines 宣布 Snowflake 成功卫冕,获得了 “2022 年度数据库” 称号。 DB-Engines 是全球知名的数据库流行度排行榜网站,其评选年度数据库的标准为:计算数据库当前最新流行度分数(2023 年 1 月)的同比增长量,分数增长最多的即为年度数据库。 年度 DBMS:Snowflake Snowflake 是一个基于云的数据平台,因其可扩展性、灵活性和性能而广受欢迎。它使用自定义 SQL 引擎和列式数据存储,并提供广泛
如今,Python真是无处不在。尽管许多看门人争辩说,如果他们不使用比Python更难的语言编写代码,那么一个人是否真是软件开发人员,但它仍然无处不在。
湖仓一体架构模式的两个关键支柱是开放性和互操作性。在云存储系统(如S3、GCS、ADLS)上构建数据湖仓,并将数据存储在开放格式中,提供了一个您技术栈中几乎每个数据服务都可以利用的无处不在的基础。
这个数据库系统在集群中可以轻松扩展,因此您的数据可以比真人秀明星的自负心态还要庞大。
最近大数据领域最值得关注的,不是技术上有什么突飞猛进的进展,而是人才的流动问题。 以前是大数据发源地的各大互联网企业,包括三驾马车提出者的谷歌,都面临了新一波的大数据人才逃离。 根据我朋友圈和LinkedIn的数据,在这次的大数据人才逃离中,谷歌尤其的惨淡。 谷歌下面的几个大数据团队,比如著名的BigQuery,还有F1,都大量流失大数据人才。 这些人去的地方也非常有意思,小部分去创业了,大部分去了两家当红的大数据公司:Snowflake和Databricks。 有关这两家公司我之前写过很多分析文章了,尤
本文作者为 PingCAP 联合创始人兼 CTO 黄东旭,将分享分布式数据库的发展趋势以及云原生数据库设计的新思路。
在 0.11.0 中,我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing,以提高在大型 Hudi 表上的分区和文件 listing 的性能。在reader方面,用户需要将其设置为 hoodie.metadata.enable = true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此,使用异步表服务部署 Hudi 的用户需要配置锁服务。如果无需使用此功能,可以通过额外设置这个配置 hoodie.metadata.enable = false 像以前一样使用 Hudi。
最后,该数据被加载到数据库中。在当前的技术时代,“数据”这个词非常重要,因为大多数业务都围绕着数据、数据流、数据格式等运行。现代应用程序和工作方法需要实时数据来进行处理,为了满足这一目的,市场上有各种各样的ETL工具。
ArcGIS Pro 2.9现在支持访问云数据仓库,以允许查看、分析和发布数据子集。可以连接到Amazon Redshift、 Google BigQuery或 Snowflake。
如果您想从事DevOps行当,了解DevOps工程师的薪资前景是最先要迈出的关键步骤之一。 鉴于DevOps工程成为一个新兴行当,了解合理的报酬水平是什么样可能令人困惑,如果您是这个行当的新手,更让人一头雾水。“合理”的DevOps工程师薪水因公司而异。此外,将你作为DevOps工程师的角色与你在开发行业的同仁区分开来可能颇具挑战性。 本文分析了目前市面上DevOps工程师的薪资水平,并着重介绍了你对这个行业要了解的所有信息。 DevOps工程师简介 DevOps工程师是开发和运营方面拥有丰富知识的IT专业
在 Twitter 上,我们每天都要实时处理大约 4000 亿个事件,生成 PB 级的数据。我们使用的数据的事件源多种多样,来自不同的平台和存储系统,例如 Hadoop、Vertica、Manhattan 分布式数据库、Kafka、Twitter Eventbus、GCS、BigQuery 和 PubSub。
这篇博文是由 Notion 数据平台团队的软件工程师 Thomas Chow 和 Nathan Louie 于 2023 年 12 月 13 日发表的题为 Notion's Journey Through Different Stages of Data Scale 的 Hudi 现场活动的简短摘要。下面的视频剪辑给出了Notion 演讲的简短摘要,还可以查看演讲幻灯片[1]或查看完整演讲[2]。
在讲新的思路之前,先为过去没有关注过数据库技术的朋友们做一个简单的历史回顾,接下来会谈谈未来的数据库领域,在云原生数据库设计方面的新趋势和前沿思考。首先来看看一些主流数据库的设计模式。
近日,谷歌推出了几项新的聚焦于云安全的谷歌云平台(GCP)增强。这些增强包括云安全命令中心(云SCC)、“谷歌云盔(Google Cloud Armor)”、VPC服务控制等新服务和若干供G Suite管理员使用的新特性。此外,这些增强是谷歌云平台投资的一部分,帮助客户增强他们的企业解决方案以及他们使用的GCP服务的安全性。 借助云安全命令中心,客户可以把安全相关的信息组织到一个控制面板中,谷歌云盔可以阻止DDos攻击及其他威胁。此外,VPC服务控制提供了一种把本地安全策略扩展到谷歌云服务的更好方法,而G
MySQL 因为它的可靠性、高性能和易用性,成为世界上最受欢迎的开源数据库。MySQL 专为事务处理而设计和优化,全球的企业都依赖于MySQL。随着在 MySQL 数据库服务中引入 HeatWave,客户现在拥有一个可以同时进行事务处理和分析处理的单一数据库。它消除了分析处理数据库的 ETL 的需求,并为实时分析提供支持。HeatWave 建立在创新的内存查询引擎之上,该引擎专为可扩展性和性能而设计,并针对云进行了优化。MySQL HeatWave 服务比其他数据库服务(Snowflake、Redshift、Aurora、Synapse、Big Query)更快,而且成本只是其一小部分。
作者 | ThoughtWorks 编辑 | Tina 技术雷达是 ThoughtWorks 每半年发布一次的技术趋势报告,它持续追踪有趣的技术是如何发展的,我们将其称之为条目。技术雷达使用象限和环对其进行分类,不同象限代表不同种类的技术,而环则代表我们对其作出的成熟度评估。 经过半年的追踪与沉淀,ThoughtWorks TAB(ThoughtWorks 技术咨询委员会)根据我们在多个行业中的实践案例,为技术者产出了第 24 期技术雷达。对百余个技术条目进行分析,阐述它们目前的成熟度,并提供了相应的技术选
SNP Glue是SNP的集成技术,适用于任何云平台。它最初是围绕SAP和Hadoop构建的,现在已经发展为一个集成平台,虽然它仍然非常专注SAP,但可以将几乎任何数据源与任何数据目标集成。
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
原题 | Surprising Sorting Tips for Data Scientists
在今年的Oracle Cloud World,Oracle宣布将发布一款数据库湖仓产品——MySQL HeatWave Lakehouse用以解决存储在数据库之外的文件数据等非结构化数据的查询和处理。
你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求?数据湖包括哪些组件和功能?
来源:M小姐研习录 作者:彼岸的M小姐 ---- 最近SaaS IPO简直可以用蜂拥而上形容。Snowflake, Unity, Asana, Palantir, Sumo Logic... 最受人瞩目的当然是Snowflake(NYSE: SNOW): IPO当日估值超过700亿美金!而今年2月最近一轮一级市场融资估值“仅为”124亿美金! IPO当日收盘价$254, 比IPO定价$120翻了超过一倍 连一向声称“不懂科技”的巴菲特都投了超过五亿美元 关于Snowflake和这个创纪录的IPO
假如云计算提供商把精力集中在最底层,而其他(纯软件)提供商专注于上面的一层,又会如何呢?
领取专属 10元无门槛券
手把手带您无忧上云