首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

15 年云数据库老兵:数据库圈应告别“唯性能论”

当时我正在 BigQuery 工作,很多人都被吓坏了……我们怎么会比 Azure 慢那么多呢?然而,评测结果与我们从用户那里得到的反馈不太匹配。...在我从事云数据库工作的 15 年里,我注意到整个行业存在一种反面模式(anti-pattern):打造数据库的人往往专注在用户从点击“运行”按钮到结果就绪之间的时间。...演化速率 去年,当我开始着手在 DuckDB 之上创建一家公司时,许多人向我指出,如果你在谷歌上搜索 DuckDB 的性能,就会看到一个基准测试,在该测试中 DuckDB 表现很糟。难道我不担心吗?...因此,只要可以从查询中推断出意图,那么它就应该“有效”。这是分析师喜欢 Snowflake 的原因之一,因为他们不必花费时间查阅文档。...数据库处理结果的方式对用户体验有巨大影响。例如,很多时候,人们会运行 SELECT * 查询来试图理解表中的内容。

18010

技术译文 | 数据库只追求性能是不够的!

当时,我正在研究 BigQuery,很多人都吓坏了…… 我们怎么会比 Azure 慢那么多呢?然而,结果与我们从用户那里得到的印象并不相符。...但是驱动程序轮询查询完成并提取结果的方式使得查询看起来花费了几秒钟甚至几分钟的时间。当存在大量查询结果时,这种影响会加剧,因为即使用户不需要查看所有结果,驱动程序通常也会一次一页地拉取所有结果。...如果 Snowflake 添加增量物化视图,BigQuery 很快就会跟进。随着时间的推移,重要的性能差异不太可能持续存在。...7问题出在椅子和键盘之间以及键盘和数据库之间 对于用户来说,衡量性能的重要指标是他们提出问题和得到答案之间的时间;这可能与数据库运行查询所花费的时间有很大不同。...如果使用两个不同数据库的两名工程师需要读取 CSV 数据并计算结果,则能够最轻松地正确提取 CSV 文件的工程师可能会第一个得到答案,无论他们的数据库执行查询的速度有多快。

13110
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    详细对比后,我建议这样选择云数据仓库

    团队可以利用数据结果来决定构建哪些产品、增加哪些特性以及追求哪些增长。 然而,数据意识和洞察力驱动是有区别的。洞察力的发掘需要找到一种近实时的方式来分析数据,这恰好是云数据仓库所扮演的重要角色。...其中,从多种来源提取数据、把数据转换成可用的格式并存储在仓库中,是理解数据的关键。 此外,通过存储在仓库中的有价值的数据,你可以超越传统的分析工具,通过 SQL 查询数据获得深层次的业务洞察力。...举例来说,公司使用谷歌分析(Google Analytics,GA)来了解客户是如何与他们的应用程序或网站进行交互的。但是,谷歌分析的本质限制了用户所能发现的洞察力的深度。...所有的数据存储在一起可以更容易地分析数据、比较不同的变量,并生成有洞察力的可视化数据。 只使用数据库可以吗?...不同提供商的产品在成本或技术细节上存在差异,但也有一些共同点。比如,他们的云数据仓库非常可靠。尽管可能会出现断电或其他故障,但数据复制和其他可靠性功能能够确保数据得到备份并快速检索。

    5.7K10

    1年将超过15PB数据迁移到谷歌BigQuery,PayPal的经验有哪些可借鉴之处?

    图 2:BigQuery 评估结果摘要 作为我们蓝图的一部分,我们决定处理图 1 中所示的“分析仓库”。 我们使用的方法 我们选择了要探索的云和仓库后就确定了以下路径并开始进入下一阶段。...我们将 BigQuery 中的数据保存为美国的多区域数据,以便从美国的其他区域访问。我们在数据中心和 Google Cloud Platform 中离分析仓库最近的区域之间实现了安全的私有互联。...同样,在复制到 BigQuery 之前,必须修剪源系统中的字符串值,才能让使用相等运算符的查询返回与 Teradata 相同的结果。 数据加载:一次性加载到 BigQuery 是非常简单的。...干运行和湿运行 干运行,指的是没有数据的执行,可以确保变换的查询没有语法错误。如果干运行成功,我们会将数据加载到表中并要求用户进行湿运行。湿运行是一次性执行,用来测试结果集是否全部正确。...经常和尽早互动:我们从旅程的第一天起就与我们的用户互动,与他们分享我们所看到的成果,告诉他们我们计划如何取得进展。我们与用户分享了我们的计划、创建了工作组并集思广益。

    4.7K20

    深入浅出——大数据那些事

    这里给出一组样本数据的来源及类型,他们都是企业在做大数据分析时潜在的收集和聚合数据的方式: 网站分析 移动分析 设备/传感器数据 用户数据(CRM) 统一的企业数据(ERP) 社交数据 会计系统 销售点系统...我们已经开发了一个工具,它可以导出未采样的谷歌分析数据,并且把数据推送到BigQuery,或者其他的可以做大数据分析的数据仓库或者数据工具中。...BigQuery采用你容易承受的按需定价的原则,当你开始存储和处理你的大数据查询时,每个月的花费只有几百美金。事实上,每个月前100GB的数据处理是免费的。...(然而这个功能依旧需要升级才能变的更好) 谷歌BigQuery连接器可以快速的分析在谷歌免费的网络服务中的大量数据。...你可以在谷歌分析中以此来创建新的高级细分规则并且针对你的市场或者网站活动做出更高的价值分析。 发现不明情况内的价值 ? 你的很多不同的数据隐藏不明的情况,这些是希望被发现并告知的。

    2.6K100

    深入浅出为你解析关于大数据的所有事情

    大数据通常与企业商业智能(BI)和数据仓库有共同的特点:高成本、高难度、高风险。 以前的商业智能和数据仓库的举措是失败的,因为他们需要花费数月甚至是数年的时间才能让股东得到可以量化的收益。...这里给出一组样本数据的来源及类型,他们都是企业在做大数据分析时潜在的收集和聚合数据的方式: 网站分析 移动分析 设备/传感器数据 用户数据(CRM) 统一的企业数据(ERP) 社交数据 会计系统 销售点系统...我们已经开发了一个工具,它可以导出未采样的谷歌分析数据,并且把数据推送到BigQuery,或者其他的可以做大数据分析的数据仓库或者数据工具中。...(然而这个功能依旧需要升级才能变的更好) 谷歌BigQuery连接器可以快速的分析在谷歌免费的网络服务中的大量数据。...你可以在谷歌分析中以此来创建新的高级细分规则并且针对你的市场或者网站活动做出更高的价值分析。 发现不明情况内的价值 ? 你的很多不同的数据隐藏不明的情况,这些是希望被发现并告知的。

    1.3K50

    ClickHouse 提升数据效能

    Google Analytics 的优势在于其易于与网站集成以及简单的查询界面。这种简单性是有代价的,主要是灵活性。...GA4 提供了解决此问题的方法,包括升级到 Google Analytics 360(每年 150,000 美元!)或只是等待很长时间才能得到结果。...5.从 GA4 中获取数据 我们相信上述经历的痛苦不太可能是独一无二的,因此我们探索了从 Google Analytics 导出数据的方法。谷歌提供了多种方法来实现这一目标,其中大多数都有一些限制。...有关 BigQuery 和 ClickHouse 之间差异的更多详细信息,请参阅此处。...这对于我们的用例来说已经足够了,因为我们的大多数查询都涵盖一个月的时间,而分析历史趋势的查询则很少见。以下查询查询我们网站blog区域10 月份的总用户数、回访用户数和新用户数,按天对结果进行分组。

    33410

    ClickHouse 提升数据效能

    Google Analytics 的优势在于其易于与网站集成以及简单的查询界面。这种简单性是有代价的,主要是灵活性。...GA4 提供了解决此问题的方法,包括升级到 Google Analytics 360(每年 150,000 美元!)或只是等待很长时间才能得到结果。...5.从 GA4 中获取数据 我们相信上述经历的痛苦不太可能是独一无二的,因此我们探索了从 Google Analytics 导出数据的方法。谷歌提供了多种方法来实现这一目标,其中大多数都有一些限制。...有关 BigQuery 和 ClickHouse 之间差异的更多详细信息,请参阅此处。...这对于我们的用例来说已经足够了,因为我们的大多数查询都涵盖一个月的时间,而分析历史趋势的查询则很少见。以下查询查询我们网站blog区域10 月份的总用户数、回访用户数和新用户数,按天对结果进行分组。

    27710

    深入浅出为你解析关于大数据的所有事情

    这里给出一组样本数据的来源及类型,他们都是企业在做大数据分析时潜在的收集和聚合数据的方式: 网站分析 移动分析 设备/传感器数据 用户数据(CRM) 统一的企业数据...把焦点放在相关的数据上,并且从小的数据开始。通常以2-3种数据源开始是一个好的建议,比如网站数据、消费者数据和CRM,这些会让你得到一些有价值的见解。...我们已经开发了一个工具,它可以导出未采样的谷歌分析数据,并且把数据推送到BigQuery,或者其他的可以做大数据分析的数据仓库或者数据工具中。...(然而这个功能依旧需要升级才能变的更好) 谷歌BigQuery连接器可以快速的分析在谷歌免费的网络服务中的大量数据。...你可以在谷歌分析中以此来创建新的高级细分规则并且针对你的市场或者网站活动做出更高的价值分析。

    1.1K40

    ClickHouse 提升数据效能

    Google Analytics 的优势在于其易于与网站集成以及简单的查询界面。这种简单性是有代价的,主要是灵活性。...GA4 提供了解决此问题的方法,包括升级到 Google Analytics 360(每年 150,000 美元!)或只是等待很长时间才能得到结果。...5.从 GA4 中获取数据 我们相信上述经历的痛苦不太可能是独一无二的,因此我们探索了从 Google Analytics 导出数据的方法。谷歌提供了多种方法来实现这一目标,其中大多数都有一些限制。...有关 BigQuery 和 ClickHouse 之间差异的更多详细信息,请参阅此处。...这对于我们的用例来说已经足够了,因为我们的大多数查询都涵盖一个月的时间,而分析历史趋势的查询则很少见。以下查询查询我们网站blog区域10 月份的总用户数、回访用户数和新用户数,按天对结果进行分组。

    30110

    谷歌十年老兵吐槽:收起 PPT 吧!数据大小不重要,能用起来才重要

    我是谷歌 BigQuery 的创始工程师。作为团队中唯一一个非常喜欢公开演讲的工程师,我到世界各地参加会议,解释我们将如何帮助人们抵御即将到来的数据爆炸。...图表背后的数据来自于日志查询、交易事后分析、基准测试结果 (已发布和未发布)、客户服务单、客户调研、服务日志和对已发布博客文章的分析,也包括了一些我个人的直觉感知。...我用了很多不同的分析方法,以确保结果不被进行了大量查询的几个客户的行为所扭曲。我还把仅对元数据的查询剔除了,这是 BigQuery 中不需要读取任何数据的部分查询。...如果一定要保存,仅仅存储聚合的存储和查询,成本不是要低得多吗?你留着它以备不时之需吗?你是觉得你可能未来从数据中获得新的价值信息么?如果是,它有多重要?你真的需要它的可能性有多大?...你真的不是一个数据囤积者吗?这些都是要思考的重要问题,尤其是当你试图计算保存数据的真实成本时。 你是大数据中的百分之一吗? 大数据是真实存在的,但大多数人可能不需要关心它。

    88330

    将Hadoop作为基于云的托管服务的优劣势分析

    Apache还提供了另外的开源软件,可以在Hadoop上运行,比如分析引擎Spark(它也能独立运行)和编程语言Pig。   ...虽然Hadoop统一了分布式计算,但是配备和管理另外的数据中心、更不用说与远程员工打交道,增添了复杂性和成本。结果就是,Hadoop集群可能显得过于孤立。 云是救星吗?   ...安装的Hadoop大多数仍然会维持一个自助式门户网站,用于分析及其他数据操作,而提供商管理所有的基础设施、管理和处理操作。   此举并非易事。...另外的数据连接件让GCS用户能够对存储在谷歌Datastore和谷歌BigQuery中的数据运行 MapReduce。   Hortonworks数据平台提供了企业级托管HaaS。...最后,相比其名声,Hadoop的采用速度并没有得到应有的体现。对大数据有诸多要求的企业在广泛采用它,因为它们有与之匹配的计算预算。

    2.1K10

    2010 年的那场 F8 大会,是 Facebook 数据泄露的根源

    谷歌把web视为自己的领地,这是有充分理由的。搜索建立在链接和网络结构之上,是几乎每个人的入口,各地的主要网站都可以在谷歌上进行竞标排名。...第一个是我们共同构建的Open Graph。如今,web主要作为页面之间的一系列非结构化链接存在,这是一个强大的模型,但它实际上只是一个开始。Open Graph将人置于网络的中心。...从Facebook的角度来看,这个挑战就是我在上面概述的:谷歌可以从web上任何地方获取数据,因为网站和应用程序受到了很大的激励去将其提供给谷歌,以便有更好的机会通过谷歌联系终端用户: 网站需要用谷歌来联系用户...“我们开始说,‘好吧,如果只是做广告就没什么问题’,”梅西纳(Messina)说。“但是如果我们能够建立一个软件,来跟踪所有的用户,并允许你在Facebook上将你的朋友与我们的名单进行匹配呢?...GOOGLE,FACEBOOK和监管 最终,谷歌和Facebook在web处理方式上的差异——就后者而言,在用户数据方面的差异——表明了双方最终将会受到怎样的监管。

    892100

    选择一个数据仓库平台的标准

    Panoply进行了性能基准测试,比较了Redshift和BigQuery。我们发现,与之前没有考虑到优化的结果相反,在合理优化的情况下,Redshift在11次使用案例中的9次胜出BigQuery。...但是,从Panoply和Periscope数据分析的角度来看,在集群适当优化时,与BigQuery相比,Redshift显示出极具竞争力的定价: “每查询7美分,每位客户的成本大约为70美元。...Panoply分析显示,使用BigQuery估算查询和数据量成本非常复杂。...这种成本计算的复杂性在Snowflake的捆绑CPU定价解决方案中得到了一些解决,但同样,提前预见您的查询需求是一个有待解决的挑战。...正确的摄取方法和错误的方法之间的差异可能是数据丢失和丰富数据之间的差异,以及组织良好的模式和数据沼泽之间的差异。 例如,Snowflake通过不同的虚拟仓库支持同时用户的查询。

    2.9K40

    寻觅Azure上的Athena和BigQuery(一):落寞的ADLA

    AWS Athena和Google BigQuery都是亚马逊和谷歌各自云上的优秀产品,有着相当高的用户口碑。...AWS Athena和Google BigQuery当然互相之间也存在一些侧重和差异,例如Athena主要只支持外部表(使用S3作为数据源),而BigQuery同时还支持自有的存储,更接近一个完整的数据仓库...因本文主要关注分析云存储中数据的场景,所以两者差异这里不作展开。 对于习惯了Athena/BigQuery相关功能的Azure新用户,自然也希望在微软云找到即席查询云存储数据这个常见需求的实现方式。...得到的查询结果为: ? 嗯,看上去AWS Athena轻松地完成了我们的分析任务。 接下来则轮到Azure出场了。...任务(Job)是ADLA中的核心概念,我们可以新建一个任务,配以一段U-SQL脚本来表达和前面Athena例子中SQL相同的语义:(ADLA没有交互式查询窗口,所以我们把结果落地存储到一个csv文件中)

    2.4K20

    要避免的 7 个常见 Google Analytics 4 个配置错误

    您还会注意到一个复选框,上面写着“在新活动时重置用户数据”,这意味着 14 个月的数据保留期从用户上次访问的那一刻开始计算。...不排除不需要的推荐 通常,电子商务网站有托管在不同域下的第三方支付处理器 - 当用户完成结账后将它们重定向回网站时,GA 会将其检测为新会话,因为推荐不同。...例如,在SEJ,我们有一个短链接“sejr.nl”域,它应该被视为同一个域 - 因此我们将其添加到我们的排除列表中。...在这种情况下,它会从报表中隐藏用户数据,并根据用户行为对数据进行建模。数据建模可能会带来一定程度的不准确性,因为它是一种估计而不是精确的测量。...如果您发现混合身份、观察到的身份和基于设备的转换次数存在显著差异,则最好使用后一个选项。 基于设备的身份识别的工作方式与 Universal Analytics 跟踪的工作方式类似。

    44610

    使用Kafka,如何成功迁移SQL数据库中超过20亿条记录?

    而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。...在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。 云解决方案会是解药吗?...我们之所以选择它,是因为我们的客户更喜欢谷歌的云解决方案,他们的数据具有结构化和可分析的特点,而且不要求低延迟,所以 BigQuery 似乎是一个完美的选择。...但是,正如你可能已经知道的那样,对 BigQuery 进行大量查询可能会产生很大的开销,因此我们希望避免直接通过应用程序进行查询,我们只将 BigQuery 作为分析和备份工具。 ?...我们知道有可能可以使用时间戳,但这种方法有可能会丢失部分数据,因为 Kafka 查询数据时使用的时间戳精度低于表列中定义的精度。

    3.2K20

    20亿条记录的MySQL大表迁移实战

    而且,这么大的表还存在其他问题:糟糕的查询性能、糟糕的模式设计,因为记录太多而找不到简单的方法来进行数据分析。...在这篇文章中,我将介绍我们的解决方案,但我还想提醒一下,这并不是一个建议:不同的情况需要不同的解决方案,不过也许有人可以从我们的解决方案中得到一些有价值的见解。 云解决方案会是解药吗?...我们之所以选择它,是因为我们的客户更喜欢谷歌的云解决方案,他们的数据具有结构化和可分析的特点,而且不要求低延迟,所以 BigQuery 似乎是一个完美的选择。...但是,正如你可能已经知道的那样,对 BigQuery 进行大量查询可能会产生很大的开销,因此我们希望避免直接通过应用程序进行查询,我们只将 BigQuery 作为分析和备份工具。...我们知道有可能可以使用时间戳,但这种方法有可能会丢失部分数据,因为 Kafka 查询数据时使用的时间戳精度低于表列中定义的精度。

    4.7K10

    「数据仓库技术」怎么选择现代数据仓库

    让我们看看一些与数据集大小相关的数学: 将tb级的数据从Postgres加载到BigQuery Postgres、MySQL、MSSQL和许多其他RDBMS的最佳点是在分析中涉及到高达1TB的数据。...本地和云 要评估的另一个重要方面是,是否有专门用于数据库维护、支持和修复的资源(如果有的话)。这一方面在比较中起着重要的作用。...ETL vs ELT:考虑到数据仓库的发展 Snowflake构建在Amazon S3云存储上,它的存储层保存所有不同的数据、表和查询结果。...因为这个存储层被设计成完全独立于计算资源的可伸缩性,它确保了可以毫不费力地为大数据仓库和分析实现最大的可伸缩性。...谷歌BigQuery提供可伸缩、灵活的定价选项,并对数据存储、流插入和查询数据收费,但加载和导出数据是免费的。BigQuery的定价策略非常独特,因为它基于每GB存储速率和查询字节扫描速率。

    5K31
    领券