首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

30道经典SQL面试题讲解(21-30)

,现在我们想获取沉默用户数量,沉默定义是已注册但是最近30天内没有购买记录的人,该怎么实现呢?...30天没有购买记录的人,可以先把最近30天内有购买记录的人取出来,然后用user_table表中uid去拼接最近30天有购买记录的人,如果不能拼接到,即拼接结果为null,就表示这部分人最近30天没有购买...26 获取新用户订单数 还是前面的两张表user_reg_table和first_order_table,现在我们想获取最近7天注册新用户在最近7天内订单数是多少,该怎么实现呢?...7天注册新用户在最近7天内订单数,首先获取最近7天新注册用户,然后获取每个用户在最近7天内订单数,最后将两个表进行拼接,且新用户表为主表,进行左连接。...7天内要到期借款笔数和其中已经还款笔数,首先把最近7天内要到期数据筛选出来,然后再通过还款状态status进行判断,再获取已还款笔数。

51810

要避免 7 个常见 Google Analytics 4 个配置错误

未设置数据保留期限 GA4 默认提供两个月数据保留期,您可以选择将其设置为 14 个月。保留期适用于探索中自定义报告,而标准报告中数据永不过期。...高基数维度 高基数维度是指在一天内包含超过 500 个唯一值维度。这可能会给 GA4 中数据分析带来挑战和局限性。 GA4 中基数会对数据准确性和可靠性产生负面影响。...例如,您可以创建目标受众群体,例如参与用户、订阅用户或在过去 30 天内进行过购买用户。 建议为您 ICP 创建受众群体,并将其标记为转化。...此外,如果您有子域,并且希望使用相同 GA4 属性跨子域进行跟踪,则需要将自己域从引荐中排除,以便在用户从一个子域导航到您主域时保持相同会话。 7....您可以尝试在这些选项之间切换,看看您数据是如何变化。 如果您发现混合身份、观察到身份和基于设备转换次数存在显著差异,则最好使用后一个选项。

29510
您找到你想要的搜索结果了吗?
是的
没有找到

选择一个数据仓库平台标准

但是,从Panoply和Periscope数据分析角度来看,在集群适当优化时,与BigQuery相比,Redshift显示出极具竞争力定价: “每查询7美分,每位客户成本大约为70美元。...这个缺点是Panoply提供专用于每个帐户数据架构师原因之一; 一个负责照顾您真实数据需求真人。...但是,随着Redshift规模和运营效率提高,ETL可能被称为僵化和过时范例。 这就是Panoply遵循ELT流程原因,即所有原始数据都可即时实时获取,并且转换在查询时异步发生。...但是,由于灾难造成数据完全丢失比快速,即时恢复特定表甚至特定记录需要少。出于这两个目的,Redshift会自动将备份存储到S3,并允许您在过去90天内任何时间点重新访问数据。...通过利用Panoply修订历史记录表,用户可以跟踪他们数据仓库中任何数据库行每一个变化,从而使分析师可以立即使用简单SQL查询。

2.9K40

构建端到端开源现代数据平台

数据仓库:BigQuery 如上所述选择正确数据仓库是我们难题中最重要部分。主要三个选项是 Snowflake[7]、BigQuery[8] 和 Redshift[9]。...因此入门时理想选择是无服务器托管产品——这适用于我们所有需要弹性组件,而不仅仅是数据仓库。BigQuery 非常适合这个要求,原因有很多,其中两个如下: • 首先它本质上是无服务器。...[17] 构建一个新 HTTP API 源,用于从您要使用 API 中获取数据。...dbt 是第三次数据技术浪潮理想典范,因为它代表了这一浪潮背后主要目标:添加特性和功能以更轻松地管理现有数据平台,并从底层数据中提取更多价值。...这使其成为多家科技公司大型数据平台不可或缺一部分,确保了一个大型且非常活跃开放式围绕它源社区——这反过来又帮助它在编排方面保持了标准,即使在“第三次浪潮”中也是如此。

5.4K10

干货 ▏什么数据库最适合数据分析师?

最近,Mode首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源免费产品,而Vertica、SQL Server和BigQuery不是,后三者用户通常是有充足分析预算大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift错误率较低,Impala、BigQuerySQL Server错误率较高。另外,和之前一样,Vertica错误率依然最高。

1.8K30

【学习】什么数据库最适合数据分析师

最近,Mode首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源免费产品,而Vertica、SQL Server和BigQuery不是,后三者用户通常是有充足分析预算大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift错误率较低,Impala、BigQuerySQL Server错误率较高。另外,和之前一样,Vertica错误率依然最高。

1.1K40

主流云数仓性能对比分析

最近随着Snowflake上市后市值暴增(目前700亿美金左右),整个市场对原生云数仓都关注起来。...剩下都是偏见” ——威尔·杜兰特(哲学家、历史学家) 这句话同样适用于各种Performance Benchmark对比,任何POC(Proof of Concept,搞技术的人都懂)都是带有偏见...技术上也是列压缩存储,缓存执行模型,向量技术处理数据,SQL标准遵循ANSI-2011 SQL,全托管云服务,用户可选择部署在AWS、Azure和GCP上,当然它也支持本地部署。...测试场景与数据规模 本次测试场景选取30TBTPC-H,比较有趣是在2019年benchmark中GigaOM选取30TBTPC-DS。...最佳性能SQL数量:横向比较22个场景,挑选出每个场景最佳(执行时长最短)。Redshift有13条SQL执行时间最短,Synapse有8条,Snowflake只有1条,而BigQuery没有。

3.8K10

【观点】最适合数据分析师数据库为什么不是MySQL?!

最近,Mode首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...,因为Impala、MySQL和Hive是开源免费产品,而Vertica、SQL Server和BigQuery不是,后三者用户通常是有充足分析预算大型企业,其较高错误率很有可能是由于使用更深入而不是语言...从图中可以看出,PostgreSQL、MySQL和Redshift错误率较低,Impala、BigQuerySQL Server错误率较高。另外,和之前一样,Vertica错误率依然最高。

3K50

谷歌发布 Hive-BigQuery 开源连接器,加强跨平台数据集成能力

作者 | Renato Losio 译者 | 平川 策划 | 丁晓昀 最近,谷歌宣布正式发布 Hive-BigQuery Connector,简化 Apache Hive 和 Google...图片来源:谷歌数据分析博客 根据谷歌云说法,Hive-BigQuery 连接器可以在以下场景中为企业提供帮助:确保迁移过程中操作连续性,将 BigQuery 用于需要数据仓库子集需求,或者保有一个完整开源软件技术栈...ANSI SQL 语法。...,用于读写 Cloud Storage 中数据文件,而 Apache Spark SQL connector for BigQuery 则实现了 Spark SQL Data Source API,将...但是,开发人员仍然可以使用 BigQuery 支持时间单位列分区选项和摄入时间分区选项。 感兴趣读者,可以从 GitHub 上获取该连接器。

26820

1年将超过15PB数据迁移到谷歌BigQuery,PayPal经验有哪些可借鉴之处?

此外,用户希望看到基础设施不断更新,以利用新特性或根据行业趋势以新方式处理数据。 灾难恢复:任何基础设施都应该有明确灾难恢复选项,可以在 30 分钟内触发,为用户工作铺平道路。...我们对 BigQuery 进行了为期 12 周评估,以涵盖不同类型用例。它在我们设定成功标准下表现良好。下面提供了评估结果摘要。 我们将在单独文章中介绍评估过程、成功标准和结果。...我们将 BigQuery数据保存为美国多区域数据,以便从美国其他区域访问。我们在数据中心和 Google Cloud Platform 中离分析仓库最近区域之间实现了安全私有互联。...我们要求用户使用这个门户将他们现有或已知 SQL 转换为与 BigQuery 兼容 SQL,以进行测试和验证。我们还利用这一框架来转换用户作业、Tableau 仪表板和笔记本以进行测试和验证。...这是整个项目中最难部分。它难点在于偶然出现复杂性,而非容量。以下是我们遇到问题: 资源可用性和使用情况:由于我们是从一个本地仓库中提取数据,因此我们提取速度受到源上可用能力限制。

4.6K20

手搓一个分布式大气监测系统(七)数据开放计划

为降低复杂度及应用于 腾讯云图 等可视化平台便捷性,当前优先提供静态密钥,访问频率限制为 10次/分钟。 由于是公益团队,我们资金有限,为避免大量访问耗尽项目经费。...rkey=****&typeid=client_upcount_30d&clientid=**** client_average_30d 指定终端最近30天 每天平均指标值 1天 基础地址?...rkey=****&typeid=client_average_30d&clientid=**** client_average_30d_yt 指定终端最近30天 每天平均指标值(云图直读) 1天 基础地址...rkey=****&typeid=client_average_30d_yt&clientid=**** space_totle_data 获取60天内活跃终端列表 1分钟 基础地址?...rkey=****&typeid=space_offline_data 信息说明: 刷新时间,用于说明信息更新频率。 在线标准,3分钟内有上报数据。

74580

什么数据库最适合数据分析师

最近,Mode首席分析师Benn Stancil发布了一篇文章,从另一个角度阐释了哪一款数据库最适合数据分析师。...例如,在Redshift中如何获取当前时间,是NOW()、CURDATE()、CURDATE、SYSDATE 还是WHATDAYISIT。...、SQL Server、BigQuery、Vertica、Hive和Impala这八款数据库进行了比较。...但是,对于该结果Benn Stancil认为可能有点不严谨,因为Impala、MySQL和Hive是开源免费产品,而Vertica、SQL Server和BigQuery不是,后三者用户通常是有充足分析预算大型企业...从图中可以看出,PostgreSQL、MySQL和Redshift错误率较低,Impala、BigQuerySQL Server错误率较高。另外,和之前一样,Vertica错误率依然最高。

1.3K50

7大云计算数据仓库

对于希望使用标准SQL查询来分析云中大型数据集用户而言,BigQuery是一个合理选择。...•Apache Spark引擎也与Db2集成在一起,这意味着用户可以针对数据仓库使用SQL查询和Spark查询,以获取见解。...关键价值/差异: •微软公司在2019年7月发布了Azure SQL数据仓库主要更新,其中包括Gen2更新,提供了更多SQL Server功能和高级安全选项。...•现有的微软用户可能会从Azure SQL数据仓库中获得最大收益,因为它跨Microsoft Azure公共云以及更重要用于数据库SQL Server具有多种集成。...•通过标准SQL进行查询,以进行分析,并与R和Python编程语言集成。 7个顶级云计算数据仓库对比图表 ? (来源:企业网D1Net)

5.4K30

活动、节假日、促销等营销方式因果效应评估——特征工程篇(一)

天与后16天促销信息 - 前[14、60、140]天促销次数 - 后[3、7、14]天内促销次数 - [3, 7, 14, 30, 60, 140] - 内促销日期时销量均值、指数加权平均;...- 没有促销时销量均值、加权平均 - 近[7、14、30、60、140]天内 - 促销日子总和 - 最近促销距近天数 - 最远促销距今天天数 - 后16天内 - 促销次数总和 - 最近促销日子距今天数...这里需要介绍下为什么可以使用之后促销天数数据,因为在测试集中官方已经给出了未来一段时间某商店某商品是否会进行促销,所以我们可以用未来几天促销数据; 时间窗口内(最近3/7/14/30/60/140天...、最大值和标准差; 时间窗口内(上一周最近3/7/14/30/60/140天):和前一天销量差值均值、销量每天按0.9衰减之后汇总、均值、中位数、最小值、最大值和标准偏差。...这个特征和上一个特征是一样,只不过计算是上一周各个特征值,作者想查看前一周销量各个特征; 时间窗口内(最近7/14/30/60/140天): - 有销量/促销天数,分别查看时间窗口内有销量和促销天数

3.4K42

使用 SQL 也能玩转机器学习

最近看到一篇文章:https://rudderstack.com/blog/churn-prediction-with-bigqueryml,主要是讲使用 BigQueryML 进行流失预测。...利用 BigQuery ML,您可以使用标准 SQL 查询在 BigQuery 中创建和执行机器学习模型。...BigQuery ML 让 SQL 专业人员能够使用现有的 SQL 工具和技能构建模型,从而实现机器学习普及。使用 BigQuery ML,无需移动数据,加快了开发速度。...似乎现在有一部分用户开始玩 SQL 这一套了。 先看看这篇文章案例是怎么实现机器学习。...如果这种方式真的能成熟的话,做业务分析同事也是可以用 SQL 完成机器学习了,而不需要拜托专门做算法同学去完成建模分析,对于企业而言,其实大部分场景只需要简单数据分析和挖掘模型就行了,使用 SQL

71310

教程 | 没错,纯SQL查询语句可以实现神经网络

这些神经网络训练步骤包含前向传播和反向传播,将在 BigQuery 单个SQL查询语句中实现。当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行分布式神经网络训练。...也就是说,这个有趣项目用于测试 SQLBigQuery 限制,同时从声明性数据角度看待神经网络训练。这个项目没有考虑任何实际应用,不过最后我将讨论一些实际研究意义。...BigQuery 标准 SQL 扩展缩放性比传统 SQL 语言要好。即使是标准 SQL 查询,对于有 100k 个实例数据集,也很难执行超过 10 个迭代。...如你所见,资源瓶颈决定了数据集大小以及迭代执行次数。除了祈求谷歌开放资源上限,我们还有如下优化手段来解决这个问题。 创建中间表和多个 SQL 语句有助于增加迭代数。...如果感兴趣,你可以看看这个 BigQuery 用户自定义函数服务模型项目(但是,无法使用 SQL 或者 UDFs 进行训练)。

2.2K50

如何用纯SQL查询语句可以实现神经网络?

这些神经网络训练步骤包含前向传播和反向传播,将在 BigQuery 单个SQL查询语句中实现。当它在 BigQuery 中运行时,实际上我们正在成百上千台服务器上进行分布式神经网络训练。...也就是说,这个有趣项目用于测试 SQLBigQuery 限制,同时从声明性数据角度看待神经网络训练。这个项目没有考虑任何实际应用,不过最后我将讨论一些实际研究意义。...BigQuery 标准 SQL 扩展缩放性比传统 SQL 语言要好。即使是标准 SQL 查询,对于有 100k 个实例数据集,也很难执行超过 10 个迭代。...如你所见,资源瓶颈决定了数据集大小以及迭代执行次数。除了祈求谷歌开放资源上限,我们还有如下优化手段来解决这个问题。 创建中间表和多个 SQL 语句有助于增加迭代数。...如果感兴趣,你可以看看这个 BigQuery 用户自定义函数服务模型项目(但是,无法使用 SQL 或者 UDFs 进行训练)。

2.9K30

安装Google Analytics 4 后十大必要设置

增强型衡量功能 增强型衡量里有一些事件,是需要勾选就可以开启这个事件跟踪: 页面浏览量:页面流量,这个是跟踪基础,必选 滚动次数:下拉,用事件监测页面的浏览深度,可选 出站点击次数:出站链接点击,...数据保留 数据保留时间对探索会有影响,探索里能选择最大时间范围就是你设置保留时间,如果你没有设置,GA4里数据保留默认是2个月,探索里最多可以对最近两个月数据做分析,所以,一定要将数据保留事件设置为最长时间...关联Google站长工具 关联后才会有自然搜索数据,延伸阅读:安装GSC谷歌站长工具 5 种方法 关联BigQuery 关联BigQuery,可以获得两个好处: 获取原始数据,很多人都想获得...GA4原始数据,可以通过关联导出到BigQuery方式获取原始数据。...获得实时数据,GA4里实时报告值显示过去30分钟数据,而且维度很有限,在BigQuery,采用流式导出,你可以获得真正实时数据。

11310

Apache Hudi 0.11.0版本重磅发布!

数据跳过支持标准函数(以及一些常用表达式),允许您将常用标准转换应用于查询过滤器中列原始数据。...• 当使用标准 Record Payload 实现时(例如,OverwriteWithLatestAvroPayload),MOR 表只会在查询引用列之上获取严格必要列(主键、预合并键),从而大大减少对数据吞吐量浪费以及用于解压缩计算并对数据进行解码...有关使用更新,请参阅迁移指南[7]。...请参阅 BigQuery 集成指南页面[9]了解更多详情。 注意:这是一项实验性功能,仅适用于 hive 样式分区 Copy-On-Write 表。...HiveSchemaProvider 在 0.11.0 中,添加了org.apache.hudi.utilities.schema.HiveSchemaProvider用于从用户定义Hive表中获取Schema

3.5K40

ClickHouse 提升数据效能

3.为什么选择 ClickHouse 获取 Google Analytics 数据 虽然 ClickHouse 对我们来说是显而易见选择,但作为一项测试活动,它实际上也是用于网络分析数据库...作为一个支持SQL实时数据仓库,ClickHouse提供了我们所需要查询灵活性。几乎我们所有的查询都可以轻松地表示为 SQL。...我们每小时导出最后 60 分钟数据。不过,我们偏移了此窗口,以允许事件可能出现延迟并出现BigQuery 中。虽然通常不会超过 4 分钟,但为了安全起见,我们使用 15 分钟。...Cloud Scheduler)或使用最近发布 S3Queue 表引擎来重现上述Schema。...7.查询 将所有数据转移到 Clickhouse 主要问题之一是能否从 Google 在导出中提供原始数据复制 Google Analytics 提供指标。

24610
领券