首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不用 SQL数据仓库

当前绝大部分数据仓库都会采用 SQLSQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。...但是,在当代大数据背景下,业务复杂度节节攀升,在以计算为主要任务的数据仓库场景下,SQL 似乎越来越不够用了。...典型表现是一些数据仓库开始集成 Python 的能力,将 Python 这样的非 SQL 语言融入到数据仓库中。...我们这里要介绍一种非 SQL数据仓库 esProc,由于没有使用 SQL 作为查询语言(而是 SPL),可以暂且将其看成一种新型数据仓库。 为什么 esProc 不再使用 SQL 了呢?...接下来我们来看看非 SQL 数据仓库 esProc 的能力,会有哪些不同。 esProc SPL esProc 数据仓库的形式化语言是 SPL,并没有使用业界普遍采用的 SQL

17220

不用 SQL 的开源数据仓库

当前绝大部分数据仓库都会采用 SQLSQL 发展了几十年已经成为数据库界的标准语言,用户量巨大,所以支持 SQL 对于数据仓库来讲也是很正常的。...但是,在当代大数据背景下,业务复杂度节节攀升,在以计算为主要任务的数据仓库场景下,SQL 似乎越来越不够用了。...典型表现是一些数据仓库开始集成 Python 的能力,将 Python 这样的非 SQL 语言融入到数据仓库中。...我们这里要介绍一种非 SQL数据仓库 esProc,由于没有使用 SQL 作为查询语言(而是 SPL),可以暂且将其看成一种新型数据仓库。...接下来我们来看看非 SQL 数据仓库 esProc 的能力,会有哪些不同。 esProc SPL esProc 数据仓库的形式化语言是 SPL,并没有使用业界普遍采用的 SQL

17620
您找到你想要的搜索结果了吗?
是的
没有找到

数据仓库开发 SQL 使用技巧总结

作者:dcguo 使用 sql 做数仓开发有一段时间了,现做一下梳理复盘,主要内容包括 sql 语法、特性、函数、优化、特殊业务表实现等。...hive: sql 解析引擎,将 sql 转译成 map/reduce job 然后再 hadoop 执行,相当于 hadoop 的客户端工具。...sql\spark sql\其他场景 优化 列表优化 列表中涉及的业务信息表,用户信息表全部都是大表,列表性能很差,短期内想分表需要改的业务太多,急需提高整体合同列表的性能。...定时任务同时写多个相同类型的 sql,减少任务量,也可以把同类型任务归类。...主要包含三部分 sql 即可: 日子任务 周子任务 月子任务 如果不是每周一,则 sql 跳过周任务,如果不是每月一号,则 sql 跳过月任务。

3K30

部署RDS 服务

前言:了解RDS服务和相关配置以及原理。 目录 一.什么是RDS 二.部署RDS 服务       1. 微软公司的 RDS 远程桌面服务:      2....RDS 采用 c/s 模式 三.远程数据服务   四.部署windows RDS 服务 1.部署条件  2.部署类型 3.部署方案  4.角色服务 五.配置 RDS 六.安装步骤 ---- 一.什么是RDS...在RDS 服务器上集中部署应用程序,以虚拟化的方式为用户提供访问,而用户端不需要安装          任何应用程序      2. RDS 采用 c/s 模式 C/S分布式模式,是计算机用语。...1RDS 采用 c/s 模式,RDS 的终端, 连接RDS 服务器的用户端设备             2从键盘或者鼠标接受用户输入,将这些输入发动给RDS 服务器             3主机处理用户的输入...1.部署条件 Active Directory是部署Windows RDS服务的必要条件 客户机与RDS服务器加入同一域中 条件 DC 域环境, 安装并配置了 CA 证书服务 选择 远程桌面服务安装和配置

18.3K30

【沙龙干货】RDS平台介绍

首先是背景,我们为什么要做RDS,在做RDS之前其实我们也有一套自己的自动化系统,可是我们有了这套自动化系统我们发现有了之后我们DBA还是很忙,每天忙于工单处理,大表DDL,集群搭建,扩容,数据迁移等等...然后是RDS主体部分,主要由RDS主程序和、动态配置管理中心Lion,数据迁移工具Puma和数据访问层中间件zebra组成,其中zebra中间件是一个基于jdbc的数据库动态链接池。...RDS系统实现了DBA的一键集群搭建,扩容/缩容,备份还原,流量控制,动态迁库/拆库,以及单表拆分等功能。我们主要来看看动态数据迁移。 ?...其中对于锁表,我们必须在一个事务中进行lock tables,数据一致性校验我们采用官方的checksum算法来check每张表的最后1000条数据(1000是我们的一个经验值),然后针对迁移过程中被阻塞的sql

7.2K40

SQL Server数据仓库的基础架构规划

问题 SQL Server数据仓库具有自己的特征和行为属性,有别去其他。从这个意义上说,数据仓库基础架构规划需要与标准SQL Server OLTP数据库系统的规划不同。...在本文中,我们将介绍在计划数据仓库时应该考虑的一些事项。 解决 SQL Server 数据仓库系统参数 数据仓库本身有自己的参数,因此每个数据仓库系统都有自己独特的特性。...负载类型 在分析数据仓库的容量之后,下一步是分析数据仓库的工作负载。数据仓库的典型工作负载是ETL、数据模型和报告。...例如,对于SQL Server SSAS多维数据集,SSAS 扁平数据集,同时对于Oracle, Hyperion数据集是可用的。在这个层中,数据将从数据仓库读取并处理到数据模型层。...此外,还有一些选项,如报表平台中的数据驱动订阅和标准订阅,特别是在SQL Server reporting Services (SSRS)的情况下。

1.8K10

基于Hadoop生态圈的数据仓库实践 —— 进阶技术(十一)

这之后数据仓库模式就有了两个事实表(第一个是在开始建立数据仓库时创建的sales_order_fact表)。有了这两个事实表的数据仓库就是一个标准的双星型模式。...本节将在现有的维度数据仓库上再增加一个新的星型结构。与现有的与销售关联的星型结构不同,新的星型结构关注的是产品业务领域。新的星型结构有一个事实表和一个维度表,用于存储数据仓库中的产品数据。 1....一个新的星型模式 下图显示了扩展后的数据仓库模式。 ? 模式中有三个星型结构。...,新建一个set_time.sql脚本,内容如下。...SELECT last_load, ${hivevar:cur_date} FROM rds.cdc_time; 新建regular_etl_daily_production.sql

46010

基于Hadoop生态圈的数据仓库实践 —— ETL(二)

Hive简介 (1)Hive是什么 Hive是一个数据仓库软件,使用SQL读、写、管理分布式存储上的大数据集。...它建立在Hadoop之上,具有以下功能和特点: 通过SQL方便地访问数据,适合执行ETL、报表、数据分析等数据仓库任务。 提供一种机制,给各种各样的数据格式加上结构。...Hive提供标准的SQL功能,包括2003以后的标准和2011标准中的分析特性。...初始装载 在数据仓库可以使用前,需要装载历史数据。这些历史数据是导入进数据仓库的第一个数据集合。首次装载被称为初始装载,一般是一次性工作。由最终用户来决定有多少历史数据进入数据仓库。...源数据 RDS 数据仓库 抽取模式 维度历史装载类型 customer customer customer_dim 整体、拉取 address列上SCD2 name列上SCD1 product product

2.1K20

容器化RDS|调度策略

沃趣科技 熊中哲·联合创始人/产品研发团队总监 前文我们介绍了基于 Kubernetes 实现的下一代私有 RDS....其中, 调度策略是具体实现时至关重要的一环, 它关系到 RDS 集群的服务质量和部署密度. 那么, RDS 需要怎样的调度策略呢?...PS : 里面还转门介绍了基于 CPI (Cycles Per Instruction)测量资源利用率的方式 AWS RDS 再看看公有云的领头羊, AWS 是这样描述其 RDS 产品的: 可见,...举个例子, RDS 集群有两个节点, 用户向 RDS 申请 2颗CPU和4GB内存 以创建 MySQL实例, 两节点资源使用情况如下: 节点名称 已用/总体(CPU核数) 已用/总体(内存) Node...与此同时, 容器的运行状态和RDS集群还在动态变化 因 Failover 迁移到其他节点 RDS 集群 Scale Out 首先, 我们将一系列的具体的业务需求抽象成 : 亲和性(Affinity

16.3K100

基于Hadoop生态圈的数据仓库实践 —— 进阶技术(二)

所谓“按需装载”指的是,在正常调度之外,当源数据有效或者数据仓库需要时进行装载。例如,促销销售源数据只有在促销期内有效,而在其它时间是无效的,而对促销期数据就要进行按需装载。...在“建立数据仓库示例模型”中讨论的日期维度数据生成可以看做是一种按需装载。数据仓库预先装载了日期,当日期用完时,需要再次运行预装载。...示例假设只需要装载新的促销期数据,而在数据仓库中不需要促销期的历史数据。...修改数据库模式 使用下面的SQL脚本修改源数据库模式。...--hive-overwrite # 调用 on_demand.sql 文件执行按需装载 beeline -u jdbc:hive2://cdh2:10000/dw -f on_demand.sql

54610

容器化RDS|调度策略

其中,调度策略是具体实现时至关重要的一环,它关系到RDS 集群的服务质量和部署密度。那么,RDS 需要怎样的调度策略呢?本文通过数据库的视角结合Kubernetes的源码,分享一下我的理解。...AWS RDS 再看看公有云的领头羊, AWS是这样描述其RDS产品的: ?...举个例子,RDS集群有两个节点,用户向RDS申请 2颗CPU和4GB内存 以创建 MySQL实例,两节点资源使用情况如下: ? 在资源同时满足的情况下,调度会通过两个公式对节点打分。...带有明显的业务(RDS)特点,原生Kuberentes的调度策略并不能识别这些角色和关系。 与此同时,容器的运行状态和RDS集群还在动态变化: ? 因 Failover迁移到其他节点 ?...结 语 本文仅以RDS的视角,从三个层级讲述了对调度器的要求。

4.8K20

容器化RDS|调度策略

导 语 前文数据库容器化|未来已来我们介绍了基于Kubernetes实现的下一代私有 RDS。其中,调度策略是具体实现时至关重要的一环,它关系到RDS 集群的服务质量和部署密度。...AWS RDS 再看看公有云的领头羊, AWS是这样描述其RDS产品的: ?...举个例子,RDS集群有两个节点,用户向RDS申请 2颗CPU和4GB内存 以创建 MySQL实例,两节点资源使用情况如下: ? 在资源同时满足的情况下,调度会通过两个公式对节点打分。...带有明显的业务(RDS)特点,原生Kuberentes的调度策略并不能识别这些角色和关系。 与此同时,容器的运行状态和RDS集群还在动态变化: ? 因 Failover迁移到其他节点 ?...结 语 本文仅以RDS的视角,从三个层级讲述了对调度器的要求。

6.6K100

RDS表更新数据恢复

收到公司产品人员消息,让我恢复一个表的数据 通过了解系统是公司很多年前的一个老系统,面向美国用户的,数据库是阿里云的rds 所在区为美国弗吉尼亚mysql版本为5.6,产品在update操作时候字段名称写错了...tab_xxxx set imgxx=REPLACE(zip_linkxx,"aaa","bbb.com") where img like "%bbb.bb%" 找操作人员询问了执行的语句,执行的大概时间点,要到rds...30G下载就需要很长时间了) 3.第三种方法远程获取binlog日志 mysqlbinlog --read-from-remote-server 远程获取Binlog日志 通过客户端连接实例,执行如下SQL...5.6.40-linux-glibc2.12-x86_64/bin/mysqlbinlog -vv --base64-output=DECODE-ROWS mysql-bin.001120 > 1120.sql.../bin/mysqlbinlog -uxxx -p'xxx' -h'xx.xx.xx.xx' -vv --read-from-remote-server mysql-bin.001120 > ww.sql

6.2K101

OushuDB入门(四)——数仓架构篇

抽取过程负责从操作型系统获取数据,该过程一般不做数据聚合和汇总,物理上是将操作型系统的数据全量或增量复制到数据仓库系统的RDS中。...本例中的RDS使用OushuDB的ORC外部表。 TDS(TRANSFORMED DATA STORES)意为转换后的数据存储。这里存储真正的数据仓库中的数据。...这样当新执行器不支持所要执行的SQL语句时,自动使用老执行器,而不是报错并终止执行。 3. 创建数据库用户 (1)用gpadmin连接OushuDB,建立用户dwtest,授予建库权限。...创建源库对象并生成测试数据 (1)执行下面的SQL语句在MySQL中建立源数据库表。...references product (product_code) on delete cascade on update cascade ); (2)执行下面的SQL

99210

关于数据仓库中复杂报表SQL语句的写法

数据仓库的基本报表制作过程中,通常会使用SQL作为数据源,可是普通的SQL实在不适合处理一些较为复杂的逻辑判断;一般而言,待查询的数据类型主要包括日期型、数字型、字符串这三类数据类型;在报表查询界面前段...当然是针对这些未输入的字段提供一些缺省值了,例如某个数字类型的字段未输入,则赋一个缺省值-1,某个字符串字段未输入,则赋一个缺省值为’ ‘,某个日期未输入,则赋一个缺省值为SYSDATE;这个时候只要在SQL...当然当更加复杂的查询逻辑实在不适合用SQL处理时,最好选择使用存储过程的方法了;其次过于复杂的SQL可能会带来数据库性能问题,因此这些基于SQL的报表最好不要在大型数据表上操作。

50820
领券