mysql能建数据仓库_mysql能建视图_mysql 能建多少表 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

hive核心基本概念

基于 Hadoop 的一个数据仓库工具： hive本身不提供数据存储功能，使用HDFS做数据存储， hive也不分布式计算框架，hive的核心工作就是把sql语句翻译成MR程序 hive也不提供资源调度系统，也是默认由Hadoop当中YARN集群来调度可以将结构化的数据映射为一张数据库表，并提供 HQL(Hive SQL)查询功能

03

Python量化数据仓库搭建系列1：数据库安装与操作

本系列教程为量化开发者，提供本地量化金融数据仓库的搭建教程与全套源代码。我们以恒有数(UDATA)金融数据社区为数据源，将金融基础数据落到本地数据库。教程提供全套源代码，包括历史数据下载与增量数据更新，数据更新任务部署与日常监控等操作。

00

您找到你想要的搜索结果了吗？

是的

没有找到

不建数据仓库企业能不能做好数字化转型？

前几天在数据产品经理的群里，有朋友提问“没有数仓，没有数据建模可以做好BI吗”，今天把问题打开一下，不建设数仓，企业能做好数字化转型吗？

01

Hive初体验

Hive：由Facebook开源用于解决海量结构化日志的数据统计。 Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序

02

一个接口查询关联了十几张表，响应速度太慢？那就提前把它们整合到一起

说到ETL，很多开发伙伴可能会有些陌生，更多的时候 ETL 是用在大数据、数据分析的相关岗位；我也是在近几年的工作过程中才接触到ETL的，现在的项目比较依赖 ETL，可以说是项目中重要的一部分。

03

数仓设计和规范—数仓背景知识

数据仓库（Data Warehouse, DW）是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合，用于对管理决策过程的支持。业界主要从两个方面来进行命名：

00

五个小技巧告诉你如何保护MySQL数据仓库

汇总各种来源的数据，可以创建一个中央仓库。通过分析和汇总业务数据报告，数据仓库能够帮助企业做出明智、战略性的决策分析。虽然数据仓库提供了许多便利，但是把这些敏感数据收集到一个单独系统，会给数据仓库带来安全问题。如果选择使用数据仓库，企业需要考虑如何更好地保护内部信息系统。任何数仓安全方面的妥协都会给入侵者或网络罪犯以可乘之机，造成销售、营销、客户信息等业务数据的毁坏泄露。今年爆发的WannaCry勒索软件事件也表明了这一点，现代企业需要严格规避数据犯罪。在数据仓库中，最常见的数据库管理系统应该是开源My

07

企业上商业智能BI前要建数据仓库吗？

大家都知道，企业要做数据分析，商业智能BI和数据仓库二者缺一不可。许多人在疑惑，我的数据仓库还没有建立起来，怎么做商业智能BI呢？真得在做商业智能BI之前先建数据仓库吗？

03

一篇文章搞懂数据仓库：数据仓库的8个发展阶段

数据仓库最早的概念可以追溯到20世纪70年代MIT的一项研究，该研究致力于开发一种优化的技术架构并提出这些架构的指导性意见。第一次，MIT的研究员将业务系统和分析系统分开，将业务处理和分析处理分成不同的层次，并采用单独的数据存储和完全不同的设计准则。同时，MIT的研究成果与80年代提出的信息中心（InformationCenter）相吻合：即把那些新出现的、不可以预测的、但是大量存在的分析型的负载从业务处理系统中剥离出来。但是限于当时的信息处理和数据存储能力，该研究只是确立了一个论点：这两种信息处理的方式差别如此之大，以至于它们只能采用完全不同的架构和设计方法。

03

Tapdata Cloud 场景通关系列：数据入湖仓之 MySQL → Doris，极简架构，更实时、更简便

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata Cloud 自去年发布云版公测以来，吸引了近万名用户的注册使用。应社区用户上生产系统的要求，Tapdata Cloud 3.0 将正式推出商业版服务，提供对生产系统的 SLA 支撑。Tapdata 目前专注在实时数据同步和集成领域，核心场景包括以下几大类： √ 实时数据库同步，如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等 √ 数据入湖入仓，或者为现代数据平台供数，如： △ 常规 ETL 任务（建宽表、数据清洗、脱敏等） △ 为 Kafka/MQ/Bitsflow 供数或下推

01

Greenplum 实时数据仓库实践（1）——数据仓库简介

对于每一种技术，先要理解相关的概念和它之所以出现的原因，这对于我们继续深入学习其技术细节大有裨益。实时数据仓库首先是个数据仓库，只是它优先考虑数据的时效性问题。因此本篇开头将介绍业界公认的数据仓库定义，它和操作型数据库应用的区别，以及为什么我们需要数据仓库。在对数据仓库的概念有了基本的认识后，有必要单独说明一下ETL这个最重要的过程，然后向读者介绍四种常见的数据仓库架构。本篇最后描述实时数据仓库的产生背景、特定需求和使用场景，并列举一些常见的实时数据仓库技术架构。

05

元数据概念

刘耀铭同学元数据系列作品的第一篇，大家支持！其他元数据相关系列文章：基于元数据驱动的ETL Hive 元数据表结构详解 1、元数据是描述其他数据的数据（data about other data）,用于提供某种资源有关信息的结构化数据（structed data）。字面上看无法看出所以然，但其实看对应的英文含义就明确了，Meta指“对······的描述”类似Meta tag，所以元数据就是对数据的解释和描述。 2、这里主要将数据仓库的元数据分为3类：DBMS数据字典、ETL处理流程产生的日志、BI

盘点丨12款数据库建模工具特点，总有一款适合你！

墨墨导读：数据库建模是在软件设计当中必不可少的环节，数据库建得怎么样，关系到以后整个系统的扩展、性能方面的优化以及后期的维护。正确而连贯的数据流可以对商业用户做出快速、灵活的决策起到决定性的作用。所以，建立正确的数据流和数据结构才能保证最好的结果。我们总结了12款数据库的建模工具，希望可以对数据库从业者提供一些帮助！

02

四、数据仓库和Hive环境搭建

上次介绍了HDFS，本来想进入Mapreduce，但感觉Mapreduce基本废弃，于是直接进入了Hive中来。

03

Kettle构建Hadoop ETL实践（四）：建立ETL示例模型

从本篇开始，介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例，说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介绍一个小而典型的销售订单示例，描述业务场景，说明示例中包含的实体和关系，并在MySQL数据库上建立源数据库表并生成初始的数据。我们要在Hive中创建源数据过渡区和数据仓库的表，因此需要了解与Hive创建表相关的技术问题，包括使用Hive建立传统多维数据仓库时，如何选择适当的文件格式，Hive支持哪些表类型，向不同类型的表中装载数据时具有哪些不同特性。我们将以实验的方式对这些问题加以说明。在此基础上，我们就可以编写Hive的HiveQL脚本，建立过渡区和数据仓库中的表。本篇最后会说明日期维度的数据装载方式及其Kettle实现。

01

大数据分析需要把hbase、mysql等数据导入hive吗？

看做什么，如果不需要对数据进行实时处理，那么大部分情况下都需要把数据从hbase/mysql（数据库）“导入”到hive（数据仓库）中进行分析。“导入”的过程中会做一些元数据转换等操作。相关知识如下数据仓库的几个概念 http://www.ppvke.com/Blog/archives/27862 什么是OLTP？联机事务处理系统(OLTP)，也称为面向交易的处理系统，其基本特征是顾客的原始数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果。也称为实时系统(Real time S

05

知识分享：详解Hadoop核心架构

通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。　　通过这一阶段的调研总结，从内部机理的角度详细分析，HDFS、MapReduce、Hbase、Hive是如何运行，以及基于Hadoop数据仓库的构建和分布式数据库内部具体实现。如有不足，后续及时修改。 HDFS的体系架构　　整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持，并通过

05

OushuDB入门（四）——数仓架构篇

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/80269362

01

数据仓库(02)数仓、大数据与传统数据库的区别

数据仓库（数仓）与大数据区别，数据仓库（数仓）与数据库的区别，大数据与传统数据库的区别等等，这篇文章带你了解。

02

数据仓库系列之维度建模

上一篇文章我已经简单介绍了数据分析中为啥要建立数据仓库，从本周开始我们开始一起学习数据仓库。学习数据仓库，你一定会了解到两个人：数据仓库之父比尔·恩门（Bill Inmon）和数据仓库权威专家Ralph Kimball。Inmon和Kimball两种DW架构支撑了数据仓库以及商业智能近二十年的发展，其中Inmon主张自上而下的架构，不同的OLTP数据集中到面向主题、集成的、不易失的和时间变化的结构中，用于以后的分析;且数据可以通过下钻到最细层，或者上卷到汇总层;数据集市应该是数据仓库的子集;每个数据集市是针对独立部门特殊设计的。而Kimball正好与Inmon相反，Kimball架构是一种自下而上的架构，它认为数据仓库是一系列数据集市的集合。企业可以通过一系列维数相同的数据集市递增地构建数据仓库，通过使用一致的维度，能够共同看到不同数据集市中的信息，这表示它们拥有公共定义的元素。

03

关于 HTAP 数据库应用场景的一些想法

昨天发了一篇文章讨论的是关系型数据库的变化数据如何同步到数据仓库层面，类似于 MySQL 的 binlog 日志同步到数据仓库进行 OLAP 分析。OLTP环境下的数据库数据同步到OLAP环境下的数据仓库，解决方案逃不过三种类型:

02

大数据时代，传统数据仓库技术是否已经过时？

内容来源：2017 年 10 月 21 日，深奇智慧联合创始人高扬在“PostgreSQL 2017中国技术大会”进行《基于Greenplum,postgreSQL的大型数据仓库实践》演讲分享。IT 大咖说（微信id：itdakashuo）作为独家视频合作方，经主办方和讲者审阅授权发布。

03

1000倍！ClickHouse存储A股数据实践

量化回测，苦于MySQL久矣，特别是进行股票日内因子构建分析或全市场因子测试的时候，每当按下回车时，MySQL就跟丢了魂一样，查询费时，大吞吐量读取也非常耗时。虽然MySQL的优化技巧足够写一本书，但这些都需要交给专业的DB工程师去做，量化打工人没有能力更没有时间倒腾这些。那有没有省时省力，高效存储股票行情数据的解决办法呢。带着这个问题，编辑部简单的搜索了一下，总体分为几个方案：

03

「经验」站在数据分析师角度，浅谈数据仓库需要掌握到的程度！

阅读建议：本篇站在数据分析师角度，和大家谈谈工作中涉及到的数仓知识点，内容不难理解，对于初学者来说比较友好。

02

数据百问系列：数据库和数据仓库的区别是什么？

最近群里很多小伙伴都问了数据库和数据仓库的区别是什么，因此将之前写过的文章给大家再分享一遍。

05

[原创]-数据仓库ETL开发

ETL是数据仓库的后台，主要包含抽取、清洗、规范化、提交四个步骤，传统数据仓库一般分为四层模型。

03

HAWQ取代传统数仓实践（二）——搭建示例模型（MySQL、HAWQ）

本文通过分析2023年5月15日的腾讯财报数据，从多个方面揭示了腾讯在2023年5月15日所呈现的财务、经营和战略状况。

08

用 Apache Doris 替换 Apache Hive、Elasticsearch 和 PostgreSQL

简单是最好的策略。数据服务公司如何构建数据仓库？我曾担任一家平台的实时计算工程师，该平台旨在允许用户搜索公司的业务数据、财务和法律详细信息。已采集300多个维度、3亿+实体信息。我和我的同事的职责是确保这些数据的实时更新，以便我们能够为我们的注册用户提供最新的信息。这就是我们数据仓库面向客户的功能。除此之外，它还需要支持我们内部营销和运营团队的临时查询和用户细分，这是随着我们业务的增长而出现的新需求。

02

大数据时代，传统数据仓库技术是否已经过时？

传统的数据仓库架构一般有由源系统、ODS、EDW、Data Mart几部分组成。源系统就是业务系统、管理系统、办公系统等等；ODS是操作数据存储；EDW是企业级数据仓库，Data Mart是数据集市。

03

有赞数据仓库元数据系统实践

在有赞大数据平台发展初期，业务量不大，开发者对业务完全熟悉，从 ETL 到统计分析都可以轻松搞定，当时没有想过要做一个元数据系统。

02

数据仓库建模方法详解视频_三维建模流程步骤

范式建模法其实是我们在构建数据模型常用的一个方法，该方法的主要由Inmon所提倡，主要解决关系型数据库得数据存储，利用的一种技术层面上的方法，主要用于业务系统，所以范式建模主要是利用关系型数据库进行数仓建设

02

ETL工具算法构建企业级数据仓库五步法

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。

01

候选人被我这些数仓面试题问懵逼了

4). 数仓架构分层：一般分为操作数据层（ODS）、公共维度模型层（CDM）和应用数据层（ADS）,其中公共维度模型层包括明细数据层（DWD和汇总数据层（DWS）

02

万字长文带你了解ETL和数据建模～

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程

01

从生命周期的角度来规划数据库运维体系

最近在和团队规划OKR目标的时候，我们讨论了很多问题，我先抛砖引玉，列举了一些现有的问题，打算按照推导的方式：

01

ETL和数据建模

ETL是数据抽取（Extract）、转换（Transform）、加载（Load ）的简写，它是将OLTP系统中的数据经过抽取，并将不同数据源的数据进行转换、整合，得出一致性的数据，然后加载到数据仓库中。简而言之ETL是完成从 OLTP系统到OLAP系统的过程。

02

干货笔记，数据仓库工具箱

《数据仓库工具箱—维度建模的完全指南》是数据仓库建模方面的经典著作， 1996年第一版出版被认为是数据仓库方面具有里程碑意义的事件。作者kimballl是数据仓库方面的权威，他将多年的数据仓库建模实战经验、技巧融入本书。他提出的许多维度建模概念被广泛应用于数据仓库的设计和开发中。

03

常用数据库建模工具

收藏：http://www.oschina.net/project/tag/83/db-model

01

数据仓库中如何使用索引

数据仓库的索引是个棘手的问题。如果索引太多，数据插入很快但是查询响应就会很慢。如果太多索引，数据导入就很慢并且数据存储空间更大，但是查询响应更快。数据库中索引的作用就是加快查询速度，不论是传统数据库还是数据仓库。尤其是对于大数据量的表以及设计表连接的复杂查询。之前接触数据仓库比较少，这里只是介绍一点小经验。当然，在创建数据仓库索引的时候需要考虑一些参数比如数据仓库类型、维度表和事实表大小、是否分区、是否AD hoc等等。这些参数决定了你的索引结构。本篇主要介绍如何对数据仓库中的关系表建立索引，注意是在关系

07

维度模型数据仓库（一） —— 概述

最近看了三本关于数据仓库的书，很有收获，也很受启发。这三本书分别是《数据仓库工具箱（第三版）》、《Dimensional Data Warehousing with MySQL: A Tutorial》和《Pentaho Kettle解决方案》。在仔细研读了这三本书之后，感觉就像是一本书的三个层次。Ralph Kimball的经典著作数据仓库工具箱阐述的是维度建模方法论和按不同行业建模的示例。Dimensional Data Warehousing with MySQL在维度模型的基础上，用MySQL基本的SQL语句实现了各种常见场景下的ETL。而Kettle则是完全以Ralph Kimball提出的34个ETL子系统为理论基础开发出来的工具，以提供GUI的方式实现ETL。三本书的作者都是各自领域的杰出人物，是当之无愧的大神，内容的质量自不必说。但是也有些美中不足，比如工具箱这本书翻译的佶屈聱牙，让人颇为费解。Dimensional Data Warehousing with MySQL中有些错误，可能是印刷原因吧（此书没有中文版），有些按书中代码执行得不到想要的结果。倒是Kettle这本书，译者也是长期从事ETL开发的专业人员，不但翻译的通俗易懂，还适当添加了译者注，指出书中的一些过时的说法，至少对我来说受益匪浅。有了以上的这些体会，我自然而然地产生一种想法：把几本书中所讲内容用一个完整的示例系统地实验一遍，使用SQL和Kettle两种方式来实现。一来对维度建模方法加深一下印象，二来也是对前段学习的一个总结，三是作为以后做数据仓库相关工作的不时之需。这是第一阶段要做的事情，第二阶段准备用Data Vault模型再做一遍，研究一下这种较新的建模方法。内容组织：（一）维度模型基础（二）准备数据仓库模拟环境（三）初始装载（四）定期装载（五）进阶技术 1. 增加列 2. 按需装载 3. 维度子集 4. 角色扮演维度 5. 快照 6. 维度层次 7. 多路径和参差不齐的层次 8. 退化维度 9. 杂项维度 10. 多重星型模式 11. 间接数据源 12. 无事实的事实表 13. 迟到的事实 14. 维度合并 15. 累积的度量 16. 分段维度

02

数据库和数据仓库的区别与联系_大数据的四个特点

1.概念方面.数据库：是一种逻辑概念，用来存放数据的仓库。通过数据库软件来实现。数据库由很多表组成，表是二维的，一张表里可以有很多字段。字段一字排开，对应的数据就一行一行写入表中。数据库的表，在于能够用二维表现多维关系。目前市面上流行的数据库都是二维数据库。如：Oracle、DB2、MySQL、Sybase、MS SQL Server等。

01

数仓相关面试题

以阿里巴巴OneData建设为例：一般分为操作数据层（ODS：Operational Data Store）、公共维度模型层（CDM）和应用数据层（ADS）。其中公共维度模型层包括明细数据层（DWD和汇总数据层（DWS）。

03

用户画像系统架构——从零开始搭建实时用户画像(二)

在《什么的是用户画像》一文中，我们已经知道用户画像对于企业的巨大意义，当然也有着非常大实时难度。那么在用户画像的系统架构中都有哪些难度和重点要考虑的问题呢？

02

TiDB 到底有什么用？

如今硬件的性价比越来越高，网络传输速度越来越快，数据库分层的趋势逐渐显现，人们已经不再强求用一个解决方案来解决所有的存储问题，而是通过分层，让缓存与数据库负责各自擅长的业务场景。

02

2018数据库技术发展趋势

当前，正由IT时代进入DT时代，随着移动互联网、物联网的发展，企业正产生大量的数据，而数据的存储和组织离不开数据库技术，更多的公司意识到了数据能够为公司带来商业利益，于是如何管理和利用好数据已经变得越来越重要。

01

一文了解数据库和数据仓库

互联网已经高速发展了很多年，各大企业都根据自己的业务搭建了自己的门户网站，拥有自己的服务器，以及自己的用户。用户在对企业的服务进行交互访问时，用户给企业反馈的信息去哪里了？比如说我们最常见的注册信息，企业给到我们的资源从哪里来的？比如说最常见的商品列表。其实这些数据都存放在企业级的数据库当中，离开了数据库，在优秀的架构设计，在优秀的代码都是没有灵魂的。目前企业主流的数据一般分为关系型数据库和非关系型数据库，常见的关系型数据库：mysql,oracle,sqlserver等，常见的非关系型数据库：redis,hbase,mongodb等。数据库的存在，其主要作用是满足在用户和企业服务交互时，满足低时延的增删改查操作。

02

基于Hadoop生态圈的数据仓库实践 —— 环境搭建（三）

版权声明：本文为博主原创文章，未经博主允许不得转载。 https://blog.csdn.net/wzy0623/article/details/51783410

04

数据仓库建设之数仓架构

大家好，不管是离线数仓与实时数仓，建设的时候都少不了架构设计，今天来学习一下常见的架构及发展演变过程。

03

Hive简介

转载自http://www.cnblogs.com/sharpxiajun/archive/2013/06/02/3114180.html Hive简介　　首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性：　　1.hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的M

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭