数据社

66 篇文章
9 人订阅

全部文章

数据社

浅谈数仓一致性维度

维度建模的数据仓库中,有一个概念叫Conformed Dimension,中文一般翻译为“一致性维度”。一致性维度是Kimball的多维体系结构中的三个关键性概...

4810
数据社

面试,HBase如何设计rowkey

HBase中的rowkey是按字典顺序排序的,通过rowkey查询可以对千万级的数据实现毫秒级响应。然而,如果rowkey设计不合理的话经常会出现一个很普遍的问...

3210
数据社

为什么要学 Flink,Flink 香在哪?

知道大数据的同学也应该知道 Flink 吧,最近在中国的热度比较高,在社区的推动下,Flink 技术栈在越来越多的公司开始得到应用。

8640
数据社

数据分析必备——统计学入门基础知识

导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据...

7820
数据社

收藏|Flink比Spark好在哪?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台...

7740
数据社

数据和业务的关系是什么?

数据和业务的关系,没有固定形态,就如兵无常势、水无常形。这和公司大boss的风格、业务boss的风格、数据boss的风格、公司组织架构紧密相关。

8210
数据社

用户行为分之数据处理

上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。

10420
数据社

用户行为分析之数据采集

用户行为分析主要关心的指标可以概括如下:哪个用户在什么时候做了什么操作在哪里做了什么操作,为什么要做这些操作,通过什么方式,用了多长时间等问题,总结出来就是WH...

12431
数据社

大数据集群迁移的那一夜是怎么过的|回忆录

大数据集群迁移这件事,不知道有多少同学做过(反正我是第一次)。我说的不是简单的把一个集群的数据拷贝到另一个集群上,我指的是整个数据处理平台与相关的前台业务的迁移...

6831
数据社

Hive SQL使用过程中的奇怪现象|避坑指南

hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据...

7021
数据社

Hive改表结构的两个坑|避坑指南

Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇...

5821
数据社

收藏|如何做一个好的大数据平台架构

Lambda架构背后的需求是由于MR架构的延迟问题。MR虽然实现了分布式、可扩展数据处理系统的目的,但是在处理数据时延迟比较严重。实际上如果内存和CPU足够强大...

9050
数据社

从0到1搭建自助分析平台

自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,...

8720
数据社

内含面试|一文搞懂HBase的基本原理

温馨提示:本文内容较长,如果觉得有用,建议收藏。另外记得分享、点赞、在看,素质三连哦!

8720
数据社

Kafka实战宝典:Kafka的控制器controller详解

控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kaf...

8410
数据社

建议收藏!浅谈OLAP系统核心技术点

OLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有的OLAP中...

8910
数据社

数据驱动业务增长的底层逻辑2.0

漫漫人生路,向左,向右,方向心已确定,只是等车来,不管前行有多难,只要怀揣梦想,终能到达心所想的目的地。数据之路,与你同行!——数据说·梦想季

3700
数据社

推荐一款可视化+NoteBook工具

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

10260
数据社

基于CDH(Cloudera Distribution Hadoop)的大数据平台搭建

“Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloude...

9930
数据社

从0到1搭建大数据平台之计算存储系统

前面已经给大家讲了《从0到1搭建大数据平台之数据采集系统》、《从0到1搭建大数据平台之调度系统》,今天给大家讲一下大数据平台计算存储系统。大数据计算平台目前主要...

10130

扫码关注云+社区

领取腾讯云代金券