数据社

63 篇文章
9 人订阅

全部文章

WindyQin

数据分析必备——统计学入门基础知识

导读:要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据...

6720
WindyQin

收藏|Flink比Spark好在哪?

Flink 是一个面向分布式数据流处理和批量数据处理的开源计算平台。和 Spark 类似,两者都希望提供一个统一功能的计算平台给用户,都在尝试建立一个统一的平台...

6240
WindyQin

数据和业务的关系是什么?

数据和业务的关系,没有固定形态,就如兵无常势、水无常形。这和公司大boss的风格、业务boss的风格、数据boss的风格、公司组织架构紧密相关。

7210
WindyQin

用户行为分之数据处理

上一篇《用户行为分析之数据采集》我们说了用户行为分析的数据采集部分,同时也对用户行为分析做了简单的介绍,本篇我们来说一下用户行为分析的数据处理部分。

8920
WindyQin

用户行为分析之数据采集

用户行为分析主要关心的指标可以概括如下:哪个用户在什么时候做了什么操作在哪里做了什么操作,为什么要做这些操作,通过什么方式,用了多长时间等问题,总结出来就是WH...

7720
WindyQin

大数据集群迁移的那一夜是怎么过的|回忆录

大数据集群迁移这件事,不知道有多少同学做过(反正我是第一次)。我说的不是简单的把一个集群的数据拷贝到另一个集群上,我指的是整个数据处理平台与相关的前台业务的迁移...

5710
WindyQin

Hive SQL使用过程中的奇怪现象|避坑指南

hive是基于Hadoop的一个数据仓库工具,用来进行数据的ETL,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive能将结构化的数据...

5410
WindyQin

Hive改表结构的两个坑|避坑指南

Hive在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于Hive搭建的,在使用Hive时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇...

5010
WindyQin

收藏|如何做一个好的大数据平台架构

Lambda架构背后的需求是由于MR架构的延迟问题。MR虽然实现了分布式、可扩展数据处理系统的目的,但是在处理数据时延迟比较严重。实际上如果内存和CPU足够强大...

8350
WindyQin

从0到1搭建自助分析平台

自助分析平台是构建在大数据平台之上的,依托于大数据平台的数据研发能力,通过统一的数据服务,实现对数据查询、分析的统一管理,为企业业务分析提供高效的数据决策支持,...

7620
WindyQin

内含面试|一文搞懂HBase的基本原理

温馨提示:本文内容较长,如果觉得有用,建议收藏。另外记得分享、点赞、在看,素质三连哦!

6720
WindyQin

Kafka实战宝典:Kafka的控制器controller详解

控制器组件(Controller),是 Apache Kafka 的核心组件。它的主要作用是在 Apache ZooKeeper 的帮助下管理和协调整个 Kaf...

7010
WindyQin

建议收藏!浅谈OLAP系统核心技术点

OLAP系统广泛应用于BI、Reporting、Ad-hoc、ETL数仓分析等场景,本文主要从体系化的角度来分析OLAP系统的核心技术点,从业界已有的OLAP中...

6310
WindyQin

数据驱动业务增长的底层逻辑2.0

漫漫人生路,向左,向右,方向心已确定,只是等车来,不管前行有多难,只要怀揣梦想,终能到达心所想的目的地。数据之路,与你同行!——数据说·梦想季

3100
WindyQin

推荐一款可视化+NoteBook工具

Apache Zeppelin是一个让交互式数据分析变得可行的基于网页的开源框架。Zeppelin提供了数据分析、数据可视化等功能。

8460
WindyQin

基于CDH(Cloudera Distribution Hadoop)的大数据平台搭建

“Apache Hadoop存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,CDH是Hadoop商业发行版之一,本文介绍基于Cloude...

8930
WindyQin

从0到1搭建大数据平台之计算存储系统

前面已经给大家讲了《从0到1搭建大数据平台之数据采集系统》、《从0到1搭建大数据平台之调度系统》,今天给大家讲一下大数据平台计算存储系统。大数据计算平台目前主要...

8030
WindyQin

从0到1搭建大数据平台之调度系统

记得第一次参与大数据平台从无到有的搭建,最开始任务调度就是用的Crontab,分时日月周,各种任务脚本配置在一台主机上。crontab 使用非常方便,配置也很简...

17920
WindyQin

Flink 1.11:更好用的流批一体 SQL 引擎

许多的数据科学家,分析师和 BI 用户依赖交互式 SQL 查询分析数据。Flink SQL 是 Flink 的核心模块之一。作为一个分布式的 SQL 查询引擎。...

8210
WindyQin

从0到1搭建大数据平台之数据采集系统

当你需要搭建大数据平台的时候一定是传统的关系型数据库无法满足业务的存储计算要求了,所以首先我们面临的是海量的数据。

10430

扫码关注云+社区

领取腾讯云代金券