数据社

66 篇文章
9 人订阅

全部文章

数据社

如何参与一个Apache开源项目

本文介绍如何参与Apache项目,从最初的user到contributer做起,目标成为commiter

11320
数据社

Kafka实战宝典:一文带解决Kafka常见故障处理

Kafka的bin目录下shell脚本是kafka自带的管理工具,提供topic的创建/删除/配置修改、消费者的监控、分区重载、集群健康监控、收发端TPS压测、...

9461413
数据社

Kafka实战宝典:监控利器kafka-eagle

该系统由《Kafka并不难学!入门、进阶、商业实战》的作者 smartloli 开发维护,很牛掰的一位大佬。参考官网:Kafka Eagle

14820
数据社

在郑州,你该买哪里的房子?

某次和领导吃饭,无意中提到了房子的话题,说了几句自己的心得经验(虽然没有再次实操的资本),却给领导留下了深深的印象(领导,你不是又要在郑州置业了吧)。

10740
数据社

kafka实战宝典:手动修改消费偏移量的两种方式

工作中遇到过消费端报错的问题:包括数据Invalid Message和Failed_to_UNcompress等报错信息,导致消费端的iterator损坏,直接...

23350
数据社

Kafka实战宝典:如何跨机房传输数据

MirrorMaker 为Kafka 内置的跨集群/机房数据复制工具,二进制包解压后bin目录下有kafka-mirror-maker.sh,Mirror Ma...

36740
数据社

关于机器学习,你需要了解的规范化方法

那么如何用相同的标准来比较 A 与 B 的成绩呢?Z-Score 就是用来可以解决这一问题的。

7230
数据社

Vertica实战-进阶篇

4月11晚上8点的直播PPT材料和视频y已整理好,没有来得及看的小伙伴可以收藏抽空看。

11050
数据社

数据湖vs数据仓库vs数据集市

数据湖里存放了公司来自各个业务系统的数据,包括结构化数据、非结构化数据(比如日志、邮件、音频等),这些数据完全没有经过清洗,原始系统什么样,在数据湖中就怎样存储...

28340
数据社

你知道Hive中的中位数吗

关于求解中位数,我们知道在Python中直接有中位数处理函数(mean),比如在Python中求解一个中位数,代码很简单。

22220
数据社

Vertica实战-基础篇

3月21晚上8点的直播PPT材料和视频回放地址,没有来得及看的小伙伴可以收藏抽空看。

12930
数据社

浅谈数据中台

数据中台的概念最是阿里提出来的是为了实现数据的分层和水平解耦,提供数据服务能力。看了那么多中台的概念,对中台也有些自己的理解。笔者认为中台主要是为了提供全域的数...

25650
数据社

一个数据人的思考

最近领导和团队沟通,想提高数据建模团队的能力。结合自己工作的经验和朋友的交流,来总结下如何去做。

9330
数据社

浅谈用户行为分析

关于用户行为分析,很多互联网公司都有相关的需求,虽然业务不同,但是关于用户行为分析的方法和技术实现都是基本相同的。在此分享一下自己的一些心得。

16130
数据社

Flink简介

ApacheFlink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同一个Flink运行时,提供支持流处理和批处理两种类型应用的功能。

14430
数据社

数据挖掘从入门到放弃(三):朴素贝叶斯

朴素贝叶斯是一种常用的分类算法,适用于维度非常高的数据集,具有速度快,可调参数少有点,非常适合为分类问题提供快速粗糙的基本方案,经常用于垃圾邮件分类等场景中,相...

10640
数据社

数据分析师应该了解的数据湖

看了很多数据湖的介绍文章,笔者认为数据胡和我们常说的ODS数据很类似,也就是原始数据的保存区域,存储来自各业务系统(消息队列)的原始数据。比如电商网站的访问日志...

6210
数据社

数据分析师应该了解的数据仓库-数据仓库元数据

小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。

10810
数据社

数据分析师应该了解的数据仓库-数据仓库vs数据库

说到数据库,我们一般是指传统的关系型数据库,也就是“联机事务处理”(OLTP),主要用户在线交易处理。比如银行业务、电信业务之前很多都是Oracle或者DB2(...

4610
数据社

如何利用数据仓库进行数据分析

首先,我们来了解一下数据仓库吧!数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。

15030

扫码关注云+社区

领取腾讯云代金券