大数据学习与分享

专注于大数据领域常用技术的学习与分享
114 篇文章
15.2K 次阅读
24 人订阅

全部文章

大数据学习与分享

Hive中的count(distinct)优化

COUNT(DISTINCT xxx)在hive中很容易造成数据倾斜。针对这一情况,网上已有很多优化方法,这里不再赘述。

6410
大数据学习与分享

Linux性能检测常用的10个基本命令

【前言:通过《Linux系统层面调优和常见的面试题》,笔者详细介绍了Linux系统层面常用的调优方法和常见的面试题。本篇文章将介绍常用的进行性能检测的Linux...

7930
大数据学习与分享

Spark SQL/Hive实用函数大全

本篇文章主要介绍Spark SQL/Hive中常用的函数,主要分为字符串函数、JSON函数、时间函数、开窗函数以及在编写Spark SQL代码应用时实用的函数算...

6830
大数据学习与分享

Hive常用性能优化方法实践全面总结

Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜、job数分配的不合理、磁盘或网络I/...

8120
大数据学习与分享

自适应查询执行:在运行时提升Spark SQL执行性能

Catalyst是Spark SQL核心优化器,早期主要基于规则的优化器RBO,后期又引入基于代价进行优化的CBO。但是在这些版本中,Spark SQL执行计划...

8910
大数据学习与分享

Kafka集群消息积压问题及处理策略

通常情况下,企业中会采取轮询或者随机的方式,通过Kafka的producer向Kafka集群生产数据,来尽可能保证Kafk分区之间的数据是均匀分布的。

19820
大数据学习与分享

如何为Kafka集群确定合适的分区数以及分区数过多带来的弊端

通过之前的文章《Kafka分区分配策略》和《Kafka高性能揭秘》,我们了解到:Kafka高吞吐量的原因之一就是通过partition将topic中的消息保存到...

9930
大数据学习与分享

实时离线一体化助力渠道分析系统

渠道分析系统,是一个多维度数据分析系统,旨在为渠道运营和渠道评估提供数据支持。随着精细化运营需求的日益增长,对渠道数据的时效性和准确性要求也越来越高。第一代渠道...

7420
大数据学习与分享

SparkSQL真的不支持存储NullType类型数据到Parquet吗?

最近后台有小伙伴提了一些实际工作中使用Spark遇到的问题,笔者挑选了几个相对常见的问题,分别从场景模拟/问题现象、问题分析、解决方案三个层面,来深入分析这些问...

13130
大数据学习与分享

通过BulkLoad快速将海量数据导入到HBase

【前言:笔者之前通过文章《通过Spark生成HFile,并以BulkLoad方式将数据导入到HBase》介绍过如何利用Spark通过BulkLoad方式将数据导...

8820
大数据学习与分享

九种常见的数据分析模型

漏斗分析是一套流程式数据分析,它能够科学反映用户行为状态以及从起点到终点各阶段用户转化率情况的重要分析模型。

13220
大数据学习与分享

分布式定时任务调度框架实践

分布式任务调度框架几乎是每个大型应用必备的工具,本文介绍了任务调度框架使用的需求背景和痛点,对业界普遍使用的开源分布式任务调度框架的使用进行了探究实践,并分析了...

12761
大数据学习与分享

有赞大数据离线集群迁移实战

有赞是一家商家服务公司,向商家提供强大的基于社交网络的,全渠道经营的SaaS系统和一体化新零售解决方案。随着近年来社交电商的火爆,有赞大数据集群一直处于快速增长...

8100
大数据学习与分享

监听MySQL的binlog日志工具:Canal、Maxwell、mysql_streamer对比

之前通过文章介绍过canal,本篇文章主要简述一下Canal、Maxwell、mysql_streamer对比。

15011
大数据学习与分享

经典的SparkSQL/Hive-SQL/MySQL面试-练习题

32.查询每门课程的平均成绩,结果按平均成绩降序排列,平均成绩相同时,按课程编号升序排列

13220
大数据学习与分享

监听MySQL的binlog日志工具分析:Canal

Canal是阿里巴巴旗下的一款开源项目,利用Java开发。主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费,目前主要支持MySQL。

14711
大数据学习与分享

菜鸟供应链实时数仓的架构演进及应用场景

摘要:在 Flink Forward Asia 大会实时数仓专场中,菜鸟数据&规划部高级数据技术专家贾元乔从数据模型、数据计算、数据服务等几个方面介绍了菜鸟供应...

10911
大数据学习与分享

初创公司数据仓库的建设实践

早期的数据服务中存在不少问题,虽然在做运营Dashboard系统时,对后台数据服务进行了梳理,构建了数据处理的底层公共库等,但是仍然存在一些问题:

11600
大数据学习与分享

Kafka分区分配策略(Partition Assignment Strategy)

众所周知,Apache Kafka是基于生产者和消费者模型作为开源的分布式发布订阅消息系统(当然,目前Kafka定位于an open-source distri...

39520
大数据学习与分享

详解数据仓库的实施步骤

建立数据仓库是一个解决企业数据问题应用的过程,是企业信息化发展到一定阶段必不可少的一步,也是发展数据化管理的重要基础。数仓的知识市面上的书籍和文章不少,但是实际...

17420

扫码关注云+社区

领取腾讯云代金券