首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏成员
298
文章
584682
阅读量
100
订阅数
Apache Kafka 3.2.0 重磅发布!
3.2.0 版本包含许多新功能和改进。本文将重点介绍一些最突出的新功能。有关更改的完整列表,请务必查看发行说明。您还可以观看发布视频,了解 Apache Kafka 3.2.0 中的新功能摘要。
大数据真好玩
2022-06-17
2K0
数据质量监控框架及解决方案总结
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
大数据真好玩
2022-04-01
3.2K0
大数据权限管理框架:Apache Sentry和Ranger
本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
大数据真好玩
2022-03-28
1.3K0
Apache DolphinScheduler之有赞大数据开发平台的调度系统演进
在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统从 Airflow 迁移到 Apache DolphinScheduler 的方案设计思考和生产环境实践。
大数据真好玩
2021-12-15
2.7K0
上帝视角Hbase二级索引方案全解析
HBase中的一级索引指数据在写入region时,会根据rowkey进行排序后写入,之后regionserver在加载region时,会自动为当前region的rowkey创建一个LSM树的索引,方便对当前region,rowkey的查询。
大数据真好玩
2021-11-16
1.3K0
Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际
2021年9月21日,随着Kafka3.0的发布,Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强!Kafka不满足于「消息引擎」的定位,正式基于这样的定位,Kafka 社区于 0.10.0.0 版本正式推出了流处理组件 Kafka Streams,也正是从这个版本开始,Kafka 正式"变身"为分布式的流处理平台,而不仅仅是消息引擎系统了。
大数据真好玩
2021-11-05
8580
调度系统Apache DolphinScheduler介绍和设计原理
大数据任务调度作为大数据建设中的核心基础设施。Apache DolphinScheduler是一个分布式、去中心化、易扩展的可视化DAG工作流任务调度系统,其致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。
大数据真好玩
2021-09-18
7.9K0
Apache拯救世界之数据质量监控工具 - Apache Griffin
最近我发现,Apache已经成了解决问题的解决我们日常问题的首选宝藏之地。这几天在调研数据质量监控的东西时,无意中发现了Apache Griffin。
大数据真好玩
2021-01-26
6.3K0
Spring Cloud + ELK 统一日志系统搭建
ELK 是 Elasticsearch、Logstash、Kibana 的简称,这三者是核心套件,但并非全部。
大数据真好玩
2021-01-26
3.1K0
五分钟系列 | Spark3.0新特性之动态分区裁剪
Apache Spark 3.0.0 终于赶在下周二举办的 Spark Summit AI 会议之前正式发布了! Apache Spark 3.0.0 自2018年10月02日开发到目前已经经历了近21个月。
大数据真好玩
2020-07-02
1K0
Apache Pulsar崛起 | Meetup北京站全解析
场景描述:2019 年 7 月,Apache Pulsar 正式发布了 2.4.0 版本,在 2.3.2 版本的基础上新增了诸多功能并修复了大量漏洞,包括存储端、Broker 端、Schema、安全、客户端、Pulsar Functions、Pulsar IO、Pulsar Kafka、Pulsar Flink 和 Pulsar Storm 等多方面。
大数据真好玩
2019-10-23
8500
Flink成为字节跳动流处理唯一标准
场景描述:本文将为大家展示字节跳动公司将 Jstorm 任务迁移到 Apache Flink 上的整个过程以及后续计划。你可以借此了解到字节跳动公司引入 Apache Flink 的背景,Apache Flink 集群的构建过程,如何兼容以前的 Jstorm 作业以及基于 Apache Flink 构建一个流式任务管理平台,本文将一一为你揭开这些神秘的面纱。
大数据真好玩
2019-09-17
2K0
最火的实时计算框架Flink和下一代分布式消息队列Pulsar的批流融合
Apache Flink 和 Apache Pulsar 的开源数据技术框架可以以不同的方式融合,来提供大规模弹性数据处理。Flink Forward San Francisco 2019 大会上郭斯杰发表演讲,介绍了 Flink 和 Pulsar 在批流应用程序的融合情况。这篇文章会简要介绍 Apache Pulsar 及其与其他消息系统的不同之处,并讲解如何融合 Pulsar 和 Flink 协同工作,为大规模弹性数据处理提供无缝的开发人员体验。
大数据真好玩
2019-09-10
1.2K0
MQ详解及四大MQ比较
一、消息中间件相关知识 1、概述 消息队列已经逐渐成为企业IT系统内部通信的核心手段。它具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,成为异步RPC的主要手段之一。当今市面上有很多主流的消息中间件,如老牌的ActiveMQ、RabbitMQ,炙手可热的Kafka,阿里巴巴自主开发RocketMQ等。 2、消息中间件的组成 2.1 Broker 消息服务器,作为server提供消息核心服务 2.2 Producer 消息生产者,业务的发起方,负责生产消息传输给broker, 2.3 Consumer 消息消费者,业务的处理方,负责从broker获取消息并进行业务逻辑处理 2.4 Topic 主题,发布订阅模式下的消息统一汇集地,不同生产者向topic发送消息,由MQ服务器分发到不同的订阅者,实现消息的 广播 2.5 Queue 队列,PTP模式下,特定生产者向特定queue发送消息,消费者订阅特定的queue完成指定消息的接收 2.6 Message 消息体,根据不同通信协议定义的固定格式进行编码的数据包,来封装业务数据,实现消息的传输 3 消息中间件模式分类 3.1 点对点 PTP点对点:使用queue作为通信载体
大数据真好玩
2019-08-08
10K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档