首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏作者
298
文章
534746
阅读量
99
订阅数
HBase BulkLoad 原理及批量写入数据实战
之前我们介绍了HBASE的存储机制,HBASE存储数据其底层使用的是HDFS来作为存储介质,HBASE的每一张表对应的HDFS目录上的一个文件夹,文件夹名是以HBASE表的名字来命名(如果没有使用命名空间,那么默认是在default目录下)。在表文件夹下存放着若干个region命名的文件夹,而region文件夹中的每个列族也是用文件夹进行存储的,每个列族中存储的就是实际的数据,以HFile的形式存在。
大数据真好玩
2022-12-05
1.2K0
Flink写入数据到Hudi数据湖的各种方式
主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重
大数据真好玩
2022-12-05
1.9K0
Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)
为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取决于任务的调度方式。任务被分配到的工作进程、任务间的共存情况以及工作进程中的任务数都会对应用的性能产生显著影响。本节中我们就讨论一下如何通过调整默认行为以及控制作业链与作业分配(处理槽共享组)来提高应用的性能。
大数据真好玩
2022-12-05
1.5K0
Hudi与Spark和HDFS的集成安装使用
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
大数据真好玩
2022-06-17
1.2K0
Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager
为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true),再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction,即可满足多数情况的需要。
大数据真好玩
2022-06-17
1.2K0
Apache Doris,MPP架构数据库王者学习总结
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。
大数据真好玩
2022-04-27
2.8K0
基于PushGateway+Prometheus+Grafana构建Flink实时监控体系
本文主要介绍将flink任务运行的metric发送到Prometheus,通过grafana报表工具展示。
大数据真好玩
2022-04-27
3K0
数据质量监控框架及解决方案总结
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
大数据真好玩
2022-04-01
2.7K0
大数据权限管理框架:Apache Sentry和Ranger
本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
大数据真好玩
2022-03-28
1.1K0
Apache DolphinScheduler之有赞大数据开发平台的调度系统演进
在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统从 Airflow 迁移到 Apache DolphinScheduler 的方案设计思考和生产环境实践。
大数据真好玩
2021-12-15
2.5K0
数据地图在有赞的实践
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 Hi,我是王知无,一个大数据领域的原创作者。
大数据真好玩
2021-12-14
3680
【Spark重点难点】你从未深入理解的RDD和关键角色
之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分:
大数据真好玩
2021-12-02
4100
腾讯大数据安全体系管理与实践
大数据已被视为国家基础性战略资源,各行各业的大数据应用正迅猛发展,但随之而来的数据安全问题也日益加剧,有时甚至限制了大数据应用的发展。基于此,无论是国家机关还是企事业单位,都在加紧数据安全体系的建设,甚至项目立项时就需要完成数据安全的设计。
大数据真好玩
2021-12-02
1.5K0
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态的持久化还提供了专门的机制和状态管理器。
大数据真好玩
2021-11-23
1.2K0
Flink重点难点:Flink任务综合调优(Checkpoint/反压/内存)
我们在Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。
大数据真好玩
2021-11-23
5.1K0
六大方法彻底解决Flink Table & SQL维表Join
随着 Flink Table & SQL的发展,Flink SQL中用于进行维表Join也成为了很多场景的选择。
大数据真好玩
2021-11-16
3.1K0
万字雄文:从数字资源向数字资产、数字资本的飞跃!
在数字经济时代,大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。
大数据真好玩
2021-11-05
3430
Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际
2021年9月21日,随着Kafka3.0的发布,Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强!Kafka不满足于「消息引擎」的定位,正式基于这样的定位,Kafka 社区于 0.10.0.0 版本正式推出了流处理组件 Kafka Streams,也正是从这个版本开始,Kafka 正式"变身"为分布式的流处理平台,而不仅仅是消息引擎系统了。
大数据真好玩
2021-11-05
8050
HBase RowKey与索引设计 |「Hbase2.0常见问题性优化小总结续集」
hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容。
大数据真好玩
2021-11-05
1.4K0
Flink 1.10+之改进的TaskManager内存模型与配置
Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置,这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法,该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点:
大数据真好玩
2021-11-05
6040
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档