腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

534746

阅读量

99

订阅数

HBase BulkLoad 原理及批量写入数据实战

大数据存储 hbase TDSQL MySQL 版 jar

之前我们介绍了HBASE的存储机制，HBASE存储数据其底层使用的是HDFS来作为存储介质，HBASE的每一张表对应的HDFS目录上的一个文件夹，文件夹名是以HBASE表的名字来命名（如果没有使用命名空间，那么默认是在default目录下）。在表文件夹下存放着若干个region命名的文件夹，而region文件夹中的每个列族也是用文件夹进行存储的，每个列族中存储的就是实际的数据，以HFile的形式存在。

大数据真好玩

2022-12-05

1.2K0

Flink写入数据到Hudi数据湖的各种方式

bootstrap flink 大数据 jquery sql

主要用于数据初始化导入。Bulk Insert不会进行数据去重，需要用户在数据插入前进行数据去重

大数据真好玩

2022-12-05

1.9K0

Flink控制任务调度：作业链与处理槽共享组(SlotSharingGroup)

flink 大数据

为了实现并行执行，Flink应用会将算子划分为不同任务，然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样，Flink应用的性能很大程度上取决于任务的调度方式。任务被分配到的工作进程、任务间的共存情况以及工作进程中的任务数都会对应用的性能产生显著影响。本节中我们就讨论一下如何通过调整默认行为以及控制作业链与作业分配（处理槽共享组）来提高应用的性能。

大数据真好玩

2022-12-05

1.5K0

Hudi与Spark和HDFS的集成安装使用

大数据 shell hadoop 面向对象编程打包

将maven的安装包上传到centos7服务器上，并解压，然后配置系统环境变量即可

大数据真好玩

2022-06-17

1.2K0

Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager

大数据 flink vr 视频解决方案编程算法缓存

为了解决Flink作业使用RocksDB状态后端时的内存超用问题，Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true)，再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction，即可满足多数情况的需要。

大数据真好玩

2022-06-17

1.2K0

Apache Doris，MPP架构数据库王者学习总结

存储数据库 sql 大数据云数据库 SQL Server

doris是一个基于mpp（massively parallel processing，即大规模并行处理）的交互式sql数据仓库,是一个面向多种数据分析场景的，兼容mysql协议的，高性能的，分布式关系型列式数据库，用于报告和分析。

大数据真好玩

2022-04-27

2.8K0

基于PushGateway+Prometheus+Grafana构建Flink实时监控体系

https 网络安全 flink 大数据 github

本文主要介绍将flink任务运行的metric发送到Prometheus，通过grafana报表工具展示。

大数据真好玩

2022-04-27

3K0

数据质量监控框架及解决方案总结

apache 大数据开源 python

随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。

大数据真好玩

2022-04-01

2.7K0

大数据权限管理框架：Apache Sentry和Ranger

hive apache 大数据

本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。

大数据真好玩

2022-03-28

1.1K0

Apache DolphinScheduler之有赞大数据开发平台的调度系统演进

大数据任务调度 apache 腾讯云测试服务架构设计

在不久前的 Apache DolphinScheduler Meetup 2021 上，有赞大数据开发平台负责人宋哲琦带来了平台调度系统从 Airflow 迁移到 Apache DolphinScheduler 的方案设计思考和生产环境实践。

大数据真好玩

2021-12-15

2.5K0

数据地图在有赞的实践

📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 Hi，我是王知无，一个大数据领域的原创作者。

大数据真好玩

2021-12-14

3680

【Spark重点难点】你从未深入理解的RDD和关键角色

spark flink 大数据分布式编程算法

之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分：

大数据真好玩

2021-12-02

4100

腾讯大数据安全体系管理与实践

数据安全大数据

大数据已被视为国家基础性战略资源，各行各业的大数据应用正迅猛发展，但随之而来的数据安全问题也日益加剧，有时甚至限制了大数据应用的发展。基于此，无论是国家机关还是企事业单位，都在加紧数据安全体系的建设，甚至项目立项时就需要完成数据安全的设计。

大数据真好玩

2021-12-02

1.5K0

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

flink 大数据数据库 sql 编程算法

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

大数据真好玩

2021-11-23

1.2K0

Flink重点难点：Flink任务综合调优(Checkpoint/反压/内存)

flink 大数据 jvm 数据处理数据结构

我们在Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。

大数据真好玩

2021-11-23

5.1K0

六大方法彻底解决Flink Table & SQL维表Join

flink 大数据 sql 缓存存储

随着 Flink Table & SQL的发展，Flink SQL中用于进行维表Join也成为了很多场景的选择。

大数据真好玩

2021-11-16

3.1K0

万字雄文：从数字资源向数字资产、数字资本的飞跃！

数据安全编程算法大数据

在数字经济时代，大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。

大数据真好玩

2021-11-05

3430

Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际

kafka 分布式 apache 大数据 api

2021年9月21日，随着Kafka3.0的发布，Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强！Kafka不满足于「消息引擎」的定位，正式基于这样的定位，Kafka 社区于 0.10.0.0 版本正式推出了流处理组件 Kafka Streams，也正是从这个版本开始，Kafka 正式"变身"为分布式的流处理平台，而不仅仅是消息引擎系统了。

大数据真好玩

2021-11-05

8050

HBase RowKey与索引设计 |「Hbase2.0常见问题性优化小总结续集」

hbase TDSQL MySQL 版数据库大数据数据处理

hbase的内部使用KeyValue的形式存储，其key时rowKey：family:column:logTime,value是其存储的内容。

大数据真好玩

2021-11-05

1.4K0

Flink 1.10+之改进的TaskManager内存模型与配置

jvm 缓存 flink 大数据容器

Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置，这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法，该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点：

大数据真好玩

2021-11-05

6040

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态