腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
暴走大数据
专栏作者
举报
298
文章
534746
阅读量
99
订阅数
订阅专栏
申请加入专栏
全部文章(298)
大数据(118)
sql(66)
spark(66)
数据库(47)
编程算法(45)
存储(39)
kafka(39)
flink(39)
java(30)
node.js(29)
文件存储(24)
hive(23)
缓存(22)
hadoop(21)
api(16)
hbase(16)
mapreduce(15)
TDSQL MySQL 版(15)
数据处理(15)
linux(14)
apache(14)
数据结构(14)
云数据库 Redis(13)
分布式(13)
rpc(13)
javascript(12)
云数据库 SQL Server(12)
网络安全(12)
https(12)
数据分析(11)
unix(10)
zookeeper(10)
http(9)
jvm(9)
bash(8)
yarn(8)
html(7)
bash 指令(7)
消息队列 CMQ 版(7)
vr 视频解决方案(6)
Elasticsearch Service(6)
搜索引擎(5)
开源(5)
面向对象编程(5)
es(5)
python(4)
scala(4)
打包(4)
lucene/solr(4)
批量计算(4)
网站(4)
数据安全(4)
hashmap(4)
tcp/ip(4)
数据湖(4)
负载均衡(3)
xml(3)
jquery(3)
电商(3)
企业(3)
kubernetes(3)
运维(3)
rabbitmq(3)
uml(3)
云计算(3)
任务调度(3)
raft(3)
php(2)
ide(2)
github(2)
负载均衡缓存(2)
nginx(2)
腾讯云测试服务(2)
日志数据(2)
数据迁移(2)
socket编程(2)
windows(2)
架构设计(2)
微服务(2)
processing(2)
费用中心(1)
其他(1)
官方文档(1)
机器学习(1)
ios(1)
iphone(1)
c 语言(1)
c++(1)
servlet(1)
bootstrap(1)
json(1)
ajax(1)
android(1)
oracle(1)
jar(1)
全文检索(1)
analyzer(1)
容器镜像服务(1)
云数据迁移(1)
短视频(1)
命令行工具(1)
腾讯计费(1)
数据备份(1)
express(1)
容器(1)
parcel(1)
压力测试(1)
shell(1)
jdk(1)
sql server(1)
jdbc(1)
grep(1)
markdown(1)
kerberos(1)
微信(1)
数据可视化(1)
mqtt(1)
ipv6(1)
数据湖分析(1)
clickhouse(1)
count(1)
flush(1)
init(1)
invoke(1)
io(1)
ip(1)
map(1)
merge(1)
olap(1)
parquet(1)
partition(1)
queue(1)
record(1)
session(1)
sign(1)
state(1)
task(1)
tdd(1)
view(1)
zk(1)
实践(1)
数据(1)
统计(1)
异步(1)
搜索文章
搜索
搜索
关闭
HBase BulkLoad 原理及批量写入数据实战
大数据
存储
hbase
TDSQL MySQL 版
jar
之前我们介绍了HBASE的存储机制,HBASE存储数据其底层使用的是HDFS来作为存储介质,HBASE的每一张表对应的HDFS目录上的一个文件夹,文件夹名是以HBASE表的名字来命名(如果没有使用命名空间,那么默认是在default目录下)。在表文件夹下存放着若干个region命名的文件夹,而region文件夹中的每个列族也是用文件夹进行存储的,每个列族中存储的就是实际的数据,以HFile的形式存在。
大数据真好玩
2022-12-05
1.2K
0
Flink写入数据到Hudi数据湖的各种方式
bootstrap
flink
大数据
jquery
sql
主要用于数据初始化导入。Bulk Insert不会进行数据去重,需要用户在数据插入前进行数据去重
大数据真好玩
2022-12-05
1.9K
0
Flink控制任务调度:作业链与处理槽共享组(SlotSharingGroup)
flink
大数据
为了实现并行执行,Flink应用会将算子划分为不同任务,然后将这些任务分配到集群中的不同进程上去执行。和很多其他分布式系统一样,Flink应用的性能很大程度上取决于任务的调度方式。任务被分配到的工作进程、任务间的共存情况以及工作进程中的任务数都会对应用的性能产生显著影响。本节中我们就讨论一下如何通过调整默认行为以及控制作业链与作业分配(处理槽共享组)来提高应用的性能。
大数据真好玩
2022-12-05
1.5K
0
Hudi与Spark和HDFS的集成安装使用
大数据
shell
hadoop
面向对象编程
打包
将maven的安装包上传到centos7服务器上,并解压,然后配置系统环境变量即可
大数据真好玩
2022-06-17
1.2K
0
Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager
大数据
flink
vr 视频解决方案
编程算法
缓存
为了解决Flink作业使用RocksDB状态后端时的内存超用问题,Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true),再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction,即可满足多数情况的需要。
大数据真好玩
2022-06-17
1.2K
0
Apache Doris,MPP架构数据库王者学习总结
存储
数据库
sql
大数据
云数据库 SQL Server
doris是一个基于mpp(massively parallel processing,即大规模并行处理)的交互式sql数据仓库,是一个面向多种数据分析场景的,兼容mysql协议的,高性能的,分布式关系型列式数据库,用于报告和分析。
大数据真好玩
2022-04-27
2.8K
0
基于PushGateway+Prometheus+Grafana构建Flink实时监控体系
https
网络安全
flink
大数据
github
本文主要介绍将flink任务运行的metric发送到Prometheus,通过grafana报表工具展示。
大数据真好玩
2022-04-27
3K
0
数据质量监控框架及解决方案总结
apache
大数据
开源
python
随着业务发展和数据量的增加,大数据应用开发已成为部门应用开发常用的开发方式,由于部门业务特点的关系,spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时,数据的唯一性、完整性、一致性等等校验就开始受到关注,而通常做法是根据业务特点,额外开发job如报表或者检查任务,这样会比较费时费力。
大数据真好玩
2022-04-01
2.7K
0
大数据权限管理框架:Apache Sentry和Ranger
hive
apache
大数据
本篇简单介绍一下业界流行的大数据权限管理框架Apache Sentry和Ranger。
大数据真好玩
2022-03-28
1.1K
0
Apache DolphinScheduler之有赞大数据开发平台的调度系统演进
大数据
任务调度
apache
腾讯云测试服务
架构设计
在不久前的 Apache DolphinScheduler Meetup 2021 上,有赞大数据开发平台负责人宋哲琦带来了平台调度系统从 Airflow 迁移到 Apache DolphinScheduler 的方案设计思考和生产环境实践。
大数据真好玩
2021-12-15
2.5K
0
数据地图在有赞的实践
大数据
📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 Hi,我是王知无,一个大数据领域的原创作者。
大数据真好玩
2021-12-14
368
0
【Spark重点难点】你从未深入理解的RDD和关键角色
spark
flink
大数据
分布式
编程算法
之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分:
大数据真好玩
2021-12-02
410
0
腾讯大数据安全体系管理与实践
数据安全
大数据
大数据已被视为国家基础性战略资源,各行各业的大数据应用正迅猛发展,但随之而来的数据安全问题也日益加剧,有时甚至限制了大数据应用的发展。基于此,无论是国家机关还是企事业单位,都在加紧数据安全体系的建设,甚至项目立项时就需要完成数据安全的设计。
大数据真好玩
2021-12-02
1.5K
0
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
flink
大数据
数据库
sql
编程算法
在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态的持久化还提供了专门的机制和状态管理器。
大数据真好玩
2021-11-23
1.2K
0
Flink重点难点:Flink任务综合调优(Checkpoint/反压/内存)
flink
大数据
jvm
数据处理
数据结构
我们在Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交一文中对Flink的Checkpoint做过详细的介绍。
大数据真好玩
2021-11-23
5.1K
0
六大方法彻底解决Flink Table & SQL维表Join
flink
大数据
sql
缓存
存储
随着 Flink Table & SQL的发展,Flink SQL中用于进行维表Join也成为了很多场景的选择。
大数据真好玩
2021-11-16
3.1K
0
万字雄文:从数字资源向数字资产、数字资本的飞跃!
数据安全
编程算法
大数据
在数字经济时代,大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。
大数据真好玩
2021-11-05
343
0
Kafka常见问题&学习路径&源码阅读小结 | 写在Kafka3.0发布之际
kafka
分布式
apache
大数据
api
2021年9月21日,随着Kafka3.0的发布,Kafka在「分布式流处理平台」这个目标上的努力进一步得到加强!Kafka不满足于「消息引擎」的定位,正式基于这样的定位,Kafka 社区于 0.10.0.0 版本正式推出了流处理组件 Kafka Streams,也正是从这个版本开始,Kafka 正式"变身"为分布式的流处理平台,而不仅仅是消息引擎系统了。
大数据真好玩
2021-11-05
805
0
HBase RowKey与索引设计 |「Hbase2.0常见问题性优化小总结续集」
hbase
TDSQL MySQL 版
数据库
大数据
数据处理
hbase的内部使用KeyValue的形式存储,其key时rowKey:family:column:logTime,value是其存储的内容。
大数据真好玩
2021-11-05
1.4K
0
Flink 1.10+之改进的TaskManager内存模型与配置
jvm
缓存
flink
大数据
容器
Flink社区在FLIP-49提出了新版统一的TaskManager内存模型及配置,这也是Flink 1.10版本最主要的改进与优化点之一。根据社区的说法,该proposal致力于解决1.9版本及之前的TM内存配置的三个缺点:
大数据真好玩
2021-11-05
604
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档