暂无搜索历史
最近一周时间研发接连收到多个政务行业局点现场人员反馈,需要分析修复Kafka最近曝出的高危漏洞。笔者查阅Openwall和CVE,发现2025年06月09日确实...
前几天写过一篇关于排查Flink写ES作业堆外内存OOM故障分析的文章,其中提到堆外内存的跟踪监控方法,有朋友微信联系咨询相关技术。本文总结了大数据场景经常遇到...
高并发应用程序通常需要大量内存,而如何管理这些内存确实是个难题,JDK 11 引入ZGC垃圾收集器来解决这个难题,JDK15已达到生产级别。
大家好,经过一个月的内测,我们昨天刚刚开源了一款 AI 驱动的 Wiki 项目,叫做 PandaWiki。
春节前期南方政务某现场搭建了大规模100节点ES集群。最近开始上线新业务流程:FlinkCDC将业务数据库日志写入Kafka,然后Flink消费Kafka数据写...
五一假期某局点高速龙门架计费业务瘫痪,ISV定位之后反馈业务系统模块存在Flink写Kafka失败的问题。具体的异常日志如下:
大数据实时计算平台Flink引擎以Application模式运作在Yarn集群,在使用租户权限管理的过程中,遇到任务提交失败的异常,详细堆栈如下:
Apache Ambari项目初期旨在通过开发用于配置、管理、监控Hadoop集群的软件,使Hadoop集群管理更加简洁方便。因为Ambari灵活的插件化设计机...
Apache Kafka 4.0 是一个重要的里程碑,标志着首个完全剔除 Apache ZooKeeper® 即可运行的重大版本发布。通过KRaft 模式运行,...
Apache Spark 于 2013 年开源,至今仍是最受欢迎且功能强大的计算引擎之一。然而,使用Spark也面临着挑战,诸如缩容、数据倾斜和内存溢出等问题。...
数据重复一直是数据工程的难题,影响存储成本、查询性能和数据完整性。本文介绍湖仓架构中数据重复是如何在数据摄入、存储合并和表管理等环节出现的,并探究像Hudi这类...
聚类是一种存储优化方法,适用于诸如 Apache Hudi、Apache Iceberg 和 Delta Lake 等开源表格式,核心目标是解决数据摄入顺序(如...
Apache Hudi最初由Uber于2016年开发,旨在构建一个事务型数据湖,以快速可靠地处理数据更新,支持其网约车平台的高速增长。如今,Hudi已被行业广泛...
随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力成为容忍...
根据客户现场运维人员反馈新上的某业务对应的Flink作业经常定期异常退出,已有的历史Flink作业并没有这种现象。排查过JobManager日志提示心跳超时,现...
你是否遇到过这么一个需求场景?当数据平台跨地域环境或者平台多版本并存需要数据透传时,怎么实现Kafka集群间多Topic数据同步呢。除了Kafka官方提供的集群...
现场大数据项目Kafka组件大多数使用的语言集中在Java、Python、Go、C++。最近现场需求使用Erlang对接,遂有本文。Erlang是一种函数式并发...
目前gluten支持两种backend:clickhouse和velox,本文实践基于gluten与clickhouse组合方式。
某传统IT客户系统架构重度使用Flink技术栈,早期主要使用standalone集群模式。随着企业数字化改革,公司服务器资源统一纳管。现在迁移为yarn-ses...
Spark Native加速技术日益活跃,不管使用哪种技术方案,本质上都是JNI的使用。所谓JNI,即Java Native Interface,也就是允许Ja...
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市