暂无搜索历史
现场大数据项目Kafka组件大多数使用的语言集中在Java、Python、Go、C++。最近现场需求使用Erlang对接,遂有本文。Erlang是一种函数式并发...
目前gluten支持两种backend:clickhouse和velox,本文实践基于gluten与clickhouse组合方式。
某传统IT客户系统架构重度使用Flink技术栈,早期主要使用standalone集群模式。随着企业数字化改革,公司服务器资源统一纳管。现在迁移为yarn-ses...
Spark Native加速技术日益活跃,不管使用哪种技术方案,本质上都是JNI的使用。所谓JNI,即Java Native Interface,也就是允许Ja...
近几年Spark Native加速技术高速发展、技术栈日益丰富,各大厂商积极迭代支持,目前基本可以达到生产可用级别。技术栈大致分为以下几种:
本文主要记录某医院客户使用OLAP引擎openlookeng查询Hudi MOR表,遇到查询数据不准确问题的排查、分析、解决方法。openlookeng也称为h...
本文主要记录电力行业客户数据湖技术架构演进遇到的问题,已有架构为FlinkSQL实时写入Hudi、Hive on Spark查询,现在准备引入FlinkSQL增...
本文主要记录教育行业高校PyFlink整合Flink ML的场景案例实践总结。PyFlink是可以使用Python语言开发Apache Flink的功能API,...
Paimon支持以多种形式FlinkCDC实时导入源端数据与元数据变更(schema evolution)到Paimon表中。也就是说源端增加列、不用重启Fli...
本文主要记录电力行业客户的数据湖技术方案实践案例,方案概括为基于FlinkSQL+Hudi流式入湖、同步表元数据到Hive,基于Hive catalog统一元数...
虽然当前实时计算领域所有厂商都推荐Flink框架,但是某些传统行业客户因为多年固化的业务场景仍然坚持使用SparkStreaming框架。本文主要记录Spark...
Structured Streaming是基于Spark SQL引擎的可扩展、可容错流计算引擎。用户可以向使用批计算一样的方式使用流计算。Spark SQL持续...
随着平台Kafka的对接客户越来越多,我发现很多人只知道Kafka Topic可以根据设置保存大小和保存时间触发数据清理机制,但是并不熟悉Kafka Topic...
截至目前本人接触到的最大Redis7集群节点规模已达800+,Redis官方宣称最大集群节点规模可达1000。本文以最小规模集群为例,进行完整的项目实践总结记录...
之前文章已记录如何使用Kyuubi整合Spark与Flink计算引擎及KyuubiUI的使用方法,感兴趣的朋友请自行阅读。本文属于姊妹篇,继续记录WebUI在企...
Kyuubi最新版本已经发布,本文主要介绍基于Kyuubi SQL网关整合多计算引擎Flink和Spark实践案例总结。另外,翻看Release Notes发现...
大数据生态发展数年,各种组件版本迭代升级在所难免。组件之间、不同版本之间的适配整合升级,尤为重要。本文主要讲述当前火热的数据湖方案Spark+Hadoop+Hu...
众所周知,Kafka是一个开源分布式事件流平台,尤其以高吞吐、低延迟著称,并且已经被数千家企业用于高性能数据管道、流分析、数据集成和核心业务应用程序。
这是个有趣的Flink资源管理的使用案例。随着业务需求的遍地开花和数据量的成倍增长,集团内部一个兄弟部门(姑且称为客户吧)现有的技术构架有点陈旧,已经无法支撑日...
周五晚上电话轰炸,驻场人员反映某公安厅数据上报业务故障。究其原因是数据域Kafka集群不可用。经过排查发现虽然Kafka集群设置了3天数据过期时间(且Topic...
暂未填写公司和职称
暂未填写个人简介
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市