首页
学习
活动
专区
工具
TVP
发布

大数据技术与应用实战

专栏作者
48
文章
100253
阅读量
21
订阅数
基于streamx闲聊flink在k8s上的实践
由于容器化易管理、易扩容等优点,越来越多的组件都开始迁移到容器上,k8s作为容器化的事实标准,受到了越来越多的人的青睐,由于我们目前很多web开发的组件也是部署到k8s上的,为了后续运维更加方便,我把我们用到的一些大数据组件都迁移到了k8s,包括hive、trino、flink、clickhouse等等。
大数据技术与应用实战
2022-02-23
1K0
Iceberg在微软云azure上的部署实践
本文主要讲解一下iceberg数据湖在微软云azure上面的部署方案,采用的方案是通过hadoop的api写入azure,和之前写入hdfs没有太大区别,只需要配置一下hadoop的配置文件即可。iceberg这里不需要做任何改动。目前支持Azure Blob Storage 和 Azure Data Lake Storage Gen2。此外着重说明一下,azure仅支持hadoop 3.2 以上的版本,否则的会报错 java.io.ioexception no filesystem for scheme : abfss.
大数据技术与应用实战
2021-11-11
1.7K0
Flink 1.13 在Native k8s的部署实践
flink支持多种部署模式,比如standalone、sesson、per job、application,一般在生产环境我们都是将flink程序部署到k8s或者yarn等资源管理器上。目前k8s部署模式暂时不支持per job模式。不过由于k8s部署flink集群相对yarn要落后一些,是在最近几个版本才慢慢完善的,所以我猜测市面上很多公司还是以yarn为主,逐渐尝试k8s。
大数据技术与应用实战
2021-06-25
6.4K2
Flink集成iceberg在生产环境中的实践
目前我们的大数据系统里,主要承接的业务是部门内的一些业务日志数据的统计、分析等,比如网关日志数据,服务器监控数据,k8s容器的相关日志数据,app的打点日志等。主要的流任务是flink任务是消费kafka的数据,经过各种处理之后通过flink sql或者flink jar实时写入hive,由于业务对数据的实时性要求比较高,希望数据能尽快的展示出来,所以我们很多的flink任务的checkpoint设置为1分钟,而数据格式采用的是orc格式,所以不可避免的出现了一个在大数据处理领域非常常见但是很麻烦的问题,即hdfs小文件问题。
大数据技术与应用实战
2021-01-08
5.3K5
Flink集成iceberg数据湖之合并小文件
在传统的实时数仓中,由于列式存储相对行式存储有较高的查询性能,我们一般采用orc,parquet数据格式,但是这种列式格式无法追加,流式数据又不能等候太长时间,等到文件够了一个hdfs block块大小再写入,所以不可避免的产生了一个令人头大的问题,即小文件问题,由于使用小文件会增加namenode的压力,并且影响查询性能,所以我们在使用流式数据入库的时候一般会对小文件进行合并处理。
大数据技术与应用实战
2020-11-25
4.1K0
Flink集成数据湖之实时数据写入iceberg
随着大数据处理结果的实时性要求越来越高,越来越多的大数据处理从离线转到了实时,其中以flink为主的实时计算在大数据处理中占有重要地位。
大数据技术与应用实战
2020-10-23
6K5
flink sql实时计算当天pv写入mysql
今天我们主要来讲一个很简单但是很常见的需求,实时计算出网站当天的pv值,然后将结果实时更新到mysql数据库,以供前端查询显示。
大数据技术与应用实战
2020-09-24
2.9K0
深入解读flink sql cdc的使用以及源码分析
CDC,Change Data Capture,变更数据获取的简称,使用CDC我们可以从数据库中获取已提交的更改并将这些更改发送到下游,供下游使用。这些变更可以包括INSERT,DELETE,UPDATE等.
大数据技术与应用实战
2020-09-16
4.6K0
flink实战教程-使用set实时计算当天网站uv
对于web网站,我们一般会有这样的需求,实时的计算出来当天网站的uv,尽可能快的展示出来。今天我们就讲一下基于java的set集合做一下实时uv的统计。
大数据技术与应用实战
2020-09-15
9910
​flink实战-flink streaming sql 初体验
SQL,Structured Query Language:结构化查询语言,作为一个通用、流行的查询语言,不仅仅是在传统的数据库,在大数据领域也变得越来越流行,hive、spark、kafka、flink等大数据组件都支持sql的查询,使用sql可以让一些不懂这些组件原理的人,轻松的来操作,大大的降低了使用的门槛,今天我们先来简单的讲讲在flink的流处理中如何使用sql.
大数据技术与应用实战
2020-09-15
1.6K0
flink实战-实时计算平台通过api停止流任务
今天我们主要讲一下如何通过api的方式来停止一个通过per job模式部署在yarn集群上的任务。
大数据技术与应用实战
2020-09-15
2.6K0
放弃fastjson,拥抱Jackson
最近由于阿里的fastjson频繁爆出安全漏洞,为了避免后续升级上线的烦恼,决定弃用fastjson,使用Jackson,把现有项目中的fastjson都换成了Jackson,由于很多写法上有些不同,所以在这里把这些改过的东西做一下笔记。
大数据技术与应用实战
2020-09-15
1.3K0
Flink实战-定时器实现已完成订单自动五星好评
在电商领域会有这么一个场景,如果用户买了商品,在订单完成之后,24小时之内没有做出评价,系统自动给与五星好评,我们今天主要使用flink的定时器来简单实现这一功能。
大数据技术与应用实战
2020-09-15
8230
聊聊AWK命令的那些事
对于下面的nginx日志access.log,用脚本分析出访问ip的Top 10。 其实这个题不难,但是考察了几个常用的shell 命令,awk、uniq、sort、head,我觉得对于做大数据开发、运维、数仓等来说都是应该必备的。
大数据技术与应用实战
2020-09-15
3400
flink实战-模拟简易双11实时统计大屏
在大数据的实时处理中,实时的大屏展示已经成了一个很重要的展示项,比如最有名的双十一大屏实时销售总价展示。除了这个,还有一些其他场景的应用,比如我们在我们的后台系统实时的展示我们网站当前的pv、uv等等,其实做法都是类似的。
大数据技术与应用实战
2020-09-15
1.5K0
大数据流处理-我为什么选择Apache Flink
随着这几年大数据技术的迅猛发展,人们对于处理数据的要求也越来越高,由最早的MapReduce,到后来的hive、再到后来的spark,为了获取更快、更及时的结果,计算模型也在由以前的T+1的离线数据慢慢向流处理转变,比如每年双十一阿里的实时大屏,要求秒级的输出结果;再比如当我们以100迈的速度开车的时候,我们希望地图导航软件能给我们毫秒级延迟的导航信息。
大数据技术与应用实战
2020-09-15
5310
flink实战-聊一聊flink中的聚合算子
今天我们主要聊聊flink中的一个接口org.apache.flink.api.common.functions.AggregateFunction,这个类可以接在window流之后,做窗口内的统计计算。
大数据技术与应用实战
2020-09-15
2.3K0
flink实战-使用广播实现报警阈值动态更新
紧接着上一篇文章【FLINK实战-使用CEP进行网站监控报警和报警恢复】,上一篇主要讲了怎么对数据流做监控报警,但是实际生产环境中,可能我们对这个报警的阈值设置成多大也没有一个准,可能需要根据经验不断的来修改,所以就涉及了可能需要不断的修改这个报警的阈值,但是如果每次修改了之后,都通过重启flink程序来实现,这个成本就有点高了,所以我们这次主要是讲解一下,如何使用flink的广播动态的更新配置来设置这个报警的阈值.
大数据技术与应用实战
2020-09-15
1.4K0
flink教程-flink 1.11 使用sql将流式数据写入hive
上一篇介绍了使用sql将流式数据写入文件系统,这次我们来介绍下使用sql将文件写入hive,对于如果想写入已经存在的hive表,则至少需要添加以下两个属性. 写入hive底层还是和写入文件系统一样的,所以对于其他具体的配置参考上一篇.
大数据技术与应用实战
2020-09-15
2.4K0
如何在Apache Flink中管理RocksDB内存大小
原文:https://www.ververica.com/blog/manage-rocksdb-memory-size-apache-flink 翻译:zhangjun,英语水平不太好,如有问题,请大家不吝赐教
大数据技术与应用实战
2020-09-15
1.7K0
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档