首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏成员
638
文章
1403892
阅读量
322
订阅数
卷起来了,Apache Flink 1.13.6 发布!
Hi,我是王知无,一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。
王知无-import_bigdata
2022-03-11
1.6K0
Flink1.14.2发布,除了log4j漏洞你还需要关注什么?
Flink1.14.2 Release版本已经在12月16日发布,主要是修复了Log4j导致的可执行任意代码的漏洞问题,但是还有一些非常重要的功能更新。
王知无-import_bigdata
2022-01-20
1K0
Kafka的运维利器-AdminClient
一般情况下,我们都习惯使用kafka-topics.sh脚本来管理主题,但有些时候我们希望将主题管理类的功能集成到公司内部的系统中,打造集管理、监控、运维、告警为一体的生态平台,那么就需要以程序调用API的方式去实现。
王知无-import_bigdata
2021-11-18
1.8K0
Flink重点难点:Flink Table&SQL必知必会(二)
介绍了 Flink Table & SQL的一些核心概念,本部分将介绍 Flink 中窗口和函数。
王知无-import_bigdata
2021-09-22
1.9K0
Flink重点难点:Flink Table&SQL必知必会(一)
Flink本身是批流统一的处理框架,所以Table API和SQL,就是批流统一的上层处理API。目前功能尚未完善,处于活跃的开发阶段。
王知无-import_bigdata
2021-09-22
2.1K0
Flink从1.7到1.12版本升级汇总
最进再看官方flink提供的视频教程,发现入门版本因为时间关系都是基于1.7.x讲解的. 在实际操作中跟1.12.x版本还是有差距的, 所以整理一下从1.7 版本到1.12版本之间的相对大的变动. 做到在学习的过程中可以做到心里有数.
王知无-import_bigdata
2021-09-22
2.6K0
在所有Spark模块中,我愿称SparkSQL为最强!
我们之前已经学习过了《我们在学习Spark的时候,到底在学习什么?》,这其中有一个关于SQL的重要模块:SparkSQL。
王知无-import_bigdata
2021-07-30
1.7K0
数据湖在大数据典型场景下应用调研个人笔记
数据湖是一种不断演进中、可扩展的大数据存储、处理、分析的基础设施;以数据为导向,实现任意来源、任意速度、任意规模、任意类型数据的全量获取、全量存储、多模式处理与全生命周期管理;并通过与各类外部异构数据源的交互集成,支持各类企业级应用。
王知无-import_bigdata
2021-03-26
1.2K0
我们在学习Flink的时候,到底在学习什么?
后台很多小伙伴都在问Flink的学习路径,那么我们在学习Flink的时候,到底重点学习哪些东西呢?
王知无-import_bigdata
2021-03-15
9080
Kafka Connect | 无缝结合Kafka构建高效ETL方案
很多同学可能没有接触过 Kafka Connect,大家要注意不是Connector。 Kafka Connect 是一款可扩展并且可靠地在 Apache Kafka 和其他系统之间进行数据传输的工具。
王知无-import_bigdata
2021-03-15
4.1K0
基于Flink打造实时计算平台为企业赋能
随着互联网技术的广泛使用,信息的实时性对业务的开展越来越重要,特别是业务的异常信息,没滞后一点带来的就是直接的经济损失。所以实时信息处理能力,越来越成为企业的重要竞争力之一。Flink作为业内公认的性能最好的实时计算引擎,以席卷之势被各大公司用来进处理实时数据。然而Flink任务开发成本高,运维工作量大,面对瞬息万变得业务需求,工程师往往是应接不暇。如果能有一套实时计算平台,让工程师或者业务分析人员通过简单的SQL或者拖拽式操作就可以创建Flink任务,无疑可以快速提升业务的迭代能力。
王知无-import_bigdata
2020-12-18
1.3K0
斗转星移 | 三万字总结Kafka各个版本差异
Kafka 2.0.0引入了线程协议的变化。通过遵循下面建议的滚动升级计划,您可以保证在升级期间不会出现停机。但是,请在升级之前查看2.0.0中的重大更改。
王知无-import_bigdata
2020-09-08
2.2K0
Flink CEP 原理和案例详解
(1)定义 复合事件处理(Complex Event Processing,CEP)是一种基于动态环境中事件流的分析技术,事件在这里通常是有意义的状态变化,通过分析事件间的关系,利用过滤、关联、聚合等技术,根据事件间的时序关系和聚合关系制定检测规则,持续地从事件流中查询出符合要求的事件序列,最终分析得到更复杂的复合事件。 (2)特征 CEP的特征如下: 目标:从有序的简单事件流中发现一些高阶特征; 输入:一个或多个简单事件构成的事件流; 处理:识别简单事件之间的内在联系,多个符合一定规则的简单事件构成复杂事件; 输出:满足规则的复杂事件。
王知无-import_bigdata
2020-08-20
7.7K0
HBase操作组件:Hive、Phoenix、Lealone
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
王知无-import_bigdata
2020-07-21
1.7K0
Kafka常见的导致重复消费原因和解决方案
导致kafka的重复消费问题原因在于,已经消费了数据,但是offset没来得及提交(比如Kafka没有或者不知道该数据已经被消费)。 总结以下场景导致Kakfa重复消费:
王知无-import_bigdata
2020-07-21
23.4K0
Kafka下的生产消费者模式与订阅发布模式
生产消费者模式,指的是由生产者将数据源源不断推送到消息中心,由不同的消费者从消息中心取出数据做自己的处理,在同一类别下,所有消费者拿到的都是同样的数据;订阅发布模式,本质上也是一种生产消费者模式,不同的是,由订阅者首先向消息中心指定自己对哪些数据感兴趣,发布者推送的数据经过消息中心后,每个订阅者拿到的仅仅是自己感兴趣的一组数据。这两种模式是使用消息中间件时最常用的,用于功能解耦和分布式系统间的消息通信。
王知无-import_bigdata
2020-06-06
4.2K0
实战 | MySQL Binlog通过Canal同步HDFS
本文来自:http://bigdatadecode.club/MysqlToHDFSWithCanal.html
王知无-import_bigdata
2020-02-20
2.6K0
Structured Streaming | Apache Spark中处理实时数据的声明式API
随着实时数据的日渐普及,企业需要流式计算系统满足可扩展、易用以及易整合进业务系统。Structured Streaming是一个高度抽象的API基于Spark Streaming的经验。Structured Streaming在两点上不同于其他的Streaming API比如Google DataFlow。 第一,不同于要求用户构造物理执行计划的API,Structured Streaming是一个基于静态关系查询(使用SQL或DataFrames表示)的完全自动递增的声明性API。 第二,Structured Streaming旨在支持端到端实时的应用,将流处理与批处理以及交互式分析结合起来。 我们发现,在实践中这种结合通常是关键的挑战。Structured Streaming的性能是Apache Flink的2倍,是Apacha Kafka 的90倍,这源于它使用的是Spark SQL的代码生成引擎。它也提供了丰富的操作特性,如回滚、代码更新、混合流\批处理执行。 我们通过实际数据库上百个生产部署的案例来描述系统的设计和使用,其中最大的每个月处理超过1PB的数据。
王知无-import_bigdata
2020-01-14
1.9K0
State Processor API:如何读取,写入和修改 Flink 应用程序的状态
过去无论是在生产中使用,还是调研 Apache Flink,总会遇到一个问题:如何访问和更新 Flink 保存点(savepoint)中保存的 state?Apache Flink 1.9 引入了状态处理器(State Processor)API,它是基于 DataSet API 的强大扩展,允许读取,写入和修改 Flink 的保存点和检查点(checkpoint)中的状态。
王知无-import_bigdata
2019-12-20
1.9K0
Flink面试通关手册
2019 年是大数据实时计算领域最不平凡的一年,2019 年 1 月阿里巴巴 Blink (内部的 Flink 分支版本)开源,大数据领域一夜间从 Spark 独步天下走向了两强争霸的时代。Flink 因为其天然的流式计算特性以及强大的处理性能成为炙手可热的大数据处理框架。
王知无-import_bigdata
2019-12-09
1.4K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档