Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1302582

阅读量

248

订阅数

SeaTunnel 与 DataX 、Sqoop、Flume、Flink CDC 对比

flume sqoop 数据同步 flink

Apache SeaTunnel 是一个非常易用的超高性能分布式数据集成产品，支持海量数据的离线及实时同步。每天可稳定高效同步万亿级数据，已应用于数百家企业生产，也是首个由国人主导贡献到 Apache 基金会的数据集成顶级项目。

Spark学习技巧

2024-03-27

2.8K0

Flink在涂鸦防护体系中的应用

flink 登录框架数据统计

随着互联网的快速发展，数据量呈爆炸性增长，安全分析领域面临着前所未有的挑战。传统的安全分析方法在处理海量数据时显得力不从心，无法满足实时、高效的需求。为了解决这一问题，Flink作为一种实时数据处理框架，逐渐在安全分析领域崭露头角。本文将基于涂鸦SOC平台建设经验浅谈Flink在安全分析领域的应用。

Spark学习技巧

2024-02-22

960

FlinkCEP - Flink的复杂事件处理

flink event public 监控事件

FlinkCEP是在Flink上层实现的复杂事件处理库。它可以让你在无限事件流中检测出特定的事件模型，有机会掌握数据中重要的那部分。

Spark学习技巧

2023-12-05

3060

更快更稳更易用: Flink 自适应批处理能力演进

flink data date partition shuffle

Flink 是流批一体计算框架，早些年主要用于流计算场景。近些年随着流批一体概念的推广，越来越多的企业开始使用 Flink 处理批业务。

Spark学习技巧

2023-03-21

8070

Flink+Clickhouse在广投集团实时数仓的最佳实践

hbase kafka 实时数仓 flink mysql

由于历史原因，大型集团企业往往多个帐套系统共存，包括国内知名ERP厂商浪潮、用友、金蝶、速达所提供的财务系统，集团财务共享中心的财务人员在核对财务凭证数据时经常需要跨多个系统查询且每个系统使用方式不一，同时因为系统累计数据庞大，制单和查询操作经常出现卡顿，工作效率非常低。

Spark学习技巧

2023-03-21

8580

流批一体在京东的探索与实践

sql hive flink function join

提到流批一体，不得不提传统的大数据平台 —— Lambda 架构。它能够有效地支撑离线和实时的数据开发需求，但它流和批两条数据链路割裂所导致的高开发维护成本以及数据口径不一致是无法忽视的缺陷。

Spark学习技巧

2023-03-21

9130

如何提高Flink大规模作业的调度器性能

flink 大数据缓存编程算法

在 Flink 1.12 中调度大规模作业时，需要大量的时间来初始化作业和部署任务。调度器还需要大量的堆内存来存储执行拓扑和主机临时部署描述符。例如，对于一个拓扑结构的作业，该作业包含两个与全对全边相连且并行度为 10k 的作业（这意味着有 10k 个源任务和 10k 个接收器任务，并且每个源任务都连接到所有接收器任务），Flink 的 JobManager 需要 30 GiB 的堆内存和超过 4 分钟的时间来部署所有任务。

Spark学习技巧

2022-03-14

1.3K0

Flink SQL代码生成与UDF重复调用的优化

javascript sql 编程算法 flink 大数据

代码生成（code generation）是当今各种数据库和数据处理引擎广泛采用的物理执行层技术之一。通过代码生成，可以将原本需要解释执行的算子逻辑转为编译执行（二进制代码），充分利用JIT编译的优势，克服传统Volcano模型虚函数调用过多、对寄存器不友好的缺点，在CPU-bound场景下可以获得大幅的性能提升。

Spark学习技巧

2022-03-14

1.5K0

Flink CDC 2.0 数据处理流程全面解析

大数据 flink 数据处理

8月份 FlinkCDC 发布2.0.0版本，相较于1.0版本，在全量读取阶段支持分布式读取、支持checkpoint，且在全量 + 增量读取的过程在不锁表的情况下保障数据一致性。

Spark学习技巧

2022-01-13

1.7K0

基于 Flink 搭建实时平台

flink 系统架构 hbase TDSQL MySQL 版大数据

1一、前言在大数据时代，金融科技公司通常借助消费数据来综合评估用户的信用和还款能力。这个过程中，某些中介机构会搜集大量的号并进行“养号”工作，即在一年周期里让这些号形成正常的消费、通讯记录，目的是将这些号“培养”得非常健康，然后卖给有欺诈意向的用户。这类用户通过网上信息提交审核，骗到贷款后就“销声匿迹”了。

Spark学习技巧

2022-01-13

5650

2021年总结实时数仓最新架构图

实时数仓 flink 大数据云计算

1 基于Flink的滴滴实时数仓实践分享嘉宾：潘澄,滴滴基础平台资深研发工程师分享大纲：整体概况业务实践平台&引擎总结反思未来规划 📷 📷 2 实时OLAP，从0到1 分享嘉宾：高正炎,比特大陆分享大纲：业务背景机遇挑战架构演进架构优化未来展望 📷 📷 3 腾讯基于Flink + Iceberg 全场景实时数仓的建设实践分享嘉宾：苏舒,腾讯平台高级研发工程师分享大纲：背景及痛点数据胡技术apache iceberg flink+ iceberg构建实时数仓未来规划

Spark学习技巧

2022-01-13

1.9K0

Uber 如何为近实时特性构建可伸缩流管道？

windows bash flink 大数据

Uber 致力于为全球客户提供可靠的服务。要达到这个目标，我们很大程度上依靠机器学习来作出明智的决定，如预测和增益。所以，用来产生机器学习数据和特征的实时流管道已经越来越受到重视。

Spark学习技巧

2022-01-13

8280

Flink深度学习流处理核心组件 Time&Window 深度解析

flink 大数据 processing 编程算法 unix

Apache Flink（以下简称 Flink）是一个天然支持无限流数据处理的分布式计算框架，在 Flink 中 Window 可以将无限流切分成有限流，是处理有限流的核心组件，现在 Flink 中 Window 可以是时间驱动的（Time Window），也可以是数据驱动的（Count Window）。

Spark学习技巧

2022-01-13

3280

电商供应链数仓平台该如何建设？哪些点需要注意？

数据可视化 flink kafka 数据库大数据

导读：随着蜀海供应链业务的发展，供应链中各个环节角色的工作人员利用数据对业务进行增长分析的需求越来越迫切。在过去大数据分析平台架构1.0的实践中，存在数据生产链路太长，架构太复杂，开发运维成本都很高，之前的团队对这个架构的驾驭能力不足，数据冗余，对业务的适应能力较弱和不能快速的响应业务各种数据需求等诸多问题，基于这种问题，我们通过引入Apache Doris引擎优化生产方案，实现蜀海供应链大数据数仓的升级，在数据开发上跑通了一套完整的流程，使我们数据需求的日常迭代更加迅速和开发效率的提升，同时也解决了我们在1.0架构中存在的诸多问题。

Spark学习技巧

2022-01-12

8950

伴鱼：借助 Flink 完成机器学习特征系统的升级

特征工程云数据库 Redis 编程算法 bash flink

在伴鱼，我们在多个在线场景使用机器学习提高用户的使用体验，例如：在伴鱼绘本中，我们根据用户的帖子浏览记录，为用户推荐他们感兴趣的帖子；在转化后台里，我们根据用户的绘本购买记录，为用户推荐他们可能感兴趣的课程等。

Spark学习技巧

2022-01-12

5800

实战 | flink sql 与微博热搜的碰撞！！！

flink 大数据 sql 编程算法 kafka

根据微博目前站内词条消费情况，计算 top 50 消费热度词条，每分钟更新一次，并且按照列表展现给用户。

Spark学习技巧

2021-07-27

8910

实时数仓不保障时效还玩个毛？

flink 大数据 unix 数据处理

懒癌患者福利，先说本文结论，通过以下两个指标就已经能监控和判定 90% 数据延迟、乱序问题了。

Spark学习技巧

2021-07-27

1.1K0

快手基于 Flink 的持续优化与实践

flink 大数据 sql kafka jar

摘要：本文由快手实时计算负责人董亭亭分享，主要介绍快手基于 Flink 的持续优化与实践的介绍。内容包括：

Spark学习技巧

2021-03-11

1K0

网易数据湖探索与实践-范欣欣

数据湖 flink 大数据 html hive

导读：今天主要和大家交流的是网易在数据湖Iceberg的一些思考与实践。从网易在数据仓库建设中遇到的痛点出发，介绍对数据湖Iceberg的探索以及实践之路。

Spark学习技巧

2021-03-05

9980

spark源码阅读基本思路

spark rpc linux flink 编程算法

a.解决企业中bug。比如flink早期bug，就很多，如json序列化工具，在开启flink仅一次处理，json格式不符合要求，就会抛异常而挂掉，然后重试，挂掉。这明显不科学，要解决这个bug就要会读源码，改源码。

Spark学习技巧

2021-03-05

1.3K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态