腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

534489

阅读量

99

订阅数

Flink双流及多流Join 、IntervalJoin、coGroupJoin的区别与生产使用

unix 编程算法数据库 sql 云数据库 SQL Server

1.Flink 三种Join的代码测试 1.1 数据源 1.2 join 1.3 intervalJoin 1.3.1 intervalJoin API用法 1.3.2 intervalJoin SQL用法 1.4 coGroup

大数据真好玩

2022-12-05

2.4K0

时间轮在Netty、Kafka中的应用

kafka linux java 编程算法

时间轮是一个高性能、低消耗的数据结构，它适合用非准实时，延迟的短平快任务，例如心跳检测。在Netty、Kafka、Zookeeper中都有使用。

大数据真好玩

2022-12-05

1.1K0

腾讯广告业务基于Apache Flink + Hudi的批流一体实践

数据分析数据处理编程算法 javascript 存储

广告主和代理商通过广告投放平台来进行广告投放，由多个媒介进行广告展示，从而触达到潜在用户。整个过程中会产生各种各样的数据，比如展现数据、点击数据。其中非常重要的数据是计费数据，以计费日志为依据向上可统计如行业维度、客户维度的消耗数据，分析不同维度的计费数据有助于业务及时进行商业决策，但目前部门内消耗统计以离线为主，这种T+1延迟的结果已经无法满足商业分析同学的日常分析需求，所以我们的目标为：建设口径统一的实时消耗数据，结合BI工具的自动化配置和展现能力，满足业务实时多维消耗分析，提高数据运营的效率和数据准确性。

大数据真好玩

2022-06-17

1.1K0

基于Seatunnel连通Hive和ClickHouse实战

编程算法 spark hive jquery hadoop

官方推荐的 seatunnel1.5.7+spark2.4.8+scala2.11

大数据真好玩

2022-06-17

2K0

Flink RocksDB托管内存机制的幕后—Cache & Write Buffer Manager

大数据 flink vr 视频解决方案编程算法缓存

为了解决Flink作业使用RocksDB状态后端时的内存超用问题，Flink早在1.10版本就实现了RocksDB的托管内存(managed memory)机制。用户只需启用state.backend.rocksdb.memory.managed参数(默认即为true)，再设定合适的TaskManager托管内存比例taskmanager.memory.managed.fraction，即可满足多数情况的需要。

大数据真好玩

2022-06-17

1.2K0

ClickHouse 数据类型全解析及实际应用

java ipv6 编程算法 tcp/ip python

基础类型只有数值、字符串和时间三种类型，没有 Boolean 类型，但可以使用整型的 0 或 1 替代。ClickHouse 的数据类型和常见的其他存储系统的数据类型对比:

大数据真好玩

2022-03-28

3.6K0

【Spark重点难点】你从未深入理解的RDD和关键角色

spark flink 大数据分布式编程算法

之前我们成功完成了Flink重点难点部分的学习了。很多同学可能还没有意识到,你已经把Flink这个框架中最关键的部分掌握了。Flink的重点难点部分就是我列在这里的部分：

大数据真好玩

2021-12-02

4100

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

flink 大数据数据库 sql 编程算法

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

大数据真好玩

2021-11-23

1.2K0

SparkSQL并行执行多个Job的探索

spark sql 数据库编程算法 linux

Spark是以TaskSetManager为单元来调度任务的。通常情况下，任务队列中只会有一个TaskSetManager，而通过多线程提交多个Job时，则会有多个TaskSetManager被丢到任务队列中。在有空闲资源的情况下，谁会从队列里被取出来执行就取决于相应的调度策略了。目前，Spark支持FIFO和FAIR两种调度策略。

大数据真好玩

2021-11-16

1.4K0

万字雄文：从数字资源向数字资产、数字资本的飞跃！

数据安全编程算法大数据

在数字经济时代，大数据的广泛采集和应用对人类的生活方式、城市管理、企业运营实现了全方位、智能化的重构。

大数据真好玩

2021-11-05

3430

Hadoop重点难点：HDFS读写/NN/2NN/DN

编程算法大数据 node.js

NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机，那么整个集群就瘫痪了。

大数据真好玩

2021-10-12

9600

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics，使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储，用于系统查询或者批量进行离线分析。

大数据真好玩

2021-09-18

4490

从面试角度详解Kafka

kafka 编程算法 bash bash 指令 node.js

Kafka 是一个优秀的分布式消息中间件，许多系统中都会使用到 Kafka 来做消息通信。对分布式消息系统的了解和使用几乎成为一个开发人员必备的技能。

大数据真好玩

2021-07-12

6390

我们在学习Spark的时候，到底在学习什么？

编程算法数据处理大数据存储 spark

Spark发展至今，应该说已经非常成熟了。是大数据计算领域不得不学习的框架。尤其是Spark在稳定性和社区发展的成熟度方面，基本可以吊打其他的大数据处理框架。

大数据真好玩

2021-07-08

4250

HDFS 底层交互原理解析

node.js 大数据编程算法 zookeeper

大约在 15 年前，我们大数据开发的“祖师爷”（Doug Cutting）基于 Google 经典论文“三驾马车”，陆续实现了 HDFS、MapReduce、HBase 三个经典大数据组件并做了开源，这才有了这些年来大数据生态圈的红红火火。

大数据真好玩

2021-07-07

6940

【大数据哔哔集20210117】Spark面试题灵魂40问

spark 大数据编程算法缓存 kafka

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor

大数据真好玩

2021-01-26

8070

Flink SQL高效Top-N方案的实现原理

编程算法 flink 大数据官方文档 sql

Top-N是我们应用Flink进行业务开发时的常见场景，传统的DataStream API已经有了非常成熟的实现方案，如果换成Flink SQL，又该怎样操作？好在Flink SQL官方文档已经给出了标准答案，我们只需要照抄就行，其语法如下：

大数据真好玩

2021-01-26

2.4K0

【大数据哔哔集20210107】聊聊MapReduce中的排序/二次排序/辅助排序

编程算法大数据 mapreduce

【大数据哔哔集】是小编发起的每日大数据圈子了最高频、时尚、前沿的面试题目以及资讯等，欢迎您关注。

大数据真好玩

2021-01-26

8020

打工人必备：详解MySQL索引类型和索引优点

编程算法存储数据库 sql 全文检索

索引是存储引擎用于快速查找记录的一种数据结构。因此良好的性能非常关键。尤其是当表中的数据量越来越大时，索引对性能的影响愈发重要。在数据量较小且负载较低时，不恰当的索引对性能的影响可能不明显，但当数据量逐渐增大时，性能则会急剧下降。索引优化应该是对查询性能优化最有效的手段了。索引能够轻易将查询性能提高几个数量级，“最优”的索引有时比一个“好的”索引性能要好两个数量级。

大数据真好玩

2021-01-26

9770

【大数据哔哔集20210120】SparkSQL优化策略小盘点

存储 spark 编程算法

大部分做Spark开发的同学或多或少都做过很多的优化，事实上优化的策略是很多的，还有很多的默认策略做了其实是无感知，当时当某些场景数据规模比较庞大的时候就需要用户自己去控制优化策略了，我们希望对优化策略有个整体认识，然后我们做优化的时候才能够从多方面去切入。

大数据真好玩

2021-01-21

4780

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态