使用Spark反序列化kafka中的结构化流_多个kafka集群的Spark结构化流_在Java中使用Kafka进行Spark结构化流编程 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

Flink记录 - 乐享诚美

简单回答：SparkSQL数据抽象和SparkSQL底层执行过程

就易用性而言，对比传统的MapReduce API，Spark的RDD API有了数量级的飞跃并不为过。然而，对于没有MapReduce和函数式编程经验的新手来说，RDD API仍然存在着一定的门槛。

深入理解Apache Flink核心技术

Apache Flink（下简称Flink）项目是大数据处理领域最近冉冉升起的一颗新星，其不同于其他大数据项目的诸多特性吸引了越来越多人的关注。本文将深入分析Flink的一些关键技术与特性，希望能够帮助读者对Flink有更加深入的了解，对其他大数据系统开发者也能有所裨益。本文假设读者已对MapReduce、Spark及Storm等大数据处理框架有所了解，同时熟悉流处理与批处理的基本概念。 Flink简介 Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等

造轮子系列之Protobuf

作为一个程序猿，对造轮子这事情可以说是情有独钟，几乎程序猿内心都存在一个梦想是去将开源的技术都实现一遍，所有从本篇开始，我会开一个造轮子系列。

Spark Streaming管理Kafka偏移量前言从ZK获取offset

为了让Spark Streaming消费kafka的数据不丢数据，可以创建Kafka Direct DStream，由Spark Streaming自己管理offset，并不是存到zookeeper。启用Spark Streaming的 checkpoints是存储偏移量的最简单方法，因为它可以在Spark的框架内轻松获得。 checkpoints将应用程序的状态保存到HDFS，以便在故障时可以恢复。如果发生故障，Spark Streaming应用程序可以从checkpoints偏移范围读取消息。

Flink-Kafka 连接器及exactly-once 语义保证

在 Flink 中，Source 代表从外部获取数据源，Transfromation 代表了对数据进行转换操作，Sink 代表将内部数据写到外部数据源

全网第一 | Flink学习面试灵魂40问答案！

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务：

Spark Tungsten-sort Based Shuffle 分析

看这篇文章前，建议你先简单看看Spark Sort Based Shuffle内存分析。

不可不知的Spark调优点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景。但是当数据量大的时候，就需要做一定的参数配置调整和优化，以保证业务的安全、稳定的运行。并且在实际优化中，要考虑不同的场景，采取不同的优化策略。

不可不知的Spark调优点

别再和面试官说你不精通序列化与反序列化了

TCP连接传输数据的基本形式二进制流。一般编程语言或网络框架提供的API中，传输数据的基本形式是字节。二进制流和字节流本质上其实是一样的。

面试官:看你简历说精通序列化与反序列化

TCP连接传输数据的基本形式二进制流。一般编程语言或网络框架提供的API中，传输数据的基本形式是字节。二进制流和字节流本质上其实是一样的。

2021年大数据Spark（二十四）：SparkSQL数据抽象

不会这20个Spark热门技术点，你敢出去面试大数据吗?

关于大数据面试中对Spark的知识考查不需本菌多解释什么了吧~本篇博客，博主为大家分享20个Spark热门技术点，希望今年出去面试，实习的同学，尤其是想去大厂的同学，一定要把下面的20个技术点看完。

Apache Arrow - 大数据在数据湖后的下一个风向标

Arrow本身不是一个存储、执行引擎，它只是一个交互数据的基础库。比如可以用于以下组件

《从0到1学习Spark》--DataFrame和Dataset探秘

昨天小强带着大家了解了Spark SQL的由来、Spark SQL的架构和SparkSQL四大组件：Spark SQL、DataSource Api、DataFrame Api和Dataset Api。今天小强和大家一起揭开Spark SQL背后DataFrame和Dataset的面纱。

Kafka精进 | 一文读懂Producer消息发送机制

前面我们总结了broker端的核心参数，一些服务端原理细节后面文章再聊。本文我们重点讨论Producer端的消息发送机制，希望通过本文我们能整体掌握Producer端的原理。

Schema Registry在Kafka中的实践

众所周知，Kafka作为一款优秀的消息中间件，在我们的日常工作中，我们也会接触到Kafka，用其来进行削峰、解耦等，作为开发的你，是否也是这么使用kafka的：

【Spring底层原理高级进阶】Spring Kafka：实时数据流处理，让业务风起云涌！️

Spring Kafka 是 Spring Framework 提供的一个集成 Apache Kafka 的库，用于构建基于 Kafka 的实时数据流处理应用程序。Apache Kafka 是一个高性能、分布式的流数据平台，广泛用于构建可扩展的、实时的数据处理管道。

Carson带你学序列化：Google出品的序列化神器Protocol Buffer使用攻略

通过将结构化的数据进行串行化（序列化），从而实现数据存储 / RPC 数据交换的功能

Kafka 自定义序列化器和反序列化器

现 Kafka Producer 需要把 Customer 类的对象序列化成字节数组发送给 Kafka Broker，同时 Kafka Consumer 需要把字节数组反序列化为一个 Customer 对象

不愧是Alibaba技术官，Kafka的精髓全写这本“限量笔记”里，服了

分布式，是程序员必备技能之一，在面试过程中属于必备类的，在工作中更是会经常用到。而Kafka是一个分布式的基于发布订阅的消息队列，目前它的魅力是无穷的，对于Kafka的奥秘，还需要我们细细去探寻。

大数据入门：Spark RDD、DataFrame、DataSet

在Spark的学习当中，RDD、DataFrame、DataSet可以说都是需要着重理解的专业名词概念。尤其是在涉及到数据结构的部分，理解清楚这三者的共性与区别，非常有必要。今天的大数据入门分享，我们就主要来讲讲Spark RDD、DataFrame、DataSet。

2020年最新Spark企业级面试题【上】

现在距离2021年还有不到一个月的时间了，是不是有的小伙明年不知该怎么复习spark，以及不知道该备战企业中会问到那些问题。好今天他来了总结了20个企业中经常被问到的面题以及会附带一些笔试题哦，编写不易建议收藏。

客快物流大数据项目（八十五）：实时OLAP分析需求

在之前的文章学习了离线数仓的构建，但是离线数仓的最大问题即：慢，数据无法实时的通过可视化页面展示出来，通常离线数仓分析的是“T+1”的数据，针对于时效性要求比较高的场景，则无法满足需求，例如：快速实时返回“分组+聚合计算+排序聚合指标”查询需求。

Kafka Consumer的配置

FlinkKafkaConsumer08可以消费一个或多个Kafka topic的数据，它的构造器需要接收以下参数:

Web Worker 与主线程通信场景问题和对postMessage的简单封装

在Web Worker与主线程之间进行通信时，使用postMessage是一种常见的方式。然而，在某些业务场景中，postMessage可能会显得不够简洁，因为它涉及到手动序列化和反序列化数据，以及通过事件监听器处理消息。以下是一些常见问题和解决方案，以简化在Web Worker与主线程之间的通信场景中使用postMessage的问题。

Spring Cloud Stream核心组件Sink

Spring Cloud Stream中的Sink是一个用于接收消息的组件。它是一个基于反应式流的组件，它接收来自消息代理的消息，并将其传递给应用程序。Sink可以用于多种消息代理，例如Kafka、RabbitMQ和Amazon Kinesis等。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐