Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1302296

阅读量

248

订阅数

Uber 如何为近实时特性构建可伸缩流管道？

windows bash flink 大数据

Uber 致力于为全球客户提供可靠的服务。要达到这个目标，我们很大程度上依靠机器学习来作出明智的决定，如预测和增益。所以，用来产生机器学习数据和特征的实时流管道已经越来越受到重视。

Spark学习技巧

2022-01-13

8280

Apache Flink OLAP引擎性能优化及应用

flink 大数据 apache 数据湖 windows

导读：本次分享的主题为Apache Flink新场景——OLAP引擎，主要内容包括：

Spark学习技巧

2021-03-05

7420

FlinkSQL演进过程，解析原理及一些优化策略

文件存储大数据 flink sql windows

flink 1.9之前的版本，对于Table API和SQL的底层实现结构如下图，可以看处流处理和批处理有各自独立的api (流处理DataStream，批处理DataSet)。而且有不同的执行计划解析过程，codegen过程也完全不一样，完全没有流批一体的概念，面向用户不太友好。

Spark学习技巧

2021-03-05

1K0

腾讯基于 Flink SQL 的功能扩展与深度优化实践

sql windows flink 大数据数据分析

摘要：本文由腾讯高级工程师杜立分享，主要介绍腾讯实时计算平台针对 Flink SQL 所做的优化，内容包括：

Spark学习技巧

2021-03-05

1.1K0

大数据：简述 Lambda 架构

windows serverless 批量计算数据湖

计算机科学中有一个 CAP 定理，分布式数据存储不可能同时提供以下三个保证中的两个以上。

Spark学习技巧

2020-12-11

6590

认识数据管道

bash 数据分析 windows 编程算法

本文简要介绍了三种数据管道（Data Pipeline）类型。中兴数据智能为您翻译如下。

Spark学习技巧

2020-09-17

2.7K0

说几个flink好做spark却不好做的场景

spark 大数据 sql 编程算法 windows

就拿flink和spark streaming来说吧，要是理解其设计灵感就会很简单的理解该选谁：

Spark学习技巧

2019-08-28

8880

如何理解flink流处理的动态表？

windows sql 数据库 jquery

尽管存在这些差异，但使用关系查询和SQL处理流并非不可能。高级关系数据库系统提供称为物化视图的功能。物化视图定义为SQL查询，就像常规虚拟视图一样。与虚拟视图相比，物化视图缓存查询的结果，使得在访问视图时不需要执行查询。缓存的一个常见挑战是避免缓存提供过时的结果。物化视图在修改其定义查询的基表时会过时。Eager View Maintenance是一种在更新基表后立即更新实例化视图的技术。

Spark学习技巧

2019-05-24

3.3K0

Flink 和 Pulsar 的批流融合

flink 大数据 apache java windows

Apache Flink 和 Apache Pulsar 的开源数据技术框架可以以不同的方式融合，来提供大规模弹性数据处理。4 月 2 日，我司 CEO 郭斯杰受邀在 Flink Forward San Francisco 2019 大会上发表演讲，介绍了 Flink 和 Pulsar 在批流应用程序的融合情况。这篇文章会简要介绍 Apache Pulsar 及其与其他消息系统的不同之处，并讲解如何融合 Pulsar 和 Flink 协同工作，为大规模弹性数据处理提供无缝的开发人员体验。

Spark学习技巧

2019-05-22

2.9K1

spark面试该准备点啥

spark sql windows 编程算法文件存储

最近很多球友都说在准备面试，不知道准备点啥，尤其是spark，实际上星球里浪尖分享的内容真的都掌握了，应对一般面试绝对没问题，但是遗憾的事情是很多人都是处于不会主动搜集资料，主动梳理知识，主动记忆整理知识，而是伸手要粮的境地。浪尖觉得这个是阻止你成长的罪魁祸手。前天跟朋友聚餐就说道这种情况，不努力，不加班给自己喂粮的，没有足够量和时间积累的人很难在一个领域里有所建树。

Spark学习技巧

2019-05-09

8850

SparkStreaming如何解决小文件问题

批量计算 spark 大数据 windows

使用sparkstreaming时，如果实时计算结果要写入到HDFS，那么不可避免的会遇到一个问题，那就是在默认情况下会产生非常多的小文件，这是由sparkstreaming的微批处理模式和DStream(RDD)的分布式(partition)特性导致的，sparkstreaming为每个partition启动一个独立的线程来处理数据，一旦文件输出到HDFS，那么这个文件流就关闭了，再来一个batch的parttition任务，就再使用一个新的文件流，那么假设，一个batch为10s，每个输出的DStream有32个partition，那么一个小时产生的文件数将会达到(3600/10)*32=11520个之多。众多小文件带来的结果是有大量的文件元信息，比如文件的location、文件大小、block number等需要NameNode来维护，NameNode会因此鸭梨山大。不管是什么格式的文件，parquet、text,、JSON或者 Avro，都会遇到这种小文件问题，这里讨论几种处理Sparkstreaming小文件的典型方法。

Spark学习技巧

2019-05-09

6930

小白专属mysql入门

云数据库 SQL Server spark 数据库 windows

MYSQL-深入到精通mysql教程，请进入知识星球-spark技术学院获取 ---- 基本操作语句创建查看 1，创建数据库：进入MySql数据库环境后，就可以使用CREATE DATABASE语句创建自己的数据库了。 CREATE DATABASE 数据库名；>create database study; 注1：数据库名可以由任意字母、数字、下面(_)和美元符号($)组成，但不能由单独的数字组成，也不能为MySQL关键字，而且长度还不能超过64个字符。在windows系统下，数据库名不区分大小写，在

Spark学习技巧

2018-06-22

1.1K0

Flink DataStream编程指南及使用注意事项。

flink 大数据编程算法 windows

Flink中的DataStream程序是对数据流进行转换的常规程序（例如，过滤，更新状态，定义窗口，聚合）。数据流的最初的源可以从各种来源(例如，消息队列，套接字流，文件)创建，并通过sink返回结果，例如可以将数据写入文件或标准输出。Flink程序以各种上下文运行，独立或嵌入其他程序中。执行可能发生在本地JVM或许多机器的集群上。一，套接字流下面举一个例子，该例子，数据来源是网络套接字，带窗口的流处理，窗口大小是5s，这些概念玩过spark Streaming应该都很清楚，我们后面也会给大家详细讲解。

Spark学习技巧

2018-01-31

5.8K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态