Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1303770

阅读量

248

订阅数

为什么我们需要 Hive Metastore！

sql apache http hive thrift

IT 中的每个人都与数据打交道，包括前端和后端开发人员、分析师、QA 工程师、产品经理以及许多其他角色的人员。使用的数据和数据处理方法因角色而异，但数据本身往往不是关键。

Spark学习技巧

2023-03-21

5790

Apache Doris：为数据分析而生

📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷 📷

Spark学习技巧

2023-03-21

2110

数据质量监控框架及解决方案总结

apache 大数据开源 python

随着业务发展和数据量的增加，大数据应用开发已成为部门应用开发常用的开发方式，由于部门业务特点的关系，spark和hive应用开发在部门内部较为常见。当处理的数据量达到一定量级和系统的复杂度上升时，数据的唯一性、完整性、一致性等等校验就开始受到关注，而通常做法是根据业务特点，额外开发job如报表或者检查任务，这样会比较费时费力。

Spark学习技巧

2022-04-18

1.5K0

Kafka 3.0重磅发布，弃用 Java 8 的支持！

kafka tcp/ip api apache java

Kafka 具有四个核心 API，借助这些 API，Kafka 可以用于以下两大类应用：

Spark学习技巧

2022-01-13

2.2K0

Java 如何实现动态脚本？

jvm 打包 groovy apache java

阿里妹导读：在平台级的 Java 系统中，动态脚本技术是不可或缺的一环。本文分享了一种 Java 动态脚本实现方案，给出了其中的关键技术点，并就类重名问题、生命周期、安全问题等做出进一步讨论，欢迎同学们共同交流。

Spark学习技巧

2021-03-05

1.9K0

大数据开源框架技术汇总

apache hadoop 开源 spark 数据分析

Hadoop：Apache Hadoop是一个开源的分布式系统基础框架，离线数据的分布式存储和计算的解决方案。Hadoop最早起源于Nutch，Nutch基于2003 年、2004年谷歌发表的两篇论文分布式文件系统GFS和分布式计算框架MapReduce的开源实现HDFS和MapReduce。2005年推出，2008年1月成为Apache顶级项目。Hadoop分布式文件系统(HDFS)是革命性的一大改进，它将服务器与普通硬盘驱动器结合，并将它们转变为能够由Java应用程序兼容并行IO的分布式存储系统。Hadoop作为数据分布式处理系统的典型代表，形了成完整的生态圈，已经成为事实上的大数据标准，开源大数据目前已经成为互联网企业的基础设施。Hadoop主要包含分布式存储HDFS、离线计算引擎MapRduce、资源调度Apache YARN三部分。Hadoop2.0引入了Apache YARN作为资源调度。Hadoop3.0以后的版本对MR做了大量优化，增加了基于内存计算模型，提高了计算效率。比较普及的稳定版本是2.x，目前最新版本为3.2.0。

Spark学习技巧

2021-03-05

2.1K0

用 Apache Pulsar SQL 查询数据流

sql apache 存储 uml 数据湖

Apache Pulsar 越来越受欢迎，尤其在成为 Apache 软件基金会的顶级项目后。

Spark学习技巧

2021-03-05

1.6K0

Apache Flink OLAP引擎性能优化及应用

flink 大数据 apache 数据湖 windows

导读：本次分享的主题为Apache Flink新场景——OLAP引擎，主要内容包括：

Spark学习技巧

2021-03-05

7420

【开发实践】美团为什么开发 Kylin On Druid（上）？

apache hbase TDSQL MySQL 版存储 hadoop

在大数据分析领域，Apache Kylin 和 Apache Druid （incubating）是两个普遍使用的 OLAP 引擎，都具有支持在超大数据上进行快速查询的能力。在一些对大数据分析非常依赖的企业，往往同时运行着 Kylin 和 Druid 两套系统，服务于不同的业务场景。

Spark学习技巧

2021-03-05

7570

基于 Flink+Iceberg 构建企业级实时数据湖

apache 数据湖数据分析 hive 开源

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

Spark学习技巧

2021-03-05

2.1K0

实时数据仓库必备技术：Kafka知识梳理

kafka 消息队列 CMQ 版 rabbitmq apache node.js

为什么使用消息队列? •解耦•异步•削峰 (1) 解耦现有系统A, B, C, 系统B和C需要系统A的数据, 然后我们就修改系统A的代码, 给系统B, C发送数据. 这时系统D也需要系统A的数据,

Spark学习技巧

2021-03-05

8850

Apache Kylin 在中通快递的实践

apache 网站 hbase TDSQL MySQL 版 api

Apache Kylin 在中通是如何落地的，又是怎样赋能中通快递实现 OLAP 分析能力起飞的？本文从多方面对比了 Presto 和 Kylin 的优缺点，并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

Spark学习技巧

2021-03-05

8190

Kafka 和 DistributedLog 技术对比

kafka apache 编程算法存储

因为两者都是处理日志，数据模型也类似，所以这篇文章主要从技术角度讨论 Apache Kafka 与 DistributedLog 的不同点。我们会尽量做到客观，但由于我们不是 Apache Kafka 的专家，因此我们可能会对 Apache Kafka 存在误解。如果发现有错，也请大家直接指出。

Spark学习技巧

2020-09-27

5950

利用 Kafka 设置可靠的高性能分布式消息传递基础架构

kafka 数据分析 java 分布式 apache

世界已经迈进“移动”时代，现在应用程序必须能够实时提供数据，这不仅包括数据库表中存储的重要最终结果，还包括用户使用应用程序时执行的所有操作。任何可用信息，例如，用户点击量、日志数据或传感器数据都可用于改善用户体验、生成报告、向机器学习系统提供数据，等等。现如今，开发者必须关注基于实时事件流的系统。

Spark学习技巧

2020-09-16

1K0

项目实践|基于Flink的用户行为日志分析系统

kafka flink 大数据 apache 数据库

用户行为日志分析是实时数据处理很常见的一个应用场景，比如常见的PV、UV统计。本文将基于Flink从0到1构建一个用户行为日志分析系统，包括架构设计与代码实现。本文分享将完整呈现日志分析系统的数据处理链路，通过本文，你可以了解到：

Spark学习技巧

2020-09-08

2.3K0

Apache Flink 1.10.0 重磅发布,年度最大规模版本升级！

Apache Flink 社区迎来了激动人心的两位数位版本号，Flink 1.10.0 正式宣告发布！作为 Flink 社区迄今为止规模最大的一次版本升级，Flink 1.10 容纳了超过 200 位贡献者对超过 1200 个 issue 的开发实现，包含对 Flink 作业的整体性能及稳定性的显著优化、对原生 Kubernetes 的初步集成以及对 Python 支持（PyFlink）的重大优化。

Spark学习技巧

2020-02-19

7600

Apache Beam 架构原理及应用实践

云数据库 SQL Server ide apache kafka bash

导读：大家好，很荣幸跟大家分享 Apache Beam 架构原理及应用实践。讲这门课之前大家可以想想，从进入 IT 行业以来，不停的搬运数据，不管职务为前端，还是后台服务器端开发。随着这两年科技的发展，各种数据库，数据源，应运而生，大数据组件，框架也是千变万化，从 Hadoop 到现在的 Spark、Flink，数据库从先前的 oracle、MySQL 到现在的 NOSQL，不断延伸。那么有没有统一的框架，统一的数据源搬砖工具呢？

Spark学习技巧

2019-10-15

3.4K0

RocketMQ 在联想大数据中的应用简析

apache kafka 大数据大数据解决方案编程算法

众所周知，RocketMQ 作为一款分布式、队列模型的消息中间件，具有以下特点：

Spark学习技巧

2019-09-16

6410

Flink 和 Pulsar 的批流融合

flink 大数据 apache java windows

Apache Flink 和 Apache Pulsar 的开源数据技术框架可以以不同的方式融合，来提供大规模弹性数据处理。4 月 2 日，我司 CEO 郭斯杰受邀在 Flink Forward San Francisco 2019 大会上发表演讲，介绍了 Flink 和 Pulsar 在批流应用程序的融合情况。这篇文章会简要介绍 Apache Pulsar 及其与其他消息系统的不同之处，并讲解如何融合 Pulsar 和 Flink 协同工作，为大规模弹性数据处理提供无缝的开发人员体验。

Spark学习技巧

2019-05-22

2.9K1

最常见的Kafka面试题及答案

kafka zookeeper apache api

本文为您盘点最常见的Kafka面试题，同时也是对Apache Kafka初学者必备知识点的一个整理与介绍。

Spark学习技巧

2019-05-09

1.6K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态