Spark学习技巧-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark学习技巧

本公众号主要分享Spark使用及源码，spark 机器学习，图计算，同时会涉及到hadoop家族。

专栏成员

810

文章

1303563

阅读量

248

订阅数

Java几种常用 JSON 库性能比较，哪家最强？

java json api gson jackson

链接：https://xncoding.com/2018/01/09/java/jsons.html

Spark学习技巧

2023-03-21

7390

Spark DataSource API v2 版本对比 v1有哪些改进？

api java python spark scala

1. 由于其输入参数包括 DataFrame / SQLContext，因此 DataSource API 兼容性取决于这些上层的 API。

Spark学习技巧

2022-04-18

8790

Kafka 3.0重磅发布，弃用 Java 8 的支持！

kafka tcp/ip api apache java

Kafka 具有四个核心 API，借助这些 API，Kafka 可以用于以下两大类应用：

Spark学习技巧

2022-01-13

2.2K0

为什么以及如何升级至 Java 16 或 17

jdk java maven api 容器镜像服务

在 2021 年 4 月 27 日的 InfoQ 直播中，我探讨了为什么应该考虑升级到 Java 16 或 Java 17（一旦发布），并就如何完成升级提供了一些实用的建议。

Spark学习技巧

2022-01-13

1.3K0

Kafka Connect | 无缝结合Kafka构建高效ETL方案

kafka 编程算法 api 分布式 node.js

Kafka connect是Confluent公司(当时开发出Apache Kafka的核心团队成员出来创立的新公司)开发的confluent platform的核心功能。可以很简单的快速定义 connectors 将大量数据从 Kafka 移入和移出. Kafka Connect 可以摄取数据库数据或者收集应用程序的 metrics 存储到 Kafka topics，使得数据可以用于低延迟的流处理。一个导出的 job 可以将来自 Kafka topic 的数据传输到二级存储，用于系统查询或者批量进行离线分析。

Spark学习技巧

2021-08-25

1.2K0

3.数据湖deltalake之时间旅行及版本管理

api python unix

浪尖在deltalake第一讲的时候说过，它支持数据版本管理和时间旅行：提供了数据快照，使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。

Spark学习技巧

2021-03-05

9910

分布式图数据库在贝壳的应用实践

api 数据结构知识图谱存储

导读：你想知道百亿级图谱如何实现毫秒级查询吗？社区众多的图数据库中如何才能挑选到一款适合实际应用场景的图数据库呢？贝壳找房的行业图谱480亿量级的三元组究竟是如何存储的呢？本文将带你探索上述问题并从中得到解答。本次分享题目为"分布式图数据库在贝壳找房的应用实践"，共分为以下五大块内容：

Spark学习技巧

2021-03-05

1.2K0

大数据平台监控告警系统的实现

api 分布式系统架构 tornado 数据库

本次演讲将会一步步地，向大家展示我们这个系统架构。由于时间有限，我不会深入讲解技术细节（事实上我一开始做好、发给Sting的ppt有多达40页现在精简到20多页）。我希望达到的效果是－－

Spark学习技巧

2021-03-05

2.1K0

Apache Kylin 在中通快递的实践

apache 网站 hbase TDSQL MySQL 版 api

Apache Kylin 在中通是如何落地的，又是怎样赋能中通快递实现 OLAP 分析能力起飞的？本文从多方面对比了 Presto 和 Kylin 的优缺点，并从业务场景、调度整合、监控系统、运维调优、源码和二次开发等多个角度进行了阐述。

Spark学习技巧

2021-03-05

8190

浅谈 RESTful API

http https 网络安全 php api

全称：REST，全称是Resource Representational State Transfer，即：URL定位资源，用HTTP动词（GET,POST,DELETE,DETC）描述操作。

Spark学习技巧

2021-02-12

9830

从Druid到ClickHouse | eBay广告平台数据OLAP实战

数据分析数据处理 api spark 数据库

本文介绍eBay广告数据平台的基本情况，并对比分析了ClickHouse与Druid的使用特点。基于ClickHouse表现出的良好性能和扩展能力，本文介绍了如何将eBay广告系统从Druid迁移至ClickHouse，希望能为同业人员带来一定的启发。

Spark学习技巧

2020-12-28

1.6K0

Flink通过异步IO实现redis维表join

大数据数据库云数据库 Redis api 云数据库 SQL Server

使用flink做实时数仓的公司越来越多了，浪尖这边也是很早就开发了一个flink 全sql平台来实现实时数仓的功能。说到实时数仓，两个表的概念大家一定会知道的：事实表和维表。

Spark学习技巧

2019-12-27

3.5K0

Thrift or gRPC ？Alluxio RPC框架的深度实践总结

rpc api 数据结构 java 编程算法

作为Alluxio 2.0发布版本的一部分，我们将RPC框架从Apache Thrift（见文末链接1）变为gRPC（见文末链接2）。在本文中，我们将讨论这一变化背后的原因以及我们在此过程中学到的一些经验。

Spark学习技巧

2019-07-22

3.6K0

spark jobserver源码导读

最近有人问浪尖，想读一个比较大的spark项目源码，问浪尖要，浪尖只能告诉你业务相关的是基本上不会有人开源，平台相关的源码就比较多了，浪尖比较推荐的是Spark JobServer相关的源码。改源码量比较小，而且是关于Spark API的非常适合大家去阅读，以便于帮助大家更加深刻的理解spark API的使用及运行原理相关的内容。

Spark学习技巧

2019-07-05

9120

终于有人把 Elasticsearch 原理讲透了！

Elasticsearch Service 分布式搜索引擎机器学习 api

搜索是现代软件必备的一项基础功能，而 Elasticsearch 就是一款功能强大的开源分布式搜索与数据分析引擎。

Spark学习技巧

2019-06-28

1.3K0

经过性能对比，我发现温少的FastJson真牛。

json api 文件存储 java

JSON不管是在Web开发还是服务器开发中是相当常见的数据传输格式，一般情况我们对于JSON解析构造的性能并不需要过于关心，除非是在性能要求比较高的系统。

Spark学习技巧

2019-06-18

6.6K0

JDK中几个错误的调用方式

jdk api json http 打包

如果两个变量中间隔了比较长的其它代码，很可能会导致开发人员将两者混淆，导致逻辑认知错误，从而写出或改出有问题的代码。

Spark学习技巧

2019-06-18

1.3K0

基于Alluxio系统的Spark DataFrame高效存储管理技术

python spark 缓存存储 api

越来越多的公司和组织开始将Alluxio和Spark一起部署从而简化数据管理，提升数据访问性能。Qunar最近将Alluxio部署在他们的生产环境中，从而将Spark streaming作业的平均性能提升了15倍，峰值甚至达到300倍左右。在未使用Alluxio之前，他们发现生产环境中的一些Spark作业会变慢甚至无法完成。而在采用Alluxio后这些作业可以很快地完成。在这篇文章中，我们将介绍如何使用Alluxio帮助Spark变得更高效，具体地，我们将展示如何使用Alluxio高效存储Spark DataFrame。

Spark学习技巧

2019-05-09

1.1K0

最常见的Kafka面试题及答案

kafka zookeeper apache api

本文为您盘点最常见的Kafka面试题，同时也是对Apache Kafka初学者必备知识点的一个整理与介绍。

Spark学习技巧

2019-05-09

1.6K0

扩展RDD API三部曲第一部回顾基础

1 - A list of partitions 2 - A function for computing each split 3 - A list of dependencies on other RDDs 4 - Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned) 5 - Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

Spark学习技巧

2018-12-26

5050

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态