腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏作者

296

文章

345630

阅读量

61

订阅数

Github标星5300+，专门为程序员开发文档开源管理系统

api git github https 开源

目前，它已经在Github上标星超5300，1.3K个Fork，Github地址：

加米谷大数据

2020-02-14

1.1K0

0基础大数据开发Spark要学习什么内容？

spark api scala sql

Spark 是专为大规模数据处理而设计的快速通用的计算引擎。用来构建大型的、低延迟的数据分析应用程序。可用它来完成各种各样的运算，包括 SQL 查询、文本处理、机器学习等。

加米谷大数据

2019-06-05

5100

Spark的发展历史

spark 大数据 api sql 机器学习

Spark是一种通用的大数据计算框架，使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。

加米谷大数据

2019-06-05

3.8K0

比拼生态和未来，Spark和Flink哪家强？

spark api apache 运维开源

Spark 是最活跃的 Apache 项目之一。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks，由最初的 Spark 创造者们成立的公司。Spark 因为在引擎方面比 MapReduce 全面占优，经过几年发展和 Hadoop 生态结合较好，已经被广泛视为 Hadoop MapReduce 引擎的取代者。

加米谷大数据

2019-01-09

8930

spark2.1.0的配置与源码分析

spark api hashmap

Spark作为一款优秀的计算框架，也配备了各种各样的系统配置参数(例如：spark.master，spark.app.name，spark.driver.memory，spark.executor.memory等)。

加米谷大数据

2019-01-09

4980

如何避免HBase写入过快引起的各种问题

client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem

加米谷大数据

2018-07-25

9050

MapReduce API 基本概念

在正式分析新旧 API 之前，先要介绍几个基本概念。这些概念贯穿于所有 API 之中，因此，有必要单独讲解。 1、序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在 Hadoop MapReduce 中，序列化的主要作用有两个：永久存储和进程间通信。为了能够读取或者存储 Java 对象，MapReduce 编程模型要求用户输入和输出数据中的 key 和 value 必须是可序列化的。在 Hadoop M

加米谷大数据

2018-04-02

5450

加米谷：Kafka Connect如何运行管理

api 分布式 kafka http

上节讲述了Kafka OffsetMonitor：监控消费者和延迟的队列，本节更详细的介绍如何配置，运行和管理Kafka Connect，有兴趣的请关注我们的公众号。

加米谷大数据

2018-03-30

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态