首页
学习
活动
专区
工具
TVP
发布

加米谷大数据

加米谷大数据实战经验分享,大数据项目分享,大数据开发培训等
专栏作者
296
文章
345630
阅读量
61
订阅数
Github标星5300+,专门为程序员开发文档开源管理系统
目前,它已经在Github上标星超5300,1.3K个Fork,Github地址:
加米谷大数据
2020-02-14
1.1K0
0基础大数据开发Spark要学习什么内容?
Spark 是专为大规模数据处理而设计的快速通用的计算引擎。用来构建大型的、低延迟的数据分析应用程序。可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等。
加米谷大数据
2019-06-05
5100
Spark的发展历史
Spark是一种通用的大数据计算框架,使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。
加米谷大数据
2019-06-05
3.8K0
比拼生态和未来,Spark和Flink哪家强?
Spark 是最活跃的 Apache 项目之一。Spark 的开源社区一度达到上千的活跃贡献者。最主要推动者是 Databricks,由最初的 Spark 创造者们成立的公司。Spark 因为在引擎方面比 MapReduce 全面占优,经过几年发展和 Hadoop 生态结合较好,已经被广泛视为 Hadoop MapReduce 引擎的取代者。
加米谷大数据
2019-01-09
8930
spark2.1.0的配置与源码分析
Spark作为一款优秀的计算框架,也配备了各种各样的系统配置参数(例如:spark.master,spark.app.name,spark.driver.memory,spark.executor.memory等)。
加米谷大数据
2019-01-09
4980
如何避免HBase写入过快引起的各种问题
client api ==> RPC ==> server IPC ==> RPC queue ==> RPC handler ==> write WAL ==> write memstore ==> flush to filesystem
加米谷大数据
2018-07-25
9050
MapReduce API 基本概念
在正式分析新旧 API 之前,先要介绍几个基本概念。这些概念贯穿于所有 API 之中,因此,有必要单独讲解。 1、 序列化 序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。 反序列化指的是将字节流转为结构化对象的过程。在 Hadoop MapReduce 中,序列化的主要作用有两个:永久存储和进程间通信。 为了能够读取或者存储 Java 对象,MapReduce 编程模型要求用户输入和输出数据 中 的 key 和 value 必 须 是 可 序 列 化 的。 在 Hadoop M
加米谷大数据
2018-04-02
5450
加米谷:Kafka Connect如何运行管理
上节讲述了Kafka OffsetMonitor:监控消费者和延迟的队列,本节更详细的介绍如何配置,运行和管理Kafka Connect,有兴趣的请关注我们的公众号。
加米谷大数据
2018-03-30
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档