腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏作者

296

文章

345601

阅读量

61

订阅数

详解Spark在大数据生态当中的定位

spark hadoop mapreduce 分布式大数据

大数据发展到现在，提到大数据计算引擎，Spark一定是大家不能忽视的一个。经过这些年来的发展，Spark在大数据行业中的市场占有率也在不断提高，能够自己独立支持集群运，还能够与Hadoop生态集成运行，因此受到大家的广泛欢迎。今天加米谷学院就来为大家来聊一聊，Spark在大数据生态当中的定位。

加米谷大数据

2020-07-10

8410

Hadoop与Spark区别介绍

spark hadoop mapreduce 分布式大数据

在大数据的领域中，被频频提到的两个技术名词是什么呢？只要涉及到大数据技术，基本上Hadoop和Spark这两者是肯定都在的。那么作为目前大数据应用当中常用的技术，作为大数据从业者，这两类都是必须要掌握的。下面加米谷学院就来带大家一起看看Hadoop与Spark有哪些区别？

加米谷大数据

2020-07-10

7820

Java开发人员学习Hadoop的5大理由

hadoop java mapreduce 大数据 spark

技术永无止境，因此，技术专业人员也不应停止进步。如果您想成长，则需要不断更新自我，以领先于日益增长的竞争。因此，确定您所在领域的热点，分析最新趋势，以识别技术领域不断增长的细分市场，然后继续前进。

加米谷大数据

2020-06-02

8930

大数据常见面试题总结

zookeeper kafka mapreduce 网站数据库

很多学员在面试的时候都会问到老师，常见的面试题有哪些。今天老师根据往届学员的面试反馈，整理了常见的一些面试题目，希望可以帮助到需要的同学。

加米谷大数据

2020-05-22

6520

成为大数据工程师必备的技能有哪些？（上）

hive mapreduce http java hbase

http://www.aboutyun.com/thread-11873-1-1.html

加米谷大数据

2020-05-09

7090

Hadoop技术的组成及特点

hadoop mapreduce 大数据分布式

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：HDFS和MapReduce

加米谷大数据

2020-05-08

1.3K0

大数据平台的整体架构介绍

spark mapreduce 爬虫网站任务调度

日志是大数据平台重要数据来源之一，应用程序日志一方面记录各种程序执行状况，一方面记录用户的操作轨迹。Flume 是日志收集常用的工具。

加米谷大数据

2019-12-23

2.7K0

Hadoop架构体系

mapreduce 大数据 yarn node.js 编程算法

官方文档组织的非常清晰，主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common。

加米谷大数据

2019-09-29

7230

0基础大数据开发Hadoop要学习什么内容？

hadoop 分布式 yarn node.js mapreduce

Hadoop是Apache开源组织的一个分布式基础框架，提供了一个分布式文件系统 (HDFS)、分布式计算（MapReduce）及统一资源管理框架（YARN）的软件架构。

加米谷大数据

2019-06-05

5800

Spark和Hadoop对比有什么区别？

spark hive sql 大数据 mapreduce

Spark主要用于大数据的计算，而Hadoop以后主要用于大数据的存储。Spark+Hadoop，是目前大数据领域最热门的组合。

加米谷大数据

2019-06-05

4.1K0

Hadoop的发家简史

hadoop mapreduce apache hbase

说到大数据技术不得不提起Hadoop，今天加米谷大数据就来简单介绍一下Hadoop的简史。

加米谷大数据

2019-06-05

1.5K0

hdfs hbase hive hbase分别的适用场景

mapreduce hive hadoop hbase TDSQL MySQL 版

不想用程序语言开发MapReduce的朋友，熟悉SQL的朋友可以使用Hive开离线的进行数据处理与分析工作。

加米谷大数据

2019-04-19

1.4K0

大数据技术分享：Hadoop的相关工具

hadoop hive apache mapreduce 大数据

Apache的Hadoop项目已几乎与大数据划上了等号。它不断壮大起来，已成为一个完整的生态系统，众多开源工具面向高度扩展的分布式计算。

加米谷大数据

2019-04-19

3320

大数据入门之Hadoop基础学习

hbase hadoop spark mapreduce nosql

目前人工智能和大数据火热，使用的场景也越来越广，日常开发中前端同学也逐渐接触了更多与大数据相关的开发需求。因此对大数据知识也有必要进行一些学习理解。

加米谷大数据

2019-01-09

4030

大数据开发培训需要学习哪些知识内容？

数据库大数据 mapreduce hadoop

1. Java编程 Java编程是大数据开发的基础，大数据中很多技术都是使用Java编写的，如Hadoop、Spark、mapreduce等，因此，想要学好大数据，Java编程是必备技能！

加米谷大数据

2019-01-08

5510

Java程序员如何利用Hadoop的力量

hadoop java 大数据 mapreduce

毫无疑问，大量的数据已经到来。到处都是数据，也有大量的数据。数据集的典型大小已经从giga字节猛增到Peta字节，并增加了复杂性。多方面的增加。数据来自不同的来源–无论是Twitter更新还是不断的社交媒体数据，这些数据在形式上都是高度非结构化的。传统关系数据库用来将所有数据存储在关系表中的时代已经过去了。公司越来越多地将Java开发角色外包给其他方面。

加米谷大数据

2018-07-25

3180

spark 大数据 mapreduce sql

在大数据领域，Spark平台因计算模型涵盖MapReduce，Streaming，SQL，Machine Learning，Graph等，为大数据计算提供一栈式解决方案，以及出众的性能表现；迅速在学术界和工业界风靡。这些特性主要得益于其在大数据领域技术的继承和创新，在其架构模型中有三个核心要素：DAG、RDD、分布式计算平台.

加米谷大数据

2018-07-25

4800

Spark适用场景以及与Hadoop MapReduce优势对比

spark mapreduce 大数据

Spark的适用场景从大数据处理需求来看，大数据的业务大概可以分为以下三类：（1）复杂的批量数据处理，通常的时间跨度在数十分钟到数小时之间。（2）基于历史数据的交互式查询，通常的时间跨度在数十秒到数分钟之间。（3）基于实时数据流的数据处理，通常的时间跨度在数百毫秒到数秒之间。目前已有很多相对成熟的开源和商业软件来处理以上三种情景：第一种业务，可以利用 MapReduce 来进行批量数据处理；第二种业务，可以用 Impala 来进行交互式查询；对于第三种流式数据处理，可以想到专业的流数据处理

加米谷大数据

2018-06-04

3.6K0

技术分享 | 提升Hadoop性能和利用率你知道有哪些吗？

hadoop hive mapreduce java hbase

时下流行的词汇是大数据和Hadoop。了解大数据的知道Hadoop有三个组件，即HDFS、MapReduce和Yarn。 HDFS代表Hadoop分布式文件系统。 Hadoop分布式文件系统用于整个集群中以块的形式在计算机之间存储数据。 MapReduce是一种编程模型，可以用来编写我们的业务逻辑并获取所需的数据。而Yarn是HDFS和Spark、Hbase等其他应用程序之间的接口。我们不知道的是，Hadoop使用了很多其他应用程序有助于其最佳性能和利用率。 1、Hbase HBase是一个基于HDFS的

加米谷大数据

2018-04-02

1.3K0

MapReduce API 基本概念

在正式分析新旧 API 之前，先要介绍几个基本概念。这些概念贯穿于所有 API 之中，因此，有必要单独讲解。 1、序列化序列化是指将结构化对象转为字节流以便于通过网络进行传输或写入持久存储的过程。反序列化指的是将字节流转为结构化对象的过程。在 Hadoop MapReduce 中，序列化的主要作用有两个：永久存储和进程间通信。为了能够读取或者存储 Java 对象，MapReduce 编程模型要求用户输入和输出数据中的 key 和 value 必须是可序列化的。在 Hadoop M

加米谷大数据

2018-04-02

5450

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态