加米谷大数据-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

加米谷大数据

加米谷大数据实战经验分享，大数据项目分享，大数据开发培训等

专栏成员

296

文章

360273

阅读量

61

订阅数

详解Spark在大数据生态当中的定位

spark hadoop mapreduce 分布式大数据

大数据发展到现在，提到大数据计算引擎，Spark一定是大家不能忽视的一个。经过这些年来的发展，Spark在大数据行业中的市场占有率也在不断提高，能够自己独立支持集群运，还能够与Hadoop生态集成运行，因此受到大家的广泛欢迎。今天加米谷学院就来为大家来聊一聊，Spark在大数据生态当中的定位。

加米谷大数据

2020-07-10

8850

Hadoop与Spark区别介绍

spark hadoop mapreduce 分布式大数据

在大数据的领域中，被频频提到的两个技术名词是什么呢？只要涉及到大数据技术，基本上Hadoop和Spark这两者是肯定都在的。那么作为目前大数据应用当中常用的技术，作为大数据从业者，这两类都是必须要掌握的。下面加米谷学院就来带大家一起看看Hadoop与Spark有哪些区别？

加米谷大数据

2020-07-10

8210

Hadoop技术的组成及特点

hadoop mapreduce 大数据分布式

Hadoop是一个开源的可运行于大规模集群上的分布式并行编程框架，其最核心的设计包括：HDFS和MapReduce

加米谷大数据

2020-05-08

1.3K0

大数据入门须知的51个大数据术语（1）

apache 大数据编程算法开源分布式

本文从最近的大数据指南中创建了一份汇编清单，其中列出了我们认为最重要的相关术语和定义。

加米谷大数据

2020-02-14

6220

大数据的三类核心技术

hadoop 数据库 hive 分布式大数据

Flume NG实时日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据，同时，对数据进行简单处理；

加米谷大数据

2019-11-26

1.2K0

大数据开发学习：Spark必知基本概念

spark 分布式 java 大数据

内存计算引擎，提供Cache机制来支持需要反复迭代计算或者多次数据共享，减少数据读取的IO开销，值得注意的是，spark并不是将所有的数据都写入内存，相反spark默认是将数据写入磁盘，但spark支持将数据写入内存并计算。

加米谷大数据

2019-11-26

2800

大数据计算：Storm vs Flink

分布式 rpc spark windows

大数据技术中常见的大数据实时计算引擎有Spark、Storm、Flink等，目前有很多公司已经将计算任务从旧系统 Storm 迁移到 Flink。

加米谷大数据

2019-09-09

1.5K0

0基础大数据开发Hadoop要学习什么内容？

hadoop 分布式 yarn node.js mapreduce

Hadoop是Apache开源组织的一个分布式基础框架，提供了一个分布式文件系统 (HDFS)、分布式计算（MapReduce）及统一资源管理框架（YARN）的软件架构。

加米谷大数据

2019-06-05

6010

Hadoop环境中管理大数据存储八大技巧

hadoop 分布式大数据虚拟化存储

传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点，同时采用了HDFS文件系统的大规模横向扩展功能。

加米谷大数据

2019-04-19

1.3K0

云计算的定义、类型及应用场景

云计算大数据企业混合云解决方案分布式

通常来说，人们认可云计算作为一种计算方式，它允许通过互联网以“服务”的形式向外部用户交付灵活、可扩展的IT功能。其中有三个关键词：可扩展、服务和互联网，因此说云计算是在互联网上部署和交付应用，且可按需求而扩展。

加米谷大数据

2019-04-19

2.1K0

大数据开发的一些相关术语

spring unix git 分布式 hadoop

一种项目对象模型，可以通过一小段描述信息来管理项目的各种依赖之间的关系，是一个项目管理工具软件。

加米谷大数据

2019-04-19

4500

Hadoop环境中管理大数据存储八大技巧

hadoop 大数据分布式存储

传统化集中式存储存在已有一段时间。但大数据并非真的适合集中式存储架构。Hadoop设计用于将计算更接近数据节点，同时采用了HDFS文件系统的大规模横向扩展功能。

加米谷大数据

2019-01-09

1.6K0

java学习需要具备什么技能

大数据 java 分布式搜索引擎 Elasticsearch Service

很多人都想学习java编程技术，但是却不知道java学习需要具备什么技能，java本身就具备简单易学性和应用广泛性，下面一起看看java学习是需要具备什么技能。

加米谷大数据

2019-01-09

5380

大数据Hadoop入门需要填的坑

hadoop 分布式 hbase apache

Hadoop是一个由Apache基金会所开发的分布式系统集成架构，用户可以在不了解分布式底层细节情况下，开发分布式程序，充分利用集群的威力来进行高速运算与存储，具有可靠、高效、可伸缩的特点。

加米谷大数据

2019-01-09

4440

加米谷大数据携手成都商报财富沙龙第四期：区块链技术专题沙龙如期举行

大数据区块链人工智能分布式存储

6月28日下午，由成都商报主办、加米谷大数据机构和茂烨智能控股公司共同承办的大型全民公益活动——“商报财富沙龙”第四期如期顺利举行。

加米谷大数据

2018-07-25

3860

apache sql hadoop 分布式大数据

Impala 是一个高性能分析数据库，可针对存储在 Apache Hadoop 集群中的 PB 级数据进行闪电般快速的分布式 SQL 查询。Impala 还是一个现代化，大规模分布式，大规模并行的 C ++ 查询引擎，可以分析，转换和合并来自各种数据源的数据。Impala采用与Hive相同的元数据、SQL语法、ODBC 驱动程序和用户接口(Hue Beeswax)，这样在使用CDH产品时，批处理和实时查询的平台是统一的。

加米谷大数据

2018-07-25

1.9K0

大数据基础之Spark

大数据 spark 开源分布式

Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款基于内存的分布式计算框架，2013 年被Apache 基金会接管，是当前大数据领域最为活跃的开源项目之一（http://spark.apache.org/）。

加米谷大数据

2018-07-25

3180

什么是 Apache Spark？大数据分析平台详解

apache spark 大数据分布式

自从 Apache Spark 2009 年在 U.C. Berkeley 的 AMPLab 默默诞生以来，它已经成为这个世界上最重要的分布式大数据框架之一。Spark 可以用多种方式部署，它为 Java、Scala、Python，和 R 编程语言提供了本地绑定，并且支持 SQL、流数据、机器学习，和图处理。你将会发现它被银行、电信公司、游戏公司、政府，和所有如 Apple、Facebook、IBM，和 Microsoft 等主要的科技巨头公司使用。

加米谷大数据

2018-07-25

1.2K0

Yarn的优点以及不足

yarn 分布式安全

将计算框架和底层存储调度分开，以支持更多的计算框架。在YARN中ApplicationMaster是一个可变更的部分，用户可以对不同的计算框架写自己的 AppMst，让更多类型的计算框架能够跑在Hadoop集群中，可以参考YARN官方配置模板中的mapred-site.xml配置。

加米谷大数据

2018-07-25

4.7K0

ZooKeeper在HBase中的应用

zookeeper hbase 分布式 yarn

HBase主要用ZooKeeper来实现HMaster选举与主备切换、系统容错、RootRegion管理、Region状态管理和分布式SplitWAL任务管理等。 HMaster选举与主备切换 HMaster选举与主备切换的原理和HDFS中NameNode及YARN中ResourceManager的HA原理相同。系统容错当HBase启动时，每个RegionServer都会到ZooKeeper的/hbase/rs节点下创建一个信息节点（下文中，我们称该节点为”rs状态节点”），例如/hbase/rs/

加米谷大数据

2018-06-04

2.3K0

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态