学习
实践
活动
专区
工具
TVP
写文章

十里桃花舞丶

LV0
举报
发表了文章

Hadoop面试题汇总-20221031

HDFS提供了一个高效的缓存加速机制—— Centralized Cache Management ,它允许用户指定要缓存的HDFS路径。NameNode会和保...

十里桃花舞丶
缓存大数据YarnNode.js文件存储
发表了文章

实时与离线处理的区分

大多数人对离线处理和实时处理的区分,是用很感官的“快”、“慢”来完成。实际上,数据量小的情况下,离线处理也可以很快;数据量大的情况下,实时处理也可能很慢。

十里桃花舞丶
数据处理
发表了文章

Docker快速入门

常见的Linux平台,Docker可以使用https://get.docker.com/ 中提供的脚本来一键完成安装。

十里桃花舞丶
容器NginxDockerHTML
发表了文章

【微话】究竟什么是大数据?

我认为,大数据是一种在海量数据规模下进行数据存储和计算的一种技术体系(或解决方案)。

十里桃花舞丶
存储大数据
发表了文章

Hive窗口函数

Hive的窗口函数over( ),可以更加灵活的对一定范围内的数据进行操作和分析。

十里桃花舞丶
发表了文章

【原理】数据模型&系统架构

HBase表,本质是以Key-Value的方式存储,然后使用二维表的形式进行组织。每张表都属于一个NameSpace(命名空间)之下,它是对表的逻辑分组,类似于...

十里桃花舞丶
HBaseTDSQL MySQL 版数据库SQLUnix
发表了文章

【简介】分布式NoSQL数据库

NoSQL是一些分布式非关系型数据库的统称,它采用非关系的数据模型,弱化模式或表结构、弱化完整性约束、弱化甚至取消事务机制,可能无法支持,或不能完整的支持SQL...

十里桃花舞丶
TDSQL MySQL 版HBase存储分布式数据库
发表了文章

【MapReduce】作业调试

因为yarn集群重启之后,作业的历史运行日志和信息就被清理掉了,对于定位历史任务的错误信息很不友好,所以首先开启History Server用于保存所有作业的历...

十里桃花舞丶
JavaScriptYarnNode.jsHadoopMapReduce
发表了文章

【MapReduce】案例学习

所以在数据中,只需要关注IP地址。提取到IP地址之后,其实就是在做wordcount词频统计了。此案例较为简单,可以作为巩固练手项目。在wordcount基础之...

十里桃花舞丶
TCP/IP
发表了文章

【MapReduce】IDE环境开发

在开发过程中,使用IDE集成环境进行代码开发和测试,是最为便捷的。接下来讲解下如何使用IDEA进行MapReduce代码的开发。

十里桃花舞丶
JARIDEMapReduce
发表了文章

【MapReduce】基本使用

MapReduce 框架只对 <key, value> 形式的键值对进行处理。MapReduce会将任务的输入当成一组 <key, value> 键值对,最后也...

十里桃花舞丶
面向对象编程MapReduce
发表了文章

【MapReduce】配置&作业管理

mapreduce的配置文件为:mapred-site.xml。配置内容分为配置MapReduce运行程序、配置History-Server。

十里桃花舞丶
MapReduce
发表了文章

【MapReduce】基本原理

首先以词频统计的案例,来描述一下MapReduce的运算原理与一些基本的概念。这里输入的数据是一些英文的文章,它有很多行组成,而每一行又包含很多单词,每个单词之...

十里桃花舞丶
MapReduce大数据存储JavaScript
发表了文章

【MapReduce】分布式计算框架MapReduce

MapReduce起源是2004年10月Google发表了MapReduce论文,之后由Mike Cafarella在Nutch(爬虫项目)中实现了MapRed...

十里桃花舞丶
分布式MapReduce大数据
发表了文章

【Yarn】基本使用与监控

Yarn是一个资源管理框架,所以它可以对提交到集群中的任务进行查看,并可以强制结束这些任务。

十里桃花舞丶
YarnNode.js
发表了文章

历时三个月,游乐场优雅的干掉了我的环境搭建恐惧症

你能想象,在一套刚装好的centos集群中,2分钟之内快速完成一整个集群完成初始化工作吗?

十里桃花舞丶
Kafka大数据GitHubGit开源
发表了文章

【Yarn】资源调度策略

Yarn既然是一个分布式资源调度框架,管理着节点上的计算资源,那它分配这些资源的时候,便会存在调度策略。

十里桃花舞丶
YarnNode.js
发表了文章

【Yarn】系统架构&高可用

Yarn在架构上是主从架构,其中Resource Manager是主节点,Node Manager是从节点。在架构部署上,Node Manager与HDFS的D...

十里桃花舞丶
Node.js系统架构
发表了文章

【Yarn】分布式资源管理框架Yarn

在Hadoop 1.x中,是没有Yarn这个分布式资源管理框架的,它在Hadoop 2.x中首次推出。它诞生的原因其实很简单,就是Hadoop 1.x中的架构存...

十里桃花舞丶
HadoopYarnMapReduceNode.js分布式
发表了文章

【HDFS】管理与运维

通过50070端口,可以访问HDFS Web UI:http://activeNameNodeHost:50070,需将activeNameNodeHost自行...

十里桃花舞丶
HTTPNode.js

个人简介

个人成就

扫码关注腾讯云开发者

领取腾讯云代金券