cwl_Java

1700 篇文章
36 人订阅

Hadoop

cwl_java

快速学习-Hive企业级调优

Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,H...

4520
cwl_java

快速学习-HDFS HA高可用

1)所谓HA(High Available),即高可用(7*24小时不中断服务)。 2)实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的H...

3420
cwl_java

快速学习-HBase安装

提示:如果集群之间的节点时间不同步,会导致regionserver无法启动,抛出ClockOutOfSyncException异常。 修复提示: a、同步时...

4910
cwl_java

快速学习-Hive 基本概念

Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表...

3610
cwl_java

快速学习-Oozie常见问题总结

8020
cwl_java

快速学习-HDFS客户端操作

需要在项目的src/main/resources目录下,新建一个文件,命名为“log4j.properties”,在文件中填入

5710
cwl_java

快速学习-HDFS的数据流

1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。 2...

6510
cwl_java

快速学习-DataNode

1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。 2)D...

7120
cwl_java

快速学习HDFS2.X新特性

(2)归档文件 把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件,并把归档后文件存储到/user/atgui...

3910
cwl_java

大数据-Azkaban介绍

各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划, 需要一个工作流调度系统来调度执行;

10220
cwl_java

大数据-MapReduce中的计数器

计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅 助诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务, 更好...

3810
cwl_java

大数据-Hive 的三种交互方式

hive官方推荐使用hiveserver2的这种交互方式,需要我们启动hiveserver2这个服务端,然后通过客户 端去进行连接

7430
cwl_java

大数据-HDFS的元信息和SecondaryNameNode

当 Hadoop 的集群当中, 只有一个 NameNode 的时候,所有的元数据信息都保存在了 FsImage 与 Eidts 文件当中,这两个文件就记录了所有...

3910
cwl_java

大数据-HDFS 文件副本和 Block 块存储

所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中, 在 Hadoop1当中, 文件的 block 块默认大小是 64M, hadoop2...

7920
cwl_java

大数据-HDFS基本介绍

HDFS(Hadoop Distributed File System) 是一个 Apache Software Foundation项目, 是 Apache ...

4410
cwl_java

大数据-MapReduce排序和序列化

反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流,...

4310
cwl_java

大数据-HDFS的API操作

由于 Hadoop 擅长存储大文件,因为大文件的元数据信息比较少,如果 Hadoop集群当中有大量的小文件,那么每个小文件都需要维护一份元数据信息,会大大的增加...

6010
cwl_java

大数据-Linux常用的命令

格式: grep [option] pattern [file] 可使用 —help 查看更多参数。 使用实例:

6320
cwl_java

大数据-Hadoop介绍

Hadoop是一个分布式系基础框架,它允许使用简单的编程模型跨大型计算机的大型数据集进行分布式处理.

11830
cwl_java

大数据-MapReduce基本介绍

MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思 想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场...

8220

扫码关注云+社区

领取腾讯云代金券