cwl_Java-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

cwl_Java

专栏成员

2423

文章

2232490

阅读量

65

订阅数

快速学习-Azkaban入门

hive 网站任务调度 hadoop mapreduce

1）一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

2020-03-25

6000

快速学习-Kylin环境搭建

apache hadoop hbase 面向对象编程 TDSQL MySQL 版

1）将apache-kylin-2.5.1-bin-hbase1x.tar.gz上传到Linux 2）解压apache-kylin-2.5.1-bin-hbase1x.tar.gz到/opt/module

2020-03-24

5050

快速学习-Kylin概述

编程算法 hadoop sql mapreduce

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

2020-03-24

5590

presto环境搭建

node.js hive hadoop https http

1、环境准备支持操作系统： Linux or Mac OS X Java 8, 64-bit Python 2.4+

2020-03-24

1.7K0

快速学习-Sqoop入门与简介

hadoop mapreduce python 大数据数据库

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2020-03-20

5870

快速学习-Hive企业级调优

hive mapreduce hadoop

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。

2020-02-21

9520

快速学习-HDFS HA高可用

大数据 yarn node.js hadoop zookeeper

1）所谓HA（High Available），即高可用（7*24小时不中断服务）。 2）实现高可用最关键的策略是消除单点故障。HA严格来说应该分成各个组件的HA机制：HDFS的HA和YARN的HA。 3）Hadoop2.0之前，在HDFS集群中NameNode存在单点故障（SPOF）。 4）NameNode主要在以下两个方面影响HDFS集群 NameNode机器发生意外，如宕机，集群将无法使用，直到管理员重启 NameNode机器需要升级，包括软件、硬件升级，此时集群也将无法使用 HDFS HA功能通过配置Active/Standby两个NameNodes实现在集群中对NameNode的热备来解决上述问题。如果出现故障，如机器崩溃或机器需要升级维护，这时可通过此种方式将NameNode很快的切换到另外一台机器。

2020-02-21

7140

快速学习-HBase安装

hbase TDSQL MySQL 版 zookeeper hadoop

提示：如果集群之间的节点时间不同步，会导致regionserver无法启动，抛出ClockOutOfSyncException异常。修复提示： a、同步时间服务请参看帮助文档：《尚硅谷大数据技术之Hadoop入门》 b、属性：hbase.master.maxclockskew设置更大的值

2020-02-21

6610

快速学习-Hive 基本概念

mapreduce hadoop 数据库 sql hive

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序

2020-02-21

5660

快速学习-Oozie常见问题总结

hadoop 云数据库 SQL Server xml 大数据数据库

第5章 Oozie常见问题总结 Mysql权限配置授权所有主机可以使用root用户操作所有数据库和数据表 mysql> grant all on *.* to root@'%' identified by '000000'; mysql> flush privileges; mysql> exit; workflow.xml配置的时候不要忽略file属性 jps查看进程时，注意有没有bootstrap 关闭oozie 如果bin/oozied.sh stop无法关闭，则可以使用kill -9 [pid

2020-02-20

5150

快速学习-HDFS客户端操作

大数据 api hadoop 面向对象编程

需要在项目的src/main/resources目录下，新建一个文件，命名为“log4j.properties”，在文件中填入

2020-02-19

5760

快速学习-HDFS的数据流

大数据编程算法 hadoop 文件存储缓存

1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。 2）NameNode返回是否可以上传。 3）客户端请求第一个 Block上传到哪几个DataNode服务器上。 4）NameNode返回3个DataNode节点，分别为dn1、dn2、dn3。 5）客户端通过FSDataOutputStream模块请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成。 6）dn1、dn2、dn3逐级应答客户端。 7）客户端开始往dn1上传第一个Block（先从磁盘读取数据放到一个本地内存缓存），以Packet为单位，dn1收到一个Packet就会传给dn2，dn2传给dn3；dn1每传一个packet会放入一个应答队列等待应答。 8）当一个Block传输完成之后，客户端再次请求NameNode上传第二个Block的服务器。（重复执行3-7步）。

2020-02-19

5040

快速学习-DataNode

hadoop 大数据 xml 编程算法

1）一个数据块在DataNode上以文件形式存储在磁盘上，包括两个文件，一个是数据本身，一个是元数据包括数据块的长度，块数据的校验和，以及时间戳。 2）DataNode启动后向NameNode注册，通过后，周期性（1小时）的向NameNode上报所有的块信息。 3）心跳是每3秒一次，心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器，或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳，则认为该节点不可用。 4）集群运行中可以安全加入和退出一些机器。

2020-02-19

6170

快速学习HDFS2.X新特性

linux hadoop xml

（2）归档文件把/user/atguigu/input目录里面的所有文件归档成一个叫input.har的归档文件，并把归档后文件存储到/user/atguigu/output路径下。

2020-02-19

3170

大数据-Azkaban介绍

任务调度 hive hadoop

各任务单元之间存在时间先后及前后依赖关系, 为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

2019-12-30

1.8K0

大数据-MapReduce中的计数器

mapreduce hadoop

计数器是收集作业统计信息的有效手段之一，用于质量控制或应用级统计。计数器还可辅助诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务，更好的方法通常是看能否用一个计数器值来记录某一特定事件的发生。对于大型分布式作业而言，使用计数器更为方便。除了因为获取计数器值比输出日志更方便，还有根据计数器值统计特定事件的发生次数要比分析一堆日志文件容易得多。

2019-12-26

1.1K0

大数据-Hive 的三种交互方式

sql hive hadoop

hive官方推荐使用hiveserver2的这种交互方式，需要我们启动hiveserver2这个服务端，然后通过客户端去进行连接

2019-12-26

8930

大数据-HDFS的元信息和SecondaryNameNode

http 大数据 xml hadoop

当 Hadoop 的集群当中, 只有一个 NameNode 的时候,所有的元数据信息都保存在了 FsImage 与 Eidts 文件当中,这两个文件就记录了所有的数据的元数据信息, 元数据信息的保存目录配置在了hdfs-site.xml 当中

2019-12-25

3500

大数据-HDFS 文件副本和 Block 块存储

大数据缓存 linux hadoop

所有的文件都是以 block 块的方式存放在 HDFS 文件系统当中, 在 Hadoop1当中, 文件的 block 块默认大小是 64M, hadoop2 当中, 文件的 block块大小默认是 128M, block 块的大小可以通过 hdfs-site.xml当中的配置文件进行指定

2019-12-25

1.3K0

大数据-HDFS基本介绍

hadoop 大数据 apache 爬虫

HDFS（Hadoop Distributed File System）是一个 Apache Software Foundation项目, 是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据(比如 TB 和 PB), 其就是使用 HDFS 作为存储系统. HDFS使用多台计算机存储文件, 并且提供统一的访问接口,像是访问一个普通文件系统一样使用分布式文件系统. HDFS对数据文件的访问通过流的方式进行处理, 这意味着通过命令和 MapReduce程序的方式可以直接使用 HDFS. HDFS 是容错的,且提供对大数据集的高吞吐量访问.

2019-12-25

4150

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态