首页
学习
活动
专区
工具
TVP
发布

大数据学习笔记

专栏作者
533
文章
736584
阅读量
72
订阅数
Java API访问HA方式的HDFS
对于namenode是HA高可用集群时,客户端远程访问hdfs有两种实现方法: (1)将所有关于namenode的参数写入Configuration对象中 (2)将配置文件core-site.xml和hdfs-site.xml文件复制到项目的src目录下
程裕强
2022-05-06
9240
两个NameNode都处在StandBy模式
今天发现两个NameNode都处在StandBy模式 📷 📷 尝试重启hdfs,两个NameNode依然处在StandBy模式 后来发现停止HDFS时,NameNode1不能停止 [root@bigdata01-test hadoop]# stop-dfs.sh Stopping namenodes on [bigdata01-test bigdata02-test] bigdata01-test: no namenode to stop bigdata02-test: stopping namenode
程裕强
2022-05-06
6110
超简单的Sqoop入门教程
http://sqoop.apache.org/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/
程裕强
2022-05-06
5570
HDFS块丢失
(2)hdfs fsck / | egrep -v ‘^.+$’ | grep -v eplica
程裕强
2022-05-06
5900
Hadoop基础教程-第9章 HA高可用(9.2 HDFS 高可用配置)
因为前面我们已经配置启动了普通的Hadoop相关服务,需要先停止相关服务并清除数据。 (1)停止Hadoop服务 首先停止YARN
程裕强
2022-05-06
2520
Hadoop基础教程-第9章 HA高可用(9.1 HDFS 高可用介绍)
HDFS HA(High Availability)高可用配置官方参考网址 http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
程裕强
2022-05-06
7940
Hadoop基础教程-第7章 MapReduce进阶(7.7 MapReduce 全排序)
MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序。如果我们将所有的数据全部发送到一个Reduce,那么不就可以实现结果全局有序。所以前文7.6节二次排序已经实现了最终结果有序,也就是全排序。 MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。
程裕强
2022-05-06
1780
Hadoop基础教程-第7章 MapReduce进阶(7.6 MapReduce 二次排序)
MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。所谓二次排序,先按第1个字段进行排序,然后对第1个字段相同的数据,再按第2个字段进行排序。
程裕强
2022-05-06
1730
Hadoop基础教程-第7章 MapReduce进阶(7.5 MapReduce 连接)
连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。
程裕强
2022-05-06
1500
Hadoop基础教程-第7章 MapReduce进阶(7.4 自定义Key类型)
原文地址:http://blog.csdn.net/chengyuqiang/article/details/73441493
程裕强
2022-05-06
1880
Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)
原文地址:http://blog.csdn.net/chengyuqiang/article/details/73382034
程裕强
2022-05-06
1920
Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)
一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInputFormat类对输入文件进行切分,形成输入分片(InputSplit)。每个InputSplit分片将作为一个Map任务的输入,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。也就是说,InputSplit只是对输入数据进行逻辑上切分,并不会将物理文件切分成片进行存储。
程裕强
2022-05-06
4310
Hadoop基础教程-第6章 MapReduce入门(6.4 MapReduce程序框架)
我们知道,从单线程编程到多线程编程,程序结构复杂度增大了。类似的,从单机程序到分布式程序,程序结构的复杂度也增大了。这是问题的复杂环境决定的。 所以,很多初学者更接触分布式编程时,望而却步、知难而退了。可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通开发者来说很容易,容易到可以依照程序模版,照葫芦画瓢。 下面代码即是Hadoop的MapReduce程序模版,其中使用了Hadoop辅助类,通过Configured的getConf()方法获取Configuration对象,重写Tool接口的run方法,实现Job提交功能。 这样就可以实现代码与配置隔离,修改MapReduce参数不需要修改java代码、打包、部署,提高工作效率。
程裕强
2022-05-06
2380
Hadoop基础教程-第5章 YARN:资源调度平台(5.5 YARN的调度器)
打个比方,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序(比如5.4节跑的PI和wordcount两个应用程序)就是在这台虚拟计算机跑的应用程序,需要磁盘、内存和CPU等资源。
程裕强
2022-05-06
3410
Hadoop基础教程-第5章 YARN:资源调度平台(5.3 YARN集群配置)
这个文件在《3.4 HDFS集群模式》http://blog.csdn.net/chengyuqiang/article/details/72058013中已经配置过了,这里不再重复配置。 需要注意:这个文件是指定子节点的位置,同时也是帮助Yarn指定NodeManager启动的位置。即如果HDFS没有指定slaves的话,将没有DataNode;如果Yarn没有指定slaves的话,将没有NodeManager。
程裕强
2022-05-06
1860
Hadoop基础教程-第4章 HDFS的Java API(4.6 Java API应用)
先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写
程裕强
2022-05-06
2010
Hadoop基础教程-第4章 HDFS的Java API(4.4 Windows+Eclipse+HDFS快速入门)
前面4.1到4.3节的准备工作,本节正式进入HDFS的Java API 部分,将通过一个简单例子演示如何在Windows下通过Eclipse开发Hadoop(HDFS)应用程序,注意此部分不需要hadoop-eclipse-plugin插件。
程裕强
2022-05-06
3570
Hadoop基础教程-第4章 HDFS的Java API(4.3 pom.xml解析)
在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs 在搜索框中输入hadoop-common,单击“Search”按钮
程裕强
2022-05-06
4710
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.5 HDFS基本命令)(草稿)
HDFS命令官方文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
程裕强
2022-05-06
1960
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.4 HDFS集群模式)
【2018-01-27补充】 感谢吴家行hang的提醒,这里node2和node3也要进行类似的环境变量配置。
程裕强
2022-05-06
2120
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档