腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
大数据学习笔记
专栏作者
举报
533
文章
736584
阅读量
72
订阅数
订阅专栏
申请加入专栏
全部文章(533)
http(63)
node.js(59)
java(54)
hadoop(54)
数据库(47)
网络安全(46)
编程算法(44)
大数据(42)
https(42)
sql(34)
Elasticsearch Service(32)
linux(31)
xml(29)
spark(25)
maven(24)
云数据库 SQL Server(23)
apache(23)
html(22)
spring(21)
协议(20)
api(18)
mapreduce(16)
tcp/ip(16)
机器学习(15)
jar(15)
网站(15)
python(14)
javascript(14)
其他(13)
bash(12)
centos(12)
yum(12)
zookeeper(12)
bash 指令(11)
分布式(11)
ide(10)
hbase(10)
yarn(9)
存储(9)
shell(9)
windows(9)
数据(9)
oracle(8)
容器镜像服务(8)
腾讯云测试服务(8)
json(7)
打包(7)
eclipse(7)
tomcat(7)
TDSQL MySQL 版(7)
tensorflow(6)
jquery(6)
容器(6)
jdk(6)
ssh(6)
spring cloud(6)
c++(5)
android(5)
命令行工具(5)
hive(5)
kafka(5)
elasticsearch(5)
mysql(5)
排序(5)
索引(5)
php(4)
云数据库 Redis(4)
git(4)
github(4)
ubuntu(4)
面向对象编程(4)
npm(4)
es(4)
flink(4)
partition(4)
root(4)
登录(4)
配置(4)
ruby on rails(3)
nginx(3)
文件存储(3)
es 2(3)
云推荐引擎(3)
人工智能(3)
gcc(3)
anaconda(3)
安全(3)
虚拟化(3)
data(3)
range(3)
service(3)
system(3)
测试(3)
服务(3)
集群(3)
权限(3)
算法(3)
官方文档(2)
区块链(2)
jsp(2)
css(2)
ajax(2)
postgresql(2)
lucene/solr(2)
unix(2)
数据加密服务(2)
DevOps 解决方案(2)
云数据库 MySQL(2)
开源(2)
缓存(2)
正则表达式(2)
jdbc(2)
grep(2)
rabbitmq(2)
数据分析(2)
数据处理(2)
微服务(2)
nat(2)
utf8(2)
add(2)
db(2)
default(2)
dynamic(2)
error(2)
jieba(2)
kibana(2)
lag(2)
less(2)
neo4j(2)
null(2)
schema(2)
select(2)
server(2)
分页(2)
后台(2)
解决方案(2)
搜索(2)
同步(2)
系统(2)
异常(2)
对象存储(1)
负载均衡(1)
比特币(1)
数字货币(1)
自动驾驶(1)
mac os(1)
c 语言(1)
c#(1)
go(1)
erlang(1)
bootstrap(1)
vue.js(1)
typescript(1)
sqlite(1)
搜索引擎(1)
全文检索(1)
windows server(1)
专用宿主机(1)
访问管理(1)
NAT 网关(1)
mongodb(1)
vr 视频解决方案(1)
express(1)
sass(1)
rollup.js(1)
serverless(1)
grunt(1)
运维(1)
爬虫(1)
jvm(1)
gui(1)
mybatis(1)
sql server(1)
dns(1)
hashmap(1)
ftp(1)
二叉树(1)
scrapy(1)
rpc(1)
udp(1)
zabbix(1)
uml(1)
ntp(1)
数据可视化(1)
云数据库 postgresql(1)
防火墙(1)
迁移(1)
admin(1)
agent(1)
aggregate(1)
auto(1)
bug(1)
cat(1)
centos7(1)
checkbox(1)
cli(1)
client(1)
cmd(1)
code(1)
command(1)
components(1)
controller(1)
dao(1)
dataset(1)
date(1)
deployment(1)
directory(1)
dom(1)
dos(1)
edit(1)
editor(1)
el(1)
event(1)
exception(1)
exe(1)
exit(1)
file(1)
form(1)
format(1)
fs(1)
graph(1)
hash(1)
hdfs(1)
host(1)
instance(1)
int(1)
io(1)
ip(1)
key(1)
kill(1)
label(1)
limit(1)
list(1)
localhost(1)
lock(1)
mariadb(1)
methods(1)
min(1)
ode(1)
pagination(1)
port(1)
preferences(1)
private(1)
process(1)
protected(1)
redis(1)
rows(1)
rpm(1)
set(1)
sha256(1)
sharepoint(1)
show(1)
src(1)
storage(1)
sudo(1)
sum(1)
tablet(1)
time(1)
tools(1)
unique(1)
upgrade(1)
upsert(1)
usb(1)
version(1)
vnc(1)
百度(1)
报表(1)
遍历(1)
编码(1)
编译(1)
部署(1)
插件(1)
程序(1)
程序设计(1)
定时任务(1)
队列(1)
多线程(1)
工具类(1)
函数(1)
基础(1)
加密(1)
脚本(1)
镜像(1)
连接(1)
面试(1)
内核(1)
排序算法(1)
日志(1)
入门(1)
设计(1)
事件(1)
事务(1)
数组(1)
文件上传(1)
文件系统(1)
性能(1)
虚拟机(1)
语法(1)
源码分析(1)
终端(1)
搜索文章
搜索
搜索
关闭
Java API访问HA方式的HDFS
xml
node.js
大数据
对于namenode是HA高可用集群时,客户端远程访问hdfs有两种实现方法: (1)将所有关于namenode的参数写入Configuration对象中 (2)将配置文件core-site.xml和hdfs-site.xml文件复制到项目的src目录下
程裕强
2022-05-06
924
0
两个NameNode都处在StandBy模式
大数据
node.js
今天发现两个NameNode都处在StandBy模式 📷 📷 尝试重启hdfs,两个NameNode依然处在StandBy模式 后来发现停止HDFS时,NameNode1不能停止 [root@bigdata01-test hadoop]# stop-dfs.sh Stopping namenodes on [bigdata01-test bigdata02-test] bigdata01-test: no namenode to stop bigdata02-test: stopping namenode
程裕强
2022-05-06
611
0
超简单的Sqoop入门教程
数据库
云数据库 SQL Server
sql
大数据
腾讯云测试服务
http://sqoop.apache.org/ https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.7/
程裕强
2022-05-06
557
0
HDFS块丢失
node.js
grep
大数据
(2)hdfs fsck / | egrep -v ‘^.+$’ | grep -v eplica
程裕强
2022-05-06
590
0
Hadoop基础教程-第9章 HA高可用(9.2 HDFS 高可用配置)
xml
node.js
大数据
面向对象编程
hadoop
因为前面我们已经配置启动了普通的Hadoop相关服务,需要先停止相关服务并清除数据。 (1)停止Hadoop服务 首先停止YARN
程裕强
2022-05-06
252
0
Hadoop基础教程-第9章 HA高可用(9.1 HDFS 高可用介绍)
hadoop
node.js
大数据
zookeeper
HDFS HA(High Availability)高可用配置官方参考网址 http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSHighAvailabilityWithQJM.html
程裕强
2022-05-06
794
0
Hadoop基础教程-第7章 MapReduce进阶(7.7 MapReduce 全排序)
node.js
mapreduce
大数据
MapReduce默认只是保证同一个分区内的Key是有序的,但是不保证全局有序。如果我们将所有的数据全部发送到一个Reduce,那么不就可以实现结果全局有序。所以前文7.6节二次排序已经实现了最终结果有序,也就是全排序。 MapReduce全排序的方法1: 每个map任务对自己的输入数据进行排序,但是无法做到全局排序,需要将数据传递到reduce,然后通过reduce进行一次总的排序,但是这样做的要求是只能有一个reduce任务来完成。
程裕强
2022-05-06
178
0
Hadoop基础教程-第7章 MapReduce进阶(7.6 MapReduce 二次排序)
node.js
mapreduce
linux
大数据
oracle
MapReduce框架对处理结果的输出会根据key值进行默认的排序,这个默认排序可以满足一部分需求,但是也是十分有限的。在我们实际的需求当中,往往有要对reduce输出结果进行二次排序的需求。所谓二次排序,先按第1个字段进行排序,然后对第1个字段相同的数据,再按第2个字段进行排序。
程裕强
2022-05-06
173
0
Hadoop基础教程-第7章 MapReduce进阶(7.5 MapReduce 连接)
node.js
mapreduce
大数据
连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 比如有两份数据data1和data2,进行关键词连接是一个很通用的问题,如果数据量比较小,可以在内存中完成连接。如果数据量比较大,在内存进行连接操会发生内存溢出。MapReduce join就是用来解决大数据的连接问题。
程裕强
2022-05-06
150
0
Hadoop基础教程-第7章 MapReduce进阶(7.4 自定义Key类型)
node.js
大数据
mapreduce
原文地址:http://blog.csdn.net/chengyuqiang/article/details/73441493
程裕强
2022-05-06
188
0
Hadoop基础教程-第7章 MapReduce进阶(7.2 MapReduce工作机制)
mapreduce
yarn
大数据
node.js
jar
原文地址:http://blog.csdn.net/chengyuqiang/article/details/73382034
程裕强
2022-05-06
192
0
Hadoop基础教程-第7章 MapReduce进阶(7.1 MapReduce过程)
vr 视频解决方案
编程算法
javascript
mapreduce
大数据
一般而言,数据文件都会上传到HDFS上,也就是说HDFS上的文件作为MapReduce的输入。已知block块大小是128M(Hadoop 2.x默认的blockSize是128MB,Hadoop 1.x默认的blockSize是64MB)。MapReduce计算框架首先会用InputFormat的子类FileInputFormat类对输入文件进行切分,形成输入分片(InputSplit)。每个InputSplit分片将作为一个Map任务的输入,输入分片(input split)存储的并非数据本身,而是一个分片长度和一个记录数据的位置的数组。也就是说,InputSplit只是对输入数据进行逻辑上切分,并不会将物理文件切分成片进行存储。
程裕强
2022-05-06
431
0
Hadoop基础教程-第6章 MapReduce入门(6.4 MapReduce程序框架)
mapreduce
分布式
hadoop
node.js
大数据
我们知道,从单线程编程到多线程编程,程序结构复杂度增大了。类似的,从单机程序到分布式程序,程序结构的复杂度也增大了。这是问题的复杂环境决定的。 所以,很多初学者更接触分布式编程时,望而却步、知难而退了。可事实上,Hadoop是一个很易用的分布式编程框架,经过良好封装屏蔽了很多分布式环境下的复杂问题,因此,对普通开发者来说很容易,容易到可以依照程序模版,照葫芦画瓢。 下面代码即是Hadoop的MapReduce程序模版,其中使用了Hadoop辅助类,通过Configured的getConf()方法获取Configuration对象,重写Tool接口的run方法,实现Job提交功能。 这样就可以实现代码与配置隔离,修改MapReduce参数不需要修改java代码、打包、部署,提高工作效率。
程裕强
2022-05-06
238
0
Hadoop基础教程-第5章 YARN:资源调度平台(5.5 YARN的调度器)
yarn
node.js
hadoop
大数据
打个比方,Hadoop相当于一台虚拟计算机(由多台计算机构造的集群),那么HDFS就是这台虚拟计算机的文件系统,管理磁盘资源;而YARN负责管理虚拟计算机的CPU和内存资源。在YARN上跑的MapReduce程序(比如5.4节跑的PI和wordcount两个应用程序)就是在这台虚拟计算机跑的应用程序,需要磁盘、内存和CPU等资源。
程裕强
2022-05-06
341
0
Hadoop基础教程-第5章 YARN:资源调度平台(5.3 YARN集群配置)
xml
yarn
node.js
大数据
这个文件在《3.4 HDFS集群模式》http://blog.csdn.net/chengyuqiang/article/details/72058013中已经配置过了,这里不再重复配置。 需要注意:这个文件是指定子节点的位置,同时也是帮助Yarn指定NodeManager启动的位置。即如果HDFS没有指定slaves的话,将没有DataNode;如果Yarn没有指定slaves的话,将没有NodeManager。
程裕强
2022-05-06
186
0
Hadoop基础教程-第4章 HDFS的Java API(4.6 Java API应用)
java
api
windows
大数据
node.js
先在本地(客户端)一个文件,比如在D盘下新建一个word2.txt文件,内容随便写
程裕强
2022-05-06
201
0
Hadoop基础教程-第4章 HDFS的Java API(4.4 Windows+Eclipse+HDFS快速入门)
node.js
jar
windows
eclipse
大数据
前面4.1到4.3节的准备工作,本节正式进入HDFS的Java API 部分,将通过一个简单例子演示如何在Windows下通过Eclipse开发Hadoop(HDFS)应用程序,注意此部分不需要hadoop-eclipse-plugin插件。
程裕强
2022-05-06
357
0
Hadoop基础教程-第4章 HDFS的Java API(4.3 pom.xml解析)
xml
maven
hadoop
node.js
大数据
在pom.xml文件里添加hadoop的依赖包hadoop-common, hadoop-client, hadoop-hdfs 在搜索框中输入hadoop-common,单击“Search”按钮
程裕强
2022-05-06
471
0
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.5 HDFS基本命令)(草稿)
node.js
hadoop
大数据
c++
HDFS命令官方文档: http://hadoop.apache.org/docs/r2.7.3/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
程裕强
2022-05-06
196
0
Hadoop基础教程-第3章 HDFS:分布式文件系统(3.4 HDFS集群模式)
hadoop
xml
node.js
大数据
【2018-01-27补充】 感谢吴家行hang的提醒,这里node2和node3也要进行类似的环境变量配置。
程裕强
2022-05-06
212
0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档