首页
学习
活动
专区
工具
TVP
发布

开源部署

专栏作者
4656
文章
6140794
阅读量
51
订阅数
Python 高阶函数
功能:将传输的函数fn依次作用到lsd集合中的每个元素,并把结果作为一个Iterator返回
星哥玩云
2022-09-08
3370
搭建Spark高可用集群
从右侧最后一条新闻看,Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算 模型。高效的支撑更多计算模式,包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算,及时依赖磁盘进行复杂的运算,Spark依然比MapReduce更加高效。
星哥玩云
2022-07-28
6660
CentOS 7.4下编译安装Hadoop 2.7.6 及所需文件
操作系统:CentOS Linux release 7.4.1708 (Core)  64位 使用软件如下: jdk1.8.0_112.tar.gz Hadoop-2.7.6-src.tar.gz apache-ant-1.9.11-bin.tar.gz apache-maven-3.5.3-bin.tar.gz findbugs-3.0.1.tar.gz protobuf-2.5.0.tar.gz
星哥玩云
2022-07-14
2000
CentOS 64位上编译 Hadoop 2.6.0
Hadoop不提供64位编译好的版本,只能用源码自行编译64位版本。学习一项技术从安装开始,学习hadoop要从编译开始。
星哥玩云
2022-07-04
2030
Hadoop学习概述
Hadoop是由apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入的。它受到最先由google lab开发的mapreduce计算模型合google file system分布式文件系统的启发。2006年3月,mapreduce和nutch distributed file system 分别被纳入称为hadoop的项目中。
星哥玩云
2022-07-04
2760
Hadoop单节点安装部署
机器环境 Distributor ID: CentOS Description: CentOS release 5.8 (Final) Release: 5.8 Codename: Final jdk 版本 java version "1.6.0_45"
星哥玩云
2022-07-04
6570
Hadoop不适合处理实时数据的原因剖析
Hadoop已被公认为大数据分析领域无可争辩的王者,它专注与批处理。这种模型对许多情形(比如:为网页建立索引)已经足够,但还存在其他一些使用模型,它们需要来自高度动态的来源的实时信息。为了解决这个问题,就得借助Twitter推出得Storm。Storm不处理静态数据,但它处理预计会连续的流数据。考虑到Twitter用户每天生成1.4亿条推文,那么就很容易看到此技术的巨大用途。
星哥玩云
2022-07-04
5080
Ubuntu 14.04下安装Hadoop2.4.0 (伪分布模式)
在Ubuntu14.04下安装Hadoop2.4.0 (单机模式)基础上配置  http://www.linuxidc.com/Linux/2015-01/112370.htm
星哥玩云
2022-07-04
2810
Hadoop2.6.0的Eclipse插件编译和设置
git clone https://github.com/winghc/hadoop2x-eclipse-plugin.git
星哥玩云
2022-07-04
4450
Eclipse下搭建Hadoop2.4.0开发环境
下载Eclipse,解压安装,例如安装到/usr/local,即/usr/local/eclipse
星哥玩云
2022-07-04
4270
Hadoop单机伪分布式部署
由于没有那么多机器,就在自己的虚拟机上部署一套Hadoop集群,这被称作伪分布式集群,但是不管怎么样,这里主要记录部署hadoop的过程以及遇到的问题,然后再使用一个简单的程序测试环境。
星哥玩云
2022-07-04
4620
Hadoop启动,停止,与其中的守护进程的启动停止
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack
星哥玩云
2022-07-04
1.7K0
入门Hadoop的WordCount程序
本篇文章主要说两部分:简单介绍MapReduce的工作原理;详细解释WordCount程序。
星哥玩云
2022-07-03
4890
Ubuntu下利用MyEclipse开发Hadoop程序
开发的大环境是Ubuntu 11.04,Hadoop 0.20.2,MyEclipse 9.1
星哥玩云
2022-07-03
2460
MapReduce作业运行第三方配置文件的共享方法
其实MapReduce作业运行第三方配置文件的共享方法往小了说其实就是参数在MapReduce作业中的传递,往大了说其实就是DistributedCache的应用。
星哥玩云
2022-07-03
2450
如何使用Hadoop MapReduce实现不同复杂度的遥感产品算法
MapReduce模型可分为单Reduce模式、多Reduce模式以及无Reduce模式,对于不同复杂度的指数产品生产算法,应根据需求选择不同的MapReduce计算模式。
星哥玩云
2022-07-03
5380
Hadoop分区与分组
Hadoop权威指南(中文版-带目录索引)PDF 下载见 http://www.linuxidc.com/Linux/2013-05/84948.htm
星哥玩云
2022-07-03
2420
Maven编译hadoop-2.2.0-src
Apache Maven 3.1.1 (0728685237757ffbf44136acec0402957f723d9a; 2013-09-17 23:22:22+0800) Maven home: /opt/maven Java version: 1.7.0_45, vendor: Oracle Corporation Java home: /usr/java/jdk1.7.0_45/jre Default locale: en_US, platform encoding: UTF-8 OS name: "linux", version: "2.6.18-371.3.1.el5", arch: "amd64", family: "unix"
星哥玩云
2022-07-03
2640
Hadoop-2.4.1学习之如何确定Mapper数量
MapReduce框架的优势是可以在集群中并行运行mapper和reducer任务,那如何确定mapper和reducer的数量呢,或者说Hadoop如何以编程的方式控制作业启动的mapper和reducer数量呢?在《Hadoop-2.4.1学习之Mapper和Reducer》中曾经提及建议reducer的数量为(0.95~1.75 ) * 节点数量 * 每个节点上最大的容器数,并可使用方法Job.setNumReduceTasks(int),mapper的数量由输入文件的大小确定,且没有相应的setNumMapTasks方法,但可以通过Configuration.set(JobContext.NUM_MAPS, int)设置,其中JobContext.NUM_MAPS的值为mapreduce.job.maps,而在Hadoop的官方网站上对该参数的描述为与MapReduce框架和作业配置巧妙地交互,并且设置起来更加复杂。从这样一句含糊不清的话无法得知究竟如何确定mapper的数量,显然只能求助于源代码了。
星哥玩云
2022-07-03
4260
Hadoop-2.4.1学习之Mapper和Reducer
MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序,确保程序的运行稳定可靠和具有容错处理能力。程序员编写的运行在MapReduce上的应用程序称为作业(job),Hadoop既支持用Java编写的job,也支持其它语言编写的作业,比如Hadoop Streaming(shell、python)和Hadoop Pipes(c++)。Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件,但这并不意味着Hadoop-2.X不再支持MapReduce作业,相反Hadoop-2.X通过唯一的主ResourceManager、每个节点一个的从NodeManager和每个应用程序一个的MRAppMaster保留了对MapReduce作业的向后兼容。在新版本中MapReduce作业依然由Map和Reduce任务组成,Map依然接收由MapReduce框架将输入数据分割为数据块,然后Map任务以完全并行的方式处理这些数据块,接着MapReduce框架对Map任务的输出进行排序,并将结果做为Reduce任务的输入,最后由Reduce任务输出最终的结果,在整个执行过程中MapReduce框架负责任务的调度,监控和重新执行失败的任务等。
星哥玩云
2022-07-03
6180
点击加载更多
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战,赢鹅厂证书、公仔好礼!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档