开源部署-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

开源部署

专栏成员

4665

文章

6706732

阅读量

54

订阅数

Python 高阶函数

mapreduce 编程算法

功能：将传输的函数fn依次作用到lsd集合中的每个元素，并把结果作为一个Iterator返回

2022-09-08

3520

搭建Spark高可用集群

spark shell mapreduce 编程算法机器学习

从右侧最后一条新闻看，Spark也用于AI人工智能 spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算模型。高效的支撑更多计算模式，包括交互式查询和流处理。spark的一个主要特点是能够在内存中进行计算，及时依赖磁盘进行复杂的运算，Spark依然比MapReduce更加高效。

2022-07-28

7300

CentOS 7.4下编译安装Hadoop 2.7.6 及所需文件

hadoop yarn node.js maven mapreduce

操作系统：CentOS Linux release 7.4.1708 (Core) 64位使用软件如下： jdk1.8.0_112.tar.gz Hadoop-2.7.6-src.tar.gz apache-ant-1.9.11-bin.tar.gz apache-maven-3.5.3-bin.tar.gz findbugs-3.0.1.tar.gz protobuf-2.5.0.tar.gz

2022-07-14

2300

CentOS 64位上编译 Hadoop 2.6.0

hadoop yarn node.js apache mapreduce

Hadoop不提供64位编译好的版本，只能用源码自行编译64位版本。学习一项技术从安装开始，学习hadoop要从编译开始。

2022-07-04

2240

Hadoop学习概述

node.js hadoop mapreduce 分布式

Hadoop是由apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入的。它受到最先由google lab开发的mapreduce计算模型合google file system分布式文件系统的启发。2006年3月，mapreduce和nutch distributed file system 分别被纳入称为hadoop的项目中。

2022-07-04

3140

Hadoop单节点安装部署

hadoop ssh node.js jdk mapreduce

机器环境 Distributor ID: CentOS Description: CentOS release 5.8 (Final) Release: 5.8 Codename: Final jdk 版本 java version "1.6.0_45"

2022-07-04

7180

Hadoop不适合处理实时数据的原因剖析

hadoop mapreduce windows 数据处理

Hadoop已被公认为大数据分析领域无可争辩的王者，它专注与批处理。这种模型对许多情形（比如：为网页建立索引）已经足够，但还存在其他一些使用模型，它们需要来自高度动态的来源的实时信息。为了解决这个问题，就得借助Twitter推出得Storm。Storm不处理静态数据，但它处理预计会连续的流数据。考虑到Twitter用户每天生成1.4亿条推文，那么就很容易看到此技术的巨大用途。

2022-07-04

5700

Ubuntu 14.04下安装Hadoop2.4.0 （伪分布模式）

xml 大数据 mapreduce yarn node.js

在Ubuntu14.04下安装Hadoop2.4.0 （单机模式）基础上配置 http://www.linuxidc.com/Linux/2015-01/112370.htm

2022-07-04

3090

Hadoop2.6.0的Eclipse插件编译和设置

eclipse ide mapreduce node.js jar

git clone https://github.com/winghc/hadoop2x-eclipse-plugin.git

2022-07-04

5010

Eclipse下搭建Hadoop2.4.0开发环境

node.js 大数据 hadoop mapreduce eclipse

下载Eclipse，解压安装，例如安装到/usr/local，即/usr/local/eclipse

2022-07-04

4500

Hadoop单机伪分布式部署

node.js ssh mapreduce hadoop 大数据

由于没有那么多机器，就在自己的虚拟机上部署一套Hadoop集群，这被称作伪分布式集群，但是不管怎么样，这里主要记录部署hadoop的过程以及遇到的问题，然后再使用一个简单的程序测试环境。

2022-07-04

4910

Hadoop启动，停止，与其中的守护进程的启动停止

bash bash 指令 hadoop mapreduce node.js

start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack

2022-07-04

1.8K0

入门Hadoop的WordCount程序

hadoop 大数据 node.js mapreduce 编程算法

本篇文章主要说两部分：简单介绍MapReduce的工作原理；详细解释WordCount程序。

2022-07-03

7030

Ubuntu下利用MyEclipse开发Hadoop程序

hadoop node.js 大数据 mapreduce eclipse

开发的大环境是Ubuntu 11.04，Hadoop 0.20.2，MyEclipse 9.1

2022-07-03

2660

MapReduce作业运行第三方配置文件的共享方法

mapreduce 编程算法缓存文件存储 jar

其实MapReduce作业运行第三方配置文件的共享方法往小了说其实就是参数在MapReduce作业中的传递，往大了说其实就是DistributedCache的应用。

2022-07-03

2680

如何使用Hadoop MapReduce实现不同复杂度的遥感产品算法

编程算法 mapreduce

MapReduce模型可分为单Reduce模式、多Reduce模式以及无Reduce模式，对于不同复杂度的指数产品生产算法，应根据需求选择不同的MapReduce计算模式。

2022-07-03

5580

Hadoop分区与分组

linux hadoop http html mapreduce

Hadoop权威指南(中文版-带目录索引)PDF 下载见 http://www.linuxidc.com/Linux/2013-05/84948.htm

2022-07-03

2630

Maven编译hadoop-2.2.0-src

hadoop apache yarn node.js mapreduce

Apache Maven 3.1.1 (0728685237757ffbf44136acec0402957f723d9a; 2013-09-17 23:22:22+0800) Maven home: /opt/maven Java version: 1.7.0_45, vendor: Oracle Corporation Java home: /usr/java/jdk1.7.0_45/jre Default locale: en_US, platform encoding: UTF-8 OS name: "linux", version: "2.6.18-371.3.1.el5", arch: "amd64", family: "unix"

2022-07-03

2920

Hadoop-2.4.1学习之如何确定Mapper数量

javascript python mapreduce hadoop node.js

MapReduce框架的优势是可以在集群中并行运行mapper和reducer任务，那如何确定mapper和reducer的数量呢，或者说Hadoop如何以编程的方式控制作业启动的mapper和reducer数量呢？在《Hadoop-2.4.1学习之Mapper和Reducer》中曾经提及建议reducer的数量为(0.95~1.75 ) * 节点数量 * 每个节点上最大的容器数，并可使用方法Job.setNumReduceTasks(int)，mapper的数量由输入文件的大小确定，且没有相应的setNumMapTasks方法，但可以通过Configuration.set(JobContext.NUM_MAPS, int)设置，其中JobContext.NUM_MAPS的值为mapreduce.job.maps，而在Hadoop的官方网站上对该参数的描述为与MapReduce框架和作业配置巧妙地交互，并且设置起来更加复杂。从这样一句含糊不清的话无法得知究竟如何确定mapper的数量，显然只能求助于源代码了。

2022-07-03

4780

Hadoop-2.4.1学习之Mapper和Reducer

hadoop mapreduce

MapReduce允许程序员能够容易地编写并行运行在大规模集群上处理大量数据的程序，确保程序的运行稳定可靠和具有容错处理能力。程序员编写的运行在MapReduce上的应用程序称为作业（job），Hadoop既支持用Java编写的job，也支持其它语言编写的作业，比如Hadoop Streaming（shell、python）和Hadoop Pipes（c++）。Hadoop-2.X不再保留Hadoop-1.X版本中的JobTracker和TaskTracker组件，但这并不意味着Hadoop-2.X不再支持MapReduce作业，相反Hadoop-2.X通过唯一的主ResourceManager、每个节点一个的从NodeManager和每个应用程序一个的MRAppMaster保留了对MapReduce作业的向后兼容。在新版本中MapReduce作业依然由Map和Reduce任务组成，Map依然接收由MapReduce框架将输入数据分割为数据块，然后Map任务以完全并行的方式处理这些数据块，接着MapReduce框架对Map任务的输出进行排序，并将结果做为Reduce任务的输入，最后由Reduce任务输出最终的结果，在整个执行过程中MapReduce框架负责任务的调度，监控和重新执行失败的任务等。

2022-07-03

6920

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态