MMD_1a_MapReduce

本系列,是斯坦福大学《mining massive dataset》的笔记。

MapReduce

Distributed File System

传统的单机结构与分布式结构

分布式计算的难题

  • node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
  • network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
  • distributed programming很困难。

MR的解决

  • 将数据冗余地存放在多个计算机节点上
  • 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
  • 简单的编程模型

DFS概述

Computational Model

概述

例子

Scheduling and Data Flow

整体概述

environment

data flow

coordination

num of M and R jobs

Refinements

combiners

partition func

implements

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Python小屋

Python批量生成垃圾邮件内容

问题背景:这个文章的代码是为下一篇关于贝叶斯分类的文章做准备的,用来生成一些模拟的垃圾邮件。一般而言,垃圾邮件都是带有特定目的的,所以邮件中必然会包含一些特定的...

3436
来自专栏专知

基于网页的图像标注工具——imglab

【导读】imglab是一种基于Web的工具,用于标记可用于训练dlib或其他对象检测器的对象的图像。

2043
来自专栏软件开发 -- 分享 互助 成长

SQL中查询优化的主要策略

为了能提高查询效率按优先级主要有一下策略: 1、尽可能早的执行选择操作(最基本的一条) 2、把笛卡尔积和随后的选择操作合并成F连接运算 3、同时计算一连串的选择...

1849
来自专栏祝威廉

让流动的数据结构化

结构化数据加上一个支持schema变更的存储,加上一个高效易用的支持SQL的数据处理和查询的引擎,简直无所不能和极度高效。

391
来自专栏AI研习社

Github 项目推荐 | 用于运行和训练深度神经网络的开源 C++ 库 —— nGraph

nGraph 目前支持三种流行的深度学习框架(neon、MXNet、TensorFlow),对于其他的深度学习框架,开发者可以根据官方的引导指南来创建用于编译和...

1292
来自专栏贾志刚-OpenCV学堂

Windows系统如何安装Tensorflow Object Detection API

TensorFlow™ 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edg...

1081
来自专栏程序生活

TensorFlow教程(十二) 随机数实例

tf.random_uniform([4,4], minval=-10,maxval=10,dtype=tf.float32)))返回4*4的矩阵,产生于-10...

651
来自专栏吉浦迅科技

TensorRT

作为Inference(推理)端的SDK的工具,TensorRT是可编程的处理加速器,主要是用来部署神经网络到Inference端之前,对于网络进行优化加速,来...

61111
来自专栏AI研习社

Github 项目推荐 | TensorFlow 的模型分析工具 —— TFMA

TFMA 是一个用于评估 TensorFlow 模型的库,它可以让用户使用 Trainer 里定义的指标以分布式方式评估大量数据的模型。这些指标也可以在不同的数...

1312
来自专栏Golang语言社区

Golang语言--计算运行的时间

函数time.Since() 计算golang运行的时间是非常有用的性能衡量指标,特别是在并发基准测试中。下面将介绍如何简单地使用Go语言来计算程序运行的时间。...

3348

扫码关注云+社区