MMD_1a_MapReduce

本系列,是斯坦福大学《mining massive dataset》的笔记。

MapReduce

Distributed File System

传统的单机结构与分布式结构

分布式计算的难题

  • node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
  • network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
  • distributed programming很困难。

MR的解决

  • 将数据冗余地存放在多个计算机节点上
  • 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
  • 简单的编程模型

DFS概述

Computational Model

概述

例子

Scheduling and Data Flow

整体概述

environment

data flow

coordination

num of M and R jobs

Refinements

combiners

partition func

implements

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

【专业技术】视频格式解析--yuv方式

存在问题: 搞视频编解码的童鞋对此深刻理解,yuv是我们常用的视频基础格式。 解决方案: 关于yuv 格式 YUV 格式通常有两大类:打包(packed)格式和...

2867
来自专栏有趣的Python

TensorFlow应用实战-19-编写A3C实现赛车游戏

https://www.cnblogs.com/darkknightzh/p/6591923.html

972
来自专栏用户2442861的专栏

Caffe学习:Blobs, Layers, and Nets

-注意:网络结构是设备无关的,Blob和Layer=隐藏了模型定义的具体实现细节。定义网络结构后,可以通过Caffe::mode()或者Caffe::set_m...

350
来自专栏PaddlePaddle

【序列到序列学习】带外部记忆机制的神经机器翻译

生成古诗词 序列到序列学习实现两个甚至是多个不定长模型之间的映射,有着广泛的应用,包括:机器翻译、智能对话与问答、广告创意语料生成、自动编码(如金融画像编码)...

2614
来自专栏大数据学习笔记

TensorFlow学习笔记:2、TensorFlow超简单入门程序

TensorFlow学习笔记:2、TensorFlow超简单入门程序 2.1 HelloWorld代码说明 import tensorflow as tf ...

2165
来自专栏互联网大杂烩

机器学习面试

线性回归的因变量是连续变量,自变量可以是连续变量,也可以是分类变量。如果只有一个自变量,且只有两类,那这个回归就等同于t检验。如果只有一个自变量,且有三类或更多...

744
来自专栏人工智能LeadAI

Tensorflow高级API的进阶--利用tf.contrib.learn建立输入函数

在实际的业务中,可能会遇到很大量的特征,这些特征良莠不齐,层次不一,可能有缺失,可能有噪声,可能规模不一致,可能类型不一样,等等问题都需要我们在建模之前,先预处...

33510
来自专栏瓜大三哥

基于FPGA的均值滤波(三)

基于FPGA的均值滤波(三) 之二维求和模块 在实现了窗口内一维行方向上的求和操作,现在要得到整个窗口内的像素之和,还必须将每一行的计算结果再叠加起来。但是每一...

1889
来自专栏人工智能

通过JS库Encog实现JavaScript机器学习和神经学网络

在本文中,你会对如何使用 JavaScript 实现机器学习这个话题有一些基本的了解。

1.2K10
来自专栏潇涧技术专栏

Python Algorithms - C9 Graphs

Python算法设计篇(9) Chapter 9: From A to B with Edsger and Friends

452

扫码关注云+社区