前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MMD_1a_MapReduce

MMD_1a_MapReduce

作者头像
用户1147754
发布2018-01-02 17:01:27
6290
发布2018-01-02 17:01:27
举报
文章被收录于专栏:YoungGyYoungGy
  • MapReduce
    • Distributed File System
      • 传统的单机结构与分布式结构
      • 分布式计算的难题
      • MR的解决
      • DFS概述
    • Computational Model
      • 概述
      • 例子
    • Scheduling and Data Flow
      • 整体概述
      • environment
      • data flow
      • coordination
      • num of M and R jobs
    • Refinements
      • combiners
      • partition func
    • implements

本系列,是斯坦福大学《mining massive dataset》的笔记。

MapReduce

Distributed File System

传统的单机结构与分布式结构

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

分布式计算的难题

  • node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
  • network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
  • distributed programming很困难。

MR的解决

  • 将数据冗余地存放在多个计算机节点上
  • 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
  • 简单的编程模型

DFS概述

这里写图片描述
这里写图片描述

Computational Model

概述

这里写图片描述
这里写图片描述

例子

这里写图片描述
这里写图片描述

Scheduling and Data Flow

整体概述

这里写图片描述
这里写图片描述

environment

这里写图片描述
这里写图片描述

data flow

这里写图片描述
这里写图片描述

coordination

这里写图片描述
这里写图片描述

num of M and R jobs

这里写图片描述
这里写图片描述

Refinements

combiners

这里写图片描述
这里写图片描述

partition func

这里写图片描述
这里写图片描述

implements

这里写图片描述
这里写图片描述
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • MapReduce
    • Distributed File System
      • 传统的单机结构与分布式结构
      • 分布式计算的难题
      • MR的解决
      • DFS概述
    • Computational Model
      • 概述
      • 例子
    • Scheduling and Data Flow
      • 整体概述
      • environment
      • data flow
      • coordination
      • num of M and R jobs
    • Refinements
      • combiners
      • partition func
    • implements
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档