MMD_1a_MapReduce

本系列,是斯坦福大学《mining massive dataset》的笔记。

MapReduce

Distributed File System

传统的单机结构与分布式结构

分布式计算的难题

  • node failure:如果1台机器故障的概率是1/1000f/d,那么1000台机器故障的概率是1f/d。
  • network bottleneck:假设network bandwidth=1Gbps,那么移动10TB的数据大约需要1天。
  • distributed programming很困难。

MR的解决

  • 将数据冗余地存放在多个计算机节点上
  • 尽量直接在数据侧进行计算,减少数据移动。(move computation close to data)
  • 简单的编程模型

DFS概述

Computational Model

概述

例子

Scheduling and Data Flow

整体概述

environment

data flow

coordination

num of M and R jobs

Refinements

combiners

partition func

implements

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏漫漫全栈路

用于时间序列预测的Python环境

Python生态系统正在不断的成长和壮大,并可能成为应用机器学习的主要平台。

3058
来自专栏CSDN技术头条

使用TCP时序图解释BBR拥塞控制算法的几个细节

周六,由于要赶一个月底的Deadline,因此选择了在家VPN加班,大半夜就爬起来跑用例,抓数据……自然也就没有时间写文章和外出耍了,不过利用周日的午夜时间(不...

43210
来自专栏恰同学骚年

操作系统核心原理-6.外存管理(上)磁盘基础

  计算机是处理数据的机器,而数据就需要有地方存放。在计算机中,可供数据存放的地方并不太多,除了内存之外,最主要的存储数据的媒介就是磁盘。对于大多数计算机领域的...

1251
来自专栏机器学习原理

NLP(5)——基于依存分析的开放式中文实体关系抽取方法

前言:由于主要是涉及一些NLP的东西,所以将本文放到NLP里面。 前期学习的资料:

1252
来自专栏Youngxj

巅峰QQ百变聊天气泡V3.5 几百种气泡转变 炫彩聊天 逼格十足 永久免费

1553
来自专栏CDA数据分析师

Python告诉你:单词软件火了,但真的有那么多人在背单词吗?

0x00 前言 你想知道背单词软件有大概多少人注册第一天都没有背完嘛? 你想知道背单词软件这么火,这么多人在使用,真的有多少人真的在背诵嘛? 别急,Python...

2057
来自专栏用户画像

1.2.1计算机网络分层结构

两个系统中实体间的通信是一个很复杂的过程,为了降低协议设计和调试过程的复杂性,也为了便于对网络进行研究、实现和维护,促进标准化工作,通常对计算机网络的体系结构以...

872
来自专栏AI科技评论

动态 | 中科院计算所开源Easy Machine Learning系统,用交互式图形界面简化ML开发过程

AI科技评论按:6.13号上午,中科院计算所研究员徐君在微博中宣布,Easy Machine Learning 系统开源,欢迎大家下载。AI科技评论编辑第一时间...

3458
来自专栏量子位

捡漏!用谷歌图片搜索自制深度学习数据集 | 教程

就怕前脚刚立志搞个新研究,后脚就发现没有合适的数据集可用。AI工程师从入门到放弃,可能就是这么一会的功夫。

831
来自专栏ATYUN订阅号

Prodigy,从根本上有效的自主学习驱动的注释工具

Prodigy是一种非常高效的机器教学工具,数据科学家可以在无需外部注释的情况下,为新功能创建端到端原型,并且可以顺利地进行生产。无论你是在进行实体识别、意图检...

32010

扫码关注云+社区