首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >双map reduce风格

双map reduce风格

作者头像
超级大猪
发布2021-01-06 15:25:50
发布2021-01-06 15:25:50
7130
举报
文章被收录于专栏:大猪的笔记大猪的笔记

场景

在并行计算中,应想方设法将数据最大化的进行并行处理。如前一步骤处理后的数据不方便进行后续的并行处理,应该转换中间格式。

例如统计一个文件的词频这一场景:

  1. 将大文件拆解为多个小文件
  2. 小文件在不同的服务器并行处理。在服务器上,按行拆解单词。
  3. 统计每一行中,每个单词的词频。并输出到下一步。
  4. 输出的格式为 [(hello,1), (world, 2), ... , (hello, 1)]

然而,输出的格式并不方便进行下一步并行计算。此时,可以进行regroup操作。将单词以一定规则,统一分类到不同的服务器,进行后续的计算。

在复杂的场景中,regroup可能需要进行多次。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021-01-05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 场景
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档