前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >双map reduce风格

双map reduce风格

作者头像
超级大猪
发布2021-01-06 15:25:50
5880
发布2021-01-06 15:25:50
举报
文章被收录于专栏:大猪的笔记大猪的笔记

场景

在并行计算中,应想方设法将数据最大化的进行并行处理。如前一步骤处理后的数据不方便进行后续的并行处理,应该转换中间格式。

例如统计一个文件的词频这一场景:

  1. 将大文件拆解为多个小文件
  2. 小文件在不同的服务器并行处理。在服务器上,按行拆解单词。
  3. 统计每一行中,每个单词的词频。并输出到下一步。
  4. 输出的格式为 [(hello,1), (world, 2), ... , (hello, 1)]

然而,输出的格式并不方便进行下一步并行计算。此时,可以进行regroup操作。将单词以一定规则,统一分类到不同的服务器,进行后续的计算。

在复杂的场景中,regroup可能需要进行多次。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-01-05 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 场景
相关产品与服务
GPU 云服务器
GPU 云服务器(Cloud GPU Service,GPU)是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景。腾讯云随时提供触手可得的算力,有效缓解您的计算压力,提升业务效率与竞争力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档