首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

最经典的大数据案例解析(附代码)

假设以上就是我们需要处理的数据,我们需要计算出每个月天气最热的两天。 这个案例用到的东西很多,如果你能静下心来好好看完,你一定会受益匪浅的 首先我们对自己提出几个问题 1.怎么划分数据,怎么定义一组??? 2.考虑reduce的计算复杂度??? 3.能不能多个reduce??? 4.如何避免数据倾斜??? 5.如何自定义数据类型??? —-记录特点 每年 每个月 温度最高 2天 1天多条记录怎么处理? —-进一步思考 年月分组 温度升序 key中要包含时间和温度! —-MR原语:相同的key分到一组 通过GroupCompartor设置分组规则 —-自定义数据类型Weather 包含时间 包含温度 自定义排序比较规则 —-自定义分组比较 年月相同被视为相同的key 那么reduce迭代时,相同年月的记录有可能是同一天的,reduce中需要判断是否同一天 注意OOM —-数据量很大 全量数据可以切分成最少按一个月份的数据量进行判断 这种业务场景可以设置多个reduce 通过实现partition

01
领券