首页
学习
活动
专区
工具
TVP
发布

灯塔大数据

专栏作者
1001
文章
950441
阅读量
115
订阅数
干货|盘点最受欢迎的十个开源大数据技术
大数据已然成为当今最热门的技术之一,正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是,开源让越来越多的项目可以直接采用大数据技术,下面就来盘点最受欢迎的十大开源的大数据技术。 1 Hadoop 高效、可靠、可伸缩,能够为你的数据存储项目提供所需的YARN、HDFS和基础架构,并且运行主要的大数据服务和应用程序。 2 Spark 使用简单、支持所有重要的大数据语言(Scala、Python、Java、R)。拥有强大的生态系统,成长迅速,对microbatching/batching/SQL支持
灯塔大数据
2018-04-09
8080
每周学点大数据 | No.42 Hash join
No.42期 Hash join Mr. 王:那我们就来看看 Hash join 具体是怎么做的吧。 两个表直接拿过来,我们不对其做任何排序和预处理。对这两个表进行一些随机分割,然后 Mapper 会去读取这些分割好的表块,并将它们划分为 Hash 桶。最后这些 Hash 桶根据相应的 Hash 值归入相应的 Reducer 中。 在 Reducer 中,将归入一个 Reducer 中的两个表的表块合并成一个表。于是每个 Reducer 的输入对应的就是相同的 Hash 值,因此就可以放到同一个Merg
灯塔大数据
2018-04-04
7090
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档