腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

灯塔大数据

专栏作者

1001

文章

950441

阅读量

115

订阅数

干货|盘点最受欢迎的十个开源大数据技术

spark apache hive sql

大数据已然成为当今最热门的技术之一，正呈爆炸式增长。每天来自全球的新项目如雨后春笋般涌现。幸运地是，开源让越来越多的项目可以直接采用大数据技术，下面就来盘点最受欢迎的十大开源的大数据技术。 1 Hadoop 高效、可靠、可伸缩，能够为你的数据存储项目提供所需的YARN、HDFS和基础架构，并且运行主要的大数据服务和应用程序。 2 Spark 使用简单、支持所有重要的大数据语言（Scala、Python、Java、R）。拥有强大的生态系统，成长迅速，对microbatching/batching/SQL支持

灯塔大数据

2018-04-09

8080

每周学点大数据 | No.42 Hash join

大数据 mapreduce hive

No.42期 Hash join Mr. 王：那我们就来看看 Hash join 具体是怎么做的吧。两个表直接拿过来，我们不对其做任何排序和预处理。对这两个表进行一些随机分割，然后 Mapper 会去读取这些分割好的表块，并将它们划分为 Hash 桶。最后这些 Hash 桶根据相应的 Hash 值归入相应的 Reducer 中。在 Reducer 中，将归入一个 Reducer 中的两个表的表块合并成一个表。于是每个 Reducer 的输入对应的就是相同的 Hash 值，因此就可以放到同一个Merg

灯塔大数据

2018-04-04

7090

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态