木东居士的专栏-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

木东居士的专栏

专栏成员

222

文章

424482

阅读量

178

订阅数

如何评价数据模型的好坏？

最常见提到的有四种：范式、维度、DataVault、Anchor。在传统行业中，范式很流行，在互联网行业中，维度很流行，另外两种就“只闻其名,不见其人”了。

2020-08-19

2.1K0

MapReduce 编程模型极简篇

mapreduce hive hadoop

0x00 前言回想自己最初学 Hadoop 的时候，初衷是写MapReduce程序，但是搭建单机环境折腾一周，搭建分布式环境折腾一周，跑个Demo解决一下Bug又一周过去了。最后都忘了自己是想学 MapReduce 的。感觉自己虽然是搞Hadoop的，但是写MR比自己想的要少很多。初期是花了很多精力在安装以及集群的各种日常维护，熟悉Hive后就经常用Hive来解决问题，然后逐渐地各种任务过度到了Spark上，因此对MapReduce的重视就少了很多。细想起来，MapReduce本身是很简洁易学的，因此

2018-05-25

6850

聊一聊数据倾斜那些坑

spark 大数据 hadoop hive sql

0x00 前言数据倾斜是大数据领域绕不开的拦路虎，当你所需处理的数据量到达了上亿甚至是千亿条的时候，数据倾斜将是横在你面前一道巨大的坎。迈的过去，将会海阔天空！迈不过去，就要做好准备：很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。文章结构先大致解释一下什么是数据倾斜再根据几个场景来描述一下数据倾斜产生的情况详细分析一下在Hadoop和Spark中产生数据倾斜的原因如何解决（优化）数据倾斜问题？ 0x01 什么是数据倾斜简单的讲，数据倾斜就是我们在计算数据的时候，数据的

2018-05-25

1.1K0

用MPI进行分布式内存编程（入门篇）

分布式 hadoop spark

0x00 前言本篇是MPI的入门教程，主要是为了简单地了解MPI的设计和基本用法，方便和现在的Hadoop、Spark做对比，并尝试理解它们之间在设计上有什么区别。身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天，老的分布式编程模型是否没有必要学习？这个很难回答，但是我更倾向于花一个下午的时候来学习和了解它。关于并发和并行编程系列的文章请参考文章集合文章结构举个最简单的例子，通过这个例子让大家对MPI有一个基本的理解。解释一些和MPI相关的概念。列举一些MPI的常用函数

2018-05-25

4K0

Hadoop之父Doug Cutting在清华的讲座记录

hadoop 大数据

0x00 前言 2014年，Hadoop之父Doug Cutting在清华开了一次讲座，当时三个小伙伴一起翘班骑自行车到现场听了这场讲座，很认真地做了笔记。现在翻出来回顾一下感觉还是有不少感触的，稍加整理分享出来。 0x01 讲座记录整个讲座约一个小时，两点半左右开始，前半个小时左右Doug Cutting 总共大概7张PPT，后半个小时互动。 Doug Cutting总共讲了大概7张PPT，每张PPT只有一个标题，正文是一张图片，内容主要讲的是自己的开源事业、Lucene、Hadoop等。 PPT O

2018-05-25

6710

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态