首页
学习
活动
专区
工具
TVP
发布

木东居士的专栏

专栏作者
222
文章
404601
阅读量
178
订阅数
如何评价数据模型的好坏?
最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。
木东居士
2020-08-19
2K0
MapReduce 编程模型极简篇
0x00 前言 回想自己最初学 Hadoop 的时候,初衷是写MapReduce程序,但是搭建单机环境折腾一周,搭建分布式环境折腾一周,跑个Demo解决一下Bug又一周过去了。最后都忘了自己是想学 MapReduce 的。 感觉自己虽然是搞Hadoop的,但是写MR比自己想的要少很多。初期是花了很多精力在安装以及集群的各种日常维护,熟悉Hive后就经常用Hive来解决问题,然后逐渐地各种任务过度到了Spark上,因此对MapReduce的重视就少了很多。 细想起来,MapReduce本身是很简洁易学的,因此
木东居士
2018-05-25
6570
聊一聊数据倾斜那些坑
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 文章结构 先大致解释一下什么是数据倾斜 再根据几个场景来描述一下数据倾斜产生的情况 详细分析一下在Hadoop和Spark中产生数据倾斜的原因 如何解决(优化)数据倾斜问题? 0x01 什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的
木东居士
2018-05-25
1.1K0
用MPI进行分布式内存编程(入门篇)
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天,老的分布式编程模型是否没有必要学习?这个很难回答,但是我更倾向于花一个下午的时候来学习和了解它。 关于并发和并行编程系列的文章请参考文章集合 文章结构 举个最简单的例子,通过这个例子让大家对MPI有一个基本的理解。 解释一些和MPI相关的概念。 列举一些MPI的常用函数
木东居士
2018-05-25
3.8K0
Hadoop之父Doug Cutting在清华的讲座记录
0x00 前言 2014年,Hadoop之父Doug Cutting在清华开了一次讲座,当时三个小伙伴一起翘班骑自行车到现场听了这场讲座,很认真地做了笔记。 现在翻出来回顾一下感觉还是有不少感触的,稍加整理分享出来。 0x01 讲座记录 整个讲座约一个小时,两点半左右开始,前半个小时左右Doug Cutting 总共大概7张PPT,后半个小时互动。 Doug Cutting总共讲了大概7张PPT,每张PPT只有一个标题,正文是一张图片,内容主要讲的是自己的开源事业、Lucene、Hadoop等。 PPT O
木东居士
2018-05-25
6310
没有更多了
社区活动
RAG七天入门训练营
鹅厂大牛手把手带你上手实战
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档