首页
学习
活动
专区
工具
TVP
发布

木东居士的专栏

专栏成员
222
文章
424535
阅读量
178
订阅数
OLAP数据库初探
OLAP的标准概念叫作“联机分析处理系统”,与之对应的是OLTP“联机事务处理系统”。OLTP对于事务性的要求非常高,常用于银行、证券等系统,但运行速度相对有限。有感于此,关系数据库之父Codd便在1993年提出了OLAP的概念,认为用户的很多决策需要依赖大量的计算与多维的分析才能解决,并作为一类单独的产品,与OLTP区分开来。
木东居士
2020-07-27
3.1K0
憋瞎说,大数据不是你想的那样!
学生党以及很多没设计过大数据开发的小伙伴呢,都对大数据这么一个领域感到非常非常的好奇非常非常的神秘,我今天就非要戳穿给你们看。
木东居士
2019-09-29
4860
AI研发工程师成长指南
关于作者:Japson。某人工智能公司AI平台研发工程师,专注于AI工程化及场景落地。持续学习中,期望与大家多多交流技术以及职业规划。
木东居士
2019-08-26
1.1K0
聊一聊数据倾斜那些坑
0x00 前言 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。 文章结构 先大致解释一下什么是数据倾斜 再根据几个场景来描述一下数据倾斜产生的情况 详细分析一下在Hadoop和Spark中产生数据倾斜的原因 如何解决(优化)数据倾斜问题? 0x01 什么是数据倾斜 简单的讲,数据倾斜就是我们在计算数据的时候,数据的
木东居士
2018-05-25
1.1K0
Spark源码解析:RDD
0x00 前言 本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。 本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。 文章结构 先回顾一下RDD的一些特征以及几个基本概念 RDD源码分析,整体的源码设计 举一个例子,通过这个例子来一步步地追踪源码。 0x01 概念 什么是RDD RDD(Resilient Distributed Dataset):弹性分布式数据集。 我们可以先大致这样理解RDD:RDD是一个
木东居士
2018-05-25
2.6K1
Spark源码解析:DStream
0x00 前言 本篇是Spark源码解析的第二篇,主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。 本篇主要来分析Spark Streaming中的Dstream,重要性不必多讲,明白了Spark这个几个数据结构,容易对Spark有一个整体的把握。 和RDD那篇文章类似,虽说是分析Dstream,但是整篇文章会围绕着一个具体的例子来展开。算是对Spark Streaming源码的一个概览。 文章结构 Spark Streaming的一些概念,主要和Dstream
木东居士
2018-05-25
8790
用MPI进行分布式内存编程(入门篇)
0x00 前言 本篇是MPI的入门教程,主要是为了简单地了解MPI的设计和基本用法,方便和现在的Hadoop、Spark做对比,并尝试理解它们之间在设计上有什么区别。 身处Hadoop、Spark这些优秀的分布式开发框架蓬勃发展的今天,老的分布式编程模型是否没有必要学习?这个很难回答,但是我更倾向于花一个下午的时候来学习和了解它。 关于并发和并行编程系列的文章请参考文章集合 文章结构 举个最简单的例子,通过这个例子让大家对MPI有一个基本的理解。 解释一些和MPI相关的概念。 列举一些MPI的常用函数
木东居士
2018-05-25
4K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档