YG小书屋

61 篇文章
26 人订阅

全部文章

YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(九):理清技术、业务和架构的关系

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

662
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(八):从架构的角度看如何写好代码

原文链接 本文首发于 InfoQ 旗下垂直社群聊聊架构(微信号 archtime)。

702
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(五):什么是软件

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

571
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(二):认识概念是理解架构的基础

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

1113
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(七):不要空设架构师这个职位,给他实权

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

883
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(一):什么是架构?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

592
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(三):如何做好架构之识别问题

按照之前架构的定义,做好架构首先需要做的就是识别出需要解决的问题。一般来说,如果把真正的问题找到,那么问题就已经解决80%了。这个能力基本上就决定了架构师的水平...

693
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(六):软件架构到底是要解决什么问题?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

653
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(四):如何做好架构之架构切分

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

933
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(四)终极解决方案

在文章 MapReduce:N keys,N files(二) 中提到取消MR的推测执行功能,可以避免每次都产生重复且不完整的orc文件。但其实当reduce任...

622
YG

腾讯 · 数据平台开发工程师 (已认证)

MR处理流程

参考文章: 1、http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4...

943
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(三)数据倾斜优化

还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在...

702
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(二)

如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多...

683
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files

MapReduce中,不管是map阶段还是reduce阶段,二者的输入和输出都是key,value类型的值。现在有个需求是根据map阶段返回值key的个数,生成...

704
YG

腾讯 · 数据平台开发工程师 (已认证)

Hadoop Streaming 读ORC文件

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给re...

722
YG

腾讯 · 数据平台开发工程师 (已认证)

orc文件格式对常用系统的支持

1023
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet文件格式对常用系统的支持

外部包:https://github.com/whale2/iow-hadoop-streaming 原本想用1.8的parquet格式,后面发现1.8par...

1543
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet常用操作

第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluen...

2482
YG

腾讯 · 数据平台开发工程师 (已认证)

hive 插入parquet二级分区表数据倾斜优化

错误: Java Heap Space。或者GC overhead limit exceeded。 原因: Parquet和ORC是列式批处理文件格式。这...

1141
YG

腾讯 · 数据平台开发工程师 (已认证)

Hive数据倾斜优化:两个亿级表join

【现象】 出现reduce阶段一直卡在99%的情况,猜测可能出现数据倾斜问题。 【验证猜测】 1、查看user表strmd5个数,6亿左右,做distin...

3251

扫码关注云+社区