YG小书屋

62 篇文章
26 人订阅

全部文章

YG

腾讯 · 数据平台开发工程师 (已认证)

用装饰者模式封装数据库操作

对于python编程人员来说,经常会用pymysql操作数据库。利用sql语句操作数据库时经常会有些额外的操作,比如说打印sql语句,记录sql查询时间,统计业...

942
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(九):理清技术、业务和架构的关系

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

812
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(八):从架构的角度看如何写好代码

原文链接 本文首发于 InfoQ 旗下垂直社群聊聊架构(微信号 archtime)。

922
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(五):什么是软件

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

701
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(二):认识概念是理解架构的基础

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

1243
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(七):不要空设架构师这个职位,给他实权

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

963
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(一):什么是架构?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

732
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(三):如何做好架构之识别问题

按照之前架构的定义,做好架构首先需要做的就是识别出需要解决的问题。一般来说,如果把真正的问题找到,那么问题就已经解决80%了。这个能力基本上就决定了架构师的水平...

833
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(六):软件架构到底是要解决什么问题?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

903
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(四):如何做好架构之架构切分

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

1073
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(四)终极解决方案

在文章 MapReduce:N keys,N files(二) 中提到取消MR的推测执行功能,可以避免每次都产生重复且不完整的orc文件。但其实当reduce任...

902
YG

腾讯 · 数据平台开发工程师 (已认证)

MR处理流程

参考文章: 1、http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4...

1623
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(三)数据倾斜优化

还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在...

812
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(二)

如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多...

873
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files

MapReduce中,不管是map阶段还是reduce阶段,二者的输入和输出都是key,value类型的值。现在有个需求是根据map阶段返回值key的个数,生成...

784
YG

腾讯 · 数据平台开发工程师 (已认证)

Hadoop Streaming 读ORC文件

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给re...

1262
YG

腾讯 · 数据平台开发工程师 (已认证)

orc文件格式对常用系统的支持

1803
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet文件格式对常用系统的支持

外部包:https://github.com/whale2/iow-hadoop-streaming 原本想用1.8的parquet格式,后面发现1.8par...

2663
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet常用操作

第一种是hive0.13之后的版本,第二种时0.13之前的版本。目前大都是使用第一种创建方法。https://cwiki.apache.org/confluen...

4572
YG

腾讯 · 数据平台开发工程师 (已认证)

hive 插入parquet二级分区表数据倾斜优化

错误: Java Heap Space。或者GC overhead limit exceeded。 原因: Parquet和ORC是列式批处理文件格式。这...

2411

扫码关注云+社区