YG小书屋

64 篇文章
27 人订阅

全部文章

YG

腾讯 · 数据平台开发工程师 (已认证)

质量平台的一种设计方案

日常工作中,经常会遇到数据质量问题(完整性、准确性、一致性和及时性等)。该平台将整个数据质量处理过程形成一个闭环,从最初的规则库配置,到执行过程中质量异常告警,...

6910
YG

腾讯 · 数据平台开发工程师 (已认证)

一种通用调度平台的设计思路

工作流:有的同学认为执行一个脚本就是执行一个任务,而有的同学则是将多个脚本组装的流称为任务。本文采用后者的思路,为了避免歧义,则会将任务流称为工作流。

10520
YG

腾讯 · 数据平台开发工程师 (已认证)

用装饰者模式封装数据库操作

对于python编程人员来说,经常会用pymysql操作数据库。利用sql语句操作数据库时经常会有些额外的操作,比如说打印sql语句,记录sql查询时间,统计业...

19620
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(九):理清技术、业务和架构的关系

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

15620
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(八):从架构的角度看如何写好代码

原文链接 本文首发于 InfoQ 旗下垂直社群聊聊架构(微信号 archtime)。

13820
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(五):什么是软件

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

11810
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(二):认识概念是理解架构的基础

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

17330
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(七):不要空设架构师这个职位,给他实权

原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落...

13530
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(一):什么是架构?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

12820
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(三):如何做好架构之识别问题

按照之前架构的定义,做好架构首先需要做的就是识别出需要解决的问题。一般来说,如果把真正的问题找到,那么问题就已经解决80%了。这个能力基本上就决定了架构师的水平...

12630
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(六):软件架构到底是要解决什么问题?

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

15330
YG

腾讯 · 数据平台开发工程师 (已认证)

【转】架构漫谈(四):如何做好架构之架构切分

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好...

17230
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(四)终极解决方案

在文章 MapReduce:N keys,N files(二) 中提到取消MR的推测执行功能,可以避免每次都产生重复且不完整的orc文件。但其实当reduce任...

17820
YG

腾讯 · 数据平台开发工程师 (已认证)

MR处理流程

参考文章: 1、http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4...

37230
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(三)数据倾斜优化

还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在...

14020
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files(二)

如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多...

15030
YG

腾讯 · 数据平台开发工程师 (已认证)

MapReduce:N keys,N files

MapReduce中,不管是map阶段还是reduce阶段,二者的输入和输出都是key,value类型的值。现在有个需求是根据map阶段返回值key的个数,生成...

13340
YG

腾讯 · 数据平台开发工程师 (已认证)

Hadoop Streaming 读ORC文件

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给re...

51630
YG

腾讯 · 数据平台开发工程师 (已认证)

orc文件格式对常用系统的支持

54130
YG

腾讯 · 数据平台开发工程师 (已认证)

parquet文件格式对常用系统的支持

外部包:https://github.com/whale2/iow-hadoop-streaming 原本想用1.8的parquet格式,后面发现1.8par...

54630

扫码关注云+社区

领取腾讯云代金券