数据平台开发工程师

YG小书屋

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

💡 社交互动怎样突破实时音视频卡顿与高流量消耗瓶颈？

🚀 短剧制作效率低下，AI如何辅助实现智能提效？

数据入库这块有离线和实时两套入库系统，写同一个db的同一批mysql表，两边用的都是insert into table on duplicate key update这种方式。实时一直运行，离线5分钟更新一次，当两套系统同时运行时出现了死锁问题，频率还挺高。事务的隔离级别是read committed 读提交。

mysql insert duplicate key update 死锁分析

日常工作中，经常会遇到数据质量问题（完整性、准确性、一致性和及时性等）。该平台将整个数据质量处理过程形成一个闭环，从最初的规则库配置，到执行过程中质量异常告警，再到问题处理流程跟踪，到最后的解决方案沉淀等一系列的操作都在该平台完成。

质量平台的一种设计方案

工作流：有的同学认为执行一个脚本就是执行一个任务，而有的同学则是将多个脚本组装的流称为任务。本文采用后者的思路，为了避免歧义，则会将任务流称为工作流。

一种通用调度平台的设计思路

对于python编程人员来说，经常会用pymysql操作数据库。利用sql语句操作数据库时经常会有些额外的操作，比如说打印sql语句，记录sql查询时间，统计业务调用次数或者将返回的数据进行格式转换等等，但有些需要记录业务查询次数，有些不用，因此该数据库操作组件应该满足可组装性。该数据库操作组件也需要满足可扩展性，比如说刚开始项目中用mysql存储所有的数据，一段时间后决定将日志存入ES，那么该组件应要很容易扩展。
 一般用装饰者模式解决可扩展和组装问题。

用装饰者模式封装数据库操作

原文链接
 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏，专栏将会以 Kevin 的架构经验为基础，逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。

【转】架构漫谈（九）：理清技术、业务和架构的关系

原文链接
 本文首发于 InfoQ 旗下垂直社群聊聊架构（微信号 archtime）。

【转】架构漫谈（八）：从架构的角度看如何写好代码

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏，专栏将会以 Kevin 的架构经验为基础，逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。

【转】架构漫谈（五）：什么是软件

架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏，专栏将会以 Kevin 的架构经验为基础，逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。专栏的目的是希望能抛出一些观点，并引发大家思考，如果你有感触或者新的感悟，欢迎联系专栏负责人 Gary（微信 greenguolei）深聊。

【转】架构漫谈（二）：认识概念是理解架构的基础

【转】架构漫谈（七）：不要空设架构师这个职位，给他实权

【转】架构漫谈（一）：什么是架构？

按照之前架构的定义，做好架构首先需要做的就是识别出需要解决的问题。一般来说，如果把真正的问题找到，那么问题就已经解决80%了。这个能力基本上就决定了架构师的水平。

【转】架构漫谈（三）：如何做好架构之识别问题

【转】架构漫谈（六）：软件架构到底是要解决什么问题？

【转】架构漫谈（四）：如何做好架构之架构切分

在文章 MapReduce：N keys，N files（二） 中提到取消MR的推测执行功能，可以避免每次都产生重复且不完整的orc文件。但其实当reduce任务失败重试时依然会出现这种情况。

MapReduce：N keys，N files（四）终极解决方案

参考文章：
 1、http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4D/

MR处理流程

还是如何将N个keys写到N个文件的需求。
 这次的问题是单个key太大，引起的单个reduce任务执行时间过长，导致整个MR运行时间过长。数据大部分的key在千，万级别，而有几个key在亿，10亿级别。
 解决数据倾斜问题的核心是将数据量很大的key，打散变小分配给多个reduce，最好能均匀分布，这样所有的reduce接收相同的数据量，大家执行时间相差不多，就解决了数据倾斜问题。

MapReduce：N keys，N files（三）数据倾斜优化

如果你看了MapReduce：N keys，N files（一）这篇文章，并按其介绍的方法尝试去将N个key映射到N的文件中，你会发现分割后数据量比分割前的要多，并且有些文件不能正常读取。
 用presto读取的话，可能会报这种错：

MapReduce：N keys，N files（二）

MapReduce中，不管是map阶段还是reduce阶段，二者的输入和输出都是key，value类型的值。现在有个需求是根据map阶段返回值key的个数，生成相应个数的文件。也就说一个key写到一个文件中，每个文件只能包含一个key。

MapReduce：N keys，N files

hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容，将其传递mapper，再将mapper返回的key，value传给reducer，最后将reducer返回的值通过outputformat写入输出文件。
 目前有个需求是通过hadoop streaming读取roc文件。使用正常的org.apache.orc.mapred.OrcInputFormat读orc文件时每行返回的值是：

Hadoop Streaming 读ORC文件

1、Hive支持
创建表时指定orc格式即可：
create table tmp.orc_test(id bigint, name string, age int) stored as orc TBLPROPERTIES('orc.compress'='SNAPPY')
压缩格式有"SNAPPY"和 "ZLIB"两种，需要哪种格式指定即可。
2、SPARK支持
Spark读：
df  = spark.read.orc("/tmp/test/orc_data")  # 读出来的数据是一个dataframe

orc文件格式对常用系统的支持

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了YG小书屋专栏，为你提供了YG小书屋的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐