首页
学习
活动
专区
工具
TVP
发布

YG小书屋

专栏成员
64
文章
129048
阅读量
28
订阅数
mysql insert duplicate key update 死锁分析
数据入库这块有离线和实时两套入库系统,写同一个db的同一批mysql表,两边用的都是insert into table on duplicate key update这种方式。实时一直运行,离线5分钟更新一次,当两套系统同时运行时出现了死锁问题,频率还挺高。事务的隔离级别是read committed 读提交。
YG
2021-03-04
4.2K1
质量平台的一种设计方案
日常工作中,经常会遇到数据质量问题(完整性、准确性、一致性和及时性等)。该平台将整个数据质量处理过程形成一个闭环,从最初的规则库配置,到执行过程中质量异常告警,再到问题处理流程跟踪,到最后的解决方案沉淀等一系列的操作都在该平台完成。
YG
2020-07-28
6040
一种通用调度平台的设计思路
工作流:有的同学认为执行一个脚本就是执行一个任务,而有的同学则是将多个脚本组装的流称为任务。本文采用后者的思路,为了避免歧义,则会将任务流称为工作流。
YG
2020-07-14
1.6K0
用装饰者模式封装数据库操作
对于python编程人员来说,经常会用pymysql操作数据库。利用sql语句操作数据库时经常会有些额外的操作,比如说打印sql语句,记录sql查询时间,统计业务调用次数或者将返回的数据进行格式转换等等,但有些需要记录业务查询次数,有些不用,因此该数据库操作组件应该满足可组装性。该数据库操作组件也需要满足可扩展性,比如说刚开始项目中用mysql存储所有的数据,一段时间后决定将日志存入ES,那么该组件应要很容易扩展。 一般用装饰者模式解决可扩展和组装问题。
YG
2019-02-26
7860
【转】架构漫谈(九):理清技术、业务和架构的关系
原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。
YG
2018-12-26
4540
【转】架构漫谈(八):从架构的角度看如何写好代码
原文链接 本文首发于 InfoQ 旗下垂直社群聊聊架构(微信号 archtime)。
YG
2018-12-26
5370
【转】架构漫谈(五):什么是软件
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。
YG
2018-12-26
4720
【转】架构漫谈(二):认识概念是理解架构的基础
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。专栏的目的是希望能抛出一些观点,并引发大家思考,如果你有感触或者新的感悟,欢迎联系专栏负责人 Gary(微信 greenguolei)深聊。
YG
2018-12-26
4600
【转】架构漫谈(七):不要空设架构师这个职位,给他实权
原文链接 架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。
YG
2018-12-26
4990
【转】架构漫谈(一):什么是架构?
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。专栏的目的是希望能抛出一些观点,并引发大家思考,如果你有感触或者新的感悟,欢迎联系专栏负责人 Gary(微信 greenguolei)深聊。
YG
2018-12-26
3600
【转】架构漫谈(三):如何做好架构之识别问题
按照之前架构的定义,做好架构首先需要做的就是识别出需要解决的问题。一般来说,如果把真正的问题找到,那么问题就已经解决80%了。这个能力基本上就决定了架构师的水平。
YG
2018-12-26
3520
【转】架构漫谈(六):软件架构到底是要解决什么问题?
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。
YG
2018-12-26
5340
【转】架构漫谈(四):如何做好架构之架构切分
架构漫谈是由资深架构师王概凯 Kevin 执笔的系列专栏,专栏将会以 Kevin 的架构经验为基础,逐步讨论什么是架构、怎样做好架构、软件架构如何落地、如何写好程序等问题。
YG
2018-12-26
4020
MapReduce:N keys,N files(四)终极解决方案
在文章 MapReduce:N keys,N files(二) 中提到取消MR的推测执行功能,可以避免每次都产生重复且不完整的orc文件。但其实当reduce任务失败重试时依然会出现这种情况。
YG
2018-12-21
6490
MR处理流程
参考文章: 1、http://zheming.wang/blog/2015/05/19/3AFF5BE8-593C-4F76-A72A-6A40FB140D4D/
YG
2018-12-21
9120
MapReduce:N keys,N files(三)数据倾斜优化
还是如何将N个keys写到N个文件的需求。 这次的问题是单个key太大,引起的单个reduce任务执行时间过长,导致整个MR运行时间过长。数据大部分的key在千,万级别,而有几个key在亿,10亿级别。 解决数据倾斜问题的核心是将数据量很大的key,打散变小分配给多个reduce,最好能均匀分布,这样所有的reduce接收相同的数据量,大家执行时间相差不多,就解决了数据倾斜问题。
YG
2018-12-19
5440
MapReduce:N keys,N files(二)
如果你看了MapReduce:N keys,N files(一)这篇文章,并按其介绍的方法尝试去将N个key映射到N的文件中,你会发现分割后数据量比分割前的要多,并且有些文件不能正常读取。 用presto读取的话,可能会报这种错:
YG
2018-12-14
7990
MapReduce:N keys,N files
MapReduce中,不管是map阶段还是reduce阶段,二者的输入和输出都是key,value类型的值。现在有个需求是根据map阶段返回值key的个数,生成相应个数的文件。也就说一个key写到一个文件中,每个文件只能包含一个key。
YG
2018-12-14
8210
Hadoop Streaming 读ORC文件
hadoop Streaming的处理流程是先通过inputFormat读出输入文件内容,将其传递mapper,再将mapper返回的key,value传给reducer,最后将reducer返回的值通过outputformat写入输出文件。 目前有个需求是通过hadoop streaming读取roc文件。使用正常的org.apache.orc.mapred.OrcInputFormat读orc文件时每行返回的值是:
YG
2018-12-14
2.8K0
orc文件格式对常用系统的支持
1、Hive支持 创建表时指定orc格式即可: create table tmp.orc_test(id bigint, name string, age int) stored as orc TBLPROPERTIES('orc.compress'='SNAPPY') 压缩格式有"SNAPPY"和 "ZLIB"两种,需要哪种格式指定即可。 2、SPARK支持 Spark读: df = spark.read.orc("/tmp/test/orc_data") # 读出来的数据是一个dataframe
YG
2018-11-22
2.2K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档