
《系统日报》持续关注分布式系统、AI System,数据库、存储、大数据等相关领域文章。每天以摘要的形式精选不超过三篇系统文章分享给大家。 如果你有好文章推荐,或者有其他任何想法,欢迎在 Articles Weekly Repo[1]提 issue。

CockRoachDB 的分布式事务
来源:http://flaneur2020.github.io/2021/09/06/crdb-txn/[2]
摘要:来自“F叔的学习笔记”的一篇文章,以 Percolator 事务引入,梳理了下 CockroachDB[3] 在工程上对两阶段事务的很多巧妙优化。CockroachDB 是几位前谷歌员工在 2015 年创建、开源的、云原生、分布式 SQL 数据库。其创始人来自大名鼎鼎的 Google GFS[4] 和 Reader 团队。其设计理念也影响到了国内一众开源数据库。回到本篇文章,CockroachDB 提供 Serializable 隔离级别,主要优化点有:
F 叔的文章组织有序,深入浅出,值得一读。不过本文中没有提到事务 CockroachDB 所用的 HLC (逻辑混合时钟),这也是一个有意思的点,之后会找一些文章推荐给大家。

混合训练优化物体检测
来源: https://arxiv.org/pdf/2111.03056.pdf[5]
摘要: 该文章介绍了在物体检测中使用 EMA 模型生成伪标签的训练方法,该方法能有效解决标签缺失和标注定位噪声的问题。伪标签生成方法有两个约束,一是 EMA Detector 输出的 Bounding Box 置信度大于 0.9。二是存在一个最近 Ground Truth Bounding Box ,两个 Bounding Box 的 IOU 大于0.5。该方法在训练过程会增加额外的 EMA 模型推理伪标签的时间,在模型推理或部署上不增加额外开销。
文章中使用 Faster-R-CNN 的 Detector 搭配不同的 backbond 网络 (ResNet-50, Swin-S)进行训练,在 COCO2017 数据集上的 mAP 指标都能有显著提升。
[1]任何想法都欢迎来提 issue: https://github.com/DistSysCorp/ArticleListWeekly/issues
[2]crdb 两阶段提交过程: http://flaneur2020.github.io/2021/09/06/crdb-txn/
[3]CockroachDB github 仓库: https://github.com/cockroachdb/cockroach
[4]GFS —— 取舍的艺术: https://www.qtmuniao.com/2019/05/26/gfs/
[5]Bootstrap Your Object Detector via Mixed Training: https://arxiv.org/pdf/2111.03056.pdf