专栏首页有关SQL如何防止数据重复插入?

如何防止数据重复插入?

作者:泥瓦匠@bysocket.com

目录

  1. 为啥要解决数据重复插入?
  2. 解决方案实战
  3. 可落地小总结

一、为啥要解决数据重复插入?

问题起源,微信小程序抽风 wx.request() 重复请求服务器提交数据。后端服务也很简单,伪代码如下:

class SignLogService {
    public void saveSignLog(SignLogDO log) {
        // 简单插入做记录
        SignLogDAO.insert(log);
    }
}

发现数据库会存在重复数据行,提交时间一模一样。但业务需求是不能有多余的 log 出现,这明显是个问题。

问题是,重复请求导致的数据重复插入。这问题造成的后果很明显:

  • 数据冗余,可能不单单多一条
  • 有些业务需求不能有多余数据,造成服务问题

问题如图所示:

解决方式:如何将 同请求 A,不执行插入,而是读取前一个请求插入的数据并返回。解决后流程应该如下:

二、解决方案实战

1.单库单表解决方案

  • 唯一索引 + 唯一字段
  • 幂等

上面说的那种业务场景:signlog 表会有 userid、signid、signtime 等。那么每次签到,每个人每天只有一条签到记录。

数据库层采取唯一索引的形式,保证数据记录唯一性。即 UNIQUE 约束,UNIQUE 约束唯一标识数据库表中的每条记录。另外,userid,signid,sign_time 三个组合适唯一字段。创表的伪代码如下:

CREATE TABLE sign_log
(
id int NOT NULL,
user_id int NOT NULL,
sign_id int,
sign_time int,
CONSTRAINT unique_sign_log UNIQUE (user_id,sign_id,sign_time)
)

重点是 CONSTRAINT unique_sign_log UNIQUE(user_id,sign_id,sign_time)。有个小问题,数据量大的时候,每条记录都会有对应的唯一索引,比较耗资源。那么这样就行了吗?

答案是不行,服务不够健壮。第一个请求插入成功,第二个请求直接报错,Java 服务会抛出 DuplicateKeyException

简单的幂等写法操作即可,伪代码如下:

class SignLogService {
    public SingLogDO saveSignLog(SignLogDO log) {
        // 幂等处理
        SignLogDO insertLog = null;
        try {
            insertLog = signLogDAO.insert(log);
        } catch (DuplicateKeyException e) {
            insertLog = selectByUniqueKeys(userId,signId,signTime);
        }

        return insertLog;
    }
}

的确,流量不是很大,也不算很高并发。重复写问题,这样处理即可。那大流量、高并发场景咋搞

2.分库分表解决方案

流量大了后,单库单表会演变成分库分表。那么基于单表的唯一索引形式,在碰到分表就无法保证呢,插入的地方可能是两个分表 A1 和 A2。

解决思路:将数据的唯一性条件放到其他存储,并进行锁控制

还是上面的例子,每天,每次签到,每个人只有一条签到记录。那么使用分布式锁 Redis 的解决方案。大致伪代码如下:

a.加锁

// 加锁
jedis.set(lockKey, requestId, "NX", "PX", expireTime);
  • lockKey 最简单的是 userid + signid + sign_time
  • expireTime 设置为一天

b.解锁

// 解锁
jedis.eval(script, lockKey,requestId);

c.幂等代码加强

class SignLogService {
    public SingLogDO saveSignLog(SignLogDO log) {

        // 幂等校验
        SignLogDO existLog = selectByUniqueKeys(userId,signId,signTime);
        if(Objects.nonNull(existLog)) {
            return existLog;
        }

        // 加锁
        jedis.set

        SignLogDO insertLog = signLogDAO.insert(log);

        // 解锁
        jedis.eval

        return insertLog;
    }
}

这个方案还是不是很成熟,大家参考下即可。

三、可落地小总结

解决方案实战中,了解具体术。归纳如下:

  • 幂等:保证多次同意请求后结果一致
  • 并发控制:单表唯一索引、分布式多表分布式锁
  • 降级兜底方案:分布式锁锁失效 - 考虑乐观锁兜底

本文分享自微信公众号 - 有关SQL(SQLHub)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-09-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Hive 的入门级 Group By 全案例

    这两天把自己的 Hadoop/Hive/Spark 集群环境搭好了,准备正式的做点试验,写点文章。

    Lenis
  • Hive 编程专题 之 - 列组合与算术组合

    1 - 使用 Oracle SQL Developer 执行上述 HQL 语句第一列为 null :

    Lenis
  • SQL 高级查询 ——(层次化查询,递归)

    层次化结构可以理解为树状数据结构,由节点构成。比如常见的组织结构由一个总经理,多个副总经理,多个部门部长组成。再比如在生产制造中一件产品会有多个子零件组成。举个...

    Lenis
  • 浅析 InnoDB Redo Log

    | 作者:陈俊熹,腾讯云数据库研发工程师,主要负责腾讯云MySQL数据库研发工作。 ---- 导语:之前的文章(见本文末)已经介绍了 InnoDB 的部分内外...

    腾讯云数据库 TencentDB
  • 如何优雅的实现DML批量操作

    昨天处理了一个业务同学的数据需求,简单来说就是对一张大表做一下数据清理,数据量在8千万左右,需要保留近一个月的数据,大概是400万左右。

    jeanron100
  • 2015百度一道面试题引发的思考(shell脚本和网络)

    原文    http://blog.csdn.net/chhuach2005/article/details/40044863

    bear_fish
  • 每个程序员都应该收藏的算法复杂度速查表

    这篇文章覆盖了计算机科学里面常见算法的时间和空间的大 O(Big-O)复杂度。我之前在参加面试前,经常需要花费很多时间从互联网上查找各种搜索和排序算法的优劣,以...

    哲洛不闹
  • Logistic Regression cost function and Maximum likehood estimate

    Ify=1:p(y∣x)=y′If y = 1: p(y|x) = y'Ify=1:p(y∣x)=y′ Ify=0:p(y∣x)=1−y′If y...

    Steve Wang
  • [log.js]一个node端带文件路径和颜色的console.log

    开发node.js的时候,习惯用console.log老打印一些信息,然而node端的console.log并没有浏览器里的功能那么强。

    前端博客 : alili.tech
  • 每个程序员都应该收藏的算法复杂度速查表

    算法复杂度这件事 这篇文章覆盖了计算机科学里面常见算法的时间和空间的大 O(Big-O)复杂度。我之前在参加面试前,经常需要花费很多时间从互联网上查找各种搜索和...

    用户1667431

扫码关注云+社区

领取腾讯云代金券