首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

如何解决热点数据更新问题

一 背景 某个业务线商品开放用户申请免费试用,当某个商品特别吸引人时,比如iPhone6 。肯定有一大波人为了少卖一个肾而疯狂去抢申请资格。更有甚者利用机器人申请注册,于是简单的申请操作变成了秒杀行为。大量请求同时更新数据库中的同一个商品的申请次数,update 操作给表加上行锁,导致后面的请求全部排队等待前面一个update完成,释放行锁后才能处理下一个请求。大量后来请求等待,占用了数据库的连接。一旦数据库连接数被占满,就会导致后来的全部请求因拿不到连接而超时,业务请求出现无法及时处理的情况,数据库系统的RT会异常飙高,业务层由于等待出现超时,app 层的连接耗尽,一系列的雪崩效应! 二 解决方案 从上面的背景分析,解决热点数据并发更新需要注意核心问题: 减少直接对db层数据热点的并发更新,或者提供MySQL 更新同一行的吞吐量。本文从业务和数据库的设计层面来规划.同时也希望大家提更好的解决思路。 1 前端层面 前端是整个流量的入口, 正常业务访问时系统表现平稳,但是当有人恶意请求时,需要加上流控措施,比如常见的 a 需要用户回答问题,填写验证码,移动图像等等,防止或者减少有机器人来恶意请求。 b 页面上采用防止机器人的判断 两秒以内的成功请求一律拒绝。 c 通过设置nginx ,对同一个ip源的请求次数做限制,防止机器人来申请。 优点 有效减少或者防止有人利用机器人恶意请求 缺点 存在一定的误杀率,错杀了正常的请求。 2 应用层 应用程序接收前端前端请求,进行一系列的数据库操作,在我们规避了恶意请求之后如果还是有大量的数据库写访问请求,我们需要 a 对业务做降级 限制接口的调用次数,降低对数据库的请求压力。选择异步更新请求次数,弱化该商品申请次数的展现。类似于阅读次数,申请次数 ,与金额,库存无关的功能点。 b 通过异步更新来避免直接写数据库 。 应用使用分布式缓存(比如Tair/Redis)来存储某项商品的申请次数或者某人的申请次数,以商品id/user_id 或者将where 条件作为key,申请试用人数为value/符合某项具体条件的 count结果为value, 有用户申请成功则更新申请试用人数。不需要查询和实时写数据库,每隔一定时间/次数将结果写入数据库。 优点:该方法依赖于缓存,读写速度快,不需要实时更新数据库,减轻数据库并发写的压力; 缺点:缓存不是100%稳定,很容易丢,即使采用持久化的缓存,在高并发下有时也可能会出现异常,穿透缓存到db ,导致前端业务展现问题。 3 数据库层 a 将热点数据拆分,分在不同的库不同的表中,分散热点数据,减轻数据库并发更新热点带来的RT升高和应用连接等待时能保证业务能够正常访问其他商品表,损失局部可用性。 优点:实时读写数据库,前端展示数据的准确性。 缺点:业务逻辑稍显复杂。 b 限流补丁 针对某些特定的sql语句 从MySQL 层面加以限制,当系统thread_running达到一定值或者某个sql执行时间超过一定阈值则拒绝该sql的执行。(阿里内部已经实现限流版本)

00

超强指南!推荐算法架构——重排

导语 | 重排技术细节非常多,一定要清楚技术架构大图,从而将细节串联起来。实际上主要是为了解决三大方面的问题:用户体验、算法效率、流量调控。 在上篇《图文解读:推荐算法架构——精排!》中我们结合算法架构精排进行解读分析,本篇将深入重排这部分进行阐述。 一、总体架构 精排打分完成后,就到了重排阶段,之后可能还会有混排。召回、精排、重排三个模块中,重排离最终的用户展现最近,所以也十分关键。重排的技术点也十分多,总结下来,个人认为重排主要是为了解决三大方面的问题:用户体验、算法效率、流量调控。下图是重排总体架构:

06

TAP更新:中国臭氧近实时数据集上线

近年来,随着大气污染防治政策的施行,我国空气质量显著改善,PM2.5浓度快速下降。但与此同时,O3污染问题日渐突出,O3浓度和超标频率逐年上升,引起社会广泛关注。O3污染对于人体健康、生态环境及农业生产等均有不利影响。为了满足科学研究与空气质量管理等工作对近实时O3浓度数据的需求,在O3浓度历史数据集的基础上,TAP团队于近日上线了近实时更新的日最大8小时平均O3浓度数据集。该数据集基于多层级机器学习算法构建,将实时地面监测、近实时卫星遥感、近实时空气质量模型模拟以及近实时气象再分析资料等多源大数据相融合,实现了天尺度上的完整时空覆盖及业务化近实时更新。

02
领券