首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

对于大表的写入和统计查询该如何权衡,我四个解决思路

所以从我的理解中,月数据量在一千万,其实量级不大,按照几年的饿一个维度来存储,这个量级其实也可以接受。...我几种迭代方案: 1.单独建一个归档库,把这些年的订单放在一起,即可以统一访问入口,比如order表,数据按照业务ID分片(如果没有,自增ID也行,不做业务逻辑接入),底层可以使用mycat分片,唯一性索引需要在订单号上面...2.使用mysql列式存储引擎infobright,社区版足够,60亿的统计大概10秒左右出数据,需要离线文件load,不支持DML ,其中的方案特点就是针对列式存储的方式来大大提高效率,当然是用HBase...3.考虑TiDB的方案,大数据量效果也不错,建议直接写入TiDB,次之业务写,如果TiDB做sync源,复杂度高,而且难以追溯,性能可以做下权衡 。其中如下图,可以在TiKV层面做横向扩展。 ?...今天读到的一段文字,让我一种莫名的感同身受,尽管经历不同:我希望你们不要和我一样,耽误了十二年,快被业内淘汰的时候才把早该弄明白的问题搞清楚。

79520

腾讯云深度归档让数据从磁带走向云端

典型的数据归档业务场景包括: 金融交易:交易日志、票据影像、录视频; 视频监控:安防监控、交通监控、个人视频监控; 生命科学:医疗影像数据、电子病例、基因测序数据; 广告营销:电子商务日志、广告营销日志...谈到数据归档,就绕不过磁带库。 一、磁带库的问题和挑战 从第一款磁带机面世,磁带技术已经50多年历史了。...对比传统磁带库归档方案,客户了更具性价比的选择。 二、腾讯云深度归档介绍 腾讯云近期发布了深度归档存储,一款新的对象存储COS类型,可以提供低成本、安全持久的数据存储服务。...离线数据搬迁上云 如果本地数据中心还没有拉通专线,或者存量归档数据规模比较大,可以通过云数据迁移服务CDM专用设备,进行大规模离线迁移数据上云,从而获得深度归档带来的好处。...随着腾讯云COS深度归档的发布,结合商业备份软件、云存储网关、离线迁移工具,腾讯云为企业的核心数据资产提供了高性价比的归档解决方案,助力企业数字化转型。

3.3K40
您找到你想要的搜索结果了吗?
是的
没有找到

赞搜索中台的探索与实践

离线离线写这块主要有一点就是注意版本覆盖问题,避免版本乱序。 初始数据刷入一次场景,这种离线选择 create 操作即可,如果增量有数据则被过滤掉。...搜索中台通过监听自建索引双机房同步的消息中,做了一层配置化路由写,来做到索引无感知重建。...vip索引配置化迁移 了上面两板斧,一般业务索引的常见问题都已经解了,不过发现仍然热点商家问题导致整个集群不稳,于是在索引无感知重建基础上加了层vip路由,在活动期间,将 vip 商家的流量路由到活动集群中...,活动结束后流量可以再配置化迁移回来,极大的提升了系统的稳定性。...再比如数据归档搜索,当数据量级大到一定程度,势必要进行归档归档方案的选型,随着各个业务量级和对归档数据搜索的诉求,痛点,集成后,中台产出通用解决方案,做到无感知数据归档,搜索集成,配置化路由到对应索引中

1.1K30

架构思考-业务快速增长时的容量问题

背景 之前做过一个项目,数据库存储采用的是mysql。当时面临着业务指数级的增长,存储容量不足。...当时业务量高峰是2000TPS,5.6时可承受的最大TPS是3000,升级到5.7压测可承受的最大TPD是5000. 2>流量拆分,从根本上解决容量问题 首先进行容量评估,通过对于业务开展规划、活动预估...拆分成实时和离线,将实时性要求不高的查询走ES。ES的数据可以通过同步binlog变更获得。 另外一个思路是将数据库按照历史数据来拆分。就是数据库里只保存一定时间内的实时数据。...超过指定时间则进行数据归档。将数据归档到HBase等,一般对于历史的查询实时性要求也不是很高。...过渡可以采用上面说的写方式,观察运行情况进行切换。切换过程中也可以不关闭流量。 麻烦的是数据归档。因为数据归档后删除数据库的数据,变更生效时,针对innodb来说,意味着数据结构重建,频繁IO。

65820

架构思考-业务快速增长时的容量问题

背景 之前做过一个项目,数据库存储采用的是mysql。当时面临着业务指数级的增长,存储容量不足。...当时业务量高峰是2000TPS,5.6时可承受的最大TPS是3000,升级到5.7压测可承受的最大TPD是5000. 2>流量拆分,从根本上解决容量问题 首先进行容量评估,通过对于业务开展规划、活动预估...拆分成实时和离线,将实时性要求不高的查询走ES。ES的数据可以通过同步binlog变更获得。 另外一个思路是将数据库按照历史数据来拆分。就是数据库里只保存一定时间内的实时数据。...超过指定时间则进行数据归档。将数据归档到HBase等,一般对于历史的查询实时性要求也不是很高。...过渡可以采用上面说的写方式,观察运行情况进行切换。切换过程中也可以不关闭流量。 麻烦的是数据归档。因为数据归档后删除数据库的数据,变更生效时,针对innodb来说,意味着数据结构重建,频繁IO。

80520

搜狐智能媒体基于腾讯云大数据 EMR 的降本增效之路

-pt 参数将云下 HDFS上文件时间属性一并迁移到对象存储中,后续可以根据文件时间属性进行归档操作。...3、Raw Log 迁移 将云下存储在 HDFS 中的 Raw Log 数据迁移到 COS 中,结合业务对数据的使用场景,一月前基本不使用的数据存储到深度归档中,一周前的 Raw Log 数据使用频次低...,采用低频存储借助 COS 的深度归档和低频功能进一步降低存储成本。.../月;而使用 OFS 的标准存储,成本约12.37万/月,还可以使用归档功能进一步降低成本,两者成本相差5倍以上。...1、降本方面: 1)开启 OFS 归档和深度归档,及开发配套的回热功能,降低持续增长的数据存储成本; 2)尝试 EMR 容器版,计算资源需求按照负载伸缩,实现完全弹性; 3)尝试使用托管的 PAAS/SAAS

39150

年均节省千万元的大数据成本管控体系,是如何构建的?| ArchSummit

第一,数据采集实时采集和定时离线采集,这里会存在采集任务的数据资产信息;第二,实时的数据存储和计算会涉及实时数仓、实时计算以及实时在线存储,最后可能会直接推送到线上服务使用,这里会涉及到像 HBase...这些冷数据可能是可以删除的,删除不了也不应该跟热数据占用一样的存储价格。例如云存储提供了数据归档能力是比较适合冷存储的。...货拉拉进行冷热分层的依据是云存储数据归档收益曲线,我们将最近 90 天被访问次数的数据进行分类,通过上图可以看到,最近 90 天被访问零次的归档收益为 50.87%,这类数据占比较高,存储归档收益相对较高...另外,冷数据也可以利用公有云的低频存储归档能力甚至是深度归档能力,实现更精细化的管理。 今天的分享就到这里,谢谢大家。...活动推荐 在今年的 9 月 26 日和 27 日,InfoQ 即将在杭州举办 ArchSummit 全球架构师峰会,目前我们配置了大数据与人工智能、技术人修炼、元宇宙未来探索、中间件开发实战、高并发架构实现

1K20

腾讯TMQ在线沙龙回顾|测试过程管理

测试过程管理 活动时间:2017年10月26日 qq视频分享 活动介绍:TMQ在线沙龙第三十二期分享 本次分享的主题是:测试过程管理 共有83位测试小伙伴报名参加活动,在线观看视频人数 36人!...想知道活动分享了啥, 请往下看吧! 嘉宾 程绪超,腾讯高级系统测试工程师。负责过小Q书桌、电脑管家的测试。目前主要负责电脑管家-游戏加速的系统测试工作。在测试建模和测试过程管理方面有丰富的经验。...可能有时候只有一方bug。 答:涉及多方的,建议一个Owner负责提测,汇总所有的修改内容。提测人不限制,关键是提测内容一定要清晰。...产品经理做Acture高保真原型?我们公司基本都是靠原型交流,但是的确存在很多问题,产品经理没时间写需求文档。...测试用例的转换工作一般和合作伙伴负责,一方面是用例归档,另一方面是为了更清楚地了解需求,以及发挥自己的优势提出目前的用例不足点。 9、老师说的几个指标是怎么计算的?漏测率,拦截率。

96650

一个线上IM系统必要的组件

因为消息可能存储在机器,或者说这是状态的服务。所以需要做消息的一致性。 三、消息合法性校验系统 这个系统检查 是否违反能发送这个消息的理由。...五、消息存储系统 消息服务端存储一个主要动机是对方可能是离线状态,或者是对方上线,但是可能拉取不成功,需要重复拉取。...所以这个消息存储个队列,至少要等接收放完全拉取时,并回复ACK,才能从消息队列中删除消息。 对于不丢失高可靠的要求,消息存储可能还需要做写。...十、离线push系统 在线消息通过接入系统发给用户,但是离线消息只能通过push通道传输,比如说apns,gpm/fpm,华为小米OV魅族的第三方push通道。...十二、用户读消息偏移指针的记录模块 需要记录用户当前已读的seq,以便后面发送相应的未读消息给用户。

1.6K10

比特币冷钱包到底应该怎么做

大家不禁要问, 比特币都放进冷钱包了还会被偷走, 这比特币还能玩?这不靠谱啊! 比特儿交易所老总在之后的媒体采访中几次强调, “密码被破解”, 冷钱包和密码很大关系?...图九是显示这5个新地址的私钥, 放着这里只是给大家说明一下,用来和图十二对比, 5个私钥是在这个永不触网的linux操作系统里的钱包里, 大家实际操作中不要做图九这个步骤。...完成了第三步以后, 我们了一台永不触网的断网电脑,断网电脑上有一个Electrum比特币钱包, 钱包里5个比特币私钥和对应的比特币地址。这就是我们所谓的“冷钱包”了。...离线的进行一笔交易 现在我们了一个离线的冷钱包, 冷钱包之所以“冷”, 是当它发生交易(transaction)的时候也能够做到不碰网络。下面让我们来进行一笔离线交易。...申明: 以上所述的仅是个人大额比特币冷存储方案, 并不是比特币交易所,比特币银行等企业级冷钱包解决方案。

2.1K30

数据湖在快手的生产实践

所以一个日志流从 Kafka 到入仓整个链路需要多个离线任务加工,这就导致了链路长,重复计算和冗余存储的问题。 基于 HUDI 改进后的方案,整个链路得到极大的简化。...时效低两方面原因:第一个是离线任务调度周期是T+1级别,第二个是任务调度以后才做全量和增量的合并。...当用户查询HIVE分区的时候,引擎通过 Hive 元数据判断这个日期是否被归档,如果还没有被归档,会通过分区元数据里的HUDI 表和版本把请求路到HUDI 表上。...每次活动DAU 是一个非常重要的指标,人群圈选业务是根据用户的历史行为来圈选出一些潜在的目标用户。历史方案是基于天级离线数据和小时级离线数据组合计算生成。...这个方案的缺点是时效低,重复计算和重复存储。 基于HUDI 改造后的链路从刚才的多层关联升级为单表生产,时效性也是了很大的提升,从2.5h缩短到1.5h。资源开销也是收益的。

37140

数据中台建设(七):数据资产管理

以上如果没有统一标准的话,不仅增加沟通成本,而且项目实施、交付、信息共享、数据集成、协同工作往往会出现各种问题,而数据标准管理就是将这一套数据标准,通过各种管理活动,推动数据进行标准化的一个过程,是数据标准落地必不可少的过程...技术元数据:与存储、访问等技术底层相关描述性数据。例如:人员信息数据存储在的位置、访问的URL地址,数据存储库,对应的表名,字段哪些等。 操作元数据:与数据操作相关的描述性数据。...主数据管理主要是对企业经营活动中所涉及的各类主数据制定统一数据标准和规范,如数据编码标准、主数据接口标准等,方便开发人员使用,统一企业各类数据。...数据生命周期一般包含在线阶段、归档阶段(有时还会进一步划分为在线归档阶段和离线归档阶段,即离线数仓和实时数仓构建,将数据存入数仓)、销毁阶段三大阶段,数据生命周期管理内容包括建立合理的数据类别,针对不同类别的数据制定各个阶段的保留时间...、存储介质、清理规则和方式、注意事项等。

1K61

NAS 从入门到放弃

临近双十一,又叒叕看到了 NAS 选购的话题。冲动地选型 NAS 半小时以后,开始冷静了下来。我真的需要 NAS ?...朋友和家人便能在单一个存储中心找到所有的数字文件,使用不同的平台和设备存取,也包括最方便的移动设备。 免费的离线下载 搭建私有离线下载服务,添加任务至下载列表,自动全天下载。...在预算不紧张的前提下,RAID 1 是最适合盘位 NAS 的存储方案,不仅安全性一定保证,升级大容量硬盘也很方便,每次替换一块硬盘后重建 RAID 就可以了。...NAS 厂家总爱强调,磁盘的数据好重要啊(一硬盘的高清电影,随时可以重新下载,真的必要冗余备份?),越多BAY越强的RAID越好啊,但从来没跟你说“那么我赚到的就越多”。...如今改变了对数据的想法,自然也就不再囤积数据,而是随用随取,根据不同的特性去加密、存储归档、同步数据。 拥抱互联网云时代,扔掉无用的硬盘吧!

12.5K10

【深度】2023年磁带市场迎来“二级存储”的新时代

AI、ML、大数据分析、边缘/物联网计算、虚拟现实、增强现实、游戏和机器人技术填充了这些归档。存档副本通常是数据的唯一副本。保留期超过100年在这方面是相当普遍的。活动存档已成为实际上的标准层。...在过去的12个月中,活跃社交媒体用户数量增加了1.9亿,年均增长4.2%,平均每秒6个新用户加入。社交媒体用户每天花费近2.5小时创建、传输和存储数据。...磁带减少碳排放和电子废弃物《使用现代磁带存储改善信息技术可持续性》是由Brad John's Consulting发布的研究论文,它将全HDD解决方案与全磁带解决方案以及将60%的HDD驻留(低活动)数据移至磁带的主动归档进行了比较...在旋转的HDD上存储活动归档数据是一种策略,只是不是一种经济效益或环保友好的策略。磁带空气隔离技术提供了防范网络犯罪的能力磁带是唯一真正的数据中心存储技术,实现了真正的空气隔离。...企业可以通过实施3-2-1-1备份策略,利用加密、磁带的空气隔离和离线备份,构建更强大的网络防御。

54510

首次揭秘1112背后的云数据库技术!| Q推荐

让热点秒杀真正意义上实现“拼手速” 秒杀作为电商中的常见业务场景,在淘宝上如今也是一个常态化的业务,比如每天晚上 8 点手机淘宝上抢茅台的活动。但是这种活动在早年间,其实并不容易稳定进行。...体现在业务层面,消费者如今参加秒杀活动,无论是否是节的大促高峰期,瞬时就可以得到抢购结果的反馈,不需要等待。在数据库层面实现抢购公平,意味着秒杀活动已经是真正意义上的“拼手速”的事情。...在 2021 年 11 12 中,一种无所不在的技术力保证了整体系统的稳定,如 PolarDB 具备的极致弹性、海量存储和高并发 HTAP 访问的产品特性。...ADB 存储格式采用行列混存的 PAX 格式,能够提供高效的基于行号的随机查找能力,又可以按照 Chunk 粒度切分读取的并行度,多 Chunk 并行扫描,提高离线读吞吐性能,兼顾在线低延迟查询和离线高吞吐场景... 11 12 丰富的运营活动和千亿交易额背后,数据库层面是包括 RDS、PolarDB、Tair、ADB(ADB3.0) 以及 Lindorm 等数据库产品提供的组合技。

31.7K50

百亿级数据分表后怎么分页查询?

举个例子,现在我们日单量是10万单,预估一年后可以达到日100万单,根据业务属性,一般我们就支持查询半年内的订单,超过半年的订单需要做归档处理。...写,写就是下单的数据落两份,C端和B端的各自保存一份,C端用你可以用单号、用户ID做shardingkey都行,B端就用商家卖家的ID作为shardingkey就好了。...有些同学会说了,你写不影响性能?因为对于B端来说轻微的延迟是可以接受的,所以可以采取异步的方式去落B端订单。你想想你去淘宝买个东西下单了,卖家稍微延迟个一两秒收到这个订单的消息什么关系?...你点个外卖商户晚一两秒收到这个订单什么太大影响? ?...这是一个解决方案,另外一个方案就是走离线数仓或者ES查询,订单数据落库之后,不管你通过binlog还是MQ消息的都形式,把数据同步到数仓或者ES,他们支持的数量级对于这种查询条件来说就很简单了。

1.4K30

数据库如何应对保障大促活动

当前,随着电商节日的增多(6.18、双十一、双十二)、平台拉新趋于频繁,大促活动也越来越普遍。作为一个电商平台,每年都会有一次,甚至几次的流量“大考”。...包括业务模式、业务流程以及大促可能产生的订单量、预估峰值、预估的波峰时间、是否爆款商品等。此外,还应对参与本次大促活动的参与方有所了解,特别是IT部的主要参与人员,保证跨部门协同精准、顺畅。...2.梳理大促活动用到的系统链路,对链路上的系统和应用个较为清晰的了解,制作大促活动全链路的数据库流程图。 3.梳理链路上的数据库资源。...常规的优化手段主要有:新建索引、调整索引、数据归档、有无大字段、表结构更新、数据归档、SQL语句优化等。 11.链路数据延时监控。...例如,将数据归档的Job暂停、BI抽取数据的Task延后等。 15.应急预案的准备。应急预案应该尽可能详细,做到心里谱,手中有尺。

6.7K00

从数仓到数据中台,谈技术选型最优解

数据中台是2015年阿里提出来的中台的概念其中的一个重要组成,阿里作为先驱者,提供了数据中台架构、以及非常多的建设思路供大家参考。...数据抽取层:sqoop和flume是两大主流工具,其中sqoop作为结构化数据(关系型数据库)离线抽取,flume作为非结构化日志接入; 数据存储层:Hadoop文件系统Hdfs大家都比较了解,而kafka...最近几年随着Flink等技术的发展,一个趋势是流批一体化,在接入层统一采用流式接入,计算层采用统一套框架支持实时计算+离线计算,批处理仅仅作为流处理的一个特殊场景进行支持。...① 数据主题视角 最重要的一个视角,也就是咱们经常提到的数仓主题,主题是将企业的业务进行宏观数据抽象,是数据仓库里数据的主要组织形式,划分方法如下: 参照波特价值链,分析企业本身经营的业务(基本活动、支持型活动...Q6: 对于搭建数据中台的生态工具,什么建议? A:文中有一些常规的选型(主要调研了当前一些主流工具),基本上都是经过了验证过,更多还是找适合自己场景的工具。

83810

存储成本降低80%,赞数据中台成本治理怎么做的?

2019 年的时候,赞容器化的程度不高,在很多场景基本上是要以月为维度来进行机器的采购和搭建。特别是大促活动的时候,额外扩出来的资源要放很长时间才能逐渐回收,这就导致长期成本比较高。...这部分的数据实际上只是为了存储的目的,但也是用物理机来存的,付出的成本是整机成本,但是只使用整机的存储资源,计算资源利用率很低,所以代价也比较高。 (4)离线计算浪费 第四点是离线计算。...Q:冷数据 COS 存储是使用归档? A:腾讯云的 COS 产品标准存储归档存储,冷数据 COS 存储是使⽤了 COS 的标准存储,存的是访问量⾮常低的原始数据。...Q:我想问⼀下,多少业务做的实时数据,多少是 T+1 的批处理?实时数据还会用批处理更新?...Q:数据中台,离线数据占比高,能举例⼀个场景? A:离线数据从大小上看,⼤约是在线的3倍,成本占到整个数据中台集群成本的40% 以上。

7.5K12857
领券